Beratung bei der Nutzung von Analyse- und BI-Tools und Diensten im Microsoft Azure-Stack (z.B MS Fabric, Synapse Workspaces und dedizierte SQL-Pools, SQL Database, PostgreSQL, Snowflake, Databricks, Data Factory, SSIS, Analysis Services, Function Apps, Power BI, ML ...)
Selbstständiger Entwurf von Analyselösungen mit Python, SQL, etc
Entwurf und Implementierung von ETLs und Datenpipelines
Erstellung und Pflege von APIs
Selbstständige Anwendung von CI/CD, Testing und Versionskontrolle
Modellierung von Daten
Modell Entwicklung und Modell Optimierung
Anomalieerkennung mit KI
Predictive Analytics
Verwendete Technologien: Snowflake, Fabric, Azure Synapse Analytics, Azure DataFactory, Azure Data Lake, Azure DevOps, Databricks, Spark, CI/CD, SQL Database, Python
Jan. 2021 - Dez. 2022
1 Jahr
Deutschland
Senior Data Engineer and Data Governance Manager
Statistisches Bundesamt
Konzeption des Projekts
Entwurf einer Big-Data-Architektur für die Verarbeitung sehr großer Datenmengen
Entwurf und Implementierung von ETLs und Datenpipelines
Data Governance im CDP
Datenklassifizierung und Katalogisierung (z. B. PII-Erkennung)
Metadaten-Management und Dateninventarisierung
Zugriffskontrollen und Berechtigungsverwaltung (Access Management)
Unterstützung des Referats bei der Konzeption und Durchführung neuer Projekte
Onboarding und Schulung von Refarat-Mitarbeitern für die Cloudera Data Platform
Entwicklung einer automatisierten Berichterstattung
Aufbau einer Architektur mit Databricks, PySpark und Delta Lake für SAP-Daten.
Integration von Datenqualitätsregeln in Delta Lake über Blob Storage mit PySpark.
Entwicklung von PySpark-Skripten in Databricks Notebooks zur Validierung von SAP-Daten.
Implementierung von Datenqualitätsregeln mit PySpark und Delta Lake.
Fehleranalyse in Datenflüssen mit Databricks-Tools und Spark-Logs.
Erstellung von Databricks-Workflows für automatisierte Datenqualitätsprüfungen.
Überwachung von Datenqualitäts-Pipelines mit Benachrichtigungen in Databricks.
Erstellung von Datenqualitätsberichten mit Databricks SQL und Power BI.
Sicherstellung der SAP-Datenqualität mit Delta Lake und Governance-Berichten.
Snowflake, Azure, Databricks, PySpark, Delta Lake, Blob Storage, Power BI, CI/CD, DevOps
Jan. 2018 - Dez. 2019
1 Jahr
Data Scientist
GMT Ltd.
Konzeption und Implementierung fortschrittlicher Deep-Learning-Modelle zur automatisierten Erkennung und Klassifikation von Brustkrebs in radiologischen Bilddaten.
Durchführung von Merkmalsextraktion (Feature Extraction) zur Identifikation relevanter Bildmerkmale unter Einsatz convolutional neural networks (CNNs).
Optimierung der Modellleistung durch Feinjustierung der Verlustfunktion und Hyperparameter-Tuning mit Optuna.