Ich war verantwortlich für die Architektur und das neue Datenverarbeitungssystem des Finanz-Konzerns der DB in der Cloud.
Mit DBT, Dagster, Kubernetes, Glue und Proof of Concept (POC) mit Databricks.
Umgebung: Kubernetes, AWS.
Werkzeuge: DBT, Dagster, Redshift, AWS, Glue, S3, VS Code, Databricks.
Entwurf und Bereitstellung von Best Practices für Datenmodellierung in dbt.
Changing-Dimensionen, Late-Arriving-Daten oder Tests.
Entwurf des Ingestionsflusses von anderen Systemen nach S3 und Redshift.
Entwurf und Implementierung neuer Partitionen für Dagster und inkrementales Laden zusammen mit DBT.
Abbildung von fachlichen Anforderungen auf technische Architekturen.
Anleitung von Junioren.
Sept. 2024 - März 2025
7 Monaten
Datenarchitekt-Experte
SAP AG
Als Datenarchitekt habe ich eine Cloud-agnostische Architektur entworfen und implementiert, um Kafka Tiered Storage in mehreren Umgebungen zu unterstützen. Dabei habe ich Rollout-Workflows, Automatisierungspipelines und Infrastrukturabstraktion definiert, um skalierbare, kosteneffiziente und wartbare Daten-Streaming-Funktionen sicherzustellen. Beim Skalieren hatte ein Cluster über 25.000 Kafka-Partitionen.
Umgebung: Kubernetes, Azure, AWS und Google Cloud.
Ich leitete das architektonische Design und die Implementierung des Rollouts von Kafka Tiered Storage über mehr als 30 Kubernetes-Cluster in Multi-Cloud-Umgebungen (Azure, AWS, GCP).
Definierte und implementierte Provisioning der Infrastruktur mit Crossplane, was deklarative und konsistente Deployments über verschiedene Cloudanbieter ermöglichte.
Entwickelte einen maßgeschneiderten Kafka-Operator in Go, der die Plattformkomplexität abstrahierte und den Prozess zur Aktivierung von Tiered Storage für Datenpipelines standardisierte.
Entwarf und automatisierte GitOps-basierte Deployment-Strategien mit Flux und Helm, um sichere und reproduzierbare Rollout-Verfahren zu gewährleisten.
Optimierte Gardener-Shoot-Konfigurationen, um Clusterressourcen an Kafka-Arbeitslasten und Kosteneffizienz anzupassen.
Mai 2024 - Nov. 2024
7 Monaten
Datenarchitekt-Experte
s.Oliver GmbH
Als leitender Datenarchitekt war ich für die durchgehende Migration von SAP HANA zu einem modernen, skalierbaren, Azure-basierten Databricks Lakehouse verantwortlich. Diese Initiative umfasste die Neugestaltung der Datenarchitektur, die Implementierung robuster ETL-Pipelines und die Einführung fortschrittlicher Analyse- und KI-Funktionalitäten – was durch Außerbetriebnahme der alten SAP-Infrastruktur jährliche Kosteneinsparungen von über 50.000 € ermöglichte.
Umgebung: Databricks / Azure.
Werkzeuge & Technologien: Databricks, Azure Data Lake, SAP HANA, PySpark, DBT, Kafka, Azure DevOps, Delta Lake, Python, FP-Growth, Zeitreihenprognose.
Entwarf eine Medallion-Architektur in Databricks zur Unterstützung skalierbarer und modularer Datenaufnahme, -transformation und -nutzung.
Führte die Implementierung inkrementeller ETL-Pipelines mit PySpark durch, um SAP-Daten effizient zu extrahieren und zu verarbeiten.
Entwickelte und implementierte DBT-basierte semantische Schichten, einschließlich dimensionalem Modellieren von Fakten- und Dimensionstabellen.
Etablierte CI/CD-Pipelines von Entwicklung bis Produktion, um Deployments zu standardisieren und Governance durchzusetzen.
Definierte rollenbasierte Zugriffskontrolle und Sicherheitskonzepte gemäß den unternehmensweiten Azure-Standards.
Ermöglichte Echtzeit-Datenintegration durch Anbindung von Kafka-Streams an Databricks und erweiterte so die Analysefähigkeit.
Führte KI/ML-Anwendungsfälle ein, darunter FP-Growth für Warenkorbanalyse und Modelle zur Zeitreihenprognose.
Betreute Junior-Entwickler in Databricks-Best-Practices und sicherte so langfristige Plattformakzeptanz und Teamausbau.
Jan. 2023 - Aug. 2023
8 Monaten
Datenarchitekt-Experte
ias Gruppe
Als Datenarchitekt war ich verantwortlich für das Design und die Implementierung einer modernen, skalierbaren Azure-basierten Data-Lake-Architektur zur Unterstützung der Echtzeit-Datenaufnahme und -verarbeitung von IoT- und Telemetriequellen. Die Plattform wurde aufgebaut, um strukturierte, analysebereite Daten für verschiedene Abteilungen zu liefern und sowohl operative Dashboards als auch fortgeschrittene Analysen zu ermöglichen.
Umgebung: Azure.
Werkzeuge & Technologien: Azure Synapse, Delta Lake, Azure Data Lake Gen2, Azure IoT Hub, Azure Event Hub, Azure Service Bus, Azure Data Factory, DBT, Airbyte, Power BI, Azure Monitor, Log Analytics, Python, SQL.
Entwarf eine End-to-End Azure Data Lakehouse-Lösung unter Nutzung von Azure Synapse, Delta Lake und Azure Data Lake Storage Gen2 und stellte dabei skalierbare und leistungsfähige Speicher- und Abfragefunktionen sicher.
Entwarf und implementierte Streaming-Ingestionspipelines mit Azure IoT Hub, Azure Event Hub und Azure Service Bus und ermöglichte so die Echtzeit-Erfassung von Telemetriedaten aus tausenden IoT-Geräten.
Entwickelte Datenintegrations- und Transformationsabläufe mit Airbyte für ELT und DBT für Geschäftslogikmodellierung, dimensionales Design und Nachverfolgung der Datenherkunft.
Orchestrierte komplexe Daten-Workflows mit Azure Data Factory und integrierte Batch- und Streaming-Prozesse in eine einheitliche Datenpipeline.
Implementierte zeitbasierte Versionierung (Time Travel) und ACID-Transaktionen auf Delta Lake, um Zuverlässigkeit und Nachverfolgbarkeit geschäftskritischer Daten zu gewährleisten.
Entwarf rollenbasierte Zugriffskontrolle (RBAC), Strategien für Resource Tagging und Monitoring mit Azure Monitor und Log Analytics und stellte so Betriebstransparenz und Datensicherheit sicher.
Ermöglichte die Power BI-Integration für Stakeholder, um Daten in nahezu Echtzeit zu analysieren und Business-Dashboards zu entwickeln.
Arbeitete mit Produkt- und Betriebsteams zusammen, um funktionale Anforderungen zu erfassen und in skalierbare Datenarchitektur-Muster zu übersetzen.
Sept. 2022 - Mai 2024
1 Jahr 9 Monaten
Frankfurt, Deutschland
Datenarchitekt-Experte
Deutsche Bahn
Als Datenarchitekt leitete ich die Entwicklung einer groß angelegten, cloudnativen Datenplattform auf AWS zur Verarbeitung von Streaming- und Batch-Daten im Verkehrsbereich. Die Architektur ermöglichte Echtzeit-Analysen und Delta-Ingestion in einen mehrere hundert Terabyte großen Data Lake und optimierte Abläufe bei Zugverspätungen, Abfahrten und prädiktiven Einblicken.
Entwarf und implementierte Echtzeit-Streaming-Architekturen mit AWS Kinesis, Lambda und Apache Spark, um zeitkritische Analyseanwendungen zu unterstützen.
Entwickelte Delta-Ingestion-Pipelines mit AWS Glue und Apache Hudi, die effiziente Komprimierung kleiner Dateien und Time-Travel-Analysen im großen Maßstab ermöglichten.
Lieferte geschäftskritische KPIs und Dashboards mit End-to-End-Datenherkunft und Auditierbarkeit über S3, PostgreSQL und CloudWatch.
Definierte und setzte Infrastructure-as-Code (IaC)-Prinzipien mit AWS CDK um, was skalierbare und reproduzierbare Umgebungen ermöglichte.
Führte DBT für semantisches Modellieren und wiederverwendbare Geschäftslogik ein und integrierte es in CI/CD-Workflows mit GitLab.
Betreute ein Entwicklerteam, optimierte Entwicklungszyklen und stellte Best Practices im Cloud Data Engineering sicher.
Implementierte IoT-4.0-Pipelines zur Erfassung von Telemetriedaten und Unterstützung von Predictive-Analytics-Initiativen.
Sept. 2021 - Sept. 2022
1 Jahr 1 Monate
Rottendorf, Deutschland
Kafka-Experte
S.Oliver GmbH
In diesem Projekt haben wir die komplette Bestell- und Materialkette neu gestaltet, um statt in Batches in Echtzeit mit Kafka zu arbeiten.
Umgebung: Confluent Cloud und Azure.
Spring Boot Kafka Streams-Anwendungen.
Entwicklung von kundenspezifischen Kafka-Quell-Connectoren, um Daten aus SAP-Systemen zu extrahieren.
Entwicklung von kundenspezifischen Kafka-Sink-Connectoren zum Schreiben in SAP-Systeme.
Bereitstellung von Kafka Connect-Connectoren mit Monitoring in einem Azure Kubernetes-Cluster.
Entwicklung von Datenpipelines mit Airflow und Azure Cloud.
Entwicklung der Architektur für Datenpipelines zwischen der lokalen Umgebung und der Azure Cloud.
Schreiben von Spark-Jobs zum Bereinigen und Aggregieren von Daten.
März 2021 - Juni 2021
4 Monaten
Würzburg, Deutschland
Data-Warehouse-Experte
Büro Forum GmbH
Entwicklung eines Data-Warehouse für das ERP-System von Concept Office.
Umgebung: Google BigQuery und DBT.
Entwicklung von dbt-Workflows und Sternschemata für das Data-Warehouse.
Entwicklung von ELT-Workflows mit Stitch-Daten.
Entwicklung von Dashboards mit Power BI in der Azure Cloud.
Feb. 2021 - Aug. 2022
1 Jahr 7 Monaten
Softwareentwickler
RTL Deutschland
In diesem Projekt habe ich eine hochkomplexe und compliance-orientierte Datenfreigabeplattform auf Microsoft Azure entworfen und bereitgestellt. Die Lösung ermöglichte sicheren, geregelten und skalierbaren Zugriff auf vertrauliche Geschäftsdaten über Abteilungen und Partner hinweg und unterstützte sowohl analytische als auch operative Anwendungsfälle.
Entwurf und Implementierung einer Lakehouse-Architektur, die Azure Databricks, Delta Lake und Azure Synapse kombiniert, um sowohl Batch- als auch Echtzeit-Workloads mit ACID-Konformität und skalierbarer Performance zu unterstützen.
Erstellung von RESTful-Daten-APIs mit FastAPI und sichere Bereitstellung über Azure App Services, um eine kontrollierte Zugangsschicht zur Datenplattform bereitzustellen.
Entwicklung inkrementeller ETL-Pipelines mit PySpark und DBT, Implementierung von Sternschema-Modellen für semantische Konsistenz, historische Nachverfolgung und gesteuerte Self-Service-Analysen.
Aktivierung interaktiver Berichte und visueller Analysen mit Power BI, direkt in das Azure-Ökosystem integriert für Performance- und Sicherheitskonformität.
Implementierung strenger Datenzugriffskontrollen, Audit-Logging und Ressourcenüberwachung, um die Einhaltung von DSGVO und internen Data-Governance-Richtlinien sicherzustellen.
Einrichtung automatisierter Deployment-Prozesse und CI/CD-Pipelines für Dateninfrastrukturkomponenten mit Azure-nativen Tools.
Sept. 2020 - Juni 2021
10 Monaten
München, Deutschland
Cloud-Lösungsarchitekt
Allianz Technology
Migration von Data Lakes in die Azure Cloud. Hoher Automatisierungsgrad mittels ArgoCD, Jenkins, Helmcharts und Terraform. Gestaltung von Kundenanwendungen als Cloud-native Lösungen. Spark und AzCopy wurden für Teile der Migration verwendet.
Entwicklung von Datenpipelines mit Airflow und Apache Spark.
Entwicklung eines End-to-End-Monitorings basierend auf Prometheus.
Entwicklung von Echtzeit-Datenpipelines basierend auf Docker, Kafka und Python.
Bereitstellung von Apache Marathon mit Mesos und GPUs.
Architektur für die Migration von Mesos zu Kubernetes.
Jenkins-Pipelines zum Erstellen von Docker-Images.
Mesos auf GPU-Clustern.
Verschiedene Infrastrukturaufgaben mit Ansible für Hochverfügbarkeit.
Sept. 2017 - Juni 2018
10 Monaten
Nürnberg, Deutschland
Big Data Entwickler, Spark-/Kafka-Entwickler, Datenarchitekt
GFK
In diesem Projekt importieren wir riesige Datenmengen über Kafka in Accumulo. Die gesamte Hadoop-Umgebung ist kerberisiert.
Umgebung: Cloudera Hadoop.
Schreiben von Kafka-Connectors zum Datenimport.
Kerberisierung von Anwendungen für Hadoop, Kafka und Kafka Connect.
Erstellung von Statistikplänen für RDF4J-Abfragen auf Accumulo.
Erstellung von Apache NiFi-Workflows.
Einführung von Git-Flow-Automatisierung, Continuous Integration und Docker-Automatisierung.
Einrichtung von Kafka Connect mit Kerberos auf Google Kubernetes.
Entwicklung von Java-Anwendungen basierend auf RDF (Websemantik).
Apr. 2017 - Sept. 2017
6 Monaten
Frankfurt, Deutschland
Big Data Architekt
Deutsche Bahn
In diesem Projekt hatte ich die Rolle des Hadoop-Architekten; zu meinen Aufgaben gehörten das Dimensionieren des Hadoop-Clusters, das Anbinden interner Fachbereiche an die gemeinsame Plattform und die Unterstützung der verschiedenen Datenpipeline-Abläufe. Alle Tools wurden in einem kerberisierten Hadoop-Cluster eingesetzt.
Datenmigration mit Sqoop und Oozie.
Konfiguration des Hadoop-Clusters mit Kerberos und Active Directory.
Implementierung von Datenpipelines mit Kylo, Apache NiFi und Talend.
Bereitstellung von Hortonworks Cloud Break in Amazon AWS.
Implementierungen von Apache Storm Streaming.
Unterstützung interner Fachbereiche bei Streaming- und Datenbereinigungsprozessen.
Dimensionierung von Hadoop für On-Premise und in der Amazon Cloud.
Okt. 2016 - März 2017
6 Monaten
Dresden, Deutschland
Big Data Entwickler und Architekt
Kiwigrid
In diesem Projekt ist das Hauptziel, Spark tiefer in HBase zu integrieren und ein neues Alerting- und Rechenframework auf Basis von Spark Streaming zu entwerfen. Jede Bereitstellung basiert auf Docker.
Verwendete Technologien: Apache HBase mit Phoenix JDBC, Apache Ambari/Hortonworks, Apache Spark, Scala und Java, Vert.x-Server, Docker, TimescaleDB.
Erstellung von Reports in Spark-Jobs über historische Daten.
Eigene Spark-Datenquellen für HBase und Aggregationen zur Datenexploration.
Schweinfurt, Deutschland
SAP-Administrator und Oracle-Administrator
ZF Friedrichshafen AG und S.Oliver
Verantwortlich für die Serviceverfügbarkeit der SAP-Systeme im Unternehmen. Wir betreuen mehr als 200 Systeme.
Zu meinen Aufgaben gehörten unter anderem:
SAP- und Oracle-Upgrades.
SAP-Betriebssystem- und Hardware-Migration.
TREX Enterprise Search, ASCS-Splits, SAP Security, SSO, SNC, SSFS.
Sprachen
Deutsch
Muttersprache
Englisch
Verhandlungssicher
Zertifikate & Bescheinigungen
Databricks-Grundlagenzertifikat
Databricks Lakehouse-Plattform-Akkreditierung
Confluent-zertifizierter Entwickler für Apache Kafka