Jorge M. - Datenarchitekt

Zur Website

Würzburg, Deutschland

Erfahrungen

März 2025 - Bis heute

9 Monaten

Datenarchitekt

Deutsche Bahn

Ich war verantwortlich für die Architektur und das neue Datenverarbeitungssystem des Finanz-Konzerns der DB in der Cloud.
Mit DBT, Dagster, Kubernetes, Glue und Proof of Concept (POC) mit Databricks.
Umgebung: Kubernetes, AWS.
Werkzeuge: DBT, Dagster, Redshift, AWS, Glue, S3, VS Code, Databricks.
Entwurf und Bereitstellung von Best Practices für Datenmodellierung in dbt.
Changing-Dimensionen, Late-Arriving-Daten oder Tests.
Entwurf des Ingestionsflusses von anderen Systemen nach S3 und Redshift.
Entwurf und Implementierung neuer Partitionen für Dagster und inkrementales Laden zusammen mit DBT.
Abbildung von fachlichen Anforderungen auf technische Architekturen.
Anleitung von Junioren.

Sept. 2024 - März 2025

7 Monaten

Datenarchitekt-Experte

SAP AG

Als Datenarchitekt habe ich eine Cloud-agnostische Architektur entworfen und implementiert, um Kafka Tiered Storage in mehreren Umgebungen zu unterstützen. Dabei habe ich Rollout-Workflows, Automatisierungspipelines und Infrastrukturabstraktion definiert, um skalierbare, kosteneffiziente und wartbare Daten-Streaming-Funktionen sicherzustellen. Beim Skalieren hatte ein Cluster über 25.000 Kafka-Partitionen.
Umgebung: Kubernetes, Azure, AWS und Google Cloud.
Werkzeuge: Kubernetes, Gardener, GitHub, Python, Go, Kafka, Jenkins, Helm.
Ich leitete das architektonische Design und die Implementierung des Rollouts von Kafka Tiered Storage über mehr als 30 Kubernetes-Cluster in Multi-Cloud-Umgebungen (Azure, AWS, GCP).
Definierte und implementierte Provisioning der Infrastruktur mit Crossplane, was deklarative und konsistente Deployments über verschiedene Cloudanbieter ermöglichte.
Entwickelte einen maßgeschneiderten Kafka-Operator in Go, der die Plattformkomplexität abstrahierte und den Prozess zur Aktivierung von Tiered Storage für Datenpipelines standardisierte.
Entwarf und automatisierte GitOps-basierte Deployment-Strategien mit Flux und Helm, um sichere und reproduzierbare Rollout-Verfahren zu gewährleisten.
Optimierte Gardener-Shoot-Konfigurationen, um Clusterressourcen an Kafka-Arbeitslasten und Kosteneffizienz anzupassen.

Mai 2024 - Nov. 2024

7 Monaten

Datenarchitekt-Experte

s.Oliver GmbH

Als leitender Datenarchitekt war ich für die durchgehende Migration von SAP HANA zu einem modernen, skalierbaren, Azure-basierten Databricks Lakehouse verantwortlich. Diese Initiative umfasste die Neugestaltung der Datenarchitektur, die Implementierung robuster ETL-Pipelines und die Einführung fortschrittlicher Analyse- und KI-Funktionalitäten – was durch Außerbetriebnahme der alten SAP-Infrastruktur jährliche Kosteneinsparungen von über 50.000 € ermöglichte.
Umgebung: Databricks / Azure.
Werkzeuge & Technologien: Databricks, Azure Data Lake, SAP HANA, PySpark, DBT, Kafka, Azure DevOps, Delta Lake, Python, FP-Growth, Zeitreihenprognose.
Entwarf eine Medallion-Architektur in Databricks zur Unterstützung skalierbarer und modularer Datenaufnahme, -transformation und -nutzung.
Führte die Implementierung inkrementeller ETL-Pipelines mit PySpark durch, um SAP-Daten effizient zu extrahieren und zu verarbeiten.
Entwickelte und implementierte DBT-basierte semantische Schichten, einschließlich dimensionalem Modellieren von Fakten- und Dimensionstabellen.
Etablierte CI/CD-Pipelines von Entwicklung bis Produktion, um Deployments zu standardisieren und Governance durchzusetzen.
Definierte rollenbasierte Zugriffskontrolle und Sicherheitskonzepte gemäß den unternehmensweiten Azure-Standards.
Ermöglichte Echtzeit-Datenintegration durch Anbindung von Kafka-Streams an Databricks und erweiterte so die Analysefähigkeit.
Führte KI/ML-Anwendungsfälle ein, darunter FP-Growth für Warenkorbanalyse und Modelle zur Zeitreihenprognose.
Betreute Junior-Entwickler in Databricks-Best-Practices und sicherte so langfristige Plattformakzeptanz und Teamausbau.

Jan. 2023 - Aug. 2023

8 Monaten

Datenarchitekt-Experte

ias Gruppe

Als Datenarchitekt war ich verantwortlich für das Design und die Implementierung einer modernen, skalierbaren Azure-basierten Data-Lake-Architektur zur Unterstützung der Echtzeit-Datenaufnahme und -verarbeitung von IoT- und Telemetriequellen. Die Plattform wurde aufgebaut, um strukturierte, analysebereite Daten für verschiedene Abteilungen zu liefern und sowohl operative Dashboards als auch fortgeschrittene Analysen zu ermöglichen.
Umgebung: Azure.
Werkzeuge & Technologien: Azure Synapse, Delta Lake, Azure Data Lake Gen2, Azure IoT Hub, Azure Event Hub, Azure Service Bus, Azure Data Factory, DBT, Airbyte, Power BI, Azure Monitor, Log Analytics, Python, SQL.
Entwarf eine End-to-End Azure Data Lakehouse-Lösung unter Nutzung von Azure Synapse, Delta Lake und Azure Data Lake Storage Gen2 und stellte dabei skalierbare und leistungsfähige Speicher- und Abfragefunktionen sicher.
Entwarf und implementierte Streaming-Ingestionspipelines mit Azure IoT Hub, Azure Event Hub und Azure Service Bus und ermöglichte so die Echtzeit-Erfassung von Telemetriedaten aus tausenden IoT-Geräten.
Entwickelte Datenintegrations- und Transformationsabläufe mit Airbyte für ELT und DBT für Geschäftslogikmodellierung, dimensionales Design und Nachverfolgung der Datenherkunft.
Orchestrierte komplexe Daten-Workflows mit Azure Data Factory und integrierte Batch- und Streaming-Prozesse in eine einheitliche Datenpipeline.
Implementierte zeitbasierte Versionierung (Time Travel) und ACID-Transaktionen auf Delta Lake, um Zuverlässigkeit und Nachverfolgbarkeit geschäftskritischer Daten zu gewährleisten.
Entwarf rollenbasierte Zugriffskontrolle (RBAC), Strategien für Resource Tagging und Monitoring mit Azure Monitor und Log Analytics und stellte so Betriebstransparenz und Datensicherheit sicher.
Ermöglichte die Power BI-Integration für Stakeholder, um Daten in nahezu Echtzeit zu analysieren und Business-Dashboards zu entwickeln.
Arbeitete mit Produkt- und Betriebsteams zusammen, um funktionale Anforderungen zu erfassen und in skalierbare Datenarchitektur-Muster zu übersetzen.

Sept. 2022 - Mai 2024

1 Jahr 9 Monaten

Frankfurt, Deutschland

Datenarchitekt-Experte

Deutsche Bahn

Als Datenarchitekt leitete ich die Entwicklung einer groß angelegten, cloudnativen Datenplattform auf AWS zur Verarbeitung von Streaming- und Batch-Daten im Verkehrsbereich. Die Architektur ermöglichte Echtzeit-Analysen und Delta-Ingestion in einen mehrere hundert Terabyte großen Data Lake und optimierte Abläufe bei Zugverspätungen, Abfahrten und prädiktiven Einblicken.
Umgebung: AWS.
Werkzeuge & Technologien: AWS Kinesis, TimescaleDB, AWS Glue, Apache Hudi, Lambda, S3, DBT, PostgreSQL, CDK, GitLab, Spark, Athena, CloudWatch.
Entwarf und implementierte Echtzeit-Streaming-Architekturen mit AWS Kinesis, Lambda und Apache Spark, um zeitkritische Analyseanwendungen zu unterstützen.
Entwickelte Delta-Ingestion-Pipelines mit AWS Glue und Apache Hudi, die effiziente Komprimierung kleiner Dateien und Time-Travel-Analysen im großen Maßstab ermöglichten.
Lieferte geschäftskritische KPIs und Dashboards mit End-to-End-Datenherkunft und Auditierbarkeit über S3, PostgreSQL und CloudWatch.
Definierte und setzte Infrastructure-as-Code (IaC)-Prinzipien mit AWS CDK um, was skalierbare und reproduzierbare Umgebungen ermöglichte.
Führte DBT für semantisches Modellieren und wiederverwendbare Geschäftslogik ein und integrierte es in CI/CD-Workflows mit GitLab.
Betreute ein Entwicklerteam, optimierte Entwicklungszyklen und stellte Best Practices im Cloud Data Engineering sicher.
Implementierte IoT-4.0-Pipelines zur Erfassung von Telemetriedaten und Unterstützung von Predictive-Analytics-Initiativen.

Sept. 2021 - Sept. 2022

1 Jahr 1 Monate

Rottendorf, Deutschland

Kafka-Experte

S.Oliver GmbH

In diesem Projekt haben wir die komplette Bestell- und Materialkette neu gestaltet, um statt in Batches in Echtzeit mit Kafka zu arbeiten.
Umgebung: Confluent Cloud und Azure.
Spring Boot Kafka Streams-Anwendungen.
Entwicklung von kundenspezifischen Kafka-Quell-Connectoren, um Daten aus SAP-Systemen zu extrahieren.
Entwicklung von kundenspezifischen Kafka-Sink-Connectoren zum Schreiben in SAP-Systeme.
Bereitstellung von Kafka Connect-Connectoren mit Monitoring in einem Azure Kubernetes-Cluster.
Entwicklung von Datenpipelines mit Airflow und Azure Cloud.
Entwicklung der Architektur für Datenpipelines zwischen der lokalen Umgebung und der Azure Cloud.
Schreiben von Spark-Jobs zum Bereinigen und Aggregieren von Daten.

März 2021 - Juni 2021

4 Monaten

Würzburg, Deutschland

Data-Warehouse-Experte

Büro Forum GmbH

Entwicklung eines Data-Warehouse für das ERP-System von Concept Office.
Umgebung: Google BigQuery und DBT.
Entwicklung von dbt-Workflows und Sternschemata für das Data-Warehouse.
Entwicklung von ELT-Workflows mit Stitch-Daten.
Entwicklung von Dashboards mit Power BI in der Azure Cloud.

Feb. 2021 - Aug. 2022

1 Jahr 7 Monaten

Softwareentwickler

RTL Deutschland

In diesem Projekt habe ich eine hochkomplexe und compliance-orientierte Datenfreigabeplattform auf Microsoft Azure entworfen und bereitgestellt. Die Lösung ermöglichte sicheren, geregelten und skalierbaren Zugriff auf vertrauliche Geschäftsdaten über Abteilungen und Partner hinweg und unterstützte sowohl analytische als auch operative Anwendungsfälle.
Umgebung: Microsoft Azure.
Tools & Technologien: Azure Databricks, Azure Synapse, Delta Lake, Azure App Services, DBT, FastAPI, PySpark, Power BI, Azure DevOps, Azure Monitor, Azure Key Vault, Python, SQL.
Entwurf und Implementierung einer Lakehouse-Architektur, die Azure Databricks, Delta Lake und Azure Synapse kombiniert, um sowohl Batch- als auch Echtzeit-Workloads mit ACID-Konformität und skalierbarer Performance zu unterstützen.
Erstellung von RESTful-Daten-APIs mit FastAPI und sichere Bereitstellung über Azure App Services, um eine kontrollierte Zugangsschicht zur Datenplattform bereitzustellen.
Entwicklung inkrementeller ETL-Pipelines mit PySpark und DBT, Implementierung von Sternschema-Modellen für semantische Konsistenz, historische Nachverfolgung und gesteuerte Self-Service-Analysen.
Aktivierung interaktiver Berichte und visueller Analysen mit Power BI, direkt in das Azure-Ökosystem integriert für Performance- und Sicherheitskonformität.
Implementierung strenger Datenzugriffskontrollen, Audit-Logging und Ressourcenüberwachung, um die Einhaltung von DSGVO und internen Data-Governance-Richtlinien sicherzustellen.
Einrichtung automatisierter Deployment-Prozesse und CI/CD-Pipelines für Dateninfrastrukturkomponenten mit Azure-nativen Tools.

Sept. 2020 - Juni 2021

10 Monaten

München, Deutschland

Cloud-Lösungsarchitekt

Allianz Technology

Migration von Data Lakes in die Azure Cloud. Hoher Automatisierungsgrad mittels ArgoCD, Jenkins, Helmcharts und Terraform. Gestaltung von Kundenanwendungen als Cloud-native Lösungen. Spark und AzCopy wurden für Teile der Migration verwendet.
Umgebung: Azure Cloud.
Verwendete Technologien: Azure Blob Storage, Azure Kubernetes Service (AKS), Azure OAuth.
Entwicklung von Spark-Jobs für die Migration von Data Lakes in die Cloud.
Entwicklung von Helmcharts für die Automatisierung von Azure AKS.
Refactoring des Designs der Anwendung hin zu Cloud-nativen Lösungen.
Onboarding interner Kunden in die Azure Cloud.
Implementierung von Spring Boot Kafka Streams-Anwendungen.
Implementierung von Argo-Workflow-Pipelines.

März 2020 - Mai 2020

3 Monaten

München, Deutschland

Big Data-Architekt, Datenarchitekt

BMW AG

Arbeit im AD-Vantage-Programm mit Daten von selbstfahrenden Autos.
Umgebung: MapR + OpenShift-Cluster On-Premise (500+ Knoten).
Verwendete Technologien: MapR-Cluster (Hadoop), OpenShift, Elasticsearch + Kibana, Apache Airflow, Kafka Streams.
Entwicklung von Datenpipelines mit Spark und Airflow für selbstfahrende Autos.
Generierung von Metriken für geospatiale Anwendungen.
Einspielen von Daten in Elasticsearch mit Apache Spark.
Funktionales Programmieren mit Scala.

Jan. 2020 - Mai 2020

5 Monaten

Stuttgart, Deutschland

Big Data Entwickler

DXC

Erstellung eines Azure-Dienstes für Inferenz im großen Maßstab.
Umgebung: Azure-Cloud.
Automatisierung der Bereitstellung von Azure Kubernetes-Clustern.
Erstellung und Bereitstellung von Deep-Learning-Spark-Jobs mit PyTorch und GPUs auf Kubernetes.
Durchführung von GPU-Inferenz für Terabyte an Daten.

Juni 2018 - März 2020

1 Jahr 10 Monaten

Stuttgart, Deutschland

Big Data Architekt

Daimler AG

Zusammenarbeit mit Forschung und Entwicklung an Fahrzeugdaten zur Durchführung von TensorFlow-GPU-Trainings.
Umgebung: Mehrere MapR-Cluster (über 30 Knoten), NVIDIA GPUs (Tesla), Apache Mesos.
Entwicklung von Datenpipelines mit Airflow und Apache Spark.
Entwicklung eines End-to-End-Monitorings basierend auf Prometheus.
Entwicklung von Echtzeit-Datenpipelines basierend auf Docker, Kafka und Python.
Bereitstellung von Apache Marathon mit Mesos und GPUs.
Architektur für die Migration von Mesos zu Kubernetes.
Jenkins-Pipelines zum Erstellen von Docker-Images.
Mesos auf GPU-Clustern.
Verschiedene Infrastrukturaufgaben mit Ansible für Hochverfügbarkeit.

Sept. 2017 - Juni 2018

10 Monaten

Nürnberg, Deutschland

Big Data Entwickler, Spark-/Kafka-Entwickler, Datenarchitekt

GFK

In diesem Projekt importieren wir riesige Datenmengen über Kafka in Accumulo. Die gesamte Hadoop-Umgebung ist kerberisiert.
Umgebung: Cloudera Hadoop.
Schreiben von Kafka-Connectors zum Datenimport.
Kerberisierung von Anwendungen für Hadoop, Kafka und Kafka Connect.
Erstellung von Statistikplänen für RDF4J-Abfragen auf Accumulo.
Erstellung von Apache NiFi-Workflows.
Einführung von Git-Flow-Automatisierung, Continuous Integration und Docker-Automatisierung.
Einrichtung von Kafka Connect mit Kerberos auf Google Kubernetes.
Entwicklung von Java-Anwendungen basierend auf RDF (Websemantik).

Apr. 2017 - Sept. 2017

6 Monaten

Frankfurt, Deutschland

Big Data Architekt

Deutsche Bahn

In diesem Projekt hatte ich die Rolle des Hadoop-Architekten; zu meinen Aufgaben gehörten das Dimensionieren des Hadoop-Clusters, das Anbinden interner Fachbereiche an die gemeinsame Plattform und die Unterstützung der verschiedenen Datenpipeline-Abläufe. Alle Tools wurden in einem kerberisierten Hadoop-Cluster eingesetzt.
Datenmigration mit Sqoop und Oozie.
Konfiguration des Hadoop-Clusters mit Kerberos und Active Directory.
Implementierung von Datenpipelines mit Kylo, Apache NiFi und Talend.
Bereitstellung von Hortonworks Cloud Break in Amazon AWS.
Implementierungen von Apache Storm Streaming.
Unterstützung interner Fachbereiche bei Streaming- und Datenbereinigungsprozessen.
Dimensionierung von Hadoop für On-Premise und in der Amazon Cloud.

Okt. 2016 - März 2017

6 Monaten

Dresden, Deutschland

Big Data Entwickler und Architekt

Kiwigrid

In diesem Projekt ist das Hauptziel, Spark tiefer in HBase zu integrieren und ein neues Alerting- und Rechenframework auf Basis von Spark Streaming zu entwerfen. Jede Bereitstellung basiert auf Docker.
Verwendete Technologien: Apache HBase mit Phoenix JDBC, Apache Ambari/Hortonworks, Apache Spark, Scala und Java, Vert.x-Server, Docker, TimescaleDB.
Erstellung von Reports in Spark-Jobs über historische Daten.
Eigene Spark-Datenquellen für HBase und Aggregationen zur Datenexploration.

Schweinfurt, Deutschland

SAP-Administrator und Oracle-Administrator

ZF Friedrichshafen AG und S.Oliver

Verantwortlich für die Serviceverfügbarkeit der SAP-Systeme im Unternehmen. Wir betreuen mehr als 200 Systeme.
Zu meinen Aufgaben gehörten unter anderem:
SAP- und Oracle-Upgrades.
SAP-Betriebssystem- und Hardware-Migration.
TREX Enterprise Search, ASCS-Splits, SAP Security, SSO, SNC, SSFS.

Sprachen

Deutsch

Muttersprache

Englisch

Verhandlungssicher

Erfahrungen

Datenarchitekt

Deutsche Bahn

Datenarchitekt-Experte

SAP AG

Datenarchitekt-Experte

s.Oliver GmbH

Datenarchitekt-Experte

ias Gruppe

Datenarchitekt-Experte

Deutsche Bahn

Kafka-Experte

S.Oliver GmbH

Data-Warehouse-Experte

Büro Forum GmbH

Softwareentwickler

RTL Deutschland

Cloud-Lösungsarchitekt

Allianz Technology

Big Data-Architekt, Datenarchitekt

BMW AG

Big Data Entwickler

DXC

Big Data Architekt

Daimler AG

Big Data Entwickler, Spark-/Kafka-Entwickler, Datenarchitekt

GFK

Big Data Architekt

Deutsche Bahn

Big Data Entwickler und Architekt

Kiwigrid

SAP-Administrator und Oracle-Administrator

ZF Friedrichshafen AG und S.Oliver

Sprachen

Zertifikate & Bescheinigungen

Databricks-Grundlagenzertifikat

Databricks Lakehouse-Plattform-Akkreditierung

Confluent-zertifizierter Entwickler für Apache Kafka

Generative KI mit großen Sprachmodellen (NLP)

CKAD: Zertifizierter Kubernetes-Anwendungsentwickler

Microsoft Certified: Azure-Grundlagen

Nanodegree im Datenengineering

Funktionale Programmierprinzipien in Scala auf Coursera

Big-Data-Analyse

Fraunhofer IAIS

Big-Data-Analyse von University of California, San Diego auf Coursera

Databricks-Entwicklertraining für Apache Spark

Hadoop-Plattform- und Anwendungsframework von University of California auf Coursera

Maschinelles Lernen mit Big Data von University of California, San Diego auf Coursera

SAP OS- und DB-Migration (TADM70)

SAP Datenbankadministration I (Oracle) (ADM 505)

SAP Datenbankadministration II (Oracle) (ADM 506)

SAP NetWeaver AS Implementation und Operation I (SAP TADM10)

SAP NetWeaver Portal - Implementierung und Betrieb (TEP10)

ITL Foundation v4

Ähnliche Freelancer

Senior Data/ML-Berater & Technischer Leiter

Senior DevOps (extern)

Dateningenieur

Data Scientist & KI Ingenieur & KI Architekt

Senior Data Architect & Data Engineer

AR/VR/XR Architekt

Senior Data Engineer

Data Solution Architect, Gründer

Senior Cloud-/Data Engineer/Architekt

Entwicklung einer umfassenden Datenstrategie und eines Governance-Frameworks für eine Datenmanagementplattform auf Databricks

Freiberuflicher Datenarchitekt

Data Engineer / DWH-Designer / Data Architekt

Technischer Product Owner – KI- & Datenplattform auf AWS

Cloud Analytics-Entwickler

Tech Lead Kundenbasisdokumentation Automatisierung