Jan K. - Entwicklung einer umfassenden Datenstrategie und eines Governance-Frameworks für eine Datenmanagementplattform auf Databricks

Berlin, Deutschland

Erfahrungen

März 2023 - Mai 2024

1 Jahr 3 Monaten

Entwicklung einer umfassenden Datenstrategie und eines Governance-Frameworks für eine Datenmanagementplattform auf Databricks

Intralogistik

In diesem „Leuchtturm“-Projekt leitete ich die Entwicklung einer robusten Datenstrategie und eines Governance-Frameworks mit dem Ziel, die Datenverarbeitungskapazitäten der Organisation zu optimieren und zu verbessern. Kern des Projekts war der Aufbau einer hochperformanten Datenmanagementplattform auf Databricks, ergänzt durch das Design und die Implementierung einer effizienten Daten-Hub-Ingest-Plattform.

Leitung des Designs und der Etablierung einer unternehmensweiten Datenstrategie, ausgerichtet an Geschäftszielen und technologischen Fortschritten
Entwicklung eines umfassenden Daten-Governance-Frameworks zur Gewährleistung von Datenqualität, Datenschutz und Einhaltung von Branchenstandards
Überwachung der Bereitstellung und Anpassung der Datenmanagementplattform auf Databricks, Verbesserung der Datenverarbeitung, Analyse und Reporting-Fähigkeiten mit Power BI
Entwicklung eines robusten Daten-Hubs mit hochperformanten Ingest-Pipelines basierend auf AWS EventBridge, Optimierung des Datenflusses von verschiedenen Quellen zu zentralisierten Speichersystemen (Data Lake House auf Azure)
Zusammenarbeit mit funktionsübergreifenden Teams zur Integration der Datenmanagementplattform in die bestehende IT-Infrastruktur und Geschäftsprozesse
Durchführung von Schulungen und Workshops für neue Teams, Förderung einer datengetriebenen Kultur und Verbesserung der Datenkompetenz in der gesamten Organisation
Azure Databricks
Databricks Data Catalog
AWS EventBridge
Kinesis Event Hub
Structured Streaming (Apache Spark)

Jan. 2022 - Feb. 2023

1 Jahr 2 Monaten

Innovative Integration und Analyse von Logistikdatenströmen mit PySpark Structured Streaming und Data Mesh-Implementierung

Logistik

Dieses Projekt konzentrierte sich auf die anspruchsvolle Integration von Logistikdatenströmen mit Event Hub und Kafka unter Verwendung von PySpark Structured Streaming. Unser Ansatz revolutionierte die Art und Weise, wie Logistikdaten in Echtzeit erfasst, verarbeitet und durch den Graphen-Ansatz verknüpft werden konnten. Durch den Einsatz von Technologien wie GraphFrame, Azure Synapse Analytics, Apache Spark und PowerBI etablierten wir ein robustes System, das nicht nur eine hohe Datenqualität und reibungslose Übertragung gewährleistet, sondern auch den IT-Governance-Prinzipien entspricht.

Integration eines Logistikdatenstroms mit Kafka durch PySpark Structured Streaming
Definition der notwendigen Datenstrukturen für den Datenstrom
Robuste und effiziente Integration des Logistikdatenstroms mit Event Hub
Echtzeitnutzung von Logistikdaten für Analyse und Weiterverarbeitung
Entwurf und Implementierung von Pipelines zur Erfassung, Verarbeitung und Weiterleitung des Datenstroms
Effiziente Datenverarbeitung mit PySpark Structured Streaming
Konfiguration und Initialisierung des PySpark Streaming-Jobs
Durchführung umfassender Test- und Überwachungsmechanismen
Gewährleistung einer reibungslosen Datenübertragung und hoher Datenqualität
Azure Synapse Analytics
Purview Data Catalog
Event Hub
GraphFrame
PowerBI

Sept. 2021 - Jan. 2022

5 Monaten

Verbesserte Datenverarbeitungs- und Integrationssysteme für E-Commerce mit serverlosen und verteilten Data-Mesh-Architekturen

E-Commerce

In diesem Projekt war meine Hauptaufgabe, verschiedene interne E-Commerce-Produktteams bei der Entwicklung, Implementierung und Wartung leistungsfähiger Datenverarbeitungs- und Integrationssysteme zu leiten und zu unterstützen. Der Schwerpunkt lag auf der Migration bestehender Datendienste und -Pipelines zu einer neuen, verbesserten Architektur, wobei die Entwicklung eines eventbasierten Systems unter Verwendung serverloser Technologien und Big-Data-Frameworks betont wurde.

Unterstützung und Anleitung bei der Migration der bestehenden Datendienste, Pipelines und Assets auf eine neue und weiterentwickelte Architektur
Entwicklung eines eventbasierten Systems
Verwendung von Lambda-Funktionen und PySpark
Integration mit Kafka
Design- und Architekturplanung
Implementierung von Lambda-Funktionen und PySpark-Jobs
Konfiguration und Verbindung mit Kafka
Serverlose Architektur für Skalierbarkeit und Verfügbarkeit
Verarbeitung und Analyse von Ereignisdaten in Echtzeit
PySpark-Transformationen, Filterungen und Aggregationen
Effiziente und zuverlässige Verbindung mit Kafka
Konfiguration, Sicherheitseinstellungen und Integration mit anderen Komponenten
Umfangreiche Tests und Überwachungsmechanismen
Hochperformantes und skalierbares Event-System
Gewinnung wertvoller Erkenntnisse aus Ereignisdaten
Datengetriebene Entscheidungsfindung
AWS Glue
Apache Spark
Data Catalog
Athena
Redshift
Lambda
ECS
Step Functions
Umsetzung verteilter Data-Mesh-Architekturen, damit verschiedene Produktteams effizient mit Daten arbeiten können
Datenverarbeitung mit Big-Data-Frameworks und Datenbanktechnologien
Erarbeitung serverlose/elastische Cloud-Architektur (AWS)
Bereitstellung der Architektur nach DevOps-Best-Practices und Infrastructure-as-Code (AWS CDK & Terraform)

Apr. 2020 - Sept. 2021

1 Jahr 6 Monaten

Migration und Verbesserung der E-Commerce-Datenplattform zur AWS Data Lakehouse-Architektur

E-Commerce

Dieses Projekt beinhaltete die strategische Entwicklung und Migration bestehender Analytics-Datenpipelines in eine Data Lakehouse-Architektur unter Nutzung von AWS-Diensten. Ein wesentlicher Aspekt war die Verbesserung der Big-Data-Lake-Umgebung und die Gewährleistung strenger Datenqualitäts- und Compliance-Standards, insbesondere im Hinblick auf die DSGVO.

Weiterentwicklung der Big-Data-Lake-Umgebung in AWS
Umsetzung und Konzeption eines Data Lakehouse
explorative Analyse sowie Algorithmenentwicklung durch Datenbereitstellung und -Aufbereitung (AWS Glue, Spark, Lambda)
Data Ingestion
Entwicklung von Data-Pipelines, ETL-Jobs zur Bereitstellung von konsumfertigen Datenquellen (AWS Glue, AWS Redshift, Spark, PySpark)
Regressionstest und Qualitätsprüfung in den Datenstrecken und im Data Lake
Orchestrierung und Anbindung von Datenquellen
Umsetzung von automatisierten Deployments mittels DevOps-Best-Practices (AWS CodeBuild & CodePipeline, GitHub Actions)
Aufbau der Infrastruktur mittels IaC (AWS CDK)
Systembetreuung (inkl. Kostenmonitoring)

Feb. 2019 - Apr. 2020

1 Jahr 3 Monaten

Entwicklung einer Architektur und Implementierung einer Big-Data-Umgebung für konzernweite, standardisierte Plattformdienste

Transport & Logistik

Dieses Projekt umfasste die Entwicklung und Implementierung einer standardisierten Big-Data-Architektur für konzernweite Plattformdienste im Transport- und Logistiksektor unter Verwendung verschiedener Azure-Dienste. Meine Rolle war entscheidend, um die Integration von Datentransparenz, Datenqualität, DataOps, die Einhaltung von Datenvorschriften und die Implementierung agiler Methodologien sicherzustellen.

Erarbeitung von Lösungen in Projekten zu Azure und Automatisierung sowie Vorstellung und Diskussion derselben
Azure-Services: Azure Data Catalogue, Azure Synapse Analytics, Azure Data Factory, Azure Databricks
Automatisierter Aufbau der Infrastruktur mit Infrastructure-as-Code (Terraform) und Ansible
Scrum, JIRA, GitLab, Docker
Umsetzung der Echtzeit-Datenübertragung mit Apache Kafka
Beratung zur Azure-Plattformstrategie bezüglich Referenzarchitekturen
Entwicklung von Mechanismen und Automatismen zur proaktiven Beseitigung von Schwachstellen der Azure- und Kubernetes-Komponenten auf Basis standardisierter Cluster (Security by default)
Konzeptionelle Weiterentwicklung der architektonischen und technologischen Plattform im Bereich Container-Orchestrierung auf Basis von Kubernetes, Continuous Integration & Continuous Deployment
Erstellung von Benutzer- und Berechtigungskonzepten unter Berücksichtigung der Konzernvorgaben
Betriebsführung der angebotenen Services
Agiles Team
Azure Data Catalogue (Purview)
Azure Synapse Workspace Analytics
Azure Data Factory
Azure Databricks
Terraform
GitLab Runner
Azure DevOps

Sept. 2018 - Feb. 2019

6 Monaten

AWS-Infrastrukturberatung und -implementierung für globale Prozessoperationen im Transport- und Logistikbereich

Transport & Logistik

Dieses Projekt umfasste die Beratung und die praktische Implementierung einer AWS-Infrastruktur zur Unterstützung eines Prozessbetriebsteams, das für mehrere internationale Anwendungen im Transport- und Logistiksektor verantwortlich ist. Meine Rolle war entscheidend bei der Identifizierung und Implementierung von Optimierungen, der Entwicklung und Wartung der kritischen Systeminfrastruktur sowie der umfassenden Unterstützung und Schulung interner Teams.

Bereitstellung und Betrieb von Servern, Betriebssystemumgebungen und Datenbanksystemen in AWS
Erkennen von Optimierungspotenzialen in kaufmännischer als auch technischer Sicht
Erarbeitung und Präsentation von optimierten Prozessen
Implementierung von Optimierungen (AWS Lambda boto3)
Eigenverantwortliches Handeln und vertreten der erarbeiteten Ergebnisse im Team und gegenüber den Projektleitern/Auftraggebern
Administration und Wartung der bereitgestellten Systeme
Erarbeitung von Wartungs- und Monitoringkonzepten für diese Systeme
Unterstützung und Beratung von Entwicklungsprojekten zu Nutzung, Konfiguration und Optimierung der bereitgestellten Systeme
Beratung zu Architekturen und Betriebskonzepten unter Nutzung der AWS Cloud Infrastrukturen
Beim Einsatz neuer AWS Services: Schulung der internen Mitarbeiter für die veränderten Arbeitsweisen
Anwendungsmigration für einen Geschäftsbereich (Transport & Logistik) inkl. Aufbau AD
Bereitstellung von AWS Infrastruktur: Datenbanken (SQL) & EC2-Maschinen, sowie Lambda Services
Deployment mittels Terraform
Planung und Ausführung der Anwendungsmigration
Ausrollen von Berechtigungen
Infrastrukturbereitstellung mit AWS Cloudformation

Aufbau und Consulting einer Marktplatzplattform basierend auf Microsoft Azure Services

Integration Payment-Provider
Planung und Architektur von Microsoft Azure Services
Realisierung/Beratung von Back End und Front End
Erstellung User Management mittels Active Directory
Implementierung Upload-Tool zum Hochladen von sehr großen Dateien direkt aus dem Webbrowser
Security Engineering

Realisierung Prozessautomatisierung: Implementierung eines automatischen Ticketgenerators basierend auf Schwachstellen-Scan

Design und Planung der kosteneffizientesten Infrastrukturkomponenten
Implementierung von Python-Logik in AWS Lambda
Bereitstellung der Infrastruktur durch AWS Cloudformation via YAML-Templates
Code Optimization
Senden von Benachrichtigungsmails via AWS SNS

Realisierung und technische Projektunterstützung einer Web-Applikation zur Verwaltung des Zertifizierungsprozesses unter

Namhafter Automobilhersteller

Infrastrukturbereitstellung auf AWS (MySQL Server)
Front End Entwicklung in React.js
Back End Realisierung mit Java EE | glassfish
Refactoring und Code Optimization
Agile Arbeitsweise durch Scrum mit Jira
CI/CD mit Jenkins
Dokumentation in Confluence

Zusammenfassung

Big-Data-Spezialist mit Schwerpunkt: Big-Data-Cloud-Architektur, Datenmanagement-Plattformen
Spezialist in Big-Data-Plattformen auf Amazon Web Services & Microsoft Azure
ETL-Prozesse/Pipelines & Daten-Engineering
Architektur von Datenmanagement-Plattformen in großen Unternehmen
Aufbau von Data Lakes & Data Lakehouse
Anwendungsmigrationen unter Verwendung von Cloud-Services
Beratung & Implementierung von Automatisierungskonzepten, insbesondere DataOps & DevOps
Integration von Active Directory-Sicherheitskonzepten und Compliance-Anforderungen
Python, SQL, TypeScript, Golang
Big-Data-Cloud-Architekturen (AWS & Microsoft Azure)
Daten-Engineering (Databricks, Synapse Analytics, Fabric, Apache Spark, AWS Glue, Athena, Redshift & EMR)
Infrastruktur als Code (Terraform, Pulumi, AWS CDK, ARM)

Erfahrungen

Entwicklung einer umfassenden Datenstrategie und eines Governance-Frameworks für eine Datenmanagementplattform auf Databricks

Intralogistik

Innovative Integration und Analyse von Logistikdatenströmen mit PySpark Structured Streaming und Data Mesh-Implementierung

Logistik

Verbesserte Datenverarbeitungs- und Integrationssysteme für E-Commerce mit serverlosen und verteilten Data-Mesh-Architekturen

E-Commerce

Migration und Verbesserung der E-Commerce-Datenplattform zur AWS Data Lakehouse-Architektur

E-Commerce

Entwicklung einer Architektur und Implementierung einer Big-Data-Umgebung für konzernweite, standardisierte Plattformdienste

Transport & Logistik

AWS-Infrastrukturberatung und -implementierung für globale Prozessoperationen im Transport- und Logistikbereich

Transport & Logistik

Aufbau und Consulting einer Marktplatzplattform basierend auf Microsoft Azure Services

Realisierung Prozessautomatisierung: Implementierung eines automatischen Ticketgenerators basierend auf Schwachstellen-Scan

Realisierung und technische Projektunterstützung einer Web-Applikation zur Verwaltung des Zertifizierungsprozesses unter

Namhafter Automobilhersteller

Zusammenfassung

Sprachen

Zertifikate & Bescheinigungen

AWS Business Professional

AWS

AWS Certified Cloud Practitioner

AWS

AWS Certified Machine Learning – Specialty

AWS

AWS Certified Solutions Architect – Associate

AWS

AWS Technical Professional

AWS

AZ-300: Microsoft Azure Architect Technologies

Microsoft

AZ-301: Microsoft Azure Architect Design

Microsoft

Azure Solutions Architect Expert

Microsoft

Databricks Certified Associate Developer for Apache Spark 3.0

Databricks

HashiCorp Certified: Terraform Associate

HashiCorp

Ähnliche Freelancer

Dateningenieur

AR/VR/XR-Architekt

Jitsi - Videokonferenzsystem mit KI-gestützter Simultanübersetzung (Prototyp)

Cloud Analytics-Entwickler

Senior Golang-Ingenieur

Senior Data/ML-Berater & Technischer Leiter

Freiberufler, Lösungsarchitekt

Tech Lead Kundenbasisdokumentation Automatisierung

Technischer Product Owner – KI- & Datenplattform auf AWS

Solution Architekt / Projektleiter

Data Scientist & KI Ingenieur & KI Architekt

KI-Ingenieur, Cloud-Lösungsarchitekt, Backend-Entwickler

Technischer PMO | Delivery Master | LLM-Expert

Senior Fullstack Entwickler

Senior DevOps (extern)