Daniel Pape - Berufliche Weiterentwicklung

Hamburg, Deutschland

Erfahrungen

Jan. 2022 - Nov. 2023

11 Monaten

Berufliche Weiterentwicklung

In einer proaktiven Phase zur Verbesserung meiner Fähigkeiten und Kenntnisse habe ich meine Zeit während einer Projektpause effektiv genutzt:
Zertifizierter Cloud Practitioner: Erlangung der AWS Certified Cloud Practitioner-Zertifizierung, die grundlegendes Cloud-Wissen und Kenntnisse zu AWS-Services bestätigt.
Neue Programmiersprache: Selbstständiges Erlernen von Rust als neue Programmiersprache durch intensive Selbststudien, einschließlich Bücher, Online-Kurse und Beiträge zu Open-Source-Projekten.
Serverless Webanwendung (in Entwicklung): Entwicklung einer serverlosen Webanwendung mit AWS und TypeScript/React in Kombination mit D3 im Rahmen eines persönlichen Projekts in diesem Jahr. Obwohl die Anwendung weiterhin ständig weiterentwickelt wird, kann ich eine umfassende Demo oder Walkthrough anbieten, um die aktuellen Funktionen und das zukünftige Potenzial zu präsentieren. Verwendete AWS-Services: RDS, Lambda, Polly und Amplify. Für das Infrastrukturmanagement kommt CDK zum Einsatz. Dieses fortlaufende Projekt hat mir wertvolle praktische Erfahrung in der Architektur serverloser Anwendungen auf AWS-Cloud-Infrastruktur vermittelt. Dabei habe ich u. a. Kenntnisse in der Integration von RDS für effizientes Datenbankmanagement, Lambda für serverloses Computing, Polly für Text-to-Speech und Amplify für nahtlose Bereitstellung und Hosting erworben.
Kontinuierliches Lernen: Ich halte mich stetig über Branchentrends und Best Practices durch Selbststudium, Webinare und Online-Workshops auf dem Laufenden. Kürzlich habe ich mich mit dem Data Mesh-Ansatz beschäftigt und FastAPI erkundet.

Juni 2022 - Dez. 2022

7 Monaten

Data Engineer

Führender deutscher multinationaler Automobilhersteller

Als Data Engineer habe ich die Ablösung bestehender Batch-Clustering-Jobs für ein Softwareunternehmen eines führenden deutschen Automobilkonzerns entwickelt. Dieses Clustering nutzt Standortdaten und zusätzliche Metadaten weltweit verteilter Ladestationen für Elektrofahrzeuge.
Im Team für POI-Datenverwaltung (POI = Point of Interest) habe ich eng mit den bisherigen Entwicklern zusammengearbeitet und mein Know-how in Spark und Airflow genutzt, um die neue Lösung mit Databricks auf Azure zu entwerfen und umzusetzen.
Gemeinsam mit einem Teammitglied habe ich die bestehende Airflow-Pipeline und die gewachsene komplexe Geschäftslogik refaktoriert. Zudem haben wir die Bibliotheksmodule für Clustering und Preprocessing überarbeitet, fehlende Dokumentation ergänzt und die Codequalität durch Defensive Programming verbessert.
Basierend auf dem erworbenen Domänenwissen und den Anforderungen habe ich eine neue Lösung in der Azure-Cloud mit Databricks entwickelt. Aufgaben: Integration vorhandener Daten in AWS S3 und Azure Blob Storage, Entwicklung von Bibliotheksmodulen sowie Spark-Jobs für geospatiales Clustering der Ladestationsdaten.
Während das Team hauptsächlich in Python arbeitet, kommt für das neue Clustering auch die offizielle Open-Source-Scala-Bibliothek zum Einsatz. Hier habe ich mithilfe meiner Erfahrung in Scala und JVM-basiertem Entwickeln eine Wrapper-Klasse erstellt, um die Bibliothek aus Python aufzurufen.
Zu Projektbeginn habe ich zudem gemeinsam mit Entwicklern und Testern Bugs beseitigt und die Testabdeckung für einen ereignisgesteuerten Service erhöht. Dieser auf Azure Functions basierende Service erkennt und entfernt datenschutzrelevante Informationen in Fahrzeugsignalströmen. Zwischenergebnisse werden via Redis gecached.
Weitere Aufgaben: Code-Reviews, PI-Planung, Testing und Dokumentation.
Fähigkeiten und Technologien:
Programmiersprachen: Python, Scala, SQL
Build- und Dependency-Management: Poetry, SBT
Datenverarbeitung und Analyse: PySpark, Spark, GraphX
Cloud-Services: Azure (Databricks, Blob Storage, Functions), AWS (S3)
Workflow-Orchestrierung: Airflow
In-Memory-Datenbank: Redis
Versionsverwaltung und CI/CD: Git, Jenkins, Bitbucket

Mai 2021 - März 2022

11 Monaten

Data Engineer

Führendes deutsches Medienunternehmen

Als Data Engineer habe ich Daten und Machine-Learning-Modelle für das automatisierte Customer Relationship Management betreut. Unser cross-funktionales Team aus Data Scientists und Engineers arbeitete nach SaFe. Die Ergebnisse lieferten wertvolle Datenanalysen und prädiktive Modelle für Multichannel-Kampagnen und CRM-Initiativen zur Unterstützung von rund 7 Millionen Nutzern.
Entwurf und Aufbau von ETL-Pipelines für Vertrags- und Nutzungsdaten und Generierung von Features für ML-Modelle.
Implementierung von Machine-Learning-Pipelines in der Cloud für Anwendungsfälle wie Churn-Scoring, Next Best Actions und Verhaltensvorhersagen.
Zusammenarbeit bei der Migration von Data-Scientist-Entwicklungen aus dem Experimentier- in den Produktionsbetrieb.
Automatisierung von Datentransfers und Score-Übertragungen in den zentralen Event-Bus für andere Services.
Etablierung eines Data Quality Monitorings mit Great Expectations zur Sicherstellung von Genauigkeit, Vollständigkeit und Konsistenz eingehender Daten.
Gemeinsamer Spike mit einem Kollegen zur Vorbereitung von MLOps-Schritten, inkl. Analyse von Workflows, Repositories und Recherche zum Feature-Store-Integrationsansatz.
Fähigkeiten und Technologien:
Programmiersprachen: Python, SQL
Datenverarbeitung und Analyse: Pandas, PySpark, NumPy
ML-Bibliotheken: Scikit-Learn, CatBoost
Data Quality Monitoring: Great Expectations
Cloud-Services: AWS (S3, Kinesis, Athena, EMR, Glue)
Workflow-Orchestrierung: Airflow
Containerisierung und Orchestrierung: Docker, Kubernetes
Infrastructure as Code: Terraform
Versionsverwaltung und CI/CD: Git, GitLab

Dez. 2020 - Dez. 2020

1 Monate

Data Engineer

Multinationales Telekommunikationsunternehmen

Unterstützung des Data-Engineering-Teams beim konzeptionellen und architektonischen Entwurf der Extraktion von Daten aus einer externen API in den AWS-basierten Big Data Lake und das Redshift Data Warehouse.
Die API gehört zu einer SaaS-Plattform für Kampagnenmanagement und Kundenanalyse, u. a. mit Themen aus dem Bereich Natural Language Processing (NLP) wie Sentiment-Analyse sowie Erkennung von Phrasen und Keywords in Kundenkommentaren. Tätigkeiten:
Anforderungserhebung bei Stakeholdern und Anforderungsanalyse
Abstimmung zu NLP-Themen und API-Design mit dem Plattform-Ansprechpartner und Stakeholdern
Erweiterung der Dokumentation in Confluence
Erstellung eines logischen Datenmodells und konzeptionelles Design der ETL-Pipeline
Proof of Concept für Streaming von Daten vom Kafka-Cluster in die S3-Ebene der AWS-Cloud mit Databricks Delta Lake
Fähigkeiten und Technologien:
Programmiersprachen: Scala, SQL
Big Data Verarbeitung und Analytics: Spark, Kafka, Delta Lake, Redshift, NLP
Cloud-Services: AWS (S3)

Jan. 2019 - Bis heute

6 Jahren 7 Monaten

Freiberuflicher Softwareentwickler

Als Freelancer entwickle ich individuelle Lösungen mit Fokus auf Data und Machine Learning Engineering.

Jan. 2019 - Jan. 2020

1 Jahr 1 Monate

Softwareentwickler

Europäisches Fashion- und Lifestyle-Unternehmen

Verantwortlich für die Entwicklung eines AWS-basierten Cloud-Data-Lakes, der in mehrere Zonen unterteilt ist und als Basis für einen downstream Data Mart in Redshift dient, auf den Endanwender über Tableau für Analysen und Abfragen zugreifen können (Zeiträume: 01/2019 – 05/2019 und 08/2019 – 01/2020). Tätigkeiten:
Einsatz von Apache NiFi in der initialen Proof-of-Concept-Phase zur Extraktion aus Quellsystemen in S3 und Kinesis
Entwicklung mehrerer Services mit Scala und Spark für automatisierte ETL-Prozesse verschiedener Quellsysteme/Datenbanken in und innerhalb der AWS-Cloud
Implementierung der Transformationslogik zur Erstellung von Fact- und Dimension-Tabellen (Datenmodellierung nach Kimball)
Umsetzung von ETL-Pipelines mit Spark und Scala gemäß Spezifikationen und Blaupausen der Data Analytics-Abteilung sowie existierenden Tableau Prep Flows
Entwicklung, Anpassung und Deployment programmatischer Workflows zur Terminierung von Spark-Jobs auf EMR-Clustern mit Apache Airflow
Wissenstransfer und Mentoring zu Scala und Spark durch Pair Programming
Aufbau eines eigenen Mini-Frameworks in Scala für die typsichere Arbeit mit Spark DataFrames, entwickelt im Team, um die Entwicklung und das Testen von Transformationskomponenten in Spark-ETL-Pipelines zu erleichtern
Integration und Austausch alter und neuer Datenquellen
Entwicklung von Integrations- und Unit-Tests, Debugging und Ausführungstests
Fähigkeiten und Technologien:
Programmiersprachen: Python, Scala, SQL
Build- und Dependency-Management: Poetry, SBT
Datenverarbeitung und Analyse: PySpark, Spark, GraphX
Cloud-Services: AWS (EMR, S3, SSM, Kinesis, Redshift)
Datenintegration und Workflow-Orchestrierung: Airflow, NiFi
Datenbanken: MS SQL Server, SAP HANA
Containerisierung und Orchestrierung: Docker, Kubernetes
Versionsverwaltung und CI/CD: GitHub, Jenkins, Bitbucket
Artifact-Management: JFrog Artifactory

Aug. 2015 - März 2018

2 Jahren 8 Monaten

Hamburg, Deutschland

Data Engineer

codecentric AG

codecentric AG ist ein deutscher IT-Dienstleister mit 15 Standorten in Deutschland und weiteren europäischen Ländern, Hauptsitz in Solingen. Das Unternehmen entwickelt maßgeschneiderte Softwarelösungen für Kunden und beschäftigt rund 450 Experten im Bereich agile Softwareentwicklung.
Bei codecentric war ich als Engineer in einer Business Unit für Data Science und Machine Learning tätig und habe an Kunden- und Inhouse-Projekten mitgewirkt.

Nov. 2014 - Mai 2015

7 Monaten

Hamburg, Deutschland

Scala Developer

DIGITEC GmbH

DIE DIGITEC GmbH ist ein deutscher Softwareanbieter mit Sitz in Hamburg, der Software für Finanz- und Bankenbranche entwickelt, vertreibt und supportet, u. a. für den Handel an Geld- und Devisenmärkten.
Als Entwickler in einem Scrum-Team habe ich Funktionen für die nächste Version der unternehmenseigenen Desktop-Software-Suite implementiert.

Zusammenfassung

Softwareingenieur mit über 5 Jahren Erfahrung in der Entwicklung datengetriebener Softwarelösungen für den Bildungsbereich. Ich habe Unternehmen dabei unterstützt, ihre Daten effektiv zu nutzen – von der Implementierung von Machine-Learning-Services zur Optimierung der Werbeeinnahmen bis hin zum Aufbau eines Data Lakes, der verschiedene Datenquellen integriert und eine unternehmensweite 360°-Sicht auf die wichtigsten Daten in der Cloud ermöglicht, um umsetzbare Erkenntnisse zu gewinnen.

Erfahrungen

Berufliche Weiterentwicklung

Data Engineer

Führender deutscher multinationaler Automobilhersteller

Data Engineer

Führendes deutsches Medienunternehmen

Data Engineer

Multinationales Telekommunikationsunternehmen

Freiberuflicher Softwareentwickler

Softwareentwickler

Europäisches Fashion- und Lifestyle-Unternehmen

Data Engineer

codecentric AG

Scala Developer

DIGITEC GmbH

Zusammenfassung

Sprachen

Ausbildung

Georg-August-Universität Göttingen

Promotion · Mathematik · Göttingen, Deutschland

Bergische Universität Wuppertal

Diplom · Mathematik und Informatik (Nebenfach) · Wuppertal, Deutschland

Zertifikate & Bescheinigungen

AWS Certified Cloud Practitioner

AWS

Confluent Developer Training: Building Kafka Solutions

Confluent

Amazon Detective Deep Dive

A Cloud Guru

Applied AI with Deep Learning

Coursera

BerkeleyX – CS190.1x: Scalable Machine Learning

edX

Building Machine Learning Pipelines on AWS

A Cloud Guru

Cluster Analysis in Data Mining

Coursera

Data Streaming Nanodegree

Udacity

Databricks Lakehouse Fundamentals

Databricks Academy

Deploying Applications with AWS CDK

A Cloud Guru

Developing Data Products

Coursera

Exploratory Data Analysis

Coursera

Functional Programming Principles in Scala

Coursera

Getting Started with Google Kubernetes Engine

Coursera

Introduction to Big Data with Apache Spark

edX

Kotlin for Java Developers

Coursera

Pattern Discovery in Data Mining

Coursera

Practical Event-Driven Security with AWS

A Cloud Guru

R Programming

Coursera

Statistical Inference

Coursera

Terraform Basics

Coursera

Text Mining and Analytics

Coursera

Ähnliche Freelancer

Senior Data/ML Consultant & Technischer Leiter

Datenwissenschaftler

Azure Cloud Solution-Architektur mit Fokus auf Data Lakehouse, Datenanalyse, Machine Learning und GenAI

Data Scientist & KI-Ingenieur & KI-Architekt

Datenwissenschaftsexperte und KI-Stratege

Freiberuflicher Datenarchitekt

Technischer PMO | Delivery-Master | LLM-Experte

Freiberuflich: Fullstack-Softwareentwickler

Forschung für Masterarbeit

Aufbau eines modernen Gehaltssystems

KI-Ingenieur, Cloud Solution Architekt, Backend-Entwickler

Cloud-Datenplattform Product Owner & Projektmanager