Daniel Pape

Berufliche Weiterentwicklung

Hamburg, Deutschland

Erfahrungen

Jan. 2022 - Nov. 2023
11 Monaten

Berufliche Weiterentwicklung

  • In einer proaktiven Phase zur Verbesserung meiner Fähigkeiten und Kenntnisse habe ich meine Zeit während einer Projektpause effektiv genutzt:
  • Zertifizierter Cloud Practitioner: Erlangung der AWS Certified Cloud Practitioner-Zertifizierung, die grundlegendes Cloud-Wissen und Kenntnisse zu AWS-Services bestätigt.
  • Neue Programmiersprache: Selbstständiges Erlernen von Rust als neue Programmiersprache durch intensive Selbststudien, einschließlich Bücher, Online-Kurse und Beiträge zu Open-Source-Projekten.
  • Serverless Webanwendung (in Entwicklung): Entwicklung einer serverlosen Webanwendung mit AWS und TypeScript/React in Kombination mit D3 im Rahmen eines persönlichen Projekts in diesem Jahr. Obwohl die Anwendung weiterhin ständig weiterentwickelt wird, kann ich eine umfassende Demo oder Walkthrough anbieten, um die aktuellen Funktionen und das zukünftige Potenzial zu präsentieren. Verwendete AWS-Services: RDS, Lambda, Polly und Amplify. Für das Infrastrukturmanagement kommt CDK zum Einsatz. Dieses fortlaufende Projekt hat mir wertvolle praktische Erfahrung in der Architektur serverloser Anwendungen auf AWS-Cloud-Infrastruktur vermittelt. Dabei habe ich u. a. Kenntnisse in der Integration von RDS für effizientes Datenbankmanagement, Lambda für serverloses Computing, Polly für Text-to-Speech und Amplify für nahtlose Bereitstellung und Hosting erworben.
  • Kontinuierliches Lernen: Ich halte mich stetig über Branchentrends und Best Practices durch Selbststudium, Webinare und Online-Workshops auf dem Laufenden. Kürzlich habe ich mich mit dem Data Mesh-Ansatz beschäftigt und FastAPI erkundet.
Juni 2022 - Dez. 2022
7 Monaten

Data Engineer

Führender deutscher multinationaler Automobilhersteller

  • Als Data Engineer habe ich die Ablösung bestehender Batch-Clustering-Jobs für ein Softwareunternehmen eines führenden deutschen Automobilkonzerns entwickelt. Dieses Clustering nutzt Standortdaten und zusätzliche Metadaten weltweit verteilter Ladestationen für Elektrofahrzeuge.
  • Im Team für POI-Datenverwaltung (POI = Point of Interest) habe ich eng mit den bisherigen Entwicklern zusammengearbeitet und mein Know-how in Spark und Airflow genutzt, um die neue Lösung mit Databricks auf Azure zu entwerfen und umzusetzen.
  • Gemeinsam mit einem Teammitglied habe ich die bestehende Airflow-Pipeline und die gewachsene komplexe Geschäftslogik refaktoriert. Zudem haben wir die Bibliotheksmodule für Clustering und Preprocessing überarbeitet, fehlende Dokumentation ergänzt und die Codequalität durch Defensive Programming verbessert.
  • Basierend auf dem erworbenen Domänenwissen und den Anforderungen habe ich eine neue Lösung in der Azure-Cloud mit Databricks entwickelt. Aufgaben: Integration vorhandener Daten in AWS S3 und Azure Blob Storage, Entwicklung von Bibliotheksmodulen sowie Spark-Jobs für geospatiales Clustering der Ladestationsdaten.
  • Während das Team hauptsächlich in Python arbeitet, kommt für das neue Clustering auch die offizielle Open-Source-Scala-Bibliothek zum Einsatz. Hier habe ich mithilfe meiner Erfahrung in Scala und JVM-basiertem Entwickeln eine Wrapper-Klasse erstellt, um die Bibliothek aus Python aufzurufen.
  • Zu Projektbeginn habe ich zudem gemeinsam mit Entwicklern und Testern Bugs beseitigt und die Testabdeckung für einen ereignisgesteuerten Service erhöht. Dieser auf Azure Functions basierende Service erkennt und entfernt datenschutzrelevante Informationen in Fahrzeugsignalströmen. Zwischenergebnisse werden via Redis gecached.
  • Weitere Aufgaben: Code-Reviews, PI-Planung, Testing und Dokumentation.
  • Fähigkeiten und Technologien:
  • Programmiersprachen: Python, Scala, SQL
  • Build- und Dependency-Management: Poetry, SBT
  • Datenverarbeitung und Analyse: PySpark, Spark, GraphX
  • Cloud-Services: Azure (Databricks, Blob Storage, Functions), AWS (S3)
  • Workflow-Orchestrierung: Airflow
  • In-Memory-Datenbank: Redis
  • Versions­verwaltung und CI/CD: Git, Jenkins, Bitbucket
Mai 2021 - März 2022
11 Monaten

Data Engineer

Führendes deutsches Medienunternehmen

  • Als Data Engineer habe ich Daten und Machine-Learning-Modelle für das automatisierte Customer Relationship Management betreut. Unser cross-funktionales Team aus Data Scientists und Engineers arbeitete nach SaFe. Die Ergebnisse lieferten wertvolle Datenanalysen und prädiktive Modelle für Multichannel-Kampagnen und CRM-Initiativen zur Unterstützung von rund 7 Millionen Nutzern.
  • Entwurf und Aufbau von ETL-Pipelines für Vertrags- und Nutzungsdaten und Generierung von Features für ML-Modelle.
  • Implementierung von Machine-Learning-Pipelines in der Cloud für Anwendungsfälle wie Churn-Scoring, Next Best Actions und Verhaltensvorhersagen.
  • Zusammenarbeit bei der Migration von Data-Scientist-Entwicklungen aus dem Experimentier- in den Produktionsbetrieb.
  • Automatisierung von Datentransfers und Score-Übertragungen in den zentralen Event-Bus für andere Services.
  • Etablierung eines Data Quality Monitorings mit Great Expectations zur Sicherstellung von Genauigkeit, Vollständigkeit und Konsistenz eingehender Daten.
  • Gemeinsamer Spike mit einem Kollegen zur Vorbereitung von MLOps-Schritten, inkl. Analyse von Workflows, Repositories und Recherche zum Feature-Store-Integrationsansatz.
  • Fähigkeiten und Technologien:
  • Programmiersprachen: Python, SQL
  • Datenverarbeitung und Analyse: Pandas, PySpark, NumPy
  • ML-Bibliotheken: Scikit-Learn, CatBoost
  • Data Quality Monitoring: Great Expectations
  • Cloud-Services: AWS (S3, Kinesis, Athena, EMR, Glue)
  • Workflow-Orchestrierung: Airflow
  • Containerisierung und Orchestrierung: Docker, Kubernetes
  • Infrastructure as Code: Terraform
  • Versions­verwaltung und CI/CD: Git, GitLab
Dez. 2020 - Dez. 2020
1 Monate

Data Engineer

Multinationales Telekommunikationsunternehmen

  • Unterstützung des Data-Engineering-Teams beim konzeptionellen und architektonischen Entwurf der Extraktion von Daten aus einer externen API in den AWS-basierten Big Data Lake und das Redshift Data Warehouse.
  • Die API gehört zu einer SaaS-Plattform für Kampagnenmanagement und Kundenanalyse, u. a. mit Themen aus dem Bereich Natural Language Processing (NLP) wie Sentiment-Analyse sowie Erkennung von Phrasen und Keywords in Kundenkommentaren. Tätigkeiten:
  • Anforderungserhebung bei Stakeholdern und Anforderungsanalyse
  • Abstimmung zu NLP-Themen und API-Design mit dem Plattform-Ansprechpartner und Stakeholdern
  • Erweiterung der Dokumentation in Confluence
  • Erstellung eines logischen Datenmodells und konzeptionelles Design der ETL-Pipeline
  • Proof of Concept für Streaming von Daten vom Kafka-Cluster in die S3-Ebene der AWS-Cloud mit Databricks Delta Lake
  • Fähigkeiten und Technologien:
  • Programmiersprachen: Scala, SQL
  • Big Data Verarbeitung und Analytics: Spark, Kafka, Delta Lake, Redshift, NLP
  • Cloud-Services: AWS (S3)
Jan. 2019 - Bis heute
6 Jahren 7 Monaten

Freiberuflicher Softwareentwickler

  • Als Freelancer entwickle ich individuelle Lösungen mit Fokus auf Data und Machine Learning Engineering.
Jan. 2019 - Jan. 2020
1 Jahr 1 Monate

Softwareentwickler

Europäisches Fashion- und Lifestyle-Unternehmen

  • Verantwortlich für die Entwicklung eines AWS-basierten Cloud-Data-Lakes, der in mehrere Zonen unterteilt ist und als Basis für einen downstream Data Mart in Redshift dient, auf den Endanwender über Tableau für Analysen und Abfragen zugreifen können (Zeiträume: 01/2019 – 05/2019 und 08/2019 – 01/2020). Tätigkeiten:
  • Einsatz von Apache NiFi in der initialen Proof-of-Concept-Phase zur Extraktion aus Quellsystemen in S3 und Kinesis
  • Entwicklung mehrerer Services mit Scala und Spark für automatisierte ETL-Prozesse verschiedener Quellsysteme/Datenbanken in und innerhalb der AWS-Cloud
  • Implementierung der Transformationslogik zur Erstellung von Fact- und Dimension-Tabellen (Datenmodellierung nach Kimball)
  • Umsetzung von ETL-Pipelines mit Spark und Scala gemäß Spezifikationen und Blaupausen der Data Analytics-Abteilung sowie existierenden Tableau Prep Flows
  • Entwicklung, Anpassung und Deployment programmatischer Workflows zur Terminierung von Spark-Jobs auf EMR-Clustern mit Apache Airflow
  • Wissenstransfer und Mentoring zu Scala und Spark durch Pair Programming
  • Aufbau eines eigenen Mini-Frameworks in Scala für die typsichere Arbeit mit Spark DataFrames, entwickelt im Team, um die Entwicklung und das Testen von Transformationskomponenten in Spark-ETL-Pipelines zu erleichtern
  • Integration und Austausch alter und neuer Datenquellen
  • Entwicklung von Integrations- und Unit-Tests, Debugging und Ausführungstests
  • Fähigkeiten und Technologien:
  • Programmiersprachen: Python, Scala, SQL
  • Build- und Dependency-Management: Poetry, SBT
  • Datenverarbeitung und Analyse: PySpark, Spark, GraphX
  • Cloud-Services: AWS (EMR, S3, SSM, Kinesis, Redshift)
  • Datenintegration und Workflow-Orchestrierung: Airflow, NiFi
  • Datenbanken: MS SQL Server, SAP HANA
  • Containerisierung und Orchestrierung: Docker, Kubernetes
  • Versions­verwaltung und CI/CD: GitHub, Jenkins, Bitbucket
  • Artifact-Management: JFrog Artifactory
Aug. 2015 - März 2018
2 Jahren 8 Monaten
Hamburg, Deutschland

Data Engineer

codecentric AG

  • codecentric AG ist ein deutscher IT-Dienstleister mit 15 Standorten in Deutschland und weiteren europäischen Ländern, Hauptsitz in Solingen. Das Unternehmen entwickelt maßgeschneiderte Softwarelösungen für Kunden und beschäftigt rund 450 Experten im Bereich agile Softwareentwicklung.
  • Bei codecentric war ich als Engineer in einer Business Unit für Data Science und Machine Learning tätig und habe an Kunden- und Inhouse-Projekten mitgewirkt.
Nov. 2014 - Mai 2015
7 Monaten
Hamburg, Deutschland

Scala Developer

DIGITEC GmbH

  • DIE DIGITEC GmbH ist ein deutscher Softwareanbieter mit Sitz in Hamburg, der Software für Finanz- und Bankenbranche entwickelt, vertreibt und supportet, u. a. für den Handel an Geld- und Devisenmärkten.
  • Als Entwickler in einem Scrum-Team habe ich Funktionen für die nächste Version der unternehmenseigenen Desktop-Software-Suite implementiert.

Zusammenfassung

Softwareingenieur mit über 5 Jahren Erfahrung in der Entwicklung datengetriebener Softwarelösungen für den Bildungsbereich. Ich habe Unternehmen dabei unterstützt, ihre Daten effektiv zu nutzen – von der Implementierung von Machine-Learning-Services zur Optimierung der Werbeeinnahmen bis hin zum Aufbau eines Data Lakes, der verschiedene Datenquellen integriert und eine unternehmensweite 360°-Sicht auf die wichtigsten Daten in der Cloud ermöglicht, um umsetzbare Erkenntnisse zu gewinnen.

Sprachen

Deutsch
Muttersprache
Englisch
Verhandlungssicher
Französisch
Grundkenntnisse

Ausbildung

Georg-August-Universität Göttingen

Promotion · Mathematik · Göttingen, Deutschland

Bergische Universität Wuppertal

Diplom · Mathematik und Informatik (Nebenfach) · Wuppertal, Deutschland

Zertifikate & Bescheinigungen

AWS Certified Cloud Practitioner

AWS

Confluent Developer Training: Building Kafka Solutions

Confluent

Amazon Detective Deep Dive

A Cloud Guru

Applied AI with Deep Learning

Coursera

BerkeleyX – CS190.1x: Scalable Machine Learning

edX

Building Machine Learning Pipelines on AWS

A Cloud Guru

Cluster Analysis in Data Mining

Coursera

Data Streaming Nanodegree

Udacity

Databricks Lakehouse Fundamentals

Databricks Academy

Deploying Applications with AWS CDK

A Cloud Guru

Developing Data Products

Coursera

Exploratory Data Analysis

Coursera

Functional Programming Principles in Scala

Coursera

Getting Started with Google Kubernetes Engine

Coursera

Introduction to Big Data with Apache Spark

edX

Kotlin for Java Developers

Coursera

Pattern Discovery in Data Mining

Coursera

Practical Event-Driven Security with AWS

A Cloud Guru

R Programming

Coursera

Statistical Inference

Coursera

Terraform Basics

Coursera

Text Mining and Analytics

Coursera

Ähnliche Freelancer

Entdecken Sie andere Experten mit ähnlichen Qualifikationen und Erfahrungen.