Implementierte CI/CD-Prozesse mit GitLab, Python und Shell-Skripten zur Automatisierung
Entwickelte AWS Lambda-Funktionen zur Verarbeitung verschachtelter JSON-Daten und erstellte skalierbare AWS-Datenpipelines mit VPC, EC2, S3, ASG, EBS, Snowflake, IAM, CloudFormation, Route 53, CloudWatch, CloudFront, CloudTrail
Konfigurierte ELBs und Auto Scaling für Fehlertoleranz und Kosteneffizienz
Verwaltete Metadaten und Datenherkunft im AWS Data Lake mit Lambda und Glue
Integrierte Hadoop-Jobs mit Autosys und entwickelte Sessionisierungsalgorithmen für Website-Analysen
Entwickelte RESTful- und SOAP-APIs mit Swagger und testete sie mit Postman
Leitete Datenmigrationsprojekte mit HVR, StreamSets und Oracle GoldenGate für Echtzeit-Replikation
Verwaltete ETL mit Informatica PowerCenter und erstellte StreamSets-Pipelines
Konfigurierte AWS DMS und entwarf Integrationen von AWS API Gateway und Lambda mit Snowflake und DynamoDB
Erstellte ETL-Pipelines von S3 nach DynamoDB und Snowflake und führte Datenformatkonvertierungen durch
Verwendete Trifacta für Data Wrangling und modellierte Daten mit Stern- und Schneeflockenschema sowie SCD
Erstellte ML-PoCs, Sqoop-Importe nach HDFS, Hive-Tabellen und Spark-Anwendungen in Scala
Unterstützte SIT, UAT und Produktion
Technologien: Hadoop, Hive, Zookeeper, MapR, Teradata, Spark, Kafka, NiFi, MongoDB, Python, AWS, Scala, Oozie
Entwarf und implementierte End-to-End-Datenpipelines auf GCP und AWS mit Airflow, Docker und Kubernetes
Erstellte ETL/ELT-Prozesse für Datenerfassung und -transformation in GCP und setzte Cloud Functions ein, um CSV-Dateien in BigQuery zu laden
Entwickelte Informatica PowerExchange- und Data-Quality-Lösungen und verbesserte die Datenqualität um 50 %
Verarbeitete Daten von Google Pub/Sub nach BigQuery mit Dataflow und Python
Führte Datenanalyse, Migration, Bereinigung und Integration mit Python und PL/SQL durch
Entwickelte logistische Regressionsmodelle und nahezu Echtzeit-Spark-Pipelines
Implementierte Apache Airflow zur Pipeline-Orchestrierung
Technologien: GCP (BigQuery, Cloud Functions, Dataflow, Pub/Sub), AWS, Airflow, Python, Spark, SQL, Docker, Kubernetes, Pandas, NumPy, Scikit-learn
Verfügt über 13,1 Jahre Erfahrung im Data Engineering. Datenbankentwicklung einschließlich Architekturentwurf, Entwicklung, Systemintegration und Infrastrukturvorbereitung, Implementierung, Wartung und Support mit Erfahrung in Cloud-Plattformen wie AWS sowie Microsoft Security und Azure Data Factory. Arbeitete an Funktionen für Projekt-Upgrades und Migrationen in modernen Tool-APIs. Experte im Verständnis von Daten sowie im Entwerfen und Implementieren von Unternehmensplattformen wie Data Lakes und Data Warehouses. Mehrjährige Erfahrung mit Databricks sowie AWS- und GCP-Framework-Tools wie AWS Glue Studio, Athena und Spark-Clustern. Gutes Verständnis relationaler Datenbanken und praktische Erfahrung in der Erstellung von Datenbankanwendungen mit Performance-Tuning und View-Optimierung auf modernen On-Premises-Tool-Frameworks. Umfangreiche Erfahrung mit AWS-EMR-Clustern und dem Erstellen optimierter Glue-Jobs gemäß den Geschäftsanforderungen. Entwickelte Spark-Anwendungen mithilfe von Spark SQL-APIs, DataFrames und Datasets in Kombination mit API Gateway. Erstellung eines Glue-Jobs oder einer Referenzimplementierung zur De-Identifizierung von PHI-Spalten mithilfe von Glue-Daten. Ziel ist es, eine durchgearbeitete Referenzimplementierung zur PHI-De-Identifizierung für Data Operations bereitzustellen, um de-identifizierte Daten für die Integration zu liefern. Leitfaden zur PHI-De-Identifizierung mit Glue DataBrew-Rezepten oder -Jobs, die eine große Stichprobe für eine Referenzimplementierung für einen bestimmten Integrationskunden de-identifizieren. Definition des DataBrew-Rezepts in Git gespeichert. Daten werden im Haupt-HAP-DEV-Stack gemäß der Integration ingestiert, damit die Referenzimplementierungslösung aus einem de-identifizierten Bucket liest und an die richtige Ingestionsstelle im Ingress für den Kundendatentyp schreibt; ein Daten-Skript ist erforderlich, damit die Dbt-Modelle für die oben genannte Integration wie erwartet ausgeführt werden können. Überprüfung und Freigabe der Referenzimplementierung durch DataOps. Dokumentation der Referenzimplementierung und der PHI-Richtlinien im ADO-Wiki. Beispielhafte Kundenintegration für die Referenzimplementierung identifiziert. Sie enthält 'hia-hoc' im Titel. Der AWS-Bucket 'hia-hoc-ingress' ist in AWS-Knoten partitioniert, was bei der Migration in ein Databricks Data Warehouse hilft. Dies dient als Lösung, um Trainingsdatensätze zu erstellen und zu trainieren sowie eine Spark-Cluster-Umgebung bereitzustellen, um die Datenmenge und Gigabyte-Echtzeit-Batch-Daten mittels Streaming-Analytics zu analysieren und zu verarbeiten. Kafka-Connectors nutzen Reflections, um Code-Duplikate zu vermeiden; Annotations und DataBind in Scala-Clustern ermöglichen die Serialisierung von Fehlern in Tools für AWS-Event-Consumer-Client-Quellaufzeichnungen, beim Sinking und bei Transformationen für Lambda- und Pytest-Anwendungsfälle; Datenverarbeitungspipelines in großem Maßstab werden mit verteilten Speicherplattformen wie HDFS, S3 und NoSQL-Datenbanken in einer produktiven CI/CD-Umgebung erstellt und bereitgestellt. Verteilte Verarbeitungsplattformen wie Hadoop, Spark oder PySpark. Hive-Tabellen in End-to-End-Big-Data-Lösungen, einschließlich Datenaufnahme, Datenbereinigung, ETL, Erstellung von Data Marts und Bereitstellung der Daten für die Nutzer. Komplexe Datensätze aus verschiedenen Quellen werden verarbeitet und auf einer einheitlichen Compute-Plattform zusammengeführt, sowohl bei statischer als auch bei Echtzeit-Datenaufnahme. Abfrageerstellung (Advanced SQL), vertraute Arbeit mit NoSQL-Datenbanken, Datenaustausch über Microservices, API-Gateway und Sprachen wie R oder Python sowie Skripterstellung in Unix-Befehlen, Unix-Shells und Servern. Scala-Features für ETL/ELT-Extraktion, Datenmodellierung und optimale Integrationen mit internen oder externen Business-Key-Plattformen bei fehlenden Daten, Datenverarbeitungsvorlagen, kategorialen Daten und R-Programmierung.
Entdecken Sie andere Experten mit ähnlichen Qualifikationen und Erfahrungen.
2025 © FRATCH.IO GmbH. All rights reserved.