Amit P. - Senior AWS-Dateningenieur

Zur Website

Bokaro Steel City, Indien

Erfahrungen

Jan. 2023 - Feb. 2025

2 Jahren 2 Monaten

Bengaluru, Indien

Senior AWS-Dateningenieur

Keeno Technologies

Entwickelte Python-Skripte zur Automatisierung von Prozessen, Durchführung von Datenanalysen, Nutzung von Streaming-APIs, Verarbeitung von Datenströmen mit Pandas DataFrame und zum Vorbereiten von Daten für Aggregation, Bereinigung und den Aufbau von Data Marts
Implementierte analytische Vorhersagen basierend auf Machine-Learning-Daten, Datenvisualisierung und Integration von Geschäftslogik
Erstellte ELT-Pipelines mit einem visuellen Editor in DynamoDB und Kinesis, manipulierte Statistiken mit Python und Spark Streaming
Verwendete AWS Lambda mit Snowflake-Engine in ECR-Vorlagen und erstellte AWS-Glue-Transformationen für Redshift Spectrum, um Daten von S3 und externen Quellen zu verschieben
Ermöglichte Data Scientists die Nutzung von GCP- und Azure Data Lake-Pipelines für Forschung und Experimente
Erstellte automatisierte Glue-Vorlagen und Lambda-Skripte auf EC2 für Batch-Data-Streaming-Plattformen für globale Partner
Trennte Datenübertragungsdateien von S3, wodurch ML- und BI-Komponenten für Forschung und Analyse verfügbar wurden
Umgebung: Python, Spark, AWS Glue, S3, Databricks, Kinesis, Lambda, CloudFormation, DynamoDB, CodePipeline, CodeBuild, Step Functions, Athena, Snowflake, Autosys, Airflow, NiFi, Glue DataBrew

Okt. 2021 - Dez. 2022

1 Jahr 3 Monaten

Vereinigte Staaten

Analytischer Dateningenieur

Brillio

Analysierte mehrere Quellsysteme und extrahierte Daten mit Apache Spark auf Databricks
Transformierte und lud Daten nach S3, erstellte ELT-Pipelines für Kunden wie UMG, Realtor, KFC, McD und Investment-Partner
Erstellte AWS-Glue-Transformationen für Redshift Spectrum und Reverse-Pipelines, um Data Scientists die Nutzung von GCP-Umgebungen zu ermöglichen
Koordinierte mit BI-Teams zur Bereitstellung von Reporting-Daten, entwarf und entwickelte komplexe Datenpipelines und schrieb Produktionscode für Logging und Abfragen
Erstellte ETL- und ELT-Pipelines mit Produktivitäts- und Datenqualitätsprüfungen
Erstellte automatisierte Glue-Vorlagen und Lambda-Skripte auf EC2 und RDS für Batch-Data-Streaming-Plattformen
Exportierte Data Catalog, CloudWatch-Metriken, Step-Functions-Workflows und versionierte Code mit GitHub und GitLab
Umgebung: Python, Spark, AWS Glue, S3, Lambda, CloudFormation, DynamoDB, CodePipeline, CodeBuild, Pytest, Step Functions, Athena, Snowflake, Autosys, Shell Scripting

Juli 2018 - Sept. 2021

3 Jahren 3 Monaten

Bengaluru, Indien

Senior Dateningenieur

Enum Informatics Private Ltd

Extrahierte Daten aus SQL- und Oracle-Quellen und lud sie im Bulk in AWS S3
Erstellte ETL-Pipelines für Einzelhandelskunden auf Big-Data-Architektur, migrierte Metadaten und Glue-Schemas in die Business-Schicht
Nutzte AWS Glue für Transformationen, skalierbares Laden von Daten in die verarbeitete Schicht im Data Lake und stellte Daten über Athena-Views bereit
Koordinierte mit BI-Teams für Reporting und Analyse, entwarf Modelle und komplexe Datenpipelines und schrieb Produktionscode in Visual Studio Code
Erstellte ETL-Workflows mit Produktivitäts- und Datenqualitätsprüfungen
Technologien: Python, Spark, AWS Glue, S3, Athena, KMS, RDS

Juli 2017 - Juni 2018

1 Jahr

Bengaluru, Indien

Senior Dateningenieur

KPIT

Extrahierte Daten aus SQL-Quellen und lud sie im Bulk in AWS S3
Migrierte Metadaten und Glue-Schemas in die Business-Schicht und nutzte AWS Glue für Transformationen und das Laden von Daten in die verarbeitete Schicht
Stellte verarbeitete Daten über Athena-Views bereit
Koordinierte mit BI-Teams zur Bereitstellung von Reporting-Daten, entwarf Modelle und komplexe Datenpipelines
Technologien: Python, Spark, AWS Glue, S3, Athena

Juni 2016 - Juni 2017

1 Jahr 1 Monate

Oakland, Vereinigte Staaten

Senior Dateningenieur

Kaiser Permanente

Entwarf und implementierte skalierbare Big-Data-Lösungen mit Tools des Hadoop-Ökosystems: Hive, MongoDB, Spark Streaming
Entwickelte Echtzeit-Datenpipelines mit Kafka und Spark Streaming und speicherte Daten im Parquet-Format auf HDFS
Implementierte Daten-Transformationen mit Pig, Hive-Skripts, Sqoop und Java-MapReduce-Jobs
Integrierte Analysen mit Apache NiFi und Neo4J und setzte Agile-Methoden mit Daily Scrums und Sprint-Planung ein
Architekturierte Datenlösungen unter Nutzung von AWS Glue, S3, Redshift und Athena für Echtzeit-Analytics
Entwickelte und optimierte AWS Glue-Jobs für ETL, implementierte Data Cataloging und Metadatenmanagement
Reduzierte die ETL-Ausführungszeit um 35 % und die Verarbeitungskosten um 20 %
Betreute Junior Engineers bei Best Practices für AWS Glue
Erstellte ELT-Pipelines mit Airflow, Python, dbt, Stitch und GCP-Lösungen und leitete Analysten bei dbt-Modellierung und inkrementellen Views an
Verwaltete ETL-Prozesse mit AWS Glue, Lambda, Kinesis und Snowflake unter Einsatz von dbt und Matillion
Nutzte AWS Glue DataBrew für visuelle Datenaufbereitung und Self-Service-Wrangling
Arbeitete an MongoDB-CRUD, Indexierung, Replikation und Sharding
Umfangreiche Erfahrung mit Apache Airflow und Skripting für Scheduling und Automatisierung
Entwarf Wherescape RED-Datenflüsse und -Mappings, implementierte Azure Data Factory- und Databricks-Lösungen
Erstellte Echtzeit-Log-Pipelines mit Cribl, extrahierte Feeds mit Kafka und Spark Streaming, schrieb Hive- und Sqoop-Jobs für Petabyte-Daten
Implementierte Apache NiFi-Topologien, MapReduce-Jobs, Oozie-Workflows und setzte Agile/DataOps ein
Technologien: HIPAA, Hadoop, Hive, Sqoop, Pig, Java, NiFi, MongoDB, Python, Scala, Spark, Oozie, HBase, Cassandra, Trifacta

Okt. 2014 - Mai 2016

1 Jahr 8 Monaten

Atlanta, Vereinigte Staaten

Senior Data Engineer

The Home Depot

Implementierte CI/CD-Prozesse mit GitLab, Python und Shell-Skripten zur Automatisierung
Entwickelte AWS Lambda-Funktionen zur Verarbeitung verschachtelter JSON-Daten und erstellte skalierbare AWS-Datenpipelines mit VPC, EC2, S3, ASG, EBS, Snowflake, IAM, CloudFormation, Route 53, CloudWatch, CloudFront, CloudTrail
Konfigurierte ELBs und Auto Scaling für Fehlertoleranz und Kosteneffizienz
Verwaltete Metadaten und Datenherkunft im AWS Data Lake mit Lambda und Glue
Integrierte Hadoop-Jobs mit Autosys und entwickelte Sessionisierungsalgorithmen für Website-Analysen
Entwickelte RESTful- und SOAP-APIs mit Swagger und testete sie mit Postman
Leitete Datenmigrationsprojekte mit HVR, StreamSets und Oracle GoldenGate für Echtzeit-Replikation
Verwaltete ETL mit Informatica PowerCenter und erstellte StreamSets-Pipelines
Konfigurierte AWS DMS und entwarf Integrationen von AWS API Gateway und Lambda mit Snowflake und DynamoDB
Erstellte ETL-Pipelines von S3 nach DynamoDB und Snowflake und führte Datenformatkonvertierungen durch
Verwendete Trifacta für Data Wrangling und modellierte Daten mit Stern- und Schneeflockenschema sowie SCD
Erstellte ML-PoCs, Sqoop-Importe nach HDFS, Hive-Tabellen und Spark-Anwendungen in Scala
Unterstützte SIT, UAT und Produktion
Technologien: Hadoop, Hive, Zookeeper, MapR, Teradata, Spark, Kafka, NiFi, MongoDB, Python, AWS, Scala, Oozie

Feb. 2012 - Sept. 2014

2 Jahren 8 Monaten

Peoria, Vereinigte Staaten

Data Engineer

Caterpillar

Entwarf und implementierte End-to-End-Datenpipelines auf GCP und AWS mit Airflow, Docker und Kubernetes
Erstellte ETL/ELT-Prozesse für Datenerfassung und -transformation in GCP und setzte Cloud Functions ein, um CSV-Dateien in BigQuery zu laden
Entwickelte Informatica PowerExchange- und Data-Quality-Lösungen und verbesserte die Datenqualität um 50 %
Verarbeitete Daten von Google Pub/Sub nach BigQuery mit Dataflow und Python
Führte Datenanalyse, Migration, Bereinigung und Integration mit Python und PL/SQL durch
Entwickelte logistische Regressionsmodelle und nahezu Echtzeit-Spark-Pipelines
Implementierte Apache Airflow zur Pipeline-Orchestrierung
Technologien: GCP (BigQuery, Cloud Functions, Dataflow, Pub/Sub), AWS, Airflow, Python, Spark, SQL, Docker, Kubernetes, Pandas, NumPy, Scikit-learn

Zusammenfassung

Verfügt über 13,1 Jahre Erfahrung im Data Engineering. Datenbankentwicklung einschließlich Architekturentwurf, Entwicklung, Systemintegration und Infrastrukturvorbereitung, Implementierung, Wartung und Support mit Erfahrung in Cloud-Plattformen wie AWS sowie Microsoft Security und Azure Data Factory. Arbeitete an Funktionen für Projekt-Upgrades und Migrationen in modernen Tool-APIs. Experte im Verständnis von Daten sowie im Entwerfen und Implementieren von Unternehmensplattformen wie Data Lakes und Data Warehouses. Mehrjährige Erfahrung mit Databricks sowie AWS- und GCP-Framework-Tools wie AWS Glue Studio, Athena und Spark-Clustern. Gutes Verständnis relationaler Datenbanken und praktische Erfahrung in der Erstellung von Datenbankanwendungen mit Performance-Tuning und View-Optimierung auf modernen On-Premises-Tool-Frameworks. Umfangreiche Erfahrung mit AWS-EMR-Clustern und dem Erstellen optimierter Glue-Jobs gemäß den Geschäftsanforderungen. Entwickelte Spark-Anwendungen mithilfe von Spark SQL-APIs, DataFrames und Datasets in Kombination mit API Gateway. Erstellung eines Glue-Jobs oder einer Referenzimplementierung zur De-Identifizierung von PHI-Spalten mithilfe von Glue-Daten. Ziel ist es, eine durchgearbeitete Referenzimplementierung zur PHI-De-Identifizierung für Data Operations bereitzustellen, um de-identifizierte Daten für die Integration zu liefern. Leitfaden zur PHI-De-Identifizierung mit Glue DataBrew-Rezepten oder -Jobs, die eine große Stichprobe für eine Referenzimplementierung für einen bestimmten Integrationskunden de-identifizieren. Definition des DataBrew-Rezepts in Git gespeichert. Daten werden im Haupt-HAP-DEV-Stack gemäß der Integration ingestiert, damit die Referenzimplementierungslösung aus einem de-identifizierten Bucket liest und an die richtige Ingestionsstelle im Ingress für den Kundendatentyp schreibt; ein Daten-Skript ist erforderlich, damit die Dbt-Modelle für die oben genannte Integration wie erwartet ausgeführt werden können. Überprüfung und Freigabe der Referenzimplementierung durch DataOps. Dokumentation der Referenzimplementierung und der PHI-Richtlinien im ADO-Wiki. Beispielhafte Kundenintegration für die Referenzimplementierung identifiziert. Sie enthält 'hia-hoc' im Titel. Der AWS-Bucket 'hia-hoc-ingress' ist in AWS-Knoten partitioniert, was bei der Migration in ein Databricks Data Warehouse hilft. Dies dient als Lösung, um Trainingsdatensätze zu erstellen und zu trainieren sowie eine Spark-Cluster-Umgebung bereitzustellen, um die Datenmenge und Gigabyte-Echtzeit-Batch-Daten mittels Streaming-Analytics zu analysieren und zu verarbeiten. Kafka-Connectors nutzen Reflections, um Code-Duplikate zu vermeiden; Annotations und DataBind in Scala-Clustern ermöglichen die Serialisierung von Fehlern in Tools für AWS-Event-Consumer-Client-Quellaufzeichnungen, beim Sinking und bei Transformationen für Lambda- und Pytest-Anwendungsfälle; Datenverarbeitungspipelines in großem Maßstab werden mit verteilten Speicherplattformen wie HDFS, S3 und NoSQL-Datenbanken in einer produktiven CI/CD-Umgebung erstellt und bereitgestellt. Verteilte Verarbeitungsplattformen wie Hadoop, Spark oder PySpark. Hive-Tabellen in End-to-End-Big-Data-Lösungen, einschließlich Datenaufnahme, Datenbereinigung, ETL, Erstellung von Data Marts und Bereitstellung der Daten für die Nutzer. Komplexe Datensätze aus verschiedenen Quellen werden verarbeitet und auf einer einheitlichen Compute-Plattform zusammengeführt, sowohl bei statischer als auch bei Echtzeit-Datenaufnahme. Abfrageerstellung (Advanced SQL), vertraute Arbeit mit NoSQL-Datenbanken, Datenaustausch über Microservices, API-Gateway und Sprachen wie R oder Python sowie Skripterstellung in Unix-Befehlen, Unix-Shells und Servern. Scala-Features für ETL/ELT-Extraktion, Datenmodellierung und optimale Integrationen mit internen oder externen Business-Key-Plattformen bei fehlenden Daten, Datenverarbeitungsvorlagen, kategorialen Daten und R-Programmierung.

Sprachen

Englisch

Verhandlungssicher

Hindi

Verhandlungssicher

Marathi

Verhandlungssicher

Ausbildung

Okt. 2009 - Juni 2012

AIET College, Rajasthan Technical University

BCA, Spezialisierung in Informatik und Mathematik · Indien

Zertifikate & Bescheinigungen

AWS 2.0 Cloud

GCP

Python

Sie suchen Freelancer?Passende Kandidaten in Sekunden!

FRATCH GPT testen

Erfahrungen

Senior AWS-Dateningenieur

Keeno Technologies

Analytischer Dateningenieur

Brillio

Senior Dateningenieur

Enum Informatics Private Ltd

Senior Dateningenieur

KPIT

Senior Dateningenieur

Kaiser Permanente

Senior Data Engineer

The Home Depot

Data Engineer

Caterpillar

Zusammenfassung

Sprachen

Ausbildung

AIET College, Rajasthan Technical University

BCA, Spezialisierung in Informatik und Mathematik · Indien

Zertifikate & Bescheinigungen

AWS 2.0 Cloud

GCP

Python

Ähnliche Freelancer

Freiberuflicher KI-Stratege & Governance-Experte

Senior Data/ML-Berater & Technischer Leiter

Solution-Architekt

Data Scientist & KI Ingenieur & KI Architekt

Full-Stack-KI- und Produktberater

Dateningenieur

Freiberufler, Lösungsarchitekt

Datenarchitekt

Tech Lead Kundenbasisdokumentation Automatisierung

Senior Data Engineer

AR/VR/XR-Architekt

Senior Data Scientist | KI- und STEM-Forschungsingenieur | Dozent

Senior Systemingenieur

Data-Science-Experte und KI-Stratege

IT-Freelancer - AWS, Daten, DevOps, KI