Amit P.

Senior AWS-Dateningenieur

Bokaro Steel City, Indien

Erfahrungen

Jan. 2023 - Feb. 2025
2 Jahren 2 Monaten
Bengaluru, Indien

Senior AWS-Dateningenieur

Keeno Technologies

  • Entwickelte Python-Skripte zur Automatisierung von Prozessen, Durchführung von Datenanalysen, Nutzung von Streaming-APIs, Verarbeitung von Datenströmen mit Pandas DataFrame und zum Vorbereiten von Daten für Aggregation, Bereinigung und den Aufbau von Data Marts
  • Implementierte analytische Vorhersagen basierend auf Machine-Learning-Daten, Datenvisualisierung und Integration von Geschäftslogik
  • Erstellte ELT-Pipelines mit einem visuellen Editor in DynamoDB und Kinesis, manipulierte Statistiken mit Python und Spark Streaming
  • Verwendete AWS Lambda mit Snowflake-Engine in ECR-Vorlagen und erstellte AWS-Glue-Transformationen für Redshift Spectrum, um Daten von S3 und externen Quellen zu verschieben
  • Ermöglichte Data Scientists die Nutzung von GCP- und Azure Data Lake-Pipelines für Forschung und Experimente
  • Erstellte automatisierte Glue-Vorlagen und Lambda-Skripte auf EC2 für Batch-Data-Streaming-Plattformen für globale Partner
  • Trennte Datenübertragungsdateien von S3, wodurch ML- und BI-Komponenten für Forschung und Analyse verfügbar wurden
  • Umgebung: Python, Spark, AWS Glue, S3, Databricks, Kinesis, Lambda, CloudFormation, DynamoDB, CodePipeline, CodeBuild, Step Functions, Athena, Snowflake, Autosys, Airflow, NiFi, Glue DataBrew
Okt. 2021 - Dez. 2022
1 Jahr 3 Monaten
Vereinigte Staaten

Analytischer Dateningenieur

Brillio

  • Analysierte mehrere Quellsysteme und extrahierte Daten mit Apache Spark auf Databricks
  • Transformierte und lud Daten nach S3, erstellte ELT-Pipelines für Kunden wie UMG, Realtor, KFC, McD und Investment-Partner
  • Erstellte AWS-Glue-Transformationen für Redshift Spectrum und Reverse-Pipelines, um Data Scientists die Nutzung von GCP-Umgebungen zu ermöglichen
  • Koordinierte mit BI-Teams zur Bereitstellung von Reporting-Daten, entwarf und entwickelte komplexe Datenpipelines und schrieb Produktionscode für Logging und Abfragen
  • Erstellte ETL- und ELT-Pipelines mit Produktivitäts- und Datenqualitätsprüfungen
  • Erstellte automatisierte Glue-Vorlagen und Lambda-Skripte auf EC2 und RDS für Batch-Data-Streaming-Plattformen
  • Exportierte Data Catalog, CloudWatch-Metriken, Step-Functions-Workflows und versionierte Code mit GitHub und GitLab
  • Umgebung: Python, Spark, AWS Glue, S3, Lambda, CloudFormation, DynamoDB, CodePipeline, CodeBuild, Pytest, Step Functions, Athena, Snowflake, Autosys, Shell Scripting
Juli 2018 - Sept. 2021
3 Jahren 3 Monaten
Bengaluru, Indien

Senior Dateningenieur

Enum Informatics Private Ltd

  • Extrahierte Daten aus SQL- und Oracle-Quellen und lud sie im Bulk in AWS S3
  • Erstellte ETL-Pipelines für Einzelhandelskunden auf Big-Data-Architektur, migrierte Metadaten und Glue-Schemas in die Business-Schicht
  • Nutzte AWS Glue für Transformationen, skalierbares Laden von Daten in die verarbeitete Schicht im Data Lake und stellte Daten über Athena-Views bereit
  • Koordinierte mit BI-Teams für Reporting und Analyse, entwarf Modelle und komplexe Datenpipelines und schrieb Produktionscode in Visual Studio Code
  • Erstellte ETL-Workflows mit Produktivitäts- und Datenqualitätsprüfungen
  • Technologien: Python, Spark, AWS Glue, S3, Athena, KMS, RDS
Juli 2017 - Juni 2018
1 Jahr
Bengaluru, Indien

Senior Dateningenieur

KPIT

  • Extrahierte Daten aus SQL-Quellen und lud sie im Bulk in AWS S3
  • Migrierte Metadaten und Glue-Schemas in die Business-Schicht und nutzte AWS Glue für Transformationen und das Laden von Daten in die verarbeitete Schicht
  • Stellte verarbeitete Daten über Athena-Views bereit
  • Koordinierte mit BI-Teams zur Bereitstellung von Reporting-Daten, entwarf Modelle und komplexe Datenpipelines
  • Technologien: Python, Spark, AWS Glue, S3, Athena
Juni 2016 - Juni 2017
1 Jahr 1 Monate
Oakland, Vereinigte Staaten

Senior Dateningenieur

Kaiser Permanente

  • Entwarf und implementierte skalierbare Big-Data-Lösungen mit Tools des Hadoop-Ökosystems: Hive, MongoDB, Spark Streaming
  • Entwickelte Echtzeit-Datenpipelines mit Kafka und Spark Streaming und speicherte Daten im Parquet-Format auf HDFS
  • Implementierte Daten-Transformationen mit Pig, Hive-Skripts, Sqoop und Java-MapReduce-Jobs
  • Integrierte Analysen mit Apache NiFi und Neo4J und setzte Agile-Methoden mit Daily Scrums und Sprint-Planung ein
  • Architekturierte Datenlösungen unter Nutzung von AWS Glue, S3, Redshift und Athena für Echtzeit-Analytics
  • Entwickelte und optimierte AWS Glue-Jobs für ETL, implementierte Data Cataloging und Metadatenmanagement
  • Reduzierte die ETL-Ausführungszeit um 35 % und die Verarbeitungskosten um 20 %
  • Betreute Junior Engineers bei Best Practices für AWS Glue
  • Erstellte ELT-Pipelines mit Airflow, Python, dbt, Stitch und GCP-Lösungen und leitete Analysten bei dbt-Modellierung und inkrementellen Views an
  • Verwaltete ETL-Prozesse mit AWS Glue, Lambda, Kinesis und Snowflake unter Einsatz von dbt und Matillion
  • Nutzte AWS Glue DataBrew für visuelle Datenaufbereitung und Self-Service-Wrangling
  • Arbeitete an MongoDB-CRUD, Indexierung, Replikation und Sharding
  • Umfangreiche Erfahrung mit Apache Airflow und Skripting für Scheduling und Automatisierung
  • Entwarf Wherescape RED-Datenflüsse und -Mappings, implementierte Azure Data Factory- und Databricks-Lösungen
  • Erstellte Echtzeit-Log-Pipelines mit Cribl, extrahierte Feeds mit Kafka und Spark Streaming, schrieb Hive- und Sqoop-Jobs für Petabyte-Daten
  • Implementierte Apache NiFi-Topologien, MapReduce-Jobs, Oozie-Workflows und setzte Agile/DataOps ein
  • Technologien: HIPAA, Hadoop, Hive, Sqoop, Pig, Java, NiFi, MongoDB, Python, Scala, Spark, Oozie, HBase, Cassandra, Trifacta
Okt. 2014 - Mai 2016
1 Jahr 8 Monaten
Atlanta, Vereinigte Staaten

Senior Data Engineer

The Home Depot

  • Implementierte CI/CD-Prozesse mit GitLab, Python und Shell-Skripten zur Automatisierung

  • Entwickelte AWS Lambda-Funktionen zur Verarbeitung verschachtelter JSON-Daten und erstellte skalierbare AWS-Datenpipelines mit VPC, EC2, S3, ASG, EBS, Snowflake, IAM, CloudFormation, Route 53, CloudWatch, CloudFront, CloudTrail

  • Konfigurierte ELBs und Auto Scaling für Fehlertoleranz und Kosteneffizienz

  • Verwaltete Metadaten und Datenherkunft im AWS Data Lake mit Lambda und Glue

  • Integrierte Hadoop-Jobs mit Autosys und entwickelte Sessionisierungsalgorithmen für Website-Analysen

  • Entwickelte RESTful- und SOAP-APIs mit Swagger und testete sie mit Postman

  • Leitete Datenmigrationsprojekte mit HVR, StreamSets und Oracle GoldenGate für Echtzeit-Replikation

  • Verwaltete ETL mit Informatica PowerCenter und erstellte StreamSets-Pipelines

  • Konfigurierte AWS DMS und entwarf Integrationen von AWS API Gateway und Lambda mit Snowflake und DynamoDB

  • Erstellte ETL-Pipelines von S3 nach DynamoDB und Snowflake und führte Datenformatkonvertierungen durch

  • Verwendete Trifacta für Data Wrangling und modellierte Daten mit Stern- und Schneeflockenschema sowie SCD

  • Erstellte ML-PoCs, Sqoop-Importe nach HDFS, Hive-Tabellen und Spark-Anwendungen in Scala

  • Unterstützte SIT, UAT und Produktion

  • Technologien: Hadoop, Hive, Zookeeper, MapR, Teradata, Spark, Kafka, NiFi, MongoDB, Python, AWS, Scala, Oozie

Feb. 2012 - Sept. 2014
2 Jahren 8 Monaten
Peoria, Vereinigte Staaten

Data Engineer

Caterpillar

  • Entwarf und implementierte End-to-End-Datenpipelines auf GCP und AWS mit Airflow, Docker und Kubernetes

  • Erstellte ETL/ELT-Prozesse für Datenerfassung und -transformation in GCP und setzte Cloud Functions ein, um CSV-Dateien in BigQuery zu laden

  • Entwickelte Informatica PowerExchange- und Data-Quality-Lösungen und verbesserte die Datenqualität um 50 %

  • Verarbeitete Daten von Google Pub/Sub nach BigQuery mit Dataflow und Python

  • Führte Datenanalyse, Migration, Bereinigung und Integration mit Python und PL/SQL durch

  • Entwickelte logistische Regressionsmodelle und nahezu Echtzeit-Spark-Pipelines

  • Implementierte Apache Airflow zur Pipeline-Orchestrierung

  • Technologien: GCP (BigQuery, Cloud Functions, Dataflow, Pub/Sub), AWS, Airflow, Python, Spark, SQL, Docker, Kubernetes, Pandas, NumPy, Scikit-learn

Zusammenfassung

Verfügt über 13,1 Jahre Erfahrung im Data Engineering. Datenbankentwicklung einschließlich Architekturentwurf, Entwicklung, Systemintegration und Infrastrukturvorbereitung, Implementierung, Wartung und Support mit Erfahrung in Cloud-Plattformen wie AWS sowie Microsoft Security und Azure Data Factory. Arbeitete an Funktionen für Projekt-Upgrades und Migrationen in modernen Tool-APIs. Experte im Verständnis von Daten sowie im Entwerfen und Implementieren von Unternehmensplattformen wie Data Lakes und Data Warehouses. Mehrjährige Erfahrung mit Databricks sowie AWS- und GCP-Framework-Tools wie AWS Glue Studio, Athena und Spark-Clustern. Gutes Verständnis relationaler Datenbanken und praktische Erfahrung in der Erstellung von Datenbankanwendungen mit Performance-Tuning und View-Optimierung auf modernen On-Premises-Tool-Frameworks. Umfangreiche Erfahrung mit AWS-EMR-Clustern und dem Erstellen optimierter Glue-Jobs gemäß den Geschäftsanforderungen. Entwickelte Spark-Anwendungen mithilfe von Spark SQL-APIs, DataFrames und Datasets in Kombination mit API Gateway. Erstellung eines Glue-Jobs oder einer Referenzimplementierung zur De-Identifizierung von PHI-Spalten mithilfe von Glue-Daten. Ziel ist es, eine durchgearbeitete Referenzimplementierung zur PHI-De-Identifizierung für Data Operations bereitzustellen, um de-identifizierte Daten für die Integration zu liefern. Leitfaden zur PHI-De-Identifizierung mit Glue DataBrew-Rezepten oder -Jobs, die eine große Stichprobe für eine Referenzimplementierung für einen bestimmten Integrationskunden de-identifizieren. Definition des DataBrew-Rezepts in Git gespeichert. Daten werden im Haupt-HAP-DEV-Stack gemäß der Integration ingestiert, damit die Referenzimplementierungslösung aus einem de-identifizierten Bucket liest und an die richtige Ingestionsstelle im Ingress für den Kundendatentyp schreibt; ein Daten-Skript ist erforderlich, damit die Dbt-Modelle für die oben genannte Integration wie erwartet ausgeführt werden können. Überprüfung und Freigabe der Referenzimplementierung durch DataOps. Dokumentation der Referenzimplementierung und der PHI-Richtlinien im ADO-Wiki. Beispielhafte Kundenintegration für die Referenzimplementierung identifiziert. Sie enthält 'hia-hoc' im Titel. Der AWS-Bucket 'hia-hoc-ingress' ist in AWS-Knoten partitioniert, was bei der Migration in ein Databricks Data Warehouse hilft. Dies dient als Lösung, um Trainingsdatensätze zu erstellen und zu trainieren sowie eine Spark-Cluster-Umgebung bereitzustellen, um die Datenmenge und Gigabyte-Echtzeit-Batch-Daten mittels Streaming-Analytics zu analysieren und zu verarbeiten. Kafka-Connectors nutzen Reflections, um Code-Duplikate zu vermeiden; Annotations und DataBind in Scala-Clustern ermöglichen die Serialisierung von Fehlern in Tools für AWS-Event-Consumer-Client-Quellaufzeichnungen, beim Sinking und bei Transformationen für Lambda- und Pytest-Anwendungsfälle; Datenverarbeitungspipelines in großem Maßstab werden mit verteilten Speicherplattformen wie HDFS, S3 und NoSQL-Datenbanken in einer produktiven CI/CD-Umgebung erstellt und bereitgestellt. Verteilte Verarbeitungsplattformen wie Hadoop, Spark oder PySpark. Hive-Tabellen in End-to-End-Big-Data-Lösungen, einschließlich Datenaufnahme, Datenbereinigung, ETL, Erstellung von Data Marts und Bereitstellung der Daten für die Nutzer. Komplexe Datensätze aus verschiedenen Quellen werden verarbeitet und auf einer einheitlichen Compute-Plattform zusammengeführt, sowohl bei statischer als auch bei Echtzeit-Datenaufnahme. Abfrageerstellung (Advanced SQL), vertraute Arbeit mit NoSQL-Datenbanken, Datenaustausch über Microservices, API-Gateway und Sprachen wie R oder Python sowie Skripterstellung in Unix-Befehlen, Unix-Shells und Servern. Scala-Features für ETL/ELT-Extraktion, Datenmodellierung und optimale Integrationen mit internen oder externen Business-Key-Plattformen bei fehlenden Daten, Datenverarbeitungsvorlagen, kategorialen Daten und R-Programmierung.

Sprachen

Englisch
Verhandlungssicher
Hindi
Verhandlungssicher
Marathi
Verhandlungssicher

Ausbildung

Okt. 2009 - Juni 2012

AIET College, Rajasthan Technical University

BCA, Spezialisierung in Informatik und Mathematik · Indien

Zertifikate & Bescheinigungen

AWS 2.0 Cloud

GCP

Python

Sie suchen Freelancer?Passende Kandidaten in Sekunden!
FRATCH GPT testen
Weitere Aktionen