Nagaraju Anthati
Senior Data Scientist
Erfahrungen
Senior Data Scientist
JPMC
- Entworfen und eingesetzt bayessche Marketing-Mix-Modelle (MMM) mit PyMC-3+ und PySpark, um ROI und kanalspezifische Elastizitäten in Einzelhandels- und Asset-Management-Portfolios zu quantifizieren.
- Entwickelt ETL- und Feature-Pipelines in Airflow und AWS Databricks und automatisiert die Aufnahme von Marketing-, Transaktions- und Verhaltensdaten im Terabyte-Bereich aus S3, Hive, Postgres und Kafka.
- Aufbau einer Delta Lake- und Apache Iceberg-Architektur zur Unterstützung von Adstock-, Carry-over- und saisonalen ETL-Transformationen für Modelldaten.
- Implementiert hierarchische bayessche Strukturen und regressionsbasierte MMMs mit NumPy, PyMC und TensorFlow Probability, um Mehrregioneneffekte zu modellieren.
- Optimiert PySpark-Jobs mit Liquid Clustering und adaptiver Partitionierung, wodurch die Laufzeit der MMM-Datenaufbereitung um ca. 40 % reduziert wurde.
- Automatisiert Modelltraining, Versionierung und Deployment mittels MLflow und Databricks Asset Bundles, um Reproduzierbarkeit und Compliance sicherzustellen.
- Gestreamt Werbeeinblendungs- und Konversionsdaten in nahezu Echtzeit aus Multi-Tenant-Kafka-Clustern in Modellpipelines.
- Implementiert probabilistische Inferenz-Workflows auf AWS EMR mit verteiltem MCMC-Sampling, was die Konvergenzzeit deutlich verkürzte.
- Bereitgestellt Dashboards zur Modell-Erklärbarkeit in Plotly Dash zur Visualisierung von Posterior-Verteilungen, Kanaleffekten und Unsicherheitsintervallen.
- Eingesetzt bayessche Regularisierung und Feature-Selection-Techniken, um die Leistung der MMM zu optimieren.
- Integriert MMM-Ergebnisse in Snowflake und AWS RDS für BI- und Marketing-Analytics-Zwecke.
- Implementiert Data-Quality-Monitoring mit Great Expectations und Validierung in allen ETL-Workflows.
- Zusammengearbeitet mit Quant-Forschungsteams, um MMM-basierte Elastizitäten in Finanzprognosemodelle zu integrieren.
- Automatisierte CI/CD-Pipelines mit Jules und ServiceNow für Modellretraining und Deployment.
- Bereitgestellt funktionsübergreifende MMM-Insights für Marketing-, Finanz- und Analytics-Teams zur Unterstützung der Budgetoptimierung.
- Definiert und implementiert fortgeschrittenes eCommerce-Tracking für Online-Transaktionen, was granulare Berichte zu Produktperformance und zur Analyse der Customer Journey ermöglicht.
- Integriert Google Analytics in Drittanbieterplattformen wie Google Ads und CRM-Systeme, um plattformübergreifende Attribution und nahtlosen Datenfluss zu ermöglichen.
- Regression, Entscheidungsbäume und Clustering eingesetzt, um Kundenverhalten vorherzusagen und Zielgruppen für gezieltes Marketing zu segmentieren.
- Entwickelt ein Multi-Touch-Attributionsmodell, um Konversionszuweisungen über digitale Touchpoints genau vorzunehmen.
- Implementiert Resilienz, Zuverlässigkeit und Verfügbarkeit verschiedener Asset- und Wealth-Management-Tools sowohl On-Premise als auch in der Cloud.
- Durchgeführt Abgleich und Reporting-Integration von Fondspositionen, Instrumenten, Bargeld und Geldmarktmärkten.
- Verwaltet Change Management, Release-Prozesse und Release-Management mithilfe von Jules-Pipelines und ServiceNow.
- Erzeugt AFX-Merchant-Reports, P&L-Validierung und Reportings für verschiedene Fonds, Assets und Instrumente.
- Implementiert eine Echtzeit-Tagesladezustandslösung mittels Geneos-Dashboards.
- Bereitgestellt kundenseitigen Support für verschiedene MMM- und ML-Aktivitäten im Asset- und Wealth Management.
Data Scientist - MMM/ML
Glaxo Smith Kline
- Konzipiert und implementiert bayessche MMM-Frameworks in PyMC, um ROI über kanalübergreifende Marketingkampagnen im Bereich Consumer Health und Pharma zu bewerten.
- End-to-End-ETL-Pipelines mit Airflow, Kafka, Azure Data Factory und Databricks Spark aufgebaut, die CRM-, Vertriebs-, Planungs- und Prozessdaten (>100 TB) integrieren.
- Probabilistische Regressionsmodelle mit hierarchischen Priors entwickelt, um Heterogenität auf Kampagnen-, Regionen- und HCP-Ebene zu erfassen.
- Schema-evolving Datenmodelle mit offenen Tabellenformaten und ADLS Gen2-Integration erstellt.
- Bayessche Inferenz-Workflows mit MCMC-Sampling auf Azure Databricks implementiert, um Kanalspezifische Elastizitäten zu schätzen.
- Individuelle Priors entwickelt, die domänenspezifisches Wissen wie Zerfallsraten, Carry-over und Sättigungseffekte abbilden.
- Automatisierte Trainings- und Evaluationspipelines mit Azure ML und MLflow erstellt, mit versionierten Experimenten.
- Streaming-Analytics mit Kafka und Flink implementiert, um MMM-Datensätze aus digitalen und Feldsystemen kontinuierlich zu aktualisieren.
- PySpark-Feature-Stores und Validierungsschichten aufgebaut, um Datenqualität und Konsistenz sicherzustellen.
- Modelldiagnosen mit WAIC, LOO-CV und posterior predictive Checks durchgeführt.
- Power BI- und Plotly Dash-Dashboards erstellt, damit Marketingteams MMM-Insights und Posterior-ROI-Kurven visualisieren können.
- Daten-Governance, Lineage-Tracking und GDPR/GxP-Compliance über alle Azure-Datenpipelines sichergestellt.
- Legacy-MMM-Workloads von On-Prem-HDP zu Azure Databricks migriert, Skalierbarkeit verbessert und Verarbeitungszeit um 60 % reduziert.
- Budgetoptimierungssimulatoren in Python unter Verwendung von Prinzipien der Bayesschen Entscheidungstheorie entwickelt.
- Zusammenarbeit mit Commercial-Analytics-Teams, um MMM-Insights in Prognose- und Promotionsplanungsmodelle zu operationalisieren.
- Arbeit an cloudbasierten Kafka-Datenquellen und Streaming mittels Kafka-Connectoren und Flink.
- Standardisierte SQL-Engine-Cluster mit Presto DB eingerichtet.
- Virtuelle Cloud-Datenlager mit Snowflake aufgebaut und Datenabfragen mit SnowSQL, Spark-Jobs und Tez durchgeführt.
- Dokumentation in Confluence gepflegt, Code Reviews durchgeführt und Builds mit Groovy auf Jenkins verwaltet.
Data Engineer
Visa Europe
- Datenanalyse auf CDH5- und CDH6-Clustern mit Apache Hue durchgeführt.
- Autoscaling und Wartung von AWS EMR-Clustern verwaltet.
- Massive Data-Warehouse-Lösungen implementiert, um 800 TB Daten von DB2-Speicher nach Hadoop auszulagern.
- Streaming-Prozesse für Transaktions- und Abrechnungsdaten mit Kinesis eingerichtet.
- Workflow-Planungen mit Airflow und Oozie implementiert.
- Streaming-Ingestion auf der Confluent-Kafka-Plattform mit 10 Broker-Knoten aus verschiedenen Datenquellen bereitgestellt.
Hadoop/Big Data Engineer
Solera Holdings
- Mit Hadoop, Sqoop, Hive, HBase, Spark, Akka, Lucene, Solr, Pig, Pentaho, Hue und Scala gearbeitet, um Big-Data-Lösungen zu entwickeln.
Big Data Hadoop Developer
Silicon Integra Limited
- Hadoop- und Big-Data-Pipelines entwickelt mit Hadoop, Sqoop, R, Kite SDK, Kudu, Hive (CDH5.4, CDH5.6), HBase, Impala, Hue, Spark, Oozie, AWS EMR, Azure, Solr, Pig, Paxata, Scala und Presto DB.
- Bewertungs- und Schätzalgorithmen angewendet.
Hadoop-Entwickler / Analystenberater
Nortech Solutions
- Entwickelte Big-Data-Lösungen mit Hadoop, Sqoop, Hive, HBase, Spark, Akka, Lucene, Solr, Pig, Pentaho, Hue und Scala.
Big-Data-Entwickler/Ingenieur
Nextgen Solutions
- Entwickelte Big-Data-Anwendungen mit Hadoop, Hive, Scala, JSF, MongoDB, HBase, ActiveMQ und Multithreading.
Big-Data/Hadoop-Ingenieur
Tata Telecom
- Implementierte Big-Data-Analysen und Hadoop-Ökosystemlösungen mit Hadoop Analytics, Pentaho, Java, Python und J2EE.
Zusammenfassung
Ich verfüge über insgesamt mehr als 13 Jahre Erfahrung in der Planung, dem Aufbau, der Umsetzung und der Integration von kommerziellen Projekten im großen Maßstab in verschiedenen Branchen wie Finanzen, Einzelhandel, Versicherungen, Banking, High-Tech, Social Media, Öl und Gas sowie Netzwerktechnik/Telekommunikation. Nach meinem Karrierestart als Graduate Systems Engineer bei TCS war ich an groß angelegten Java- und Hadoop-Projekten beteiligt, die hoch skalierbar, verteilt und hochverfügbar sind. Ich habe mit verschiedenen Cloud-Umgebungen wie AWS und Azure sowie Open-Source-Tools für Cloud-Bereitstellung und -Konfiguration wie OpenStack und OpenNebula gearbeitet. Dabei habe ich praktische Erfahrungen mit NoSQL-Datenbanken wie MongoDB, HBase und Cassandra gesammelt. Ich habe mit verschiedenen agilen Methoden wie TDD, BDD, Pair Programming, Continuous Integration und Scrum gearbeitet. In Programmiersprachen wie Java, Scala, Python, Golang, C, PySpark, Shell-Scripting, J2EE, JSF, im Apache Hadoop-Ökosystem, bei Hortonworks, Cloudera, Accel Data ODP, ETL-Verfahren und Analytics-Plattformen gearbeitet.
Fähigkeiten
- Pymc
- Pymc-marketing
- Bayessche Modellierung
- Regression
- Klassifikation/clustering
- Zeitreihenprognosen
- Google Analytics
- Generative Ki
- Langchain/langgraph
- Milvus
- Neilson Marketing Cloud
- Python
- Sql
- Java
- Git
- Docker
- Mongodb
- R
- Presto Db
- Linux/unix
- Github
- Spring Boot
- Künstliche Intelligenz
- Etl
- Cloud-dienste
- Bash
- Ansible
- Graphql
- Nosql
- Eks
- Jupyterhub
- Scala
- Kubernetes
- Apache Hadoop
- Confluent/kafka
- Oracle-datenbank
- Azure Adf
- Azure Data Lake
- Databricks
- Azure Synapse
- Dataiku
- Sagemaker
- Azure Dsvm
- Slurm/lsf
- Datenanalyse
- Statistische Modellierung
- Modellbereitstellung
- Cloud Data Engineering (Aws, Azure)
- Erweiterte Analysen
- Maschinelles Lernen
- Generative Ki
- Lösungsentwicklung
- Streaming-daten-pipelines
- Staging-tabellen
- Lösungen Mit Geringer Latenz
- Multitasking-fähigkeiten
- Entscheidungsfindung
- Selbstmotiviert
Sprachen
Ausbildung
Northumbria University
Master of Science · Informatik · Newcastle upon Tyne, Vereinigtes Königreich
JNTU
Bachelor of Technology · Elektrotechnik, Elektronik und Kommunikationstechnik · Indien
Ähnliche Freelancer
Entdecken Sie andere Experten mit ähnlichen Qualifikationen und Erfahrungen.