Entwarf und implementierte ein Produktions-Multi-Agenten-System mit einer fünfstufigen Orchestrierung (Planner, Actioner, Executor, Feedback, Evaluator) und erreichte eine Erfolgsrate von 85% (+20% gegenüber V2) durch modulare Pipeline-Struktur und selbstkorrigierende Feedback-Schleifen
Entwickelte eine End-to-End-RAG-Retrieval-Pipeline mit Sliding-Window-Zerlegung (50 Zeilen + 10 Zeilen Überlappung), hybridem BM25+Vektor-Suchverfahren und paralleler LLM-Zusammenfassung, wodurch die Treffergenauigkeit um 85% verbessert und Halluzinationen um 35% reduziert wurden
Entwickelte Confluence- und Jira-Integrationen mit voller Authentifizierung, Webhook-Unterstützung und Fehlerbehandlung, um Echtzeit-Updates der Wissensdatenbank und plattformübergreifende Datensynchronisation für den Agent-Kontext zu ermöglichen
Implementierte ein automatisiertes LLM-as-Judge-Bewertungs-Framework mit Golden Testfällen, Turnierwertung und Regressionstests und wechselte so von subjektiven Beurteilungen zu quantitativer Bewertung mit über 15 Benchmark-Konfigurationen in 6 Aufgaben-Kategorien
Erstellte TensorFlow/JAX/TFX-Pipelines auf Vertex AI, Dataflow und BigQuery für eine Ranking-Plattform im Web-Maßstab, verbesserte den CTR um 18% bei über 100 Mio. Sitzungen/Monat und reduzierte die p95-Latenz um 35% durch Neugestaltung des Feature Stores und harte Negative
Führte datenschutzfreundliche Personalisierung mit föderiertem Lernen und Differential Privacy für die Märkte PT/ES/EN ein, gewährleistete Offline-/Online-Metrik-Parität (AUC/PR, Kalibrierung) und automatisierte Drift-Alerts
Standardisierte Experimentier-Suite mit A/B- und Interleaving-Tests, wiederverwendbaren Metriken und Dashboards, wodurch die Entscheidungszeit von 2–3 Wochen auf unter 5 Tage verkürzt wurde
Entwickelte ein GenAI/RAG-Bewertungssystem mit Offline-Evaluator und Leitplanken, reduzierte Halluzinationen um ca. 35%, verbesserte die Antwort-F1 um 7 Punkte und senkte die p95-Latenz um 20%
Betrieb Kubernetes-/Docker-Microservices mit Model Registry, Shadow-/Canary-Deployments und Rollbacks; hielt ein Inferenz-SLO von 99,9% und eine MTTR unter 10 Minuten ein; betreute 6 Data Scientists und ML-Ingenieure und arbeitete mit 4 Produktteams zusammen
Feb. 2020 - Dez. 2022
2 Jahren 11 Monaten
Data Scientist
Databricks
Setzte SageMaker-Churn- und Propensity-Modelle in Produktion mit Model Registry, CI/CD und Blue-Green-Deployment um und senkte so den Churn in drei Pilotkohorten (~45k Nutzer) um 22%, mit Monitoring via MLflow und benutzerdefinierten Drift-Detektoren
Entwarf eine Echtzeit-Lakehouse-Datenebene auf S3, Glue, Athena und EMR mit über 10 TB/Tag Eingabe und implementierte Streaming-Features mit Kafka und Spark, um ~1.8k QPS Lambda/Fargate-Inferenz zu ermöglichen
Lieferten LATAM-regulierte Template-Referenzarchitekturen, die die Time-to-Production von ~3 Wochen auf 6 Stunden verkürzten und die Infrastrukturkosten durch verbesserte Beobachtbarkeit um 18% senkten
Implementierte Model Governance mit Feature Lineage, PII-Schutzmaßnahmen und Modellkalibrierung (ECE, Brier), um eine konsistente und prüfbare Performance sicherzustellen
Dez. 2017 - Nov. 2019
2 Jahren
Principal ML-Berater
Capgemini Invent
Entwickelte eine Enterprise-Labeling-Plattform mit Flask/React zum Trainieren und Retraining von CV/NLP-Modellen, wodurch die Datensatz-Durchlaufzeit für eine Tier-1-Bank und einen öffentlichen Auftraggeber um 50% (4 Wochen auf 2 Wochen) reduziert wurde
Setzte scikit-learn- und PyTorch-Anti-Spoofing- und Error-Monitoring-Modelle mit einer zentralen Flask/DB2-Error-API ein und reduzierte so kritische Vorfälle um 23% QoQ
Baute serverloses Identity Management mit Cloud Functions und Cloud SQL, senkte die Bearbeitungszeit von Zugriffstickets um 30% und vereinfachte Audits
Zusammenfassung
Senior AI/ML-Ingenieur mit über 10 Jahren Erfahrung in der Bereitstellung von Produktions-KI, die messbare Geschäftsergebnisse liefert.
Umfang: Agentische KI, GenAI/RAG, Ranking, NLP/CV und groß angelegte Experimente; Aufbau kalibrierter, überwachter und gegen Drift robuster ML-Systeme (AUC/PR, ECE).