Dan Thach
Lead Data Scientist / KI-Plattformingenieur
Erfahrungen
Lead Data Scientist / KI-Plattformingenieur
Tkxel
- Leitung des Designs und der Bereitstellung einer internen, auf LLM basierenden Assistentenplattform mit über 1.000 täglichen Nutzern, wodurch die Antwortgenauigkeit um 28 % stieg und die Inferenzkosten durch optimierte RAG-Pipeline-Orchestrierung um 15 % sanken.
- Entwicklung eines unternehmensweiten KI-Governance-Rahmens mit Modellsichtbarkeit und Sicherheitsebenen, um Compliance zu gewährleisten und Halluzinationen in kundenorientierten Modellen zu reduzieren.
- Aufbau modularer RAG-2.0-Pipelines mit LangChain und eigener Orchestrierung zur dynamischen Kontextabfrage über Produktbereiche hinweg.
- Zusammenarbeit mit Data Engineering-Teams zur Abstimmung der Feature-Store-Schemata auf ML- und Analyse-Workflows, wodurch Modelliterationen beschleunigt wurden.
- Betreuung von Junior Engineers zu LLMOps-Best-Practices und skalierbaren Deployment-Strategien in Cloud- und On-Prem-Umgebungen.
- Tech & Tools: GPT-4/5-APIs, Llama 3, LangChain, HuggingFace, Pinecone, Weaviate, Ray, KServe, MLflow, Kubeflow, Airflow, Feast, Evidently, Prometheus, AWS/GCP
Senior Machine Learning Engineer (NLP-Schwerpunkt)
Meta
- Durchführung von Fine-Tuning und Deployment transformerbasierter Modelle für Document Intelligence, was die Textextraktionsgenauigkeit um 21 % steigerte und die Inferenzlatenz durch effizientes Model Serving um 35 % verringerte.
- Entwurf und Implementierung skalierbarer ML-Pipelines und Retraining-Workflows, wodurch manuelle Retraining-Zyklen um 40 % reduziert und die Modellüberwachung im gesamten Unternehmen verbessert wurden.
- Aufbau vollständiger NLP-Komponenten einschließlich Tokenisierung, Embeddings und Evaluationssystemen zur Unterstützung von Enterprise-Suche und Wissensextraktion.
- Entwicklung erster Retrieval-Augmented-Generation-(RAG)-Prototypen für interne Document-Q&A-Lösungen.
- Zusammenarbeit mit Plattform-Teams zur Integration von ML-Sichtbarkeit und CI/CD-Automatisierung in Kubernetes-Workflows.
- Durchführung von vergleichenden A/B-Tests zwischen transformerbasierten und konventionellen NLP-Modellen für Produktionseinsatzentscheidungen.
- Mentoring und Review von Junior Engineers, Standardisierung von Best Practices für NLP-Experimente und Deployment.
- Tech & Tools: HuggingFace Transformers, BERT, RoBERTa, T5, GPT-3-API, Sentence Transformers, MLflow, DVC, Kubeflow, SageMaker, Feast, Evidently, Spark, Kafka, Delta Lake
Machine-Learning-Ingenieur
Semantic Visions
- Planung und Bereitstellung von End-to-End-ML-Microservices für Empfehlungen und NLP-Funktionen, um zuverlässiges Model Serving und Monitoring zu gewährleisten.
- Implementierung von A/B-Test-Frameworks zur Bewertung von ML-Systemen, wodurch die Iterationsgeschwindigkeit und datenbasierte Entscheidungsfindung verbessert wurden.
- Mitarbeit an der Entwicklung von MLOps-Pipelines einschließlich CI/CD-Workflows, Modellversionierung und automatischem Retraining.
- Zusammenarbeit mit Data Engineering-Teams zur Optimierung von ETL- und Feature-Pipelines mit Spark und Airflow.
- Beitrag zur frühen Einführung von MLflow und Model-Observability-Dashboards, was die Transparenz der eingesetzten Modelle erhöhte.
- Tech & Tools: TensorFlow 2.x, PyTorch, scikit-learn, BERT, Docker, Airflow, Kubernetes, Flask/FastAPI, MLflow, Spark, Kafka, BigQuery, Prometheus, Grafana
Dateningenieur
Featurespace
- Gestaltung und Implementierung von ETL-zu-ELT-Datenpipelines mit Spark und Airflow, um nahezu Echtzeit-Analysen für Produktkennzahlen zu ermöglichen.
- Migration wichtiger Datenworkflows von On-Premise zu AWS und GCP, was die Zuverlässigkeit erhöhte und die Latenz verringerte.
- Aufbau und Pflege von Data Marts und semantischen Schichten zur Unterstützung nachgelagerter Analysen und früher Machine-Learning-Projekte.
- Einführung von Kafka-Streaming zur Verarbeitung von Event-Daten, was Skalierbarkeit und Monitoring-Funktionen verbesserte.
- Zusammenarbeit mit Analysten und Data Scientists zur Erstellung effizienter, funktionsbereiter Datenpipelines für Experimente.
- Tech & Tools: Python 3, SQL, Airflow, Spark, Hive, Kafka, AWS (Redshift, S3), GCP (BigQuery), Docker, Bash
Junior Dateningenieur (Analytics & ETL)
UiPath
- Automatisierung veralteter Excel-/VBA-Berichte mit Python und SQL, was manuelle Reporting-Zyklen deutlich verkürzte.
- Unterstützung beim Aufbau erster BI-Dashboards und ETL-Pipelines für Executive Analytics.
- Mitarbeit an Pilotprojekten mit Hadoop/Hive zur Bewertung verteilter Datenverarbeitung großer Datensätze.
- Tech & Tools: SQL (MySQL, Postgres), Python 2.7/3, Excel/VBA, Tableau, Power BI, Linux, Bash
Zusammenfassung
Erfahrener Machine Learning Engineer mit fundiertem Mix aus Data Science, MLOps und Entwicklung von KI-Plattformen, der die Lücke zwischen skalierbaren Machine-Learning-Systemen und geschäftsorientierten Modellierungsstrategien schließt. Mehr als 10 Jahre Erfahrung in Data Engineering, ML-Infrastruktur, NLP und LLM-Anwendungen, mit messbaren Ergebnissen dank Optimierung der Modellleistung, Experimenten und zuverlässigem Produktiveinsatz. Erfahren im Führen funktionsübergreifender ML-Projekte, im Mentoring von Teams und in der Umwandlung komplexer Datenpipelines in einsatzbereite, wertorientierte KI-Lösungen in verschiedenen Cloud-Umgebungen.
Fähigkeiten
- Programmiersprachen: Python (Numpy, Pandas, Pyspark), R, Sql, Bash
- Data Engineering & Verarbeitung: Spark, Kafka, Airflow, Etl-/elt-pipelines, Datenmodellierung (Star/kimball)
- Machine Learning: Scikit-learn, Tensorflow, Pytorch, Xgboost, Transformers (Bert, Gpt, Llama)
- Nlp & Llms: Huggingface, Sentence Transformers, Rag-architekturen, Vektordatenbanken (Pinecone, Faiss, Weaviate)
- Mlops & Plattformen: Mlflow, Kubeflow, Vertex Ai, Sagemaker, Docker, Kubernetes, Ci/cd
- Experimente & Analysen: A/b-tests, Kausalanalyse, Feature Engineering, Statistische Modellierung
- Cloud & Infrastruktur: Aws (S3, Ec2, Lambda), Gcp (Vertex, Bigquery), Azure Ml, Nvidia Triton/tensorrt
- Beobachtung & Governance: Weights & Biases, Evidently, Prometheus, Grafana, Feast, Guardrails Ai
- Soft Skills: Bereichsübergreifende Zusammenarbeit, Mentoring, Produktorientierte Ml-strategie
Sprachen
Ausbildung
University of York
Master of Science in Informatik · Informatik · York, Vereinigtes Königreich
Hanoi University of Science and Technology
Bachelor of Science in Informatik · Informatik · Hanoi, Vietnam
Ähnliche Freelancer
Entdecken Sie andere Experten mit ähnlichen Qualifikationen und Erfahrungen.