Stephan Baier
Freiberuflicher Data Scientist
Erfahrungen
Freiberuflicher Data Scientist
Baier Data & AI Consulting
Team Lead Data Science
Check24 GmbH
Aufbau einer hybriden ML-Architektur auf AWS und On-Premise
Entwicklung kundenspezifischer Machine-Learning-Modelle für Computer Vision und Informationsextraktion
Evaluierung und Prototyping mit verschiedenen agentenbasierten KI-Tools, LLMs und MCP
Zusammenarbeit mit Product Ownern zur Definition von funktionalen Anforderungen und Sicherheitsaspekten
Führung eines Teams aus Data Scientists und Data Engineers
OCR-Pipeline: Training eines EasyOCR-Modells auf domänenspezifischen und synthetischen Datensätzen (Ausweise, Pässe, Führerscheine)
Segmentierungsmodell: Implementierung eines Segmentierungsmodells in PyTorch zur genauen Zuschneidung von Dokumenten und Perspektivkorrektur
Ausweisklassifikator: Entwicklung eines CNN-basierten Modells in PyTorch zur Klassifizierung von Dokumenttypen
Hologramm-Erkennung: Entwicklung eines spezialisierten Klassifikationsmodells in PyTorch zur Überprüfung von Hologrammen
Konvertierung der Modelle nach ONNX und TensorFlow Lite, inklusive Quantisierung und Pruning von Modellgewichten zur Erfüllung von Echtzeitanforderungen
Erreichen durchschnittlicher Inferenzzeiten von unter 200 ms auf mobilen Endgeräten
Über eine Million erfolgreiche Echtzeit-Identifikationen
Reduzierung des manuellen Verifikationsaufwands um mehr als 90 %
Tech-Stack: AWS SageMaker, Bedrock, Rekognition; multimodale LLMs, Pydantic, FastMCP, Prompt-Engineering; PyTorch, PyTorch Lightning, TensorFlow Lite, ONNX; TorchVision, OpenCV, EasyOCR
Lead Machine Learning Engineer
RS Alpha Capital GmbH
Einrichtung eines On-Premise-Kubernetes-Clusters mit Apache Ranger
Automatisierte GPU-basierte Trainingsjobs
Aufbau von CI/CD-Pipelines mit ArgoCD und GitLab für automatisierten Modelldeployment
Implementierung von MLOps-Pipelines mit Dagster und ClearML
Tech-Stack: Kubernetes, Apache Ranger, PyTorch, ArgoCD, GitLab CI/CD, Docker, Grafana, Prometheus, On-Premise-GPU-Cluster
Entgegenwirken von Modellverschlechterung durch automatisiertes Retraining und Deployment mit minimalem manuellem Aufwand
Sicherstellung der Einhaltung regulatorischer Anforderungen durch detailliertes Monitoring und eine hochverfügbare Infrastruktur mit 99,99 % Verfügbarkeit
Senior Data Science Consultant
Data Reply GmbH
Streaming-ML für die Verarbeitung von Kundenmitteilungen (Okt. 2019 – Mai 2021)**
Aufbau einer Echtzeit-ML-Pipeline zur Klassifizierung von Kundenkommunikation
Erstellung von Live-Dashboards für Nachrichtenfluss, Vorhersagen und Systemüberwachung
Gestaltung eines VAIT-konformen ML-Lifecycles mit Audit-Trails, Jenkins CI und Deployment auf Kubernetes
Tech-Stack: Kafka, OpenShift, Jenkins, MLflow, Python, scikit-learn, XGBoost, Universal Sentence Encoder
Ermöglichung der Echtzeitverarbeitung von über 20.000 Nachrichten pro Tag
Bereitstellung vollständig nachvollziehbarer und regulatorisch konformer ML-Workflows
NLP-Pipeline für semantische Suche und Entity Linking (Aug. 2018 – Sept. 2019)**
Entwicklung und Implementierung einer NLP-Pipeline mit BERT-basierten Modellen für NER und Entity-Disambiguierung
Aufbau einer semantischen Suchmaschine mit Elasticsearch und Kibana-Dashboards zur Abfrageanalyse
Verknüpfung extrahierter Entitäten und Beziehungen in einem Neo4j-Wissensgraph, was graphbasierte Suche und interaktive Exploration über Neo4j Bloom ermöglicht
Tech-Stack: PyTorch, BERT, Elasticsearch, Kibana, Neo4j, Bloom, Azure
Ermöglichung zeitnaherer Risikobewertung für Kreditversicherungen durch Einbeziehung aktueller Nachrichtenereignisse
Steigerung der Effizienz von Schadensregulierern durch schnellere Identifikation relevanter historischer Fälle
Sales-Funnel-Optimierung für Kreditprodukte (Mai 2018 – Juli 2018)**
Einsatz von Clustering- und Klassifikationsmodellen zur Segmentierung des Nutzerverhaltens und Erkennung von Absprungsmustern im Sales Funnel
Durchführung von Datenanalyse, Feature Engineering und Modellentwicklung
Entwicklung einer interaktiven Webanwendung zur Visualisierung von Conversion-Pfaden, Kundensegmenten und Modelergebnissen für Stakeholder im Business
Tech-Stack: Python, PySpark, Pandas, NumPy, scikit-learn, SQL, Plotly, Dash
Industrieforschungsstipendiat
Siemens AG
Softwareentwickler
Steria Mummert AG
Zusammenfassung
Ich bin ein erfahrener Data Scientist und Machine Learning Engineer mit einem starken akademischen Hintergrund in Informatik und künstlicher Intelligenz. Mein Fokus liegt auf Beratung, Implementierung und Operationalisierung von hochmodernen Machine-Learning-Lösungen.
Fähigkeiten
- Programmierung & Frameworks: Python (Pandas, Scikit-learn, Pyspark, Fastapi), Java
- Machine Learning & Deep Learning: Pytorch, Tensorflow, Keras, Mlflow, Azureml, Aws Sagemaker
- Natural Language Processing: Llm, Rag, Wissensgraph, Feinabstimmung Kleiner Sprachmodelle
- Computer Vision: Ocr, Opencv, Torchvision, Bildklassifizierung, Objekterkennung, Segmentierung
- Data Engineering & Orchestrierung: Sql, Apache Kafka, Elasticsearch, Dagster
- Cloud & Virtualisierung: Aws, Azure, Docker, Kubernetes, Jenkins, Ci/cd
Sprachen
Ausbildung
Ludwig-Maximilians-Universität
Promotion · Informatik · München, Deutschland · summa cum laude (mit höchster Auszeichnung)
Ludwig-Maximilians-Universität
M.Sc. · Informatik · München, Deutschland
Ludwig-Maximilians-Universität
B.Sc. · Informatik · München, Deutschland
Zertifikate & Bescheinigungen
AWS Cloud Practitioner
Certified Kubernetes Application Developer
Chartered Financial Analyst (CFA) Level 1
Confluent Certified Developer For Apache Kafka
Professional Scrum Master (PSM 1)
Ähnliche Freelancer
Entdecken Sie andere Experten mit ähnlichen Qualifikationen und Erfahrungen.