Projektdetail
Empfohlene Projekte
KI-Agent Evaluationsanalyst (m/w/d)
KI-Agenten-Bewertungsanalyst
KI-Evaluationsberater (m/w/d)
Business Analyst – SAP S/4HANA Output Management (m/w/d)
Freiberuflicher Kfz-Ingenieur (mit Python) - Qualitätssicherung / KI-Trainer
Freiberufliche Chemie-Expert*in für KI-Modell-Training (m/w/d)
Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Bauingenieur mit Python-Erfahrung (m/w/d)
Senior Projektmanager Kundeninteraktion
Freiberuflicher Physik-Experte (mit Python) - Qualitätssicherung / KI-Trainer
Freiberuflicher Statistikexperte mit Python-Erfahrung (m/w/d)
Experte für den Aufbau eines Call Centers
Chemiker mit Python-Erfahrung (m/w/d)
Physiker mit Python-Erfahrung (m/w/d)
Projektleiter Zeitschriften / Magazinerstellung (m/w/d)
Entwickler für Consent Management Implementierung (m/w/d)
KI-Berater - Machine Learning (m/w/d)
Freiberuflicher KI-Trainer – Writers (Englisch) (m/w/d)
Mathematiker mit Python-Erfahrung (m/w/d)
Biologe mit Python-Erfahrung (m/w/d)
ERP-Transformation Manager (m/w/d)
Freiberuflicher Ruby-Entwickler (m/w/d)
Projektmanager Brand Guardianship (m/w/d)
IT Projektleiter ServiceNow (Senior)
Freiberuflicher Cybersecurity-Berater für KI-Red-Teaming
Produktmanager POS / Kassensysteme (m/w/d)
KI-Berater für Vibe Coding (m/w/d)
KI Consultants - Data Science (m/w/d)
Freiberufliche Biologie-Expertin/-Experte für KI-Modelltraining (w/m/d)
Fullstack-Entwickler (m/w/d)
Frontend developer to HR platform with Angular experience
KI-Agent Evaluationsanalyst (m/w/d)
Projekt Info
- Dauer29.12.2025 - 25.04.2026
- AuslastungAb 95%
- Tagessatz200 - 320€
- StandortAmsterdam, Niederlande
- SprachenWichtig:
- Deutsch(Verhandlungssicher)
Wünschenswert:- Englisch(Verhandlungssicher)
- Deutsch
- RemoteanteilAb 95%
Beschreibung
Wir suchen einen freiberuflichen Agenten-Bewertungsanalysten, der für Qualität, Struktur und Erkenntnisse im gesamten Projekt verantwortlich ist. Diese Rolle geht weit über das reine Überprüfen von Aufgaben hinaus – es geht um kritisches Denken, Systemanalyse und darum, in großem Maßstab Klarheit, Zuverlässigkeit und Konsistenz zu gewährleisten. Sie arbeiten sowohl als praktischer Evaluator als auch als Analyst und kooperieren mit Fachexperten, Delivery Managern und Ingenieuren. Neben der Überprüfung der Ergebnisse sollen Sie das "Warum" hinter der Arbeit verstehen, logische Lücken oder Inkonsistenzen erkennen und sinnvolle Verbesserungen vorschlagen.
Dies ist eine flexible, wirkungsorientierte Rolle, in der Sie Raum haben, zu wachsen, Ideen einzubringen und mitzuprägen, wie Evaluation und Qualität im Projekt skaliert werden.
Diese Rolle passt besonders gut zu:
Analytikern, Forschern oder Beratern mit starken Struktur- und Denkfähigkeiten Junior Produktmanagern oder Strategen, die neugierig auf KI und Evaluationsaufgaben sind Schlauen Problemlösern (Studierende oder Berufseinsteiger), die gerne in Logik, Systeme und Randfälle eintauchen
Eine Programmiererfahrung ist nicht erforderlich. Entscheidend sind Neugier, intellektuelle Strenge und die Fähigkeit, komplexe Setups präzise zu bewerten.
Was Sie tun werden
- Sie übernehmen vollständig die QA-Pipeline für Agenten-Evaluierungsaufgaben;
- Sie prüfen und validieren Aufgaben und Beispielabläufe, die von Szenario-Autoren und Expert:innen erstellt wurden;
- Sie identifizieren logische Inkonsistenzen, vage Anforderungen, versteckte Risiken und unrealistische Annahmen;
- Sie geben strukturiertes Feedback und sorgen für Qualitätsabstimmung unter den Beitragenden; Sie schulen, eingliedern und begleiten neue QA-Teammitglieder;
- Sie arbeiten mit Fachexpert:innen, Delivery Managern und Ingenieuren zusammen, um Tests klarer zu machen und abzudecken;
- Sie pflegen und verbessern QA-Checklisten, SOPs und Review-Richtlinien;
- Sie tragen zur Testplanung, Priorisierung und Qualitätsmaßstäben bei;
- Sie ergreifen die Initiative, neue Ansätze, Tools und Prozesse vorzuschlagen, die bei der Skalierung von Validation und Analyse helfen.
Anforderungen
Was Sie mitbringen / können sollten
- Starke analytische und kritische Denkfähigkeiten;
- Genauigkeit und Zuverlässigkeit – Ihre Arbeit kann ohne Nachprüfung vertraut werden;
- Erfahrung in manueller QA, Szenario-Validierung oder ähnlicher analytischer Arbeit;
- Sicherer Umgang mit strukturierten Formaten (JSON/YAML);
- Klare schriftliche Kommunikation und Dokumentationsfähigkeiten;
- Fähigkeit, konstruktives Feedback zu geben und andere anzuleiten;
- Fähigkeit, mit einer Vielzahl von Stakeholdern zu arbeiten: von Ingenieuren bis hin zu Direktor:innen/VPs.
Nice to have
- Hintergrund in szenariobasiertem Testen, Testdesign oder Annotation Workflows;
- Erfahrung mit KI/LLM-Evaluierung, Prompt-Validierung oder Agentenverhaltenstests;
- Technische Eigenständigkeit (z. B. Python-Kenntnisse);
- Vertrautheit mit MCP / toolbasierter Aufgabenausführung;
- Erfahrung in funktionsübergreifenden Teams aus Produkt, Delivery und Engineering.
Wer Sie sind
- Detailverliebt, aber auch in der Lage, das Gesamtbild zu sehen;
- Proaktiv, eigenständig und übernehmen echte Verantwortung für Ihre Arbeit;
- Kommunikator:in, der/die komplexe Erkenntnisse in umsetzbare Insights verwandeln kann;
- Flexibel und motiviert, zu verschiedenen Aufgaben und Projekten beizutragen;
- Sie glauben, dass Qualität nicht nur Arbeit prüft, sondern das gesamte Produkt verbessert.