Projektdetail
Empfohlene Projekte
KI-Agenten Bewertungsanalyst (m/w/d)
KI-Agenten-Bewertungsanalyst
KI-Evaluationsberater (m/w/d)
Business Analyst – SAP S/4HANA Output Management (m/w/d)
Freiberuflicher Fahrzeugingenieur (mit Python) – Qualitätssicherung / KI-Trainer
Freiberufliche Chemie-Expertin/-Experte für KI-Modell-Training (m/w/d)
Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Bauingenieur mit Python-Erfahrung (m/w/d)
Senior Projektmanager Kundeninteraktion
Freiberuflicher Physik-Experte (mit Python) - Qualitätssicherung / KI-Trainer
Freiberuflicher Statistikexperte mit Python-Erfahrung (m/w/d)
Experte für den Aufbau eines Call Centers
Chemiker mit Python-Erfahrung (m/w/d)
Physiker mit Python-Erfahrung (m/w/d)
Projektleiter Zeitschriften / Magazinerstellung (m/w/d)
Entwickler für Consent Management Implementierung (m/w/d)
KI-Berater - Machine Learning (m/w/d)
Freiberuflicher KI-Trainer – Autoren (Englisch) (m/w/d)
Mathematiker mit Python-Erfahrung (m/w/d)
Biologe mit Python-Erfahrung (m/w/d)
ERP-Transformation Manager (m/w/d)
Freelance Ruby-Entwickler (m/w/d)
Projektmanager Brand Guardianship (m/w/d)
IT Projektleiter ServiceNow (Senior)
Freiberuflicher Cybersecurity-Berater für KI-Red-Teaming
KI-Berater für Vibe Coding (m/w/d)
Produktmanager POS / Kassensysteme (m/w/d)
AI Consultants - Data Science (m/w/d)
Freelance-Biologie-Experte für KI-Modell-Training (m/w/d)
Fullstack-Entwickler (m/w/d)
Frontend developer to HR platform with Angular experience
KI-Agenten Bewertungsanalyst (m/w/d)
Projekt Info
- Dauer05.01.2026 - 02.05.2026
- AuslastungAb 95%
- Tagessatz200 - 320€
- StandortAmsterdam, Niederlande
- SprachenWichtig:
- Deutsch(Verhandlungssicher)
Wünschenswert:- Englisch(Verhandlungssicher)
- Deutsch
- RemoteanteilAb 95%
Beschreibung
Wir suchen eine freiberufliche Agenten-Bewertungsanalyst:in, die Verantwortung für Qualität, Struktur und Erkenntnisse im gesamten Projekt übernimmt. Diese Rolle geht weit über reine Aufgabenüberprüfung hinaus – es geht um kritisches Denken, Systemanalyse und darum, auf großer Skala Klarheit, Zuverlässigkeit und Konsistenz zu gewährleisten. Du wirst sowohl praktisch evaluieren als auch analytisch arbeiten und eng mit Fachexpert:innen, Delivery Managern und Ingenieur:innen zusammenarbeiten. Neben dem Review der Ergebnisse sollst du das „Warum“ hinter der Arbeit verstehen, logische Lücken oder Inkonsistenzen erkennen und sinnvolle Verbesserungen vorschlagen.
Dies ist eine flexible, wirkungsorientierte Rolle, in der du Raum zum Wachsen und Einbringen von Ideen hast und dabei mitgestaltest, wie Evaluation und Qualität im Projekt skaliert werden.
Diese Rolle eignet sich besonders für:
- Analyst:innen, Forschende oder Berater:innen mit starken Strukturierungs- und Denkfähigkeiten
- Junior-Produktmanager:innen oder Strateg:innen, die neugierig auf KI und Evaluationsarbeit sind
- Clevere Problemlöser:innen (Studierende oder Berufseinsteiger:innen), die gerne in Logik, Systeme und Randfälle eintauchen
Einen Programmierhintergrund brauchst du nicht. Wichtig sind Neugier, intellektuelle Strenge und die Fähigkeit, komplexe Setups präzise zu bewerten.
Was du tun wirst
- Vollständige Verantwortung für die QA-Pipeline bei Agenten-Bewertungsaufgaben übernehmen;
- Überprüfung und Validierung von Tasks und Golden Paths, die von Szenario-Autor:innen und Expert:innen erstellt wurden;
- Logische Inkonsistenzen, vage Anforderungen, versteckte Risiken und unrealistische Annahmen aufdecken;
- Strukturierte Rückmeldungen geben und Qualität über alle Beitragenden hinweg sicherstellen;
- Neue QA-Teammitglieder schulen, einarbeiten und betreuen;
- Zusammenarbeit mit Fachexpert:innen, Delivery Managern und Ingenieur:innen, um Testklarheit und -abdeckung zu verbessern;
- Pflege und Verbesserung von QA-Checklisten, SOPs und Überprüfungsrichtlinien;
- Mitwirkung bei Testplanung, Priorisierung und Qualitätskennzahlen;
- Eigeninitiative zeigen, neue Ansätze, Tools und Prozesse vorschlagen, die Validierung und Analyse skalieren.
Anforderungen
Was du wissen solltest / können musst
- Starke analytische und kritische Denkfähigkeiten;
- Auge fürs Detail und Zuverlässigkeit – deine Arbeit kann ohne Nachprüfung vertraut werden;
- Erfahrung in manueller QA, Szenario-Validierung oder ähnlicher analytischer Arbeit;
- Sicherer Umgang mit strukturierten Formaten (JSON/YAML);
- Klare schriftliche Kommunikations- und Dokumentationsfähigkeiten;
- Fähigkeit, konstruktives Feedback zu geben und andere anzuleiten;
- Fähigkeit, mit verschiedenen Stakeholdern zusammenzuarbeiten: von Ingenieur:innen bis zu Director:innen/VPs.
Schön zu haben
- Hintergrund in szenariobasierter Testung, Testdesign oder Annotation-Workflows;
- Erfahrung mit KI/LLM-Evaluation, Prompt-Validierung oder Agenten-Verhaltens-Tests;
- Technische Unabhängigkeit (z. B. Python-Kenntnisse);
- Vertrautheit mit MCP-/toolbasierten Task-Ausführungen;
- Erfahrung in cross-funktionalen Teams entlang Produkt, Delivery und Engineering.
Wer du bist
- Detailverliebt, aber auch in der Lage, das große Ganze zu sehen;
- Proaktiv, eigenständig und übernimmst echte Verantwortung für deine Arbeit;
- Starke:r Kommunikator:in, der/die komplexe Erkenntnisse in umsetzbare Insights übersetzt;
- Flexibel und motiviert, in verschiedenen Aufgaben und Projekten beizutragen;
- Glaubt, dass Qualität nicht nur Überprüfen bedeutet, sondern das ganze Produkt besser macht.