Dauer
05.01.2026 - 02.05.2026
Auslastung
Ab 95%
Tagessatz
200 - 320€
Standort
Amsterdam, Niederlande
Sprachen
Wichtig:
- Deutsch
  (Verhandlungssicher)
Wünschenswert:
- Englisch
  (Verhandlungssicher)
Remoteanteil
Ab 95%

Dies ist eine flexible, wirkungsorientierte Rolle, in der du Raum zum Wachsen und Einbringen von Ideen hast und dabei mitgestaltest, wie Evaluation und Qualität im Projekt skaliert werden.

Diese Rolle eignet sich besonders für:

Analyst:innen, Forschende oder Berater:innen mit starken Strukturierungs- und Denkfähigkeiten
Junior-Produktmanager:innen oder Strateg:innen, die neugierig auf KI und Evaluationsarbeit sind
Clevere Problemlöser:innen (Studierende oder Berufseinsteiger:innen), die gerne in Logik, Systeme und Randfälle eintauchen

Einen Programmierhintergrund brauchst du nicht. Wichtig sind Neugier, intellektuelle Strenge und die Fähigkeit, komplexe Setups präzise zu bewerten.

Was du tun wirst

Vollständige Verantwortung für die QA-Pipeline bei Agenten-Bewertungsaufgaben übernehmen;
Überprüfung und Validierung von Tasks und Golden Paths, die von Szenario-Autor:innen und Expert:innen erstellt wurden;
Logische Inkonsistenzen, vage Anforderungen, versteckte Risiken und unrealistische Annahmen aufdecken;
Strukturierte Rückmeldungen geben und Qualität über alle Beitragenden hinweg sicherstellen;
Neue QA-Teammitglieder schulen, einarbeiten und betreuen;
Zusammenarbeit mit Fachexpert:innen, Delivery Managern und Ingenieur:innen, um Testklarheit und -abdeckung zu verbessern;
Pflege und Verbesserung von QA-Checklisten, SOPs und Überprüfungsrichtlinien;
Mitwirkung bei Testplanung, Priorisierung und Qualitätskennzahlen;
Eigeninitiative zeigen, neue Ansätze, Tools und Prozesse vorschlagen, die Validierung und Analyse skalieren.

Was du wissen solltest / können musst

Starke analytische und kritische Denkfähigkeiten;
Auge fürs Detail und Zuverlässigkeit – deine Arbeit kann ohne Nachprüfung vertraut werden;
Erfahrung in manueller QA, Szenario-Validierung oder ähnlicher analytischer Arbeit;
Sicherer Umgang mit strukturierten Formaten (JSON/YAML);
Klare schriftliche Kommunikations- und Dokumentationsfähigkeiten;
Fähigkeit, konstruktives Feedback zu geben und andere anzuleiten;
Fähigkeit, mit verschiedenen Stakeholdern zusammenzuarbeiten: von Ingenieur:innen bis zu Director:innen/VPs.

Schön zu haben

Hintergrund in szenariobasierter Testung, Testdesign oder Annotation-Workflows;
Erfahrung mit KI/LLM-Evaluation, Prompt-Validierung oder Agenten-Verhaltens-Tests;
Technische Unabhängigkeit (z. B. Python-Kenntnisse);
Vertrautheit mit MCP-/toolbasierten Task-Ausführungen;
Erfahrung in cross-funktionalen Teams entlang Produkt, Delivery und Engineering.

Wer du bist

Detailverliebt, aber auch in der Lage, das große Ganze zu sehen;
Proaktiv, eigenständig und übernimmst echte Verantwortung für deine Arbeit;
Starke:r Kommunikator:in, der/die komplexe Erkenntnisse in umsetzbare Insights übersetzt;
Flexibel und motiviert, in verschiedenen Aufgaben und Projekten beizutragen;
Glaubt, dass Qualität nicht nur Überprüfen bedeutet, sondern das ganze Produkt besser macht.

Projektdetail

Empfohlene Projekte

KI-Agenten Bewertungsanalyst (m/w/d)

KI-Agenten-Bewertungsanalyst

KI-Evaluationsberater (m/w/d)

Business Analyst – SAP S/4HANA Output Management (m/w/d)

Freiberuflicher Fahrzeugingenieur (mit Python) – Qualitätssicherung / KI-Trainer

Freiberufliche Chemie-Expertin/-Experte für KI-Modell-Training (m/w/d)

Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)

Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)

Freiberuflicher Bauingenieur mit Python-Erfahrung (m/w/d)

Senior Projektmanager Kundeninteraktion

Freiberuflicher Physik-Experte (mit Python) - Qualitätssicherung / KI-Trainer

Freiberuflicher Statistikexperte mit Python-Erfahrung (m/w/d)

Experte für den Aufbau eines Call Centers

Chemiker mit Python-Erfahrung (m/w/d)

Physiker mit Python-Erfahrung (m/w/d)

Projektleiter Zeitschriften / Magazinerstellung (m/w/d)

Entwickler für Consent Management Implementierung (m/w/d)

KI-Berater - Machine Learning (m/w/d)

Freiberuflicher KI-Trainer – Autoren (Englisch) (m/w/d)

Mathematiker mit Python-Erfahrung (m/w/d)

Biologe mit Python-Erfahrung (m/w/d)

ERP-Transformation Manager (m/w/d)

Freelance Ruby-Entwickler (m/w/d)

Projektmanager Brand Guardianship (m/w/d)

IT Projektleiter ServiceNow (Senior)

Freiberuflicher Cybersecurity-Berater für KI-Red-Teaming

KI-Berater für Vibe Coding (m/w/d)

Produktmanager POS / Kassensysteme (m/w/d)

AI Consultants - Data Science (m/w/d)

Freelance-Biologie-Experte für KI-Modell-Training (m/w/d)

Fullstack-Entwickler (m/w/d)

Frontend developer to HR platform with Angular experience

KI-Agenten Bewertungsanalyst (m/w/d)

Projekt Info

Beschreibung

Anforderungen