Wir suchen einen freiberuflichen Agenten-Evaluationsanalysten, der die Verantwortung für Qualität, Struktur und Insights im Projekt übernimmt. Diese Rolle geht weit über reine Aufgabenkontrolle hinaus – es geht um kritisches Denken, Systemanalyse und darum, Klarheit, Verlässlichkeit und Konsistenz in großem Umfang sicherzustellen. Du arbeitest sowohl als praktischer Evaluator als auch als Analyst und kooperierst mit Fachexperten, Delivery Managern und Ingenieuren. Neben der Überprüfung von Ergebnissen sollst du das "Warum" hinter der Arbeit verstehen, logische Lücken oder Inkonsistenzen aufdecken und sinnvolle Verbesserungen vorschlagen. Dies ist eine flexible, wirkungsorientierte Rolle, in der du Raum zum Wachsen hast, Ideen einbringen und mitgestalten kannst, wie Evaluation und Qualität im Projekt skaliert werden. Diese Rolle eignet sich besonders für:
Analysten, Forscher oder Berater mit starken Strukturierungs- und Argumentationsfähigkeiten
Junior-Produktmanager oder Strategen, die neugierig auf KI- und Evaluationsarbeit sind
Clevere Problemlöser (Studierende oder Berufseinsteiger), die Spaß an Logik, Systemen und Edge Cases haben Du brauchst keinen Programmierhintergrund. Entscheidend sind Neugier, intellektuelle Strenge und die Fähigkeit, komplexe Abläufe präzise zu evaluieren. Was du tun wirst
Die QA-Pipeline für Agentenevaluationsaufgaben vollständig verantworten;
Aufgaben und Golden Paths, die von Szenario-Autoren und Experten erstellt wurden, prüfen und validieren;
Logische Inkonsistenzen, unklare Anforderungen, versteckte Risiken und unrealistische Annahmen aufdecken;
Strukturiertes Feedback geben und Qualitätsabstimmung bei allen Beteiligten sicherstellen;
Neue QA-Teammitglieder schulen, einarbeiten und betreuen;
Mit Fachexperten, Delivery Managern und Ingenieuren zusammenarbeiten, um Tests klarer und umfassender zu gestalten;
QA-Checklisten, SOPs und Review-Guidelines pflegen und verbessern;
Zur Testplanung, Priorisierung und Festlegung von Qualitätsstandards beitragen;
Eigenständig neue Ansätze, Tools und Prozesse vorschlagen, um Validierung und Analyse zu skalieren.
Was du wissen / können solltest
Nice to have
Wer du bist