Wir suchen QA-Tester für autonome KI-Agenten für ein neues Projekt, bei dem komplexe Aufgabenstrukturen, Richtlinienlogik und Evaluationsframeworks für Agenten validiert und verbessert werden. Im Laufe des Projekts musst du Qualitätssicherung, Recherche und logisches Problemlösen in Einklang bringen. Diese Projektmöglichkeit ist ideal für alle, die Systeme ganzheitlich betrachten und Szenarien, Auswirkungen und Randfälle durchdenken.

Du brauchst keinen Programmierhintergrund, aber du musst neugierig, intellektuell rigoros und in der Lage sein, die Plausibilität und Konsistenz komplexer Setups zu bewerten. Wenn du in Bereichen wie Beratung, CHGK (Quizshow), Olympiaden, Fallstudien oder systemischem Denken schon einmal herausragst warst – dann könntest du hervorragend passen.

Was dich erwartet:

Überprüfung von Evaluationsaufgaben und Szenarien auf Logik, Vollständigkeit und Realitätsnähe.
Aufdecken von Inkonsistenzen, fehlenden Annahmen oder unklaren Entscheidungspunkten.
Mitentwicklung klarer erwarteter Verhaltensweisen (Goldstandards) für KI-Agenten.
Annotieren von Ursache-Wirkungs-Beziehungen, Argumentationspfaden und plausiblen Alternativen.
Ganzheitliches Durchdenken komplexer Systeme und Richtlinien aus menschlicher Perspektive, um eine gründliche Prüfung der Agenten sicherzustellen.
Enge Zusammenarbeit mit QA, Textern oder Entwicklern, um Verfeinerungen oder Abdeckung von Randfällen vorzuschlagen.

Ausgeprägtes analytisches Denkvermögen: Du kannst komplexe Systeme, Szenarien und logische Zusammenhänge durchdenken.
Hohe Detailgenauigkeit: Du erkennst Widersprüche, Mehrdeutigkeiten und unklare Anforderungen.
Vertrautheit mit strukturierten Datenformaten: Du kannst JSON/YAML lesen, musst sie nicht unbedingt schreiben.
Ganzheitliche Bewertung von Szenarien: Was fehlt, was ist unrealistisch, was könnte scheitern?
Gute Kommunikationsfähigkeiten und klares Schreiben (auf Englisch), um deine Ergebnisse zu dokumentieren.

Wir schätzen außerdem Bewerber, die:

Erfahrung mit Policy-Evaluation, Logikrätseln, Fallstudien oder der Gestaltung strukturierter Szenarien.
Hintergrund in Beratung, Wissenschaft, Olympiaden (z.B. Logik, Mathe, Informatik) oder Forschung.
Berührungspunkte mit LLMs, Prompt Engineering oder KI-generierten Inhalten.
Vertrautheit mit QA- oder Testfall-Denken (Randfälle, Fehlermodi, "Was könnte schiefgehen").
Einiges Verständnis davon, wie Bewertung oder Scoring in Agententests funktioniert (Präzision, Abdeckung etc.).

Projektdetail

Empfohlene Projekte

Analyst für KI-Agenten-Evaluation (m/w/d)

Projekt Info

Beschreibung

Anforderungen