Strukturierte Testszenarien basierend auf realen Aufgaben entwerfen
Den goldenen Pfad und akzeptables Agentenverhalten festlegen
Arbeitsschritte, erwartete Ausgaben und Randfälle annotieren
Mit Entwicklern zusammenarbeiten, um deine Szenarien zu testen und zu verbessern
Agentenausgaben überprüfen und Tests entsprechend anpassen

Bachelor- und/oder Masterabschluss in Informatik, Software Engineering, Data Science / Datenanalyse, Künstliche Intelligenz / Machine Learning, Computerlinguistik / Natural Language Processing (NLP), Informationssysteme oder anderen verwandten Bereichen.
Erfahrung in QA, Softwaretests, Datenanalyse oder NLP-Annotation.
Gutes Verständnis von Testdesign-Prinzipien (z. B. Reproduzierbarkeit, Abdeckung, Randfälle).
Starke schriftliche Kommunikationsfähigkeiten in Englisch.
Sicher im Umgang mit strukturierten Formaten wie JSON/YAML zur Szenariobeschreibung.
Fähigkeit, erwartete Agentenverhalten (Gold-Pfade) und Bewertungslogik zu definieren.
Grundkenntnisse in Python und JS.
Neugierig und offen im Umgang mit KI-generierten Inhalten, Agenten-Logs und promptbasiertem Verhalten.
Du bist bereit, neue Methoden zu lernen, kannst schnell zwischen Aufgaben und Themen wechseln und manchmal mit herausfordernden, komplexen Richtlinien arbeiten.
Unser Freelance-Job ist vollständig remote, du brauchst nur Laptop, Internetverbindung, Zeit und Motivation für die Herausforderung.

Wünschenswert

Erfahrung im Schreiben manueller oder automatisierter Testfälle.
Vertrautheit mit LLM-Fähigkeiten und typischen Ausfallmodi.
Verständnis von Bewertungsmetriken (Precision, Recall, Coverage, Reward-Funktionen).

Projektdetail

Empfohlene Projekte