Projektdetail
Empfohlene Projekte
Autor für Evaluierungsszenarien (m/w/d)
KI-Evaluationsberater (m/w/d)
Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Automotive-Ingenieur (mit Python) - Qualitätssicherung / KI-Trainer
Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Ruby-Entwickler (m/w/d)
Freiberufliche Chemie-Expertin/Experte für KI-Modell-Training (m/w/d)
Freiberuflicher Physikexperte (mit Python) – Qualitätssicherung / KI-Trainer
KI-Berater - Machine Learning (m/w/d)
KI-Berater für Vibe Coding (m/w/d)
Freiberuflicher Biologie-Experte für KI-Modell-Training (m/w/d)
Freiberuflicher Java-Entwickler (m/w/d)
Physiker mit Python-Erfahrung (m/w/d)
Mathematiker mit Python-Erfahrung (m/w/d)
Freiberuflicher Cybersecurity-Berater für AI Red Teaming
AI Consultants - Data Science (m/w/d)
Freiberuflicher Redakteur (m/f/d)
Entwickler für Consent Management Implementierung (m/w/d)
Chemiker mit Python-Erfahrung (m/w/d)
Projektleiter Zeitschriften / Magazinerstellung (m/w/d)
Data Engineer (m/w/d)
Senior Projektmanager Kundeninteraktion
Entwicklung TM1 Planning Analytics Und Schnittstellen (m/w/d)
Senior Webentwickler (m/w/d)
Fullstack-Engineer (m/w/d)
Biologe mit Python-Erfahrung (m/w/d)
Freiberuflicher Product Owner für POS-App
Adobe Experience Cloud Consultant (m/w/d)
IT Projektleiter ServiceNow (Senior)
Zahnarzt für das Training von KI-Modellen (m/w/d)
Senior Faktor 10 Entwickler (IPS / IPM) (m/w/d)
Frontend developer to HR platform with Angular experience
Autor für Evaluierungsszenarien (m/w/d)
Projekt Info
- Tagessatz290 - 640€
- Sprache
- Englisch(Verhandlungssicher)
- Englisch
- Remoteanteil100%
Beschreibung
Wir suchen jemanden, der realistische und strukturierte Evaluierungsszenarien für auf LLM basierende Agenten entwerfen kann. Du erstellst Testfälle, die menschliche Aufgaben simulieren, und definierst eine Gold-Standard-Verhaltensweise, mit der Agentenaktionen verglichen werden. Du sorgst dafür, dass jedes Szenario klar definiert, gut bewertet und einfach auszuführen sowie wiederzuverwenden ist. Du brauchst einen scharfen analytischen Verstand, Aufmerksamkeit fürs Detail und Interesse daran, wie KI-Agenten Entscheidungen treffen.
Obwohl jedes Projekt einzigartig ist, umfasst deine Arbeit typischerweise:
- Strukturierte Testszenarien basierend auf realen Aufgaben entwerfen
- Den goldenen Pfad und akzeptables Agentenverhalten festlegen
- Arbeitsschritte, erwartete Ausgaben und Randfälle annotieren
- Mit Entwicklern zusammenarbeiten, um deine Szenarien zu testen und zu verbessern
- Agentenausgaben überprüfen und Tests entsprechend anpassen
Anforderungen
- Bachelor- und/oder Masterabschluss in Informatik, Software Engineering, Data Science / Datenanalyse, Künstliche Intelligenz / Machine Learning, Computerlinguistik / Natural Language Processing (NLP), Informationssysteme oder anderen verwandten Bereichen.
- Erfahrung in QA, Softwaretests, Datenanalyse oder NLP-Annotation.
- Gutes Verständnis von Testdesign-Prinzipien (z. B. Reproduzierbarkeit, Abdeckung, Randfälle).
- Starke schriftliche Kommunikationsfähigkeiten in Englisch.
- Sicher im Umgang mit strukturierten Formaten wie JSON/YAML zur Szenariobeschreibung.
- Fähigkeit, erwartete Agentenverhalten (Gold-Pfade) und Bewertungslogik zu definieren.
- Grundkenntnisse in Python und JS.
- Neugierig und offen im Umgang mit KI-generierten Inhalten, Agenten-Logs und promptbasiertem Verhalten.
- Du bist bereit, neue Methoden zu lernen, kannst schnell zwischen Aufgaben und Themen wechseln und manchmal mit herausfordernden, komplexen Richtlinien arbeiten.
- Unser Freelance-Job ist vollständig remote, du brauchst nur Laptop, Internetverbindung, Zeit und Motivation für die Herausforderung.
Wünschenswert
- Erfahrung im Schreiben manueller oder automatisierter Testfälle.
- Vertrautheit mit LLM-Fähigkeiten und typischen Ausfallmodi.
- Verständnis von Bewertungsmetriken (Precision, Recall, Coverage, Reward-Funktionen).