Projektdetail
Empfohlene Projekte
Autor für Evaluierungsszenarien (m/w/d)
KI-Evaluierungsberater (m/w/d)
Freiberufliche Chemieexpertin/ Chemieexperte für KI-Modell-Training (m/w/d)
Freiberufliche/r Biologie-Expertin/Experte für KI-Modell-Training (m/w/d)
Freelance Product Owner Android Entwicklung (m/f/d)
Freiberuflicher Fahrzeugingenieur (mit Python) - Qualitätssicherung / KI-Trainer
Freiberuflicher Physik-Experte (mit Python) – Qualitätssicherung / KI-Trainer
Senior Projektmanager Customer Interaction
Projektleiter Zeitschriften / Magazinerstellung (m/w/d)
Freiberuflicher Ruby-Entwickler (m/w/d)
ERP-Transformation Manager (m/w/d)
Freelance Product Owner für Point Of Sale App
Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Cybersecurity-Berater für AI Red Teaming
Entwickler für Consent Management Implementierung (m/w/d)
Freiberuflicher Java-Entwickler (m/w/d)
Inbetriebnahme- und Qualifizierungsingenieur (C&Q) (m/w/d)
Freiberuflicher Redakteur (m/f/d)
Senior Faktor 10 Entwickler (IPS / IPM) (m/w/d)
KI-Consultants - Data Science (m/w/d)
IT Projektleiter ServiceNow (Senior)
IT-Projekt Manager ISO 27.001 - Gap-Schließung (m/w/d)
Freelance Post-Merger-Integration Berater mit starkem Tech- und Commercial-Fokus (m/w/d)
Chemiker mit Python-Erfahrung (m/w/d)
Senior Web-Entwickler (m/w/d)
Sales Manager für ein Medienunternehmen (m/f/d)
Biologe mit Python-Erfahrung (m/w/d)
KI-Berater - Machine Learning (m/w/d)
KI-Berater für Vibe Coding (m/w/d)
Frontend developer to HR platform with Angular experience
Die Zeit ist abgelaufen! Wir akzeptieren keine Bewerbungen mehr.
Analyst für KI-Agenten-Evaluation (m/w/d)
Projekt Info
- TagessatzAb 280€
- Sprache
- Englisch(Verhandlungssicher)
- Englisch
- Remoteanteil100%
Beschreibung
Wir suchen QA-Tester für autonome KI-Agenten für ein neues Projekt, bei dem komplexe Aufgabenstrukturen, Richtlinienlogik und Evaluationsframeworks für Agenten validiert und verbessert werden. Im Laufe des Projekts musst du Qualitätssicherung, Recherche und logisches Problemlösen in Einklang bringen. Diese Projektmöglichkeit ist ideal für alle, die Systeme ganzheitlich betrachten und Szenarien, Auswirkungen und Randfälle durchdenken.
Du brauchst keinen Programmierhintergrund, aber du musst neugierig, intellektuell rigoros und in der Lage sein, die Plausibilität und Konsistenz komplexer Setups zu bewerten. Wenn du in Bereichen wie Beratung, CHGK (Quizshow), Olympiaden, Fallstudien oder systemischem Denken schon einmal herausragst warst – dann könntest du hervorragend passen.
Was dich erwartet:
- Überprüfung von Evaluationsaufgaben und Szenarien auf Logik, Vollständigkeit und Realitätsnähe.
- Aufdecken von Inkonsistenzen, fehlenden Annahmen oder unklaren Entscheidungspunkten.
- Mitentwicklung klarer erwarteter Verhaltensweisen (Goldstandards) für KI-Agenten.
- Annotieren von Ursache-Wirkungs-Beziehungen, Argumentationspfaden und plausiblen Alternativen.
- Ganzheitliches Durchdenken komplexer Systeme und Richtlinien aus menschlicher Perspektive, um eine gründliche Prüfung der Agenten sicherzustellen.
- Enge Zusammenarbeit mit QA, Textern oder Entwicklern, um Verfeinerungen oder Abdeckung von Randfällen vorzuschlagen.
Anforderungen
- Ausgeprägtes analytisches Denkvermögen: Du kannst komplexe Systeme, Szenarien und logische Zusammenhänge durchdenken.
- Hohe Detailgenauigkeit: Du erkennst Widersprüche, Mehrdeutigkeiten und unklare Anforderungen.
- Vertrautheit mit strukturierten Datenformaten: Du kannst JSON/YAML lesen, musst sie nicht unbedingt schreiben.
- Ganzheitliche Bewertung von Szenarien: Was fehlt, was ist unrealistisch, was könnte scheitern?
- Gute Kommunikationsfähigkeiten und klares Schreiben (auf Englisch), um deine Ergebnisse zu dokumentieren.
Wir schätzen außerdem Bewerber, die:
- Erfahrung mit Policy-Evaluation, Logikrätseln, Fallstudien oder der Gestaltung strukturierter Szenarien.
- Hintergrund in Beratung, Wissenschaft, Olympiaden (z.B. Logik, Mathe, Informatik) oder Forschung.
- Berührungspunkte mit LLMs, Prompt Engineering oder KI-generierten Inhalten.
- Vertrautheit mit QA- oder Testfall-Denken (Randfälle, Fehlermodi, "Was könnte schiefgehen").
- Einiges Verständnis davon, wie Bewertung oder Scoring in Agententests funktioniert (Präzision, Abdeckung etc.).