Projektdetail
Empfohlene Projekte
Autor für Evaluierungsszenarien (m/w/d)
KI-Evaluationsberater (m/w/d)
Software Test Engineer (m/w/d)
Vibe Coding Web Scraping Experte (m/w/d)
Systemingenieur Funktionale Sicherheit (m/w/d)
Freiberuflicher Fahrzeugingenieur (mit Python) - Qualitätssicherung / KI-Trainer
Senior Projektmanager Kundeninteraktion
ERP-Transformation Manager (m/w/d)
Freiberuflicher Product Owner für Point-of-Sale-App
Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Cybersicherheitsberater für AI Red Teaming
Commissioning- und Qualifizierungsingenieur (m/w/d)
Senior Faktor 10 Entwickler (IPS / IPM) (m/w/d)
KI-Berater - Data Science (m/w/d)
IT-Projektmanager ISO 27001 – Lückenbeseitigung (m/w/d)
Interim Staff Product Manager (m/w/d)
KI-Berater - Machine Learning (m/w/d)
Managementberater (Senior) (m/w/d)
HSE Specialist – Cell Manufacturing
Qualitäts-Compliance-Auditor (GCP/GCLP/GVP) (M/W/D)
Senior Regulatory Compliance Expert (FDA-Inspektionsvorbereitung) (m/w/d)
Beratung im Bereich Tax Strategy
Java IT-Architekt (m/w/d)
Experte für Prozessautomatisierung in Kanzleiumgebungen (m/w/d)
Kajabi Experte (m/w/d)
Sicherheits- und Gesundheitsschutzkoordinator (SiGeKo) und Sicherheitsfachkraft (SiFa) (m/w/d)
Leittechniker / Leittechnik-Spezialist (m/w/d)
Entwicklung TM1 Planning Analytics Und Schnittstellen (m/w/d)
Cyber Security Consultant – Product Security & Regulatory Compliance (m/w/d)
Senior Cloud Developer Typesript (m/w/d)
Frontend developer to HR platform with Angular experience
Die Zeit ist abgelaufen! Wir akzeptieren keine Bewerbungen mehr.
Analyst für KI-Agenten-Evaluation (m/w/d)
Projekt Info
- TagessatzAb 280€
- Sprache
- Englisch(Verhandlungssicher)
- Englisch
- Remoteanteil100%
Beschreibung
Wir suchen QA-Tester für autonome KI-Agenten für ein neues Projekt, bei dem komplexe Aufgabenstrukturen, Richtlinienlogik und Evaluationsframeworks für Agenten validiert und verbessert werden. Im Laufe des Projekts musst du Qualitätssicherung, Recherche und logisches Problemlösen in Einklang bringen. Diese Projektmöglichkeit ist ideal für alle, die Systeme ganzheitlich betrachten und Szenarien, Auswirkungen und Randfälle durchdenken.
Du brauchst keinen Programmierhintergrund, aber du musst neugierig, intellektuell rigoros und in der Lage sein, die Plausibilität und Konsistenz komplexer Setups zu bewerten. Wenn du in Bereichen wie Beratung, CHGK (Quizshow), Olympiaden, Fallstudien oder systemischem Denken schon einmal herausragst warst – dann könntest du hervorragend passen.
Was dich erwartet:
- Überprüfung von Evaluationsaufgaben und Szenarien auf Logik, Vollständigkeit und Realitätsnähe.
- Aufdecken von Inkonsistenzen, fehlenden Annahmen oder unklaren Entscheidungspunkten.
- Mitentwicklung klarer erwarteter Verhaltensweisen (Goldstandards) für KI-Agenten.
- Annotieren von Ursache-Wirkungs-Beziehungen, Argumentationspfaden und plausiblen Alternativen.
- Ganzheitliches Durchdenken komplexer Systeme und Richtlinien aus menschlicher Perspektive, um eine gründliche Prüfung der Agenten sicherzustellen.
- Enge Zusammenarbeit mit QA, Textern oder Entwicklern, um Verfeinerungen oder Abdeckung von Randfällen vorzuschlagen.
Anforderungen
- Ausgeprägtes analytisches Denkvermögen: Du kannst komplexe Systeme, Szenarien und logische Zusammenhänge durchdenken.
- Hohe Detailgenauigkeit: Du erkennst Widersprüche, Mehrdeutigkeiten und unklare Anforderungen.
- Vertrautheit mit strukturierten Datenformaten: Du kannst JSON/YAML lesen, musst sie nicht unbedingt schreiben.
- Ganzheitliche Bewertung von Szenarien: Was fehlt, was ist unrealistisch, was könnte scheitern?
- Gute Kommunikationsfähigkeiten und klares Schreiben (auf Englisch), um deine Ergebnisse zu dokumentieren.
Wir schätzen außerdem Bewerber, die:
- Erfahrung mit Policy-Evaluation, Logikrätseln, Fallstudien oder der Gestaltung strukturierter Szenarien.
- Hintergrund in Beratung, Wissenschaft, Olympiaden (z.B. Logik, Mathe, Informatik) oder Forschung.
- Berührungspunkte mit LLMs, Prompt Engineering oder KI-generierten Inhalten.
- Vertrautheit mit QA- oder Testfall-Denken (Randfälle, Fehlermodi, "Was könnte schiefgehen").
- Einiges Verständnis davon, wie Bewertung oder Scoring in Agententests funktioniert (Präzision, Abdeckung etc.).