Projektdetail
Empfohlene Projekte
KI-Agent Evaluationsanalyst (m/w/d)
Autor für Evaluierungsszenarien (m/w/d)
AI-Evaluationsberater (m/w/d)
Freiberuflicher Chemie-Experte für KI-Modell-Training (m/w/d)
Freelance Biologie-Experte für KI-Modelltraining (m/w/d)
Freiberuflicher Bauingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Fahrzeugingenieur (mit Python) – Qualitätssicherung / KI-Trainer
Anforderungs- Und Contentmanager (m/w/d)
Freiberuflicher Physik-Experte (mit Python) – Qualitätssicherung / KI-Trainer
Managementberatung (Senior-Level)
Business Analyst – SAP S/4HANA Output Management (m/w/d)
Senior Projektmanager Kundeninteraktion
Freiberuflicher Statistikexperte mit Python-Erfahrung (m/w/d)
Projektleiter Zeitschriften / Magazinerstellung (m/w/d)
Freiberuflicher Ruby-Entwickler (m/w/d)
Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)
Produktmanager POS / Kassensysteme (m/w/d)
ERP-Transformation Manager (m/w/d)
Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Cybersecurity-Berater für AI Red Teaming
Entwickler für Consent Management Implementierung (m/w/d)
Freiberuflicher Java-Entwickler (m/w/d)
Commissioning & Qualification (C&Q) Ingenieur (m/w/d)
Freiberuflicher Redakteur (m/f/d)
KI-Berater – Data Science (m/w/d)
Senior Faktor 10 Entwickler (IPS / IPM) (m/w/d)
IT Projektleiter ServiceNow (Senior)
Chemiker mit Python-Erfahrung (m/w/d)
Senior Web-Entwickler (m/w/d)
Sales Manager für ein Medienunternehmen (m/f/d)
Biologe mit Python-Erfahrung (m/w/d)
Frontend developer to HR platform with Angular experience
KI-Agent Evaluationsanalyst (m/w/d)
Projekt Info
- TagessatzAb 280€
- Sprache
- Englisch(Verhandlungssicher)
- Englisch
- Remoteanteil100%
Beschreibung
Wir suchen QA-Tester für autonome KI-Agenten in einem neuen Projekt, das sich auf Validierung und Verbesserung komplexer Aufgabenstrukturen, Richtlinienlogik und Bewertungsrahmen für Agenten konzentriert. Im Verlauf des Projekts musst du Qualitätssicherung, Recherche und logisches Problemlösen in Einklang bringen. Diese Projektmöglichkeit eignet sich besonders für Menschen, die Systeme ganzheitlich betrachten und Szenarien, Folgen und Randfälle durchdenken.
Du brauchst keinen Programmierhintergrund, musst aber neugierig, intellektuell gründlich und in der Lage sein, die Schlüssigkeit und Konsistenz komplexer Setups zu bewerten. Wenn du jemals in Bereichen wie Beratung, Quizshows (CHGK), Olympiaden, Falllösungen oder Systemdenken erfolgreich warst, könntest du gut zu uns passen.
Was du tun wirst:
- Bewertung von Aufgaben und Szenarien auf Logik, Vollständigkeit und Realismus.
- Aufdecken von Inkonsistenzen, fehlenden Annahmen oder unklaren Entscheidungsstellen.
- Mitwirkung bei der Definition klarer Erwartungsverhalten (Goldstandards) für KI-Agenten.
- Markierung von Ursache-Wirkungs-Beziehungen, Gedankengängen und plausiblen Alternativen.
- Durchdenken komplexer Systeme und Richtlinien aus menschlicher Perspektive, um sicherzustellen, dass Agenten richtig getestet werden.
- Enge Zusammenarbeit mit QA, Autoren oder Entwicklern, um Verfeinerungen oder Randfallabdeckung vorzuschlagen.
Anforderungen
- Ausgeprägtes analytisches Denkvermögen: Kann komplexe Systeme, Szenarien und logische Folgen durchdenken.
- Höchste Genauigkeit: Erkennt Widersprüche, Unklarheiten und vage Anforderungen.
- Vertrautheit mit strukturierten Datenformaten: Kann JSON/YAML lesen (Schreiben nicht erforderlich).
- Ganzheitliche Bewertung von Szenarien: Was fehlt, was ist unrealistisch, wo können Probleme auftreten?
- Gute Kommunikationsfähigkeiten und klare Schreibweise (auf Englisch), um deine Ergebnisse zu dokumentieren.
Wir schätzen außerdem Bewerber mit:
- Erfahrung in Richtlinienbewertung, Logikrätseln, Fallstudien oder strukturiertem Szenariodesign.
- Hintergrund in Beratung, Wissenschaft, Olympiaden (z.B. Logik/Mathe/Informatik) oder Forschung.
- Erfahrung mit LLMs, Prompt Engineering oder KI-generierten Inhalten.
- Vertrautheit mit QA oder Testfalldenken (Randfälle, Ausfallmodi, "Was könnte schiefgehen").
- Grundkenntnisse darüber, wie Bewertung oder Scoring in Agententests funktioniert (Präzision, Abdeckung usw.).