Projektdetail
Empfohlene Projekte
KI-Agent Evaluationsanalyst (m/w/d)
MCP- & Tools-Python-Entwickler (m/w/d)
Senior Data Architect (m/w/d)
SAP FI/CO Consultant (m/w/d) – Fokus SAP R/3 - S/4HANA Transition
Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)
Mathematiker mit Python-Erfahrung (m/w/d)
Physiker mit Python-Erfahrung (m/w/d)
Freiberuflicher Cybersecurity-Berater für AI Red Teaming
AI-Evaluationsberater (m/w/d)
Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)
Freiberuflicher Fahrzeugingenieur (mit Python) – Qualitätssicherung / KI-Trainer
Freiberuflicher Physik-Experte (mit Python) – Qualitätssicherung / KI-Trainer
Freiberuflicher Java-Entwickler (m/w/d)
Freiberuflicher Ruby-Entwickler (m/w/d)
ITSM Spezialist BIA/BCM (m/w/d)
Freelance Biologie-Experte für KI-Modelltraining (m/w/d)
Freiberuflicher Chemie-Experte für KI-Modell-Training (m/w/d)
Chemiker mit Python-Erfahrung (m/w/d)
Biologe mit Python-Erfahrung (m/w/d)
Zahnarzt (m/w/d) zur Schulung von KI-Modellen
Autor für Evaluierungsszenarien (m/w/d)
KI-Berater - Machine Learning (m/w/d)
KI-Berater für Vibe Coding (m/w/d)
Freiberuflicher Statistikexperte mit Python-Erfahrung (m/w/d)
Freiberuflicher Bauingenieur mit Python-Erfahrung (m/w/d)
Sales Manager für ein Medienunternehmen (m/f/d)
Senior Experte für regulatorische Compliance (FDA-Inspektionsvorbereitung) (m/w/d)
Commissioning & Qualification (C&Q) Ingenieur (m/w/d)
Qualitäts-Compliance-Auditor (GCP/GCLP/GVP) (M/W/D)
Fullstack Data Platform Entwickler & Architect (m/w/d)
Frontend developer to HR platform with Angular experience
KI-Agent Evaluationsanalyst (m/w/d)
Projekt Info
- TagessatzAb 280€
- Sprache
- Englisch(Verhandlungssicher)
- Englisch
- Remoteanteil100%
Beschreibung
Wir suchen QA-Tester für autonome KI-Agenten in einem neuen Projekt, das sich auf Validierung und Verbesserung komplexer Aufgabenstrukturen, Richtlinienlogik und Bewertungsrahmen für Agenten konzentriert. Im Verlauf des Projekts musst du Qualitätssicherung, Recherche und logisches Problemlösen in Einklang bringen. Diese Projektmöglichkeit eignet sich besonders für Menschen, die Systeme ganzheitlich betrachten und Szenarien, Folgen und Randfälle durchdenken.
Du brauchst keinen Programmierhintergrund, musst aber neugierig, intellektuell gründlich und in der Lage sein, die Schlüssigkeit und Konsistenz komplexer Setups zu bewerten. Wenn du jemals in Bereichen wie Beratung, Quizshows (CHGK), Olympiaden, Falllösungen oder Systemdenken erfolgreich warst, könntest du gut zu uns passen.
Was du tun wirst:
- Bewertung von Aufgaben und Szenarien auf Logik, Vollständigkeit und Realismus.
- Aufdecken von Inkonsistenzen, fehlenden Annahmen oder unklaren Entscheidungsstellen.
- Mitwirkung bei der Definition klarer Erwartungsverhalten (Goldstandards) für KI-Agenten.
- Markierung von Ursache-Wirkungs-Beziehungen, Gedankengängen und plausiblen Alternativen.
- Durchdenken komplexer Systeme und Richtlinien aus menschlicher Perspektive, um sicherzustellen, dass Agenten richtig getestet werden.
- Enge Zusammenarbeit mit QA, Autoren oder Entwicklern, um Verfeinerungen oder Randfallabdeckung vorzuschlagen.
Anforderungen
- Ausgeprägtes analytisches Denkvermögen: Kann komplexe Systeme, Szenarien und logische Folgen durchdenken.
- Höchste Genauigkeit: Erkennt Widersprüche, Unklarheiten und vage Anforderungen.
- Vertrautheit mit strukturierten Datenformaten: Kann JSON/YAML lesen (Schreiben nicht erforderlich).
- Ganzheitliche Bewertung von Szenarien: Was fehlt, was ist unrealistisch, wo können Probleme auftreten?
- Gute Kommunikationsfähigkeiten und klare Schreibweise (auf Englisch), um deine Ergebnisse zu dokumentieren.
Wir schätzen außerdem Bewerber mit:
- Erfahrung in Richtlinienbewertung, Logikrätseln, Fallstudien oder strukturiertem Szenariodesign.
- Hintergrund in Beratung, Wissenschaft, Olympiaden (z.B. Logik/Mathe/Informatik) oder Forschung.
- Erfahrung mit LLMs, Prompt Engineering oder KI-generierten Inhalten.
- Vertrautheit mit QA oder Testfalldenken (Randfälle, Ausfallmodi, "Was könnte schiefgehen").
- Grundkenntnisse darüber, wie Bewertung oder Scoring in Agententests funktioniert (Präzision, Abdeckung usw.).