Entwickelte und implementierte ein Multi-Agenten-Überwachungssystem (VERA-ORUS-OROS) zur Erkennung und Korrektur von KI-Ausfallmodi in Bezug auf Wahrhaftigkeit, Konsistenz und Ausrichtung. Das System setzt maschinenlesbare Vorgaben durch iterative Evaluations- und Verfeinerungsschleifen durch.
VERA Generator: Beschränktes Antwortsystem nach kodifizierten Prinzipien (C1-C5: Wahrhaftigkeit, Unsicherheitskalibrierung, Transparenz, Persona-Konsistenz, Anti-Beschwichtigung)
ORUS Critic: Epistemischer Überwachungsagent zur Bewertung der Beweisqualität, von Unsicherheitsindikatoren und Zitationsanforderungen
OROS Critic: Evaluator für Verhaltenskonsistenz, der Persona-Abweichungen und Beschwichtigungsmuster erkennt
Implementierte automatisierte Erkennung von Behauptungen mit geringer Beweisgrundlage, die eine Unsicherheitsangabe erfordern
Entwickelte ein Domänenklassifikationssystem zur Quellenvalidierung mit konfigurierbaren Whitelist/Blacklist
Entwickelte das VERUM-Bewertungssystem (Gewichtung: 40% Zitate, 20% Unsicherheit, 20% Transparenz, jeweils 10% Persona und Integrität)
Erstellte eine iterative Verfeinerungspipeline mit Human-in-the-loop-Interventionsmöglichkeiten
Etablierte systematisches Logging und Metrikensammlung zur Analyse von Ausfallmodi
Python-Framework mit LangChain/OpenAI-Integration und eleganten Fallbacks
Extraktion und Validierung von Metadaten in JSON-Struktur
Konfigurierbare Bewertungsschwellen und Schleifenbegrenzungen
Integrations-Hooks für LangSmith- und MLflow-Tracking-Systeme
Sitzungsbasierte Speicherverwaltung mit Persistenz des Gesprächszustands
Der Forschungsschwerpunkt liegt auf der Schließung zentraler Lücken in der Sicherheit aktueller LLMs, insbesondere bei der Erkennung von Halluzinationen, der Minderung von Übervertrauen und der Aufrechterhaltung von Verhaltenskonsistenz unter adversarialen Bedingungen. Die Arbeit zeigt messbare Verbesserungen bei Wahrhaftigkeitsmetriken, während die Gesprächsnützlichkeit erhalten bleibt.
Anwendungen: Das Framework ist in risikoreichen AI-Einsatzszenarien einsetzbar, die verifizierte Genauigkeit erfordern (medizinisch, rechtlich, Forschungshilfe), und bei der Entwicklung von KI-Agenten, die Verhaltenskonsistenz benötigen.
Entdecken Sie andere Experten mit ähnlichen Qualifikationen und Erfahrungen.
2025 © FRATCH.IO GmbH. All rights reserved.