RUBICON: Neues Bewertungssystem für KI-Unterhaltungen in der Softwareentwicklung
Kurz & Knapp
- Microsoft-Forscher haben mit RUBICON eine Technik entwickelt, die die Qualität von Unterhaltungen zwischen Softwareentwicklern und KI-Assistenten automatisiert bewertet, indem sie maßgeschneiderte Kriterien generiert, die relevantesten auswählt und die Gespräche anhand dieser bewertet.
- RUBICON bezieht dabei Prinzipien für effektive Kommunikation wie die Grice'schen Konversationsmaximen und domänenspezifisches Wissen mit ein, um die Kriterien auf die jeweilige Anwendungsdomäne zuzuschneiden.
- In einer Evaluation mit Debugging-Unterhaltungen in C# konnten mit RUBICON 84 Prozent der Gespräche mit einer Präzision von über 90 Prozent als positiv oder negativ klassifiziert werden, was bisherige Verfahren deutlich übertrifft und die Bedeutung von domänenspezifischem Wissen und Kommunikationsprinzipien unterstreicht.
Forscher von Microsoft haben mit RUBICON eine Technik entwickelt, um die Qualität von Unterhaltungen zwischen Softwareentwicklern und KI-Assistenten automatisiert zu bewerten. Das System generiert dafür maßgeschneiderte Bewertungskriterien.
Die Bewertung von KI-Assistenten wie GitHub Copilot stellt Werkzeugentwickler vor Herausforderungen, denn die Qualität der Interaktionen zwischen Mensch und KI lässt sich aufgrund der Vielfalt an Aufgaben und der Komplexität der Unterhaltungen nur schwer einschätzen.
Forscher von Microsoft stellen nun mit RUBICON eine Technik vor, um die Qualität solcher domänenspezifischen Unterhaltungen automatisiert zu bewerten. RUBICON steht für "Rubric-based Evaluation of Domain Specific Human-AI Conversations" und wurde auf der AIware-Konferenz 2024 präsentiert.

Das System besteht aus drei Hauptkomponenten: der Generierung von Bewertungskriterien, der Auswahl der relevantesten Kriterien und der eigentlichen Bewertung der Unterhaltungen. Zur Generierung der Kriterien analysiert RUBICON zunächst einen Trainingsdatensatz aus Unterhaltungen, die als positiv oder negativ gekennzeichnet sind.
Dabei identifiziert es Muster, die auf Zufriedenheit oder Unzufriedenheit der Nutzer hindeuten. Im Gegensatz zu früheren Ansätzen bezieht RUBICON dabei Prinzipien für effektive Kommunikation, wie die Grice'schen Konversationsmaximen (welche vier Dimensionen der Gesprächseffektivität erfassen: Quantität, Qualität, Relevanz und Art und Weise), und domänenspezifisches Wissen mit ein.
Auf dem Weg zur besseren Coding-KI
So werden die generierten Kriterien auf die jeweilige Anwendungsdomäne zugeschnitten. In einem zweiten Schritt wählt RUBICON mittels eines iterativen Verfahrens eine Teilmenge der generierten Kriterien aus, die am besten zwischen positiven und negativen Unterhaltungen unterscheiden können. Schließlich bewertet ein großes Sprachmodell die zu testenden Unterhaltungen anhand der ausgewählten Kriterien und eines ermittelten Schwellenwerts.
Die Forscher evaluierten RUBICON anhand von 100 Unterhaltungen zwischen Entwicklern und einem KI-Assistenten für das Debugging in C#. Dabei zeigte sich, dass die von RUBICON generierten Kriterien eine deutlich bessere Unterscheidung zwischen positiven und negativen Unterhaltungen ermöglichten als Kriterien früherer Verfahren oder manuell erstellte Kriterien.
Mit RUBICON konnten 84 Prozent der Unterhaltungen mit einer Präzision von über 90 Prozent als positiv oder negativ klassifiziert werden. Frühere Verfahren erreichten maximal 64 Prozent.
Laut Micorosft wurde RUBICON bereits erfolgreich in einer beliebten Entwicklungsumgebung eines großen Softwareunternehmens eingesetzt, um zwei KI-Assistenten zu überwachen.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.