Inhalt
summary Zusammenfassung

Forscher von Microsoft haben mit RUBICON eine Technik entwickelt, um die Qualität von Unterhaltungen zwischen Softwareentwicklern und KI-Assistenten automatisiert zu bewerten. Das System generiert dafür maßgeschneiderte Bewertungskriterien.

Anzeige

Die Bewertung von KI-Assistenten wie GitHub Copilot stellt Werkzeugentwickler vor Herausforderungen, denn die Qualität der Interaktionen zwischen Mensch und KI lässt sich aufgrund der Vielfalt an Aufgaben und der Komplexität der Unterhaltungen nur schwer einschätzen.

Forscher von Microsoft stellen nun mit RUBICON eine Technik vor, um die Qualität solcher domänenspezifischen Unterhaltungen automatisiert zu bewerten. RUBICON steht für "Rubric-based Evaluation of Domain Specific Human-AI Conversations" und wurde auf der AIware-Konferenz 2024 präsentiert.

Zwei analoge Gespräche, die durch den Debugger-KI-Assistenten geführt wurden, wurden anhand einiger repräsentativer Rubriken bewertet. Das Gespräch auf der rechten Seite wurde als besser, das auf der linken Seite als weniger gut bewertet. | Bild: Microsoft

Das System besteht aus drei Hauptkomponenten: der Generierung von Bewertungskriterien, der Auswahl der relevantesten Kriterien und der eigentlichen Bewertung der Unterhaltungen. Zur Generierung der Kriterien analysiert RUBICON zunächst einen Trainingsdatensatz aus Unterhaltungen, die als positiv oder negativ gekennzeichnet sind.

Anzeige
Anzeige

Dabei identifiziert es Muster, die auf Zufriedenheit oder Unzufriedenheit der Nutzer hindeuten. Im Gegensatz zu früheren Ansätzen bezieht RUBICON dabei Prinzipien für effektive Kommunikation, wie die Grice'schen Konversationsmaximen (welche vier Dimensionen der Gesprächseffektivität erfassen: Quantität, Qualität, Relevanz und Art und Weise), und domänenspezifisches Wissen mit ein.

Auf dem Weg zur besseren Coding-KI

So werden die generierten Kriterien auf die jeweilige Anwendungsdomäne zugeschnitten. In einem zweiten Schritt wählt RUBICON mittels eines iterativen Verfahrens eine Teilmenge der generierten Kriterien aus, die am besten zwischen positiven und negativen Unterhaltungen unterscheiden können. Schließlich bewertet ein großes Sprachmodell die zu testenden Unterhaltungen anhand der ausgewählten Kriterien und eines ermittelten Schwellenwerts.

Die Forscher evaluierten RUBICON anhand von 100 Unterhaltungen zwischen Entwicklern und einem KI-Assistenten für das Debugging in C#. Dabei zeigte sich, dass die von RUBICON generierten Kriterien eine deutlich bessere Unterscheidung zwischen positiven und negativen Unterhaltungen ermöglichten als Kriterien früherer Verfahren oder manuell erstellte Kriterien.

Mit RUBICON konnten 84 Prozent der Unterhaltungen mit einer Präzision von über 90 Prozent als positiv oder negativ klassifiziert werden. Frühere Verfahren erreichten maximal 64 Prozent.

Laut Micorosft wurde RUBICON bereits erfolgreich in einer beliebten Entwicklungsumgebung eines großen Softwareunternehmens eingesetzt, um zwei KI-Assistenten zu überwachen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft-Forscher haben mit RUBICON eine Technik entwickelt, die die Qualität von Unterhaltungen zwischen Softwareentwicklern und KI-Assistenten automatisiert bewertet, indem sie maßgeschneiderte Kriterien generiert, die relevantesten auswählt und die Gespräche anhand dieser bewertet.
  • RUBICON bezieht dabei Prinzipien für effektive Kommunikation wie die Grice'schen Konversationsmaximen und domänenspezifisches Wissen mit ein, um die Kriterien auf die jeweilige Anwendungsdomäne zuzuschneiden.
  • In einer Evaluation mit Debugging-Unterhaltungen in C# konnten mit RUBICON 84 Prozent der Gespräche mit einer Präzision von über 90 Prozent als positiv oder negativ klassifiziert werden, was bisherige Verfahren deutlich übertrifft und die Bedeutung von domänenspezifischem Wissen und Kommunikationsprinzipien unterstreicht.
Quellen
Kim setzt sich mit den ethischen, wirtschaftlichen und politischen Auswirkungen von KI auseinander. Und natürlich mit der Frage: Wovon träumen Roboter?
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!