Inhalt
summary Zusammenfassung

Eine neue Studie von Microsoft und Salesforce zeigt: Selbst moderne KI-Sprachmodelle verlieren in mehrstufigen Gesprächen drastisch an Zuverlässigkeit, wenn Nutzer:innen ihre Anforderungen erst allmählich präzisieren. Die Leistung der Systeme brach dabei im Durchschnitt um 39 Prozent ein.

Anzeige

Um typische Mehrfachrunden-Gespräche nachzustellen, haben die Forschenden eine spezielle Simulationsmethode namens "Sharding" entwickelt. Diese zerlegt eine vollständige Aufgabe in mehrere Teilinformationen, die dem KI-Modell schrittweise mitgeteilt werden, angelehnt daran, wie Menschen ihre Anforderungen oft erst im Laufe eines Gesprächs konkretisieren.

Gegenüberstellung von vollständigen und zerlegten Anweisungsbeispielen für 6 Aufgabentypen, mit Quellen und Evaluationsmetriken.
Die Experimente basieren auf 90-120 solcher in kleinere Aufgaben zerlegten Anweisungen aus hochwertigen Datensätzen. | Bild: Laban et al.

Wenn die KI-Modelle nicht von Anfang an alle Informationen enthielten, sank ihre Erfolgsquote von etwa 90 Prozent auf nur noch rund 51 Prozent. Dieser dramatische Leistungseinbruch betraf alle 15 getesteten Modelle, von kleinen Open-Source-Varianten wie Llama-3.1-8B bis zu kommerziellen Systemen wie GPT-4o.

Auch die fortschrittlichsten getesteten Modelle wie Claude 3.7 Sonnet, Gemini 2.5 Pro und GPT-4.1 schnitten in Mehrfachrunden-Gesprächen um 30-40 Prozent schlechter ab als in Einzelrunden. Zudem verdoppelte sich die Unzuverlässigkeit der Modelle im Durchschnitt, wobei die Ergebnisse deutlich stärker schwanken als bei Einzelrunden-Gesprächen.

Anzeige
Anzeige

Die Forschenden identifizierten vier zentrale Probleme:

  1. Die Modelle schlagen zu früh Lösungen vor, ohne alle Details abzuwarten.
  2. Sie stützen sich zu stark auf ihre früheren - oft fehlerhaften - Antwortversuche.
  3. Sie vernachlässigen Informationen aus der Mitte des Gesprächs.
  4. Sie formulieren zu ausführlich und treffen dadurch falsche Annahmen über fehlende Details.
Diagramm: LLMs zeigen in Multi-Turn-Gesprächen geringere Eignung & höhere Unzuverlässigkeit als in Single-Turn-Szenarien.
LLMs "verirren" sich in mehrstufigen, unterspezifizierten Konversationen, was ihre Leistung erheblich schmälert. | Bild: Laban et al.

Technische Verbesserungsversuche scheitern

Die Forscher:innen testeten verschiedene technische Anpassungen, um zuverlässigere Ergebnisse zu erzielen. Weder ein niedrigerer Temperaturwert, der die Zufälligkeit der Antworten steuert, noch das Wiederholen von Nutzerinformationen durch einen Agenten konnte die Leistungseinbrüche merklich abmildern.

Auch die Detailgenauigkeit der schrittweise übermittelten Informationen beeinflusste die Ergebnisse kaum. Als einzige effektive Methode erwies es sich, wenn die KI bereits zu Beginn des Gesprächs alle Informationen erhielt.

Die Forscher:innen haben die Verschlechterung in zwei Komponenten zerlegt: Die grundsätzliche Fähigkeit der Modelle (Aptitude) nahm nur leicht ab - im Durchschnitt um 16 Prozent. Die Unzuverlässigkeit (Unreliability) stieg dagegen drastisch um 112 Prozent.

In Einzelrunden-Gesprächen arbeiteten Modelle mit höherer Grundfähigkeit meist auch zuverlässiger. Bei Mehrfachrunden-Gesprächen zeigten jedoch alle getesteten Modelle eine ähnlich hohe Unzuverlässigkeit, unabhängig von ihrer Grundfähigkeit. Für eine bestimmte Aufgabe schwankte die Leistung im Durchschnitt um 50 Prozentpunkte zwischen dem besten und schlechtesten Durchlauf.

Empfehlung

Was Nutzer und Entwickler tun können

Aus diesen Erkenntnissen haben die Forschenden zwei pragmatische Strategien abgeleitet. Bei Problemen sollten Nutzer:innen lieber ein neues Gespräch beginnen, statt ein festgefahrenes fortzusetzen. Am Ende eines Gesprächs sollten sie außerdem alle Anforderungen zusammenfassen lassen und diese gebündelt in einem neuen Dialog verwenden.

An die KI-Entwickler:innen appellieren die Forschenden, mehr Wert auf die Zuverlässigkeit in Mehrfachrunden-Gesprächen zu legen. Künftige Modelle müssen auch mit unvollständigen Anweisungen konstant gute Ergebnisse liefern - ohne spezielle Prompts oder Temperaturanpassungen.

Die Studie zeigt: Bei der KI-Entwicklung muss neben der reinen Leistungsfähigkeit auch die Zuverlässigkeit in den Fokus rücken. Diese Erkenntnis ist besonders wichtig für den praktischen Einsatz von KI-Assistenten, da mehrstufige Gespräche mit schrittweise präzisierten Anforderungen dort die Regel sind.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von Microsoft und Salesforce zeigt, dass moderne KI-Sprachmodelle in mehrstufigen Gesprächen mit allmählich präzisierten Anforderungen deutlich an Zuverlässigkeit verlieren – ihre Erfolgsquote sinkt im Durchschnitt von etwa 90 auf rund 51 Prozent.
  • Die Forschenden identifizierten vier Hauptprobleme: voreiliges Vorschlagen von Lösungen, zu starke Orientierung an fehlerhaften Vorantworten, Vernachlässigung von Informationen aus der Gesprächsmitte und zu ausführliche Formulierungen mit falschen Annahmen.
  • Technische Anpassungen wie geringere Temperaturwerte oder das Wiederholen von Nutzereingaben verbesserten die Zuverlässigkeit kaum; nur das vollständige Bereitstellen aller Informationen zu Beginn eines Gesprächs verhinderte massive Leistungseinbrüche.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!