Microsoft ist "unfähig oder unwillig", den Bing Chatbot zu verbessern, sagt AlgorithmWatch

18. Dezember 2023

DALL-E 3 prompted by THE DECODER

Update – 18. Dezember 2023

Abschlussbericht von AlgorithmWatch ergänzt

Update vom 18. Dezember 2023:

AlgorithmWatch veröffentlicht den Abschlussbericht zur Bing-Chat-Untersuchung. Laut AlgorithmWatch bleibt das Problem der Falschmeldungen im untersuchten Wahlszenario bestehen. Teilweise habe Bing Chat sogar Skandalgeschichten über Wahlkandidaten samt Quellen erfunden.

Ein weiteres Problem sei die Inkonsistenz der Antworten und das häufige Ausweichen, was den Wert des Chatbots als Informationstool schmälere. Microsoft sei "unfähig oder unwillig", diese Probleme zu lösen. Generative KI müsse reguliert und die Technologieunternehmen zur Verantwortung gezogen werden.

Ursprünglicher Artikel vom 5. Oktober 2023:

AlgorithmWatch fällt vernichtendes Urteil über Bing Chatbot

Niemand sollte sich mit Microsofts Bing-Chat über bevorstehende Wahlen oder Abstimmungen informieren, lautet das Fazit einer von AlgorithmWatch durchgeführten Untersuchung von KI-Chats im Kontext der Demokratie.

Die Untersuchung von AlgorithmWatch und AI Forensics in Zusammenarbeit mit den Schweizer Radio- und Fernsehsendern SRF und RTS hat ergeben, dass diese KI-Suchmaschinen falsche Antworten auf Fragen zu Wahlen in Bayern, Hessen und der Schweiz geben.

Das Team testete seit Ende August die Qualität der Antworten von Bing Chat auf Fragen zu den Landtagswahlen in Bayern und Hessen sowie zu den Bundestagswahlen in der Schweiz.

Die Prompts (oder Suchanfragen) wurden über ein Netzwerk von VPNs und privaten IPs in der Schweiz und in Deutschland gestellt. Die Sprach- und Standortparameter wurden so gewählt, dass sie die potenziellen Wähler in den jeweiligen Wahlregionen widerspiegeln.

Die Datenerhebung startete am 21. August und das Team ist noch mit der Auswertung beschäftigt, aber die vorläufigen Ergebnisse zeigen klare Trends, heißt es.

Bing Chat führt politische Interessierte in die Irre

Als besonders irreführend erwies sich die KI-Suchmaschine bei der Frage nach den aktuellen Umfrageergebnissen für die bevorstehenden Wahlen in Bayern. Sie meldete fälschlicherweise, dass die Freien Wähler nur 4 Prozent der Stimmen erhalten würden, während die tatsächlichen Wahlprognosen für die Partei zwischen 12 und 17 Prozent lagen.

Auch Fragen nach den Spitzenkandidaten der Parteien für die Landtagswahl in Hessen 2023 konnte die KI-Suchmaschine nicht korrekt beantworten. Sie nannte falsche Kandidaten und identifizierte mehrfach einen pensionierten Politiker als Spitzenkandidaten der CDU.

Erfundene Umfrageergebnisse

Bing verweist häufig auf seriöse Quellen mit korrekten Umfragewerten, gibt dann aber in den eigenen Antworten unsinnige Zahlen an. So behauptete Bing mehrfach, die Freien Wähler hätten wegen des Aiwanger-Skandals an Zustimmung verloren, obwohl das Gegenteil der Fall war.

Falsche Informationen über Kandidaten

Der Chatbot lieferte auch falsche Informationen über die Kandidaten für die hessische Landtagswahl 2023. Er nannte häufig bekannte Politiker der jeweiligen Partei, auch wenn diese gar nicht kandidierten. So wurde beispielsweise Volker Bouffier häufig als Spitzenkandidat der CDU genannt, obwohl er sich im Mai 2022 aus der Politik zurückgezogen hat.

Falschmeldungen im Fall Aiwanger

Bing Chat verwechselte problematische Äußerungen Aiwangers über Corona mit der Flugblattaffäre. In einer Antwort wurde der Skandal einseitig aus Aiwangers Sicht interpretiert. In einer anderen brachte Bing die Flugblattaffäre mit der Linkspartei und nicht mit Aiwanger in Verbindung. Von zehn Fragen zum Fall Aiwanger beantwortete der Chatbot acht korrekt und neutral.

Irreführende Angaben zu Parteien

Auf die Frage, welche Parteien an den Wahlen teilnehmen, gab Bing in keinem Fall eine vollständig korrekte Antwort. In allen zwölf Antworten wurde die CVP als eine der sechs grössten Parteien genannt und nicht "Die Mitte". In acht Antworten wurde die BDP als wählbare Partei für 2023 genannt, obwohl es die BDP gar nicht mehr gibt.

Zentrale Ergebnisse aus der Studie

Karsten Donnay, Assistenzprofessor für politische Verhaltensforschung und digitale Medien an der Universität Zürich, spricht von einem "unkritischen Einsatz von KI", bei dem Unternehmen unzuverlässige Produkte auf den Markt bringen, ohne dass dies rechtliche Konsequenzen nach sich zieht.

Als Reaktion auf die Forschungsergebnisse versichert ein Microsoft-Sprecher AlgorithmWatch, dass das Unternehmen sich verpflichtet habe, seine Dienste zu verbessern, und dass erhebliche Fortschritte bei der Verbesserung der Genauigkeit der Antworten von Bing Chat gemacht worden seien.

Microsoft bietet auch einen Präzisionsmodus für genauere Antworten an und ermutige die Nutzer, Feedback zu geben. Bing Chat im Präzisionsmodus verwendet 100 Prozent GPT-4, OpenAIs leistungsfähigstes Sprachmodell. AlgorithmWatch verwendete die Einstellung "ausgewogen", die zusätzlich zu den OpenAI-Modellen auch Microsofts eigene Modelle verwendet, und womöglich mehr Fehler generiert als GPT-4 allein.

Matthias Spielkamp, Geschäftsführer und Mitbegründer von AlgorithmWatch, kritisiert jedoch Microsofts Reaktion und sagte, das Unternehmen habe nur spezifische Probleme angesprochen, ohne die strukturellen Probleme der generativen KI anzugehen. Er warnte vor Microsofts Versprechungen bezüglich der Verlässlichkeit von Informationen und bezeichnete sie als unverantwortlich und vom Wunsch getrieben, mehr Produkte zu verkaufen.

Regulierung und politische Intervention

Im Rahmen des Digital Services Act (DSA) der EU sind digitale Plattformen und Suchmaschinen mit mehr als 45 Millionen Nutzern in der EU, darunter auch Microsoft Bing, verpflichtet, Risikobewertungen durchzuführen und Mechanismen zu entwickeln, um die von ihren Diensten ausgehenden Risiken zu minimieren.

Dazu gehören mögliche negative Auswirkungen auf die Integrität von Wahlprozessen und gesellschaftlichen Debatten sowie die Verbreitung von Fehlinformationen.

Microsoft hat bisher nicht auf Anfragen von AlgorithmWatch geantwortet, ob es die falschen Antworten von Bing Chat zu Wahlen als systemisches Risiko im Sinne des DSA ansieht und welche Maßnahmen es zu ergreifen gedenkt.

Die Europäische Kommission bewertet die Ergebnisse von AlgorithmWatch und AI Forensics als sehr relevant für den DSA und behält sich weitere Schritte vor.

AlgorithmWatch bestätigt bestehende Erkenntnisse

Die Erkenntnisse von AlgorithmWatch sind nicht neu: Bing Chat steht seit dem ersten Tag wegen Falschinformationen in der Kritik. Der ChatGPT-Browser von OpenAI hat ähnliche Schwächen und deutliche Nachteile gegenüber der herkömmlichen Internetsuche.

Die neue Studie unterstreicht die Probleme probalistischer Systeme, die deterministische Fragen beantworten sollen. Sie wirft erneut die Frage auf, warum Firmen wie Microsoft große Sprachmodelle uneingeschränkt in ungeeigneten Anwendungsszenarien einsetzen dürfen, obwohl deren Schwächen und die damit verbundenen Risiken bekannt sind.

Microsoft kannte die Probleme von Bing Chat bereits vor der Markteinführung, entschied sich aber dennoch, das Produkt auf den Markt zu bringen, um Druck auf den Suchmarkt des Konkurrenten Google auszuüben - bisher erfolglos.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren