Microsoft ist "unfähig oder unwillig", den Bing Chatbot zu verbessern, sagt AlgorithmWatch

Update

Abschlussbericht von AlgorithmWatch ergänzt

Update vom 18. Dezember 2023:

AlgorithmWatch veröffentlicht den Abschlussbericht zur Bing-Chat-Untersuchung. Laut AlgorithmWatch bleibt das Problem der Falschmeldungen im untersuchten Wahlszenario bestehen. Teilweise habe Bing Chat sogar Skandalgeschichten über Wahlkandidaten samt Quellen erfunden.

Ein weiteres Problem sei die Inkonsistenz der Antworten und das häufige Ausweichen, was den Wert des Chatbots als Informationstool schmälere. Microsoft sei "unfähig oder unwillig", diese Probleme zu lösen. Generative KI müsse reguliert und die Technologieunternehmen zur Verantwortung gezogen werden.

Ursprünglicher Artikel vom 5. Oktober 2023:

AlgorithmWatch fällt vernichtendes Urteil über Bing Chatbot

Niemand sollte sich mit Microsofts Bing-Chat über bevorstehende Wahlen oder Abstimmungen informieren, lautet das Fazit einer von AlgorithmWatch durchgeführten Untersuchung von KI-Chats im Kontext der Demokratie.

Die Untersuchung von AlgorithmWatch und AI Forensics in Zusammenarbeit mit den Schweizer Radio- und Fernsehsendern SRF und RTS hat ergeben, dass diese KI-Suchmaschinen falsche Antworten auf Fragen zu Wahlen in Bayern, Hessen und der Schweiz geben.

Das Team testete seit Ende August die Qualität der Antworten von Bing Chat auf Fragen zu den Landtagswahlen in Bayern und Hessen sowie zu den Bundestagswahlen in der Schweiz.

Die Prompts (oder Suchanfragen) wurden über ein Netzwerk von VPNs und privaten IPs in der Schweiz und in Deutschland gestellt. Die Sprach- und Standortparameter wurden so gewählt, dass sie die potenziellen Wähler in den jeweiligen Wahlregionen widerspiegeln.

Die Datenerhebung startete am 21. August und das Team ist noch mit der Auswertung beschäftigt, aber die vorläufigen Ergebnisse zeigen klare Trends, heißt es.

Empfehlung

KI und Gesellschaft

Deepseek: Ein Haufen "unergründlicher Genies" lässt das Silicon Valley alt aussehen

Bing Chat führt politische Interessierte in die Irre

Als besonders irreführend erwies sich die KI-Suchmaschine bei der Frage nach den aktuellen Umfrageergebnissen für die bevorstehenden Wahlen in Bayern. Sie meldete fälschlicherweise, dass die Freien Wähler nur 4 Prozent der Stimmen erhalten würden, während die tatsächlichen Wahlprognosen für die Partei zwischen 12 und 17 Prozent lagen.

Auch Fragen nach den Spitzenkandidaten der Parteien für die Landtagswahl in Hessen 2023 konnte die KI-Suchmaschine nicht korrekt beantworten. Sie nannte falsche Kandidaten und identifizierte mehrfach einen pensionierten Politiker als Spitzenkandidaten der CDU.

Erfundene Umfrageergebnisse

Bing verweist häufig auf seriöse Quellen mit korrekten Umfragewerten, gibt dann aber in den eigenen Antworten unsinnige Zahlen an. So behauptete Bing mehrfach, die Freien Wähler hätten wegen des Aiwanger-Skandals an Zustimmung verloren, obwohl das Gegenteil der Fall war.

Falsche Informationen über Kandidaten

Der Chatbot lieferte auch falsche Informationen über die Kandidaten für die hessische Landtagswahl 2023. Er nannte häufig bekannte Politiker der jeweiligen Partei, auch wenn diese gar nicht kandidierten. So wurde beispielsweise Volker Bouffier häufig als Spitzenkandidat der CDU genannt, obwohl er sich im Mai 2022 aus der Politik zurückgezogen hat.

Falschmeldungen im Fall Aiwanger

Bing Chat verwechselte problematische Äußerungen Aiwangers über Corona mit der Flugblattaffäre. In einer Antwort wurde der Skandal einseitig aus Aiwangers Sicht interpretiert. In einer anderen brachte Bing die Flugblattaffäre mit der Linkspartei und nicht mit Aiwanger in Verbindung. Von zehn Fragen zum Fall Aiwanger beantwortete der Chatbot acht korrekt und neutral.

Irreführende Angaben zu Parteien

Auf die Frage, welche Parteien an den Wahlen teilnehmen, gab Bing in keinem Fall eine vollständig korrekte Antwort. In allen zwölf Antworten wurde die CVP als eine der sechs grössten Parteien genannt und nicht "Die Mitte". In acht Antworten wurde die BDP als wählbare Partei für 2023 genannt, obwohl es die BDP gar nicht mehr gibt.

Zentrale Ergebnisse aus der Studie

Karsten Donnay, Assistenzprofessor für politische Verhaltensforschung und digitale Medien an der Universität Zürich, spricht von einem "unkritischen Einsatz von KI", bei dem Unternehmen unzuverlässige Produkte auf den Markt bringen, ohne dass dies rechtliche Konsequenzen nach sich zieht.

Als Reaktion auf die Forschungsergebnisse versichert ein Microsoft-Sprecher AlgorithmWatch, dass das Unternehmen sich verpflichtet habe, seine Dienste zu verbessern, und dass erhebliche Fortschritte bei der Verbesserung der Genauigkeit der Antworten von Bing Chat gemacht worden seien.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Microsoft bietet auch einen Präzisionsmodus für genauere Antworten an und ermutige die Nutzer, Feedback zu geben. Bing Chat im Präzisionsmodus verwendet 100 Prozent GPT-4, OpenAIs leistungsfähigstes Sprachmodell. AlgorithmWatch verwendete die Einstellung "ausgewogen", die zusätzlich zu den OpenAI-Modellen auch Microsofts eigene Modelle verwendet, und womöglich mehr Fehler generiert als GPT-4 allein.

Matthias Spielkamp, Geschäftsführer und Mitbegründer von AlgorithmWatch, kritisiert jedoch Microsofts Reaktion und sagte, das Unternehmen habe nur spezifische Probleme angesprochen, ohne die strukturellen Probleme der generativen KI anzugehen. Er warnte vor Microsofts Versprechungen bezüglich der Verlässlichkeit von Informationen und bezeichnete sie als unverantwortlich und vom Wunsch getrieben, mehr Produkte zu verkaufen.

Regulierung und politische Intervention

Im Rahmen des Digital Services Act (DSA) der EU sind digitale Plattformen und Suchmaschinen mit mehr als 45 Millionen Nutzern in der EU, darunter auch Microsoft Bing, verpflichtet, Risikobewertungen durchzuführen und Mechanismen zu entwickeln, um die von ihren Diensten ausgehenden Risiken zu minimieren.

Dazu gehören mögliche negative Auswirkungen auf die Integrität von Wahlprozessen und gesellschaftlichen Debatten sowie die Verbreitung von Fehlinformationen.

Microsoft hat bisher nicht auf Anfragen von AlgorithmWatch geantwortet, ob es die falschen Antworten von Bing Chat zu Wahlen als systemisches Risiko im Sinne des DSA ansieht und welche Maßnahmen es zu ergreifen gedenkt.

Die Europäische Kommission bewertet die Ergebnisse von AlgorithmWatch und AI Forensics als sehr relevant für den DSA und behält sich weitere Schritte vor.

AlgorithmWatch bestätigt bestehende Erkenntnisse

Die Erkenntnisse von AlgorithmWatch sind nicht neu: Bing Chat steht seit dem ersten Tag wegen Falschinformationen in der Kritik. Der ChatGPT-Browser von OpenAI hat ähnliche Schwächen und deutliche Nachteile gegenüber der herkömmlichen Internetsuche.

Die neue Studie unterstreicht die Probleme probalistischer Systeme, die deterministische Fragen beantworten sollen. Sie wirft erneut die Frage auf, warum Firmen wie Microsoft große Sprachmodelle uneingeschränkt in ungeeigneten Anwendungsszenarien einsetzen dürfen, obwohl deren Schwächen und die damit verbundenen Risiken bekannt sind.

Microsoft kannte die Probleme von Bing Chat bereits vor der Markteinführung, entschied sich aber dennoch, das Produkt auf den Markt zu bringen, um Druck auf den Suchmarkt des Konkurrenten Google auszuüben - bisher erfolglos.

Microsoft ist "unfähig oder unwillig", den Bing Chatbot zu verbessern, sagt AlgorithmWatch

AlgorithmWatch fällt vernichtendes Urteil über Bing Chatbot

Deepseek: Ein Haufen "unergründlicher Genies" lässt das Silicon Valley alt aussehen

Bing Chat führt politische Interessierte in die Irre

Regulierung und politische Intervention

AlgorithmWatch bestätigt bestehende Erkenntnisse

US-Senat will Bundesstaaten mit Fördergeld an einheitliche KI-Gesetze binden

Trump plant Erlasse für schnelleren KI-Ausbau in den USA

Datenschutzbeauftragte meldet KI-App Deepseek wegen Datenübermittlung nach China

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Microsoft ist "unfähig oder unwillig", den Bing Chatbot zu verbessern, sagt AlgorithmWatch

AlgorithmWatch fällt vernichtendes Urteil über Bing Chatbot

Bing Chat führt politische Interessierte in die Irre

Regulierung und politische Intervention

AlgorithmWatch bestätigt bestehende Erkenntnisse

Artikel teilen

Bankverbindung