Inhalt
summary Zusammenfassung

Eine großangelegte Studie mit mehr als 100 Forschenden im Bereich der Computerlinguistik zeigt, dass KI-generierte Forschungsideen von Expert:innen als signifikant neuartiger eingeschätzt werden als Ideen von menschlichen Expert:innen. KI-Ideen können jedoch Schwächen in der Umsetzbarkeit aufweisen.

Anzeige

Können große Sprachmodelle neuartige Forschungsideen generieren, die mit denen menschlicher Expert:innen vergleichbar sind? Dieser Frage ging ein Forscherteam der Stanford University in einer sorgfältig kontrollierten Vergleichsstudie mit mehr als 100 Forschenden aus dem Bereich der Verarbeitung natürlicher Sprache nach.

KI-Ideen häufig zu vage oder mit unrealistischen Annahmen

Nahezu 300 Bewertungen unter allen Versuchsbedingungen ergaben, dass KI-generierte Ideen als neuartiger eingestuft wurden als Ideen menschlichen Ursprungs. Dieses Ergebnis erwies sich auch nach mehreren Hypothesenkorrekturen und verschiedenen statistischen Tests als robust.

Diagramm: Vergleich der Neuheitsbewertungen für Ideen von Menschen, KI und KI mit menschlicher Überarbeitung in 7 NLP-Themen.
Die höchsten Neuheitswerte erreichten KI-Ideen mit menschlicher Überarbeitung, was das Potenzial der Mensch-KI-Kollaboration unterstreicht. Weitere Forschung zur Umsetzbarkeit dieser Ideen ist jedoch erforderlich. | Bild: Si et al.

Es gab allerdings Anzeichen, dass diese Gewinne möglicherweise leicht auf Kosten der Umsetzbarkeit gingen. Allerdings reichte die Studiengröße nicht aus, um diese Effekte eindeutig zu identifizieren.

Anzeige
Anzeige

Obwohl sich LLM-Ideen leichter skalieren lassen als menschliche, mangelte es den Modellen bei zunehmender Generierung an Vielfalt. Außerdem konnten sie (zumindest derzeit) nicht als zuverlässige Bewerter dienen.

Zu den häufigsten Schwachstellen der KI-Ideen gehörten:

1. Zu vage Angaben zu Implementierungsdetails
2. Falsche Verwendung von Datensätzen
3. Fehlende oder unangemessene Vergleichsmaßstäbe (Baselines)
4. Unrealistische Annahmen
5. Zu ressourcenintensiv
6. Unzureichend motiviert
7. Bestehende Best Practices nicht ausreichend berücksichtigt

Im Gegensatz dazu waren die Ideen von Menschen im Allgemeinen stärker in der bestehenden Forschung und praktischen Überlegungen verankert, aber möglicherweise weniger innovativ.

Menschliche Ideen konzentrierten sich eher auf gängige Probleme oder Datensätze und priorisierten manchmal Machbarkeit und Effektivität gegenüber Neuheit und Spannung.

Empfehlung

Die Studie umfasste die Generierung von Ideen durch menschliche Expert:innen und ein KI-System mit dem Abruf externer Quellen durch RAG und basierend auf GPT-3.5, GPT-4 und Llama-2-70B - vergleichsweise alte Modelle, die von GPT-4o oder o1 und Llama 3 mittlerweile überholt wurden.

Um Störfaktoren zu reduzieren, standardisierten die Forschenden den Stil der Ideen von Menschen und KI und glichen die Themenverteilung an. So konnten die menschlichen Bewerter:innen die Ideen möglichst unvoreingenommen beurteilen.

KI und Menschen sollen Ideen ausprobieren

Die Forscher haben verschiedene Ansätze vorgeschlagen, um ihre Erkenntnisse zu vertiefen und offene Fragen zu klären. Zunächst möchten sie herausfinden, ob die Ideen der Expert:innen in dieser Studie wirklich deren beste Ideen waren. Dazu vergleichen sie die KI-Ideen mit angenommenen Arbeiten einer Top-Konferenz.

Außerdem wollen sie prüfen, ob die reine Bewertung von Ideen nicht zu subjektiv ist. Deshalb lassen sie als Nächstes einige der KI- und Mensch-Ideen zu kompletten Projekten ausarbeiten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Spannend wäre ihrer Meinung nach auch eine Automatisierung der Ideenausführung. Dazu haben die Forschenden bereits einen Code generierenden KI-Agenten entwickelt - allerdings mit Schwächen bei der Implementierung.

Es gibt bereits konkrete Beispiele, in denen generative KI einen Beitrag zur Forschung leistet oder die Entwicklung beschleunigt, wie im KI-Beschleuniger der in Pixel-Smartphones verbauten Google-Chips. Auch in der Medizin ist der Einsatz von KI teils erfolgreich.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie der Stanford University mit über 100 NLP-Forscher:innen ergab, dass KI-generierte Forschungsideen von Expert:innen als signifikant neuartiger eingeschätzt werden als Ideen von menschlichen Expert:innen, allerdings möglicherweise auf Kosten der Umsetzbarkeit.
  • Zu den häufigsten Schwächen von KI-Ideen gehörten vage Angaben zu Implementierungsdetails, falsche Verwendung von Datensätzen, fehlende Vergleichsmaßstäbe, unrealistische Annahmen und unzureichende Berücksichtigung bestehender Best Practices.
  • Menschliche Ideen waren stärker in der bestehenden Forschung verankert, aber weniger innovativ. Die Forschenden planen weitere Untersuchungen, um ihre Erkenntnisse zu vertiefen, zum Beispiel durch den Vergleich von KI-Ideen mit akzeptierten Arbeiten auf einer führenden Konferenz.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!