Inhalt
summary Zusammenfassung

Forscher haben die Fähigkeiten großer Sprachmodelle zum induktiven und deduktiven Schlussfolgern systematisch untersucht. Die Ergebnisse offenbaren überraschende Stärken, aber auch deutliche Grenzen der Systeme.

Anzeige

Eine neue Studie von Wissenschaftlern der University of California, Los Angeles und Amazon hat die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) genauer analysiert. Dabei unterschieden die Forscher erstmals systematisch zwischen induktivem und deduktivem Schlussfolgern.

Beim induktiven Schlussfolgern werden aus einzelnen Beobachtungen allgemeine Regeln abgeleitet. Deduktives Schlussfolgern wendet hingegen allgemeine Regeln auf konkrete Fälle an. Die Untersuchung sollte klären, welche Art des Schlussfolgerns für LLMs die größere Herausforderung darstellt.

Um das induktive Schlussfolgern isoliert zu betrachten, entwickelten die Wissenschaftler eine neue Methode namens "SolverLearner". Dabei lernen die Modelle aus wenigen Beispielen eine Funktion, die Eingaben auf Ausgaben abbildet. Die Anwendung dieser Funktion erfolgt dann durch externe Programme, um eine Vermischung mit deduktivem Schlussfolgern zu vermeiden.

Anzeige
Anzeige

Die Ergebnisse zeigen, dass LLMs wie GPT-4 beim induktiven Schlussfolgern mit SolverLearner in den meisten Fällen eine nahezu perfekte Leistung mit einer Genauigkeit von 100 Prozent erreichen. Die Modelle haben jedoch größere Schwierigkeiten beim deduktiven Schlussfolgern, insbesondere bei sogenannten "kontrafaktischen" Aufgaben, die von typischen Trainingsdaten abweichen.

So konnten die Modelle beispielsweise gut mit Rechenaufgaben im Dezimalsystem umgehen, hatten aber Probleme beim Rechnen in anderen Zahlensystemen. Auch bei der Analyse von Sätzen mit ungewöhnlicher Wortstellung oder bei der räumlichen Orientierung in modifizierten Koordinatensystemen zeigten sich Schwächen.

Die Forscher schließen daraus, dass deduktives Schlussfolgern für aktuelle LLMs die größere Herausforderung darstellt. Die Fähigkeit, vorgegebene Regeln korrekt anzuwenden, hängt stark davon ab, wie häufig ähnliche Aufgaben im Trainingsprozess vorkamen.

Sprachmodelle, Grokking und Architektur-Anpassungen

Die Studie bestätigt Stärken und Grenzen aktueller KI-Sprachmodelle. Sie zeigt, dass diese Systeme zwar beeindruckende Fähigkeiten beim Erkennen von Mustern und Ableiten von Regeln haben. Die korrekte Anwendung gelernter Regeln auf neue Situationen bereitet ihnen jedoch noch Schwierigkeiten.

Für die Tests hat das Team auf den Einsatz von Prompting-Methoden wie Chain-of-Thought verzichtet, die die Fähigkeiten der Modelle zu deduktiven Schlüssen zwar etwas verbessern, aber nicht auf ein zufriedenstellendes Niveau heben können. Das neue OpenAI-Modell o1 wurde ebenfalls nicht getestet.

Empfehlung

Eine weitere Studie von Forschern der Ohio State University und der Carnegie Mellon University untersuchte kürzlich ebenfalls die logischen Schlussfolgerungsfähigkeiten von Transformer-Modellen. Sie analysierten, ob die Modelle durch "Grokking" die Fähigkeit erwerben können, implizite Schlussfolgerungen zu ziehen, insbesondere bei Kompositions- und Vergleichsaufgaben.

Die Ergebnisse zeigen, dass die Modelle bei beiden Aufgabentypen durch längeres Training über den Punkt des Overfittings hinaus die Fähigkeit zum impliziten Schlussfolgern erwerben. Allerdings konnten sie nur bei Vergleichsaufgaben auch auf ungesehene Beispiele generalisieren. Die Forscher führen den Unterschied auf die innere Struktur der gelernten Schaltkreise zurück und empfehlen Anpassungen der Transformer-Architektur, die in einem ersten Experiment auch einen qualitativen Sprung zeigten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der University of California, Los Angeles und Amazon haben die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) untersucht und dabei zwischen induktivem und deduktivem Schlussfolgern unterschieden.
  • Die Ergebnisse zeigen, dass LLMs wie GPT-4 beim induktiven Schlussfolgern mit der neuen "SolverLearner"-Methode meist eine Genauigkeit von 100 Prozent erreichen, aber beim deduktiven Schlussfolgern größere Schwierigkeiten haben, besonders bei "kontrafaktischen" Aufgaben.
  • Eine weitere Studie von Forschern der Ohio State University und der Carnegie Mellon University untersuchte die Fähigkeit von Transformer-Modellen, durch längeres Training implizite Schlussfolgerungen zu ziehen, wobei die Modelle nur bei Vergleichsaufgaben auf ungesehene Beispiele generalisieren konnten.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!