Forscher haben die Fähigkeiten großer Sprachmodelle zum induktiven und deduktiven Schlussfolgern systematisch untersucht. Die Ergebnisse offenbaren überraschende Stärken, aber auch deutliche Grenzen der Systeme.
Eine neue Studie von Wissenschaftlern der University of California, Los Angeles und Amazon hat die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) genauer analysiert. Dabei unterschieden die Forscher erstmals systematisch zwischen induktivem und deduktivem Schlussfolgern.
Beim induktiven Schlussfolgern werden aus einzelnen Beobachtungen allgemeine Regeln abgeleitet. Deduktives Schlussfolgern wendet hingegen allgemeine Regeln auf konkrete Fälle an. Die Untersuchung sollte klären, welche Art des Schlussfolgerns für LLMs die größere Herausforderung darstellt.
Um das induktive Schlussfolgern isoliert zu betrachten, entwickelten die Wissenschaftler eine neue Methode namens "SolverLearner". Dabei lernen die Modelle aus wenigen Beispielen eine Funktion, die Eingaben auf Ausgaben abbildet. Die Anwendung dieser Funktion erfolgt dann durch externe Programme, um eine Vermischung mit deduktivem Schlussfolgern zu vermeiden.
Die Ergebnisse zeigen, dass LLMs wie GPT-4 beim induktiven Schlussfolgern mit SolverLearner in den meisten Fällen eine nahezu perfekte Leistung mit einer Genauigkeit von 100 Prozent erreichen. Die Modelle haben jedoch größere Schwierigkeiten beim deduktiven Schlussfolgern, insbesondere bei sogenannten "kontrafaktischen" Aufgaben, die von typischen Trainingsdaten abweichen.
So konnten die Modelle beispielsweise gut mit Rechenaufgaben im Dezimalsystem umgehen, hatten aber Probleme beim Rechnen in anderen Zahlensystemen. Auch bei der Analyse von Sätzen mit ungewöhnlicher Wortstellung oder bei der räumlichen Orientierung in modifizierten Koordinatensystemen zeigten sich Schwächen.
Die Forscher schließen daraus, dass deduktives Schlussfolgern für aktuelle LLMs die größere Herausforderung darstellt. Die Fähigkeit, vorgegebene Regeln korrekt anzuwenden, hängt stark davon ab, wie häufig ähnliche Aufgaben im Trainingsprozess vorkamen.
Sprachmodelle, Grokking und Architektur-Anpassungen
Die Studie bestätigt Stärken und Grenzen aktueller KI-Sprachmodelle. Sie zeigt, dass diese Systeme zwar beeindruckende Fähigkeiten beim Erkennen von Mustern und Ableiten von Regeln haben. Die korrekte Anwendung gelernter Regeln auf neue Situationen bereitet ihnen jedoch noch Schwierigkeiten.
Für die Tests hat das Team auf den Einsatz von Prompting-Methoden wie Chain-of-Thought verzichtet, die die Fähigkeiten der Modelle zu deduktiven Schlüssen zwar etwas verbessern, aber nicht auf ein zufriedenstellendes Niveau heben können. Das neue OpenAI-Modell o1 wurde ebenfalls nicht getestet.
Eine weitere Studie von Forschern der Ohio State University und der Carnegie Mellon University untersuchte kürzlich ebenfalls die logischen Schlussfolgerungsfähigkeiten von Transformer-Modellen. Sie analysierten, ob die Modelle durch "Grokking" die Fähigkeit erwerben können, implizite Schlussfolgerungen zu ziehen, insbesondere bei Kompositions- und Vergleichsaufgaben.
Die Ergebnisse zeigen, dass die Modelle bei beiden Aufgabentypen durch längeres Training über den Punkt des Overfittings hinaus die Fähigkeit zum impliziten Schlussfolgern erwerben. Allerdings konnten sie nur bei Vergleichsaufgaben auch auf ungesehene Beispiele generalisieren. Die Forscher führen den Unterschied auf die innere Struktur der gelernten Schaltkreise zurück und empfehlen Anpassungen der Transformer-Architektur, die in einem ersten Experiment auch einen qualitativen Sprung zeigten.