Was ein Sprachmodell über die Zukunft denkt, das nur mit Texten vor 1931 trainiert wurde
KI-Entwickler haben ein 13B-Sprachmodell ausschließlich mit Texten von vor 1931 trainiert: "talkie" antwortet auf Fragen über den Zweiten Weltkrieg mit viktorianischer Skepsis und malt sich das Jahr 2026 als Zeitalter der Dampfschiffe aus.
Was passiert, wenn man ein großes Sprachmodell ausschließlich mit Texten füttert, die vor 1931 geschrieben wurden? Das Projekt talkie von Nick Levine, David Duvenaud und Alec Radford liefert eine Antwort: ein 13B-Parametermodell, das die Welt durch die Brille des frühen 20. Jahrhunderts sieht.
Trainiert auf 260 Milliarden Token aus Büchern, Zeitungen, wissenschaftlichen Journals, Patenten und Rechtsprechung, die alle vor dem 31. Dezember 1930 veröffentlicht wurden, ist talkie laut seinen Entwicklern das größte sogenannte "Vintage Language Model", das bisher gebaut wurde.
Ein Orakel, das den Zweiten Weltkrieg für unwahrscheinlich hält
Besonders aufschlussreich sind talkies Reaktionen auf Fragen über die Zukunft. Auf die Frage, wie die Welt im Jahr 2026 aussehen werde, antwortet das Modell mit einer Vision, die direkt aus einem viktorianischen Zukunftsroman stammen könnte: Europa werde eine Milliarde Einwohner haben, Eisenbahnen würden den Kontinent in einem Netz aus Eisen durchziehen, Dampfschiffe würden London und New York in zehn Tagen verbinden, und "der Winter wird in Paris verbracht und der Sommer in London".

Direkt gefragt, ob ein zweiter Weltkrieg bevorstehe, verneint das Modell: Es glaube nicht daran, denn "der Wahnsinn von 1914–1918 ist vorüber". Die Nationen haben genug vom Krieg und wenden sich friedlichen Beschäftigungen zu".
Zugleich zeigt talkie eine gewisse Ambivalenz: Es warnt vor "schwelenden Feindschaften" und "brennbarem Material" in Europa, nennt mögliche Konflikte zwischen China und Japan, Italien und Jugoslawien. "Der Funke kann jeden Moment überspringen und einen Flächenbrand auslösen." Der Weltfrieden hänge von einer Vielzahl von Faktoren ab, "von denen keiner gefahrlos vernachlässigt werden kann".

Laut den Entwicklern lässt sich talkies Fähigkeit zur Zukunftsvorhersage auch quantitativ messen. Sie analysierten fast 5.000 historische Ereignisbeschreibungen aus dem "On This Day"-Feature der New York Times und berechneten, wie überraschend diese für das Modell sind. Das Ergebnis: Nach dem Wissens-Cutoff von 1930 steigt der Überraschungswert deutlich an, besonders ausgeprägt in den 1950er und 1960er Jahren, bevor er ein Plateau erreicht.
Viktorianische Etikette statt moderner Chat-Daten
Das Cutoff-Datum Ende 1930 wurde gewählt, weil Werke zu diesem Zeitpunkt in den USA gemeinfrei werden. Sämtliche Texte mussten von physischen Quellen transkribiert werden, was erhebliche Qualitätsprobleme verursacht. In kontrollierten Experimenten erreichten herkömmliche OCR-Transkriptionen bei gleichem Rechenaufwand nur 30 Prozent der Leistung eines auf menschlichen Transkriptionen trainierten Modells; einfache Regex-Bereinigung erhöhte diesen Wert auf 70 Prozent. Ein eigenes Vintage-OCR-System soll die verbleibende Lücke verkleinern.
Ein weiteres Problem ist "Temporal Leakage" – also das ungewollte Durchsickern von Wissen aus späteren Epochen in die Trainingsdaten. Denkbar ist zum Beispiel, dass ein Buch von 1925 in einer Neuauflage von 1960 ein aktualisiertes Vorwort erhält, wenn Bibliothekskataloge falsche Erscheinungsdaten enthalten oder wenn ein historischer Text später um Fußnoten und Kommentare ergänzt wurde.
Trotz eines Klassifikators, der solche Stellen herausfiltern soll, sickerten etwa Informationen über die Roosevelt-Präsidentschaft, den Zweiten Weltkrieg und die Vereinten Nationen in das Modell. Für künftige Versionen sollen verbesserte Klassifikatoren entwickelt werden.
Für das Post-Training, das aus dem Basismodell einen Gesprächspartner macht, griffen die Entwickler auf historische Referenzwerke zurück: Etikette-Handbücher, Briefsteller, Kochbücher, Enzyklopädien und Fabelsammlungen aus dem 19. und frühen 20. Jahrhundert. Reinforcement Learning mit Claude Sonnet 4.6 als Richter verbesserte die Instruktionsbefolgung. Die Forscher räumen jedoch ein, dass dieser Prozess das Verhalten des Modells unvermeidlich anachronistisch beeinflusst.
Vintage-Modell kann rudimentär programmieren
Das Projektteam testete zudem, ob ein Modell ohne jegliches Wissen über digitale Computer moderne Programmiersprachen lernen kann. Auf dem HumanEval-Benchmark für Python schneiden die Vintage-Modelle dramatisch schlechter ab als ihre modernen Gegenstücke, verbessern sich aber stetig mit zunehmender Skalierung.
Alle korrekten Lösungen sind einfache Einzeiler oder minimale Modifikationen von Beispielprogrammen. So implementierte talkie die Dekodierungsfunktion einer Rotationschiffre korrekt, indem es eine Addition durch eine Subtraktion ersetzte. Laut den Forschern deutet das auf ein Verständnis inverser Funktionen hin.
Da Vintage-Modelle konstruktionsbedingt frei von Datenkontamination sind, eignen sie sich besonders für Generalisierungsexperimente. Moderne Sprachmodelle sind alle direkt oder indirekt auf Webdaten trainiert, was ihre Fähigkeiten und Dispositionen auf schwer messbare Weise formt. Vintage-Modelle könnten helfen zu verstehen, welche Eigenschaften von Sprachmodellen universell sind und welche vom Trainingskorpus abhängen.
Nächstes Ziel: ein GPT-3-Level-Modell aus der Vergangenheit
talkie ist als Base Model und als Chat-Version auf Hugging Face verfügbar, der Code auf GitHub. Auf der Projektwebsite lässt sich das Modell testen und live beobachten: Claude Sonnet befragt talkie dort rund um die Uhr zu seinem Wissen und seinen Fähigkeiten.
Doch das 13B-Modell ist erst der Anfang. Die Entwickler planen, talkie in den kommenden Monaten erheblich zu skalieren. Als nächster Schritt soll im Sommer 2026 ein Modell auf GPT-3-Niveau erscheinen. Eine vorläufige Schätzung legt nahe, dass der Korpus auf über eine Billion Token historischer Texte wachsen kann, was ein Modell auf dem Niveau von GPT-3.5 ermöglichen würde. Auch eine mehrsprachige Erweiterung über das Englische hinaus steht auf der Agenda.
Dahinter steht eine grundlegende Frage: Kann ein Vintage-Modell Erfindungen und Entdeckungen antizipieren, die nach seinem Cutoff gemacht wurden? Könnte ein Modell, das nur bis 1911 trainiert wurde, unabhängig die allgemeine Relativitätstheorie ableiten, wie Deepmind-CEO Demis Hassabis fragte? Größere Vintage-Modelle könnten helfen, diese Skalierungstrends aufzudecken.
Co-Autor Alec Radford ist einer der einflussreichsten KI-Forscher der vergangenen Jahre. Er war Hauptautor des wegweisenden GPT-Papers von 2018 bei OpenAI und arbeitete dort an den frühen GPT-Modellen, dem Spracherkennungssystem Whisper und dem Bildgenerator DALL-E. Radford verließ OpenAI im Dezember 2024 und schloss sich im März 2025 dem Thinking Machines Lab von Ex-OpenAI-CTO Mira Murati als Berater an.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.