KI-Forschung

Schwedens Nationalbibliothek füttert KI mit Daten aus 500 Jahren

Jonathan Kemper
Eine KI-Illustration von Daten in der schwedischen Nationalbibliothek, das Bild zeigt etwas unscharf und verschwommen viele Dokumente in Regalen.

Kb-labb / National Library of Sweden

Die Datenabteilung KBLab der Schwedischen Nationalbibliothek fasst Tausende von Werken zu einem Datensatz zusammen. Damit werden KI-Modelle trainiert.

Per Gesetz hat die Schwedische Nationalbibliothek praktisch alle schwedischsprachigen Schriften der letzten 500 Jahre gesammelt. Insgesamt 16 Petabyte sind so bereits zusammengekommen, jeden Monat wächst die Sammlung um 50 Terabyte.

Auf dieser Basis hat die 2019 gegründete, integrierte Forschungsabteilung KBLab mehr als zwei Dutzend KI-Modelle trainiert. "Bevor unser Labor eingerichtet wurde, konnten Forscher nicht auf einen [gesammelten] Datensatz in der Bibliothek zugreifen - sie mussten sich jeweils ein einzelnes Objekt ansehen", so Direktor Love Börjeson.

Hoch spezialisierte Datensätze für die Forschung

Dank dieser Arbeit sollen Forscherinnen und Forscher bald in der Lage sein, hoch spezialisierte Datensätze zu erstellen, "zum Beispiel aus jeder schwedischen Postkarte, auf der eine Kirche abgebildet ist, aus jedem Text, der in einem bestimmten Stil geschrieben ist, oder aus jeder Erwähnung einer historischen Figur in Büchern, Zeitungsartikeln und Fernsehsendungen", heißt es im Nvidia-Blog. Für das Training wurde Hardware des Grafikprozessorherstellers verwendet.

Beim ersten Modell waren es noch 20 GB Daten, heute sind es laut Hugging Face etwa 70 GB. Demnächst soll das KBLab sogar ein ganzes Terabyte schwedischer Texte in Angriff nehmen. Der Datensatz wird dann neben Schwedisch auch Niederländisch, Norwegisch und Deutsch enthalten. Damit soll die Leistung der KI-Modelle verbessert werden.

Generatives Textmodell in der Entwicklung

Zusätzlich zu den Transformer-Modellen, die schwedischen Text verstehen, verfügt KBLab über ein KI-Tool, das Ton in Text umwandelt und es der Bibliothek ermöglicht, ihre umfangreiche Sammlung von Radiosendungen zu transkribieren, damit Forschende die Audioaufnahmen nach bestimmten Inhalten durchsuchen können.

KBLab entwickelt derzeit auch generative Textmodelle und ein KI-Modell zur automatischen Erstellung von Beschreibungen von Videoinhalten. In Zusammenarbeit mit Forschenden der Universität Göteborg und der Schwedischen Akademie unterstützt KBLab die Modernisierung von Wörterbüchern.

Quellen: