Schwedens Nationalbibliothek füttert KI mit Daten aus 500 Jahren

28. Januar 2023

Kb-labb / National Library of Sweden

Die Datenabteilung KBLab der Schwedischen Nationalbibliothek fasst Tausende von Werken zu einem Datensatz zusammen. Damit werden KI-Modelle trainiert.

Per Gesetz hat die Schwedische Nationalbibliothek praktisch alle schwedischsprachigen Schriften der letzten 500 Jahre gesammelt. Insgesamt 16 Petabyte sind so bereits zusammengekommen, jeden Monat wächst die Sammlung um 50 Terabyte.

Auf dieser Basis hat die 2019 gegründete, integrierte Forschungsabteilung KBLab mehr als zwei Dutzend KI-Modelle trainiert. "Bevor unser Labor eingerichtet wurde, konnten Forscher nicht auf einen [gesammelten] Datensatz in der Bibliothek zugreifen - sie mussten sich jeweils ein einzelnes Objekt ansehen", so Direktor Love Börjeson.

Hoch spezialisierte Datensätze für die Forschung

Dank dieser Arbeit sollen Forscherinnen und Forscher bald in der Lage sein, hoch spezialisierte Datensätze zu erstellen, "zum Beispiel aus jeder schwedischen Postkarte, auf der eine Kirche abgebildet ist, aus jedem Text, der in einem bestimmten Stil geschrieben ist, oder aus jeder Erwähnung einer historischen Figur in Büchern, Zeitungsartikeln und Fernsehsendungen", heißt es im Nvidia-Blog. Für das Training wurde Hardware des Grafikprozessorherstellers verwendet.

Beim ersten Modell waren es noch 20 GB Daten, heute sind es laut Hugging Face etwa 70 GB. Demnächst soll das KBLab sogar ein ganzes Terabyte schwedischer Texte in Angriff nehmen. Der Datensatz wird dann neben Schwedisch auch Niederländisch, Norwegisch und Deutsch enthalten. Damit soll die Leistung der KI-Modelle verbessert werden.

Generatives Textmodell in der Entwicklung

Zusätzlich zu den Transformer-Modellen, die schwedischen Text verstehen, verfügt KBLab über ein KI-Tool, das Ton in Text umwandelt und es der Bibliothek ermöglicht, ihre umfangreiche Sammlung von Radiosendungen zu transkribieren, damit Forschende die Audioaufnahmen nach bestimmten Inhalten durchsuchen können.

KBLab entwickelt derzeit auch generative Textmodelle und ein KI-Modell zur automatischen Erstellung von Beschreibungen von Videoinhalten. In Zusammenarbeit mit Forschenden der Universität Göteborg und der Schwedischen Akademie unterstützt KBLab die Modernisierung von Wörterbüchern.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Schwedens Nationalbibliothek füttert KI mit Daten aus 500 Jahren

Hoch spezialisierte Datensätze für die Forschung

Generatives Textmodell in der Entwicklung

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.