Inhalt
summary Zusammenfassung

Die Datenabteilung KBLab der Schwedischen Nationalbibliothek fasst Tausende von Werken zu einem Datensatz zusammen. Damit werden KI-Modelle trainiert.

Anzeige

Per Gesetz hat die Schwedische Nationalbibliothek praktisch alle schwedischsprachigen Schriften der letzten 500 Jahre gesammelt. Insgesamt 16 Petabyte sind so bereits zusammengekommen, jeden Monat wächst die Sammlung um 50 Terabyte.

Auf dieser Basis hat die 2019 gegründete, integrierte Forschungsabteilung KBLab mehr als zwei Dutzend KI-Modelle trainiert. "Bevor unser Labor eingerichtet wurde, konnten Forscher nicht auf einen [gesammelten] Datensatz in der Bibliothek zugreifen - sie mussten sich jeweils ein einzelnes Objekt ansehen", so Direktor Love Börjeson.

Hoch spezialisierte Datensätze für die Forschung

Dank dieser Arbeit sollen Forscherinnen und Forscher bald in der Lage sein, hoch spezialisierte Datensätze zu erstellen, "zum Beispiel aus jeder schwedischen Postkarte, auf der eine Kirche abgebildet ist, aus jedem Text, der in einem bestimmten Stil geschrieben ist, oder aus jeder Erwähnung einer historischen Figur in Büchern, Zeitungsartikeln und Fernsehsendungen", heißt es im Nvidia-Blog. Für das Training wurde Hardware des Grafikprozessorherstellers verwendet.

Anzeige
Anzeige

Beim ersten Modell waren es noch 20 GB Daten, heute sind es laut Hugging Face etwa 70 GB. Demnächst soll das KBLab sogar ein ganzes Terabyte schwedischer Texte in Angriff nehmen. Der Datensatz wird dann neben Schwedisch auch Niederländisch, Norwegisch und Deutsch enthalten. Damit soll die Leistung der KI-Modelle verbessert werden.

Generatives Textmodell in der Entwicklung

Zusätzlich zu den Transformer-Modellen, die schwedischen Text verstehen, verfügt KBLab über ein KI-Tool, das Ton in Text umwandelt und es der Bibliothek ermöglicht, ihre umfangreiche Sammlung von Radiosendungen zu transkribieren, damit Forschende die Audioaufnahmen nach bestimmten Inhalten durchsuchen können.

KBLab entwickelt derzeit auch generative Textmodelle und ein KI-Modell zur automatischen Erstellung von Beschreibungen von Videoinhalten. In Zusammenarbeit mit Forschenden der Universität Göteborg und der Schwedischen Akademie unterstützt KBLab die Modernisierung von Wörterbüchern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Damit Wissenschaftler:innen hochpräzise Datensätze aus mehreren Jahrhunderten schwedischer Texte extrahieren können, trainiert die Schwedische Nationalbibliothek KI-Modelle mit Tausenden von Werken.
  • Die ersten KI-Modelle basieren auf etwa 70 Gigabyte Daten.
  • Jeden Monat wächst die Bibliothek jedoch um etwa 50 Terabyte, weshalb das Datentraining auf noch größere KI-Modelle ausgeweitet werden soll.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!