Computer können sich mittels maschinellem Sehen durch gewaltige Archive pflügen und deren Inhalte so klassifizieren und ordnen, dass sie für Menschen besser oder überhaupt erst auffindbar werden. Das zeigt sich jüngst an einer Zusammenarbeit zwischen Google und der New York Times.
Das physische Bildarchiv der Times umfasst fünf bis sieben Millionen Fotografien, viele davon sind mehr als hundert Jahre alt. Die Bilder ruhen in einem drei Stockwerke tiefen Keller der Zeitung, der den Beinamen "Morgue" trägt (Deutsch: Leichenhalle).
"Das Archiv ist eine Fundgrube vergänglicher Dokumente, eine unschätzbar wertvolle Chronik der New York Times und der globalen Ereignisse eines ganzen Jahrhunderts", sagt der Technikchef der Times Nick Rockwell.
2015 gelangte durch einen Rohrbruch Wasser in das Archiv. Der Schaden war gering und warf die Frage nach einer langfristigen Sicherung des Bildbestands auf. Die New York Times entschied sich, das Archiv gemeinsam mit Google zu digitalisieren.
KI erledigt in Windeseile Arbeit, für die Menschen Jahre bräuchten
Bei der Digitalisierung der Bilder wird neben der Vorder- auch die Rückseite gescannt. Sie enthält wichtige kontextuelle Informationen: zum Beispiel, wo und wann das Foto aufgenommen wurde, was es zeigt und wann es in der Zeitung veröffentlicht wurde.
Bei der Bildanalyse der Rückseite kommt Googles KI-Technologie ins Spiel: Sie erkennt Kennzeichnungen, handschriftliche Notize und aufgeklebte Zeitungssausschnitte, wandelt sie in maschinell lesbaren Text um und kategorisiert sie semantisch.
Mittels Objekterkennung soll die KI zudem Gegenstände, Orte und Bilder identifizieren und einordnen können. Würde diese Arbeit von Menschen durchgeführt, würde sie wohl Jahre in Anspruch nehmen und entsprechend kostspielig sein.
Das Ziel des Projekts ist, das Archiv zugänglicher zu machen: Times-Journalisten können schneller geeignete Fotografien für ihre Artikel finden, die Entwicklung eines Orts im zeitlichen Querschnitt nachverfolgen oder alte, in Vergessenheit geratene Geschichten aufstöbern.
Mehr Informationen zu dem Digitalisierungsprojekt stehen im Google Cloud Blog.