Wissenschaftler aus Googles KI-Unternehmen Deepmind arbeiten an einem Lernverfahren, das unbekannte Bilder und Klänge miteinander verknüpfen kann. Gelingt das, könnte das das Lerntempo einer KI beschleunigen und sie flexibler machen.
Herkömmliche maschinelle Lernverfahren zeigen der KI neben einem Bild auch den dazu passenden Begriff. Beispielsweise wird eine KI trainiert, indem sie tausende Bilder einer Katze analysiert. Jedes Bild trägt zur Klassifizierung die Bezeichnung "Katze". Hat die KI genug ähnliche Bilder mit dem Begriff Katze verknüpft, kann sie die Stubentiger irgendwann verlässlich auf unbekannten Bildern identifizieren.
Das Problem bei diesem sogenannten "beaufsichtigten Lernen" ist der hohe Aufwand bei der Steuerung. "Menschen läuft auch niemand hinterher, der ihnen ständig erklärt, was sie sehen", sagt der Computer-Vision-Professor Paolo Favaro von der Universität Bern der Webseite New Scientist.
Stattdessen sind Menschen dazu in der Lage, ohne vorherige Anweisung und Klassifizierung eigenständig Informationen aus der Umgebung zu extrahieren, sensorische Eindrücke wie visuelle Daten und Audio miteinander zu verknüpfen und daraus Kontext zu generieren. Solche komplexen Lernverfahren sollen in Zukunft auch Maschinen beherrschen.
Deepmind lernt mit Videos
Eine Neuentwicklung aus Googles KI-Abteilung Deepmind erkennt eigenständig audiovisuelle Konzepte in kurzen Videoausschnitten. Sie soll bereits Handlungen wie Rasenmähen oder Kitzeln, große Gruppen, Wasser oder Steptanz identifizieren können, ohne eine Klassifizierung zu kennen.
Für die Entwicklung des Algorithmus arbeitete der Deempind-Projektleiter Relja Arandjelović mit drei Netzwerken. Eines analysierte ein Standbild aus einem Video, das zweite hörte einen einsekündigen Audioclip der gleichen Stelle. Das dritte Netzwerk wurde darauf angesetzt, diese beiden Informationen miteinander zu verknüpfen.
Zeigt man der KI beispielsweise ein Foto von klatschenden Händen, ruft sie den passenden Klatschton ab. In rund 80 Prozent der Fälle kann die KI einen Audioclip korrekt zuordnen. Um diese Präzision zu erreichen, wurde der Algorithmus mit 60 Millionen Bild-Audio-Kombinationen aus 400.000 Videos gefüttert.
Das Verfahren ist deshalb wichtig, da der Großteil der Daten im Internet nicht oder womöglich falsch klassifiziert ist. Im Ergebnis könnte es zu einer mächtigeren Form der automatisierten Objekt- und Inhalteerkennung führen.
"Wir wollen Maschinen bauen, die durchgängig und autonom über ihre Umgebung lernen", sagt der KI-Forscher Pulkit Agrawal von der Universität Kalifornien, Berkeley. Er war zwar nicht am neuen Deepmind-Projekt beteiligt, glaubt aber, dass die KI ein Schritt ist in Richtung einer künstlichen Intelligenz, die durch Beobachtung lernt.
Laut Agrawal könnten mit dem gleichen Verfahren nicht nur Sicht und Gehör, sondern auch andere Sinne wie Sicht und Berührung verknüpft werden, sodass eine KI beispielsweise Objekte in der Dunkelheit suchen könne.