Inhalt
newsletter Newsletter

Wissenschaftler aus Googles KI-Unternehmen Deepmind arbeiten an einem Lernverfahren, das unbekannte Bilder und Klänge miteinander verknüpfen kann. Gelingt das, könnte das das Lerntempo einer KI beschleunigen und sie flexibler machen.

Anzeige

Herkömmliche maschinelle Lernverfahren zeigen der KI neben einem Bild auch den dazu passenden Begriff. Beispielsweise wird eine KI trainiert, indem sie tausende Bilder einer Katze analysiert. Jedes Bild trägt zur Klassifizierung die Bezeichnung "Katze". Hat die KI genug ähnliche Bilder mit dem Begriff Katze verknüpft, kann sie die Stubentiger irgendwann verlässlich auf unbekannten Bildern identifizieren.

Das Problem bei diesem sogenannten "beaufsichtigten Lernen" ist der hohe Aufwand bei der Steuerung. "Menschen läuft auch niemand hinterher, der ihnen ständig erklärt, was sie sehen", sagt der Computer-Vision-Professor Paolo Favaro von der Universität Bern der Webseite New Scientist.

Stattdessen sind Menschen dazu in der Lage, ohne vorherige Anweisung und Klassifizierung eigenständig Informationen aus der Umgebung zu extrahieren, sensorische Eindrücke wie visuelle Daten und Audio miteinander zu verknüpfen und daraus Kontext zu generieren. Solche komplexen Lernverfahren sollen in Zukunft auch Maschinen beherrschen.

Anzeige
Anzeige

Deepmind lernt mit Videos

Eine Neuentwicklung aus Googles KI-Abteilung Deepmind erkennt eigenständig audiovisuelle Konzepte in kurzen Videoausschnitten. Sie soll bereits Handlungen wie Rasenmähen oder Kitzeln, große Gruppen, Wasser oder Steptanz identifizieren können, ohne eine Klassifizierung zu kennen.

Für die Entwicklung des Algorithmus arbeitete der Deempind-Projektleiter Relja Arandjelović mit drei Netzwerken. Eines analysierte ein Standbild aus einem Video, das zweite hörte einen einsekündigen Audioclip der gleichen Stelle. Das dritte Netzwerk wurde darauf angesetzt, diese beiden Informationen miteinander zu verknüpfen.

Zeigt man der KI beispielsweise ein Foto von klatschenden Händen, ruft sie den passenden Klatschton ab. In rund 80 Prozent der Fälle kann die KI einen Audioclip korrekt zuordnen. Um diese Präzision zu erreichen, wurde der Algorithmus mit 60 Millionen Bild-Audio-Kombinationen aus 400.000 Videos gefüttert.

Das Verfahren ist deshalb wichtig, da der Großteil der Daten im Internet nicht oder womöglich falsch klassifiziert ist. Im Ergebnis könnte es zu einer mächtigeren Form der automatisierten Objekt- und Inhalteerkennung führen.

"Wir wollen Maschinen bauen, die durchgängig und autonom über ihre Umgebung lernen", sagt der KI-Forscher Pulkit Agrawal von der Universität Kalifornien, Berkeley. Er war zwar nicht am neuen Deepmind-Projekt beteiligt, glaubt aber, dass die KI ein Schritt ist in Richtung einer künstlichen Intelligenz, die durch Beobachtung lernt.

Empfehlung

Laut Agrawal könnten mit dem gleichen Verfahren nicht nur Sicht und Gehör, sondern auch andere Sinne wie Sicht und Berührung verknüpft werden, sodass eine KI beispielsweise Objekte in der Dunkelheit suchen könne.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!