Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Facebook zeigt ein KI-System, das Objekte erkennen kann, die es noch nie gesehen hat.

Klassische Bildanalyse-KIs können Objekte nach festgelegten Kategorien erkennen, etwa Katze, Hotdog oder Elefant. Sind die Systeme gut trainiert, orientieren sie sich dabei an der Form und nicht der Textur der Objekte. Andernfalls sind sie störanfällig für Farbänderungen oder Unschärfe.

Suche ich auf Google beispielsweise Bilder von Elefanten, werden mir dank dieser KI-Bilderkennung zahlreiche Elefantenbilder angezeigt. Doch was passiert, wenn ich einen pinken Elefanten suche?

Hier kommen sogenannte multimodale Systeme ins Spiel: Sie lernen, sprachliche Konzepte mit Bilddaten zu kombinieren. Traditionell werden solche Systeme überwacht trainiert, mit einem festgelegten Vokabular an Objekten und ihrer Eigenschaften wie Farbe oder Größe.

Anzeige
Anzeige

Multimodale Systeme sind auch elementarer Bestandteil schlussfolgernder Systeme, die beispielsweise einem Roboter erlauben könnten, gezielt pinken Elefanten aus dem Weg zu gehen.

MDETR lernt von Text und Bild

Facebook-Forscher haben jetzt MDETR vorgestellt, eine Variante der Bildanalyse-KI DETR, die Facebook im Mai 2020 veröffentlichte. Wie DETR setzt auch MDETR auf eine Kombination aus Convolutional Neural Network (CNN) und Transformer-Architektur, ist jedoch mit Bild- und Textdaten trainiert worden.

Für das KI-Training nutzten die Forscher 1,3 Millionen Text-Bild-Paare, bei denen sich die Bildbeschreibungen direkt auf Inhalte des Bildes beziehen. Das CNN verarbeitet dabei die Bilder, ein großes Transformer-basiertes Sprachmodell wie RoBERTa verarbeitet die Text-Beschreibungen.

Facebook setzt auf eine Mischung aus CNN und Transformer. | Bild: Facebook

Anschließend werden beide Repräsentationen zusammengeführt und an einen weiteren Transformer gegeben. Dieser gibt anschließend zu bestimmten Begriffen passende Suchboxen für das Bild aus. Durch das Training lernt MDETR, Objekte in einem Bild ausgehend von einer Textanfrage zu identifizieren.

Als Beispiel zeigen die Forscher ein Bild von drei Elefanten, einer pink, einer blau und einer im natürlichen grau. Auf die Anfrage "ein pinker Elefant" identifiziert MDETR den pinken Elefanten mit einer 100-prozentigen Sicherheit – obwohl er während des KI-Trainings nie einen pinken Elefanten sah.

Empfehlung
Drei Elefanten, einer pink mit Erkennungsbox
Die KI hat vorher noch nie einen pinken Elefanten gesehen, dennoch erkennt sie den entsprechend eingefärbten Dickhäuter mit hoher Sicherheit. | Bild: Facebook

In einem anderen Beispiel identifiziert MDETR erfolgreich alle drei Personen nach folgender Beschreibung: "Die Person im grauen Hemd mit einer Uhr am Handgelenk. Die andere Person mit einem blauen Pullover. Die dritte Person mit einem grauen Mantel und Schal."

Als Beschriftung fügt die KI selbstständig und mit hoher Sicherheit "die Person", "die andere Person" und "die dritte Person" bei der jeweiligen Person ein.

Drei Menschen in einem Markt mit Erkennungsboxen
Facebooks KI kann mehrere Personen anhand unterschiedlicher Merkmale auseinanderhalten. | Bild: Facebook

Diese und andere Tests zeigen laut Facebook, dass MDETR zahlreiche visuelle und sprachliche Konzepte gelernt und verbunden hat.

OpenAIs CLIP als Inspiration

Facebooks Forscher spezialisierten MDETR außerdem auf weitere verwandte Verständnisaufgaben wie die Beantwortung von auf Bildinhalten bezogene Fragen (CLEVR). Dort erreichte MDETR Bestleistungen. Den Code für Facebooks neue Bildanalyse-KI gibt es auf Github.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Als direkte Inspiration nennen die Forscher die multimodale Bildanalyse-KI CLIP: OpenAI stellte das System Anfang des Jahres zusammen mit der Bildgenerierungs-KI DALL-E vor. Beide KI-Systeme sind wie MDETR mit Bild- und Textdaten trainiert und übertragen die Forschungserfolge von GPT-3 und anderen großen Sprach-KIs auf multimodal trainierte Transformer-basierte KI-Systeme.

Via: Arxiv

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!