Inhalt
newsletter Newsletter

KI-Forscher von Facebook nutzen die technologische Grundlage moderner Sprach-KIs, um Objekte auf Bildern besser zu erkennen. Wie hilft Sprachtechnik bei Bildanalysen?

Anzeige

2017 veröffentlichten Google-Forscher die Transformer-Architektur, die heute die Grundlage aller größeren Sprach-KIs bildet, darunter Googles BERT, Facebooks RoBERTa oder OpenAIs GPT-3.

Transformer sorgte für große Fortschritte bei Sprachmodellen, Übersetzung und Spracherkennung, indem sie es Sprach-KIs ermöglicht, sich auf bestimmte Teile ihrer Eingabedaten zu konzentrieren und diese im Kontext der gesamten Daten zu verarbeiten – etwa Sätze innerhalb eines Artikels.

Die zuvor häufig verwendeten LSTM-Netzwerke (“Long short-term memory”) können bis zu hundert Wörter Kontext erfassen. Die Transformer-Architektur hingegen kann tausende Wörter gleichzeitig verarbeiten. Die KI-Forscher nennen diesen Mechanismus, wie man ihn auch beim Menschen nennen würde: Aufmerksamkeit.

Anzeige
Anzeige

Diese Transformer-Architektur kann auch in anderen Anwendungen nützlich sein: Abseits der Verarbeitung natürlicher Sprache (NLP) fanden Transformer etwa vereinzelt Anwendung in der Mathematik und dem bestärkenden Lernen. Doch in der weit verbreiteten Bildanalyse blieb die Transformer-Revolution bisher aus.

Bis jetzt: KI-Forscher von Facebook stellen die erste Bildanalyse-KI vor, die auf Googles Transformer setzt.

Höhere Aufmerksamkeit für kontextbezogene Analysen

Während traditionelle KI-Modelle für die Bildanalyse wie Microsofts "Faster R-CNN" auf komplexe und per Hand gebaute, vielschichtige KI-Netze setzt, besteht Facebooks Detection Transformers (DETR) aus zwei Bausteinen: einem gefalteten neuronalem Netzwerk (Convolutional Neural Network), das Informationen aus dem Bild zieht, und einem Transformer, der diese Informationen nutzt, um Objekte zu erkennen.

Das Besondere: Der Transformer kann für die Identifikation eines Objektes Informationen aus anderen Regionen des Bildes nutzen. So kann er etwa die Beziehung zwischen zwei Objekten im Bild erkennen und diese Informationen für eine genauere Analyse verwenden.

Ein Beispiel: Wenn DETR erkennt, dass auf dem Bild eine Person am Strand steht, weiß die KI, dass ein von der Person verdecktes Objekt mit größerer Wahrscheinlichkeit ein Surfbrett als ein Schlitten ist. Bildanalyse-KIs ohne Transformer-Architektur identifizieren hingegen jedes Objekt für sich, ohne umliegende Informationen zu nutzen.

Empfehlung

KI-Bildanalyse: Einsatz von Transformern schon bald Standard?

DETR erreiche in der Bildanalyse die Leistung von Faster R-CNN, so die Forscher. Die KI sei dabei simpler und flexibler als ihre Konkurrenz. Darüber hinaus verspreche die erfolgreiche Geschichte der Transformer in der Sprach-KI-Forschung zukünftige Leistungs- und Effizienzsteigerungen für die Bildanalyse-KIs.

Möglicherweise sei der Einsatz der Transformer-Architektur auch der fehlende Baustein, der Bild- und Textanalyse vereint. Beide Forschungsfelder hätten große Fortschritte gemacht – jedoch forsche jedes Feld für sich. Die Facebook-Forscher glauben, dass neue KIs wie DETR diese Kluft überwinden und so Aufgaben wie Facebooks "Hateful Memes Challenge" lösen können. Hier will Facebook per KI Memes mit aggressiver Text-Bild-Kombination erkennen.

Der DETR-Quellcode und vortrainierte Modelle stehen kostenlos bei Github zur Verfügung.

Quelle: Facebook

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!