Inhalt
newsletter Newsletter

Microsofts Bildbeschriftungs-KI soll das Web zugänglicher machen - und ist gleichzeitig ein Fortschritt in der Bildanalyse durch Künstliche Intelligenz. Sie erzielt unter kontrollierten Bedingungen eine menschenähnliche Leistung.

Anzeige

Theoretisch können für Bilder im Web und in Dokumenten alternative Bildtexte hinterlegt werden, die den Inhalt des Bildes beschreiben. Diese Beschreibungen helfen sehbehinderten Menschen, visuelle Inhalte zu verstehen und in den Kontext beispielsweise eines Artikels zu bringen.

Sehende Autoren lassen diese Zeilen jedoch häufig leer - gut wäre es also, man könnte diesen Vorgang maschinell automatisieren. Microsoft stellt jetzt eine verbesserte KI vor, die genau das leisten soll. Dafür segmentiert sie das Bild zunächst - zerlegt es also in einzelne Bestandteile wie Vorder- und Hintergrund, Mensch, Gesicht, Emotion - analysiert diese Bestandteile und generiert dazu passende Beschriftungen.

Im Vergleich zur Vorgängerversion dieser KI, die seit 2015 im Einsatz ist, erreicht das neue System laut Microsoft eine doppelt so gute Leistung. In dem Bild-Beschriftungs-Benchmark "nocaps" erzielte es einen Bestwert. Sie macht weniger Fehler und beschreibt Bilder präziser als vergleichbare Systeme.

Anzeige
Anzeige

Bildbeschriftung durch KI: So gut wie der Mensch?

Laut Microsoft erzielt die KI damit eine Leistung bei der Bildbeschriftung vergleichbar mit der eines Menschen. Allerdings bezieht sich diese Aussage nur auf die rund 15.000 im nocaps-Benchmark enthaltenen Bilder.

Die Vielfalt und Komplexität von visuellen Motiven geht jedoch weit über das hinaus, was die nocaps-Bildersammlung abbilden kann. Hinzu kommt, dass die Bewertungskriterien für gute oder schlechte Bildbeschriftungen nur bedingt menschliche Bedürfnisse in verschiedenen Kontexten abbilden können - weshalb auch die Entwickler des Benchmarks eben diesen nur als "groben Indikator" für die Leistung der KI bezeichnen.

Die Nützlichkeit einer starken Bildanalyse-KI geht über automatische Bildbeschriftungen im Internet oder in Dokumenten hinaus: Menschen mit Sehbehinderung können sie im Alltag einsetzen, um sich in Echtzeit besser in der Umgebung zu orientieren. Microsoft setzt die KI-Technik in der Bildbeschreibungs-App "Seeing AI" ein.

Letztlich könnte autonome Robotertechnologie davon profitieren, Inhalte auf Bildern oder in Videos verlässlich zu erkennen und zu beschreiben. Details zur Forschungsarbeit und zum KI-Training veröffentlicht Microsoft im eigenen Forschungsblog.

Auch Google setzt im Chrome-Browser auf KI, um Bilder ohne Beschreibungstext nachträglich maschinell zu beschriften und vorzulesen.

Empfehlung

Quelle: Microsoft

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!