Microsofts Bildbeschriftungs-KI soll das Web zugänglicher machen - und ist gleichzeitig ein Fortschritt in der Bildanalyse durch Künstliche Intelligenz. Sie erzielt unter kontrollierten Bedingungen eine menschenähnliche Leistung.
Theoretisch können für Bilder im Web und in Dokumenten alternative Bildtexte hinterlegt werden, die den Inhalt des Bildes beschreiben. Diese Beschreibungen helfen sehbehinderten Menschen, visuelle Inhalte zu verstehen und in den Kontext beispielsweise eines Artikels zu bringen.
Sehende Autoren lassen diese Zeilen jedoch häufig leer - gut wäre es also, man könnte diesen Vorgang maschinell automatisieren. Microsoft stellt jetzt eine verbesserte KI vor, die genau das leisten soll. Dafür segmentiert sie das Bild zunächst - zerlegt es also in einzelne Bestandteile wie Vorder- und Hintergrund, Mensch, Gesicht, Emotion - analysiert diese Bestandteile und generiert dazu passende Beschriftungen.
Im Vergleich zur Vorgängerversion dieser KI, die seit 2015 im Einsatz ist, erreicht das neue System laut Microsoft eine doppelt so gute Leistung. In dem Bild-Beschriftungs-Benchmark "nocaps" erzielte es einen Bestwert. Sie macht weniger Fehler und beschreibt Bilder präziser als vergleichbare Systeme.
Bildbeschriftung durch KI: So gut wie der Mensch?
Laut Microsoft erzielt die KI damit eine Leistung bei der Bildbeschriftung vergleichbar mit der eines Menschen. Allerdings bezieht sich diese Aussage nur auf die rund 15.000 im nocaps-Benchmark enthaltenen Bilder.
Die Vielfalt und Komplexität von visuellen Motiven geht jedoch weit über das hinaus, was die nocaps-Bildersammlung abbilden kann. Hinzu kommt, dass die Bewertungskriterien für gute oder schlechte Bildbeschriftungen nur bedingt menschliche Bedürfnisse in verschiedenen Kontexten abbilden können - weshalb auch die Entwickler des Benchmarks eben diesen nur als "groben Indikator" für die Leistung der KI bezeichnen.
Die Nützlichkeit einer starken Bildanalyse-KI geht über automatische Bildbeschriftungen im Internet oder in Dokumenten hinaus: Menschen mit Sehbehinderung können sie im Alltag einsetzen, um sich in Echtzeit besser in der Umgebung zu orientieren. Microsoft setzt die KI-Technik in der Bildbeschreibungs-App "Seeing AI" ein.
Letztlich könnte autonome Robotertechnologie davon profitieren, Inhalte auf Bildern oder in Videos verlässlich zu erkennen und zu beschreiben. Details zur Forschungsarbeit und zum KI-Training veröffentlicht Microsoft im eigenen Forschungsblog.
Auch Google setzt im Chrome-Browser auf KI, um Bilder ohne Beschreibungstext nachträglich maschinell zu beschriften und vorzulesen.
Quelle: Microsoft