OpenAIs Sprach-KI GPT kann jetzt Bilder: Statt Wörter und Sätze produziert die KI Katzen, Vögel oder Zebrastreifen. Die Fotos sind teils unterhaltsam, aber vor allem ein Hinweis, dass KI generalisierbarer wird.
Ende Mai stellte OpenAI die riesige Sprach-KI GPT-3 vor, knapp zwei Wochen später dann das erste eigene KI-Produkt auf Basis von GPT-3. Jetzt gibt es schon die nächste Neuigkeit: Image GPT – eine Bild-KI, die noch auf dem Vorgängermodell GPT-2 beruht.
Die Sprach-KI GPT-2 zeigte letztes Jahr, dass die Kombination aus jeder Menge Daten, großem KI-Modell und Googles Transformer-Architektur neue KI-Höchstleistungen bei der Sprachgenerierung erreicht.
Transformer sorgte für große Fortschritte bei Sprachmodellen, Übersetzung und Spracherkennung, indem sie es Sprach-KIs ermöglicht, sich auf bestimmte Teile ihrer Eingabedaten zu konzentrieren und diese im Kontext der gesamten Daten zu verarbeiten – etwa Sätze innerhalb eines Artikels oder Wörter innerhalb eines Satzes. Im Trainingsprozess versucht die KI dann, das jeweils nächste Wort in einem Satz im Rahmen des bisher gelernten Kontextes vorherzusagen.
OpenAI untersucht jetzt, ob diese Methode auch für andere Datentypen funktioniert. Dass die sogenannte Transformer-Architektur für mehr als Sprache taugt, zeigen KI-Experimente wie die im Mai veröffentlichte Bildanalyse-KI DETR von Facebook.
Selbsttraining ohne menschliche Vorarbeit
Moderne Bildanalyse-KIs werden durch überwachtes Training (Erklärung) mit beschrifteten Bildern trainiert. Häufig dient der ImageNet-Datensatz als Grundlage.
Er besteht aus Millionen Bildern, die per Hand bestimmten Kategorien zugeordnet wurden. Wird eine Künstliche Intelligenz mit den Aufnahmen trainiert, bekommt sie ein Bild von einer Katze und erfährt gleichzeitig, dass das Bild zur Kategorie Katze gehört. So soll die KI lernen, Objekte zu unterscheiden und sie mit unseren sprachlichen Begriffen zu verknüpfen.
Wenn jedoch nur wenige beschriftete Beispielbilder existieren oder große Mengen Trainingsdaten benötigt werden, setzten KI-Forscher ihre Hoffnung auf das unüberwachte Lernen (Erklärung). Die Idee: Mit genug Daten bildet die KI eigenständig Kategorien aus dem Datenwust, da sie wiederkehrende Muster erkennt. Sprach-KIs wie GPT-2 oder BERT sind Beispiele für KIs, die sich mit einer Variante dieser Methode selbst trainiert haben.
OpenAI hat das unüberwachte Lernen nun auf eine Bild-KI angewandt: Image GPT (iGPT) hat gelernt, zur Hälfte vorgelegte Bilder visuell zu vervollständigen. So entsteht aus einer halben Katze eine ganze Katze – ohne dass iGPT jemals das Wort "Katze" auf einem Katzenbild gesehen hat.
Die Trainingsfotos hat OpenAI auf eine Auflösung von 32 mal 32 Pixel bis maximal 64 mal 64 Pixel runtergerechnet. Das ist nötig, da die KI Pixel für Pixel analysiert und versucht, den nächsten Bildpunkt im Kontext des vorherigen vorauszusagen.
Der Rechenaufwand ist bereits bei den gering aufgelösten Bildern enorm: Eine einzelne KI-optimierte Nvidia V100 GPU (Preis: circa 10.000 Euro) müsste für das KI-Training von iGPT circa 2.500 Tage rechnen. Um nicht mehrere Jahre trainieren zu müssen, nutzte OpenAI daher einen Supercomputer. Bei hochauflösenden Fotos wäre der Rechenaufwand zehntausende Male höher, schreibt OpenAI.
Vorhersage führt zu Verständnis
Nach dem KI-Training kann iGPT halbe Fotos glaubhaft vervollständigen: Ein Bürgersteig wird weitergezeichnet, eine Katze in verschiedene Varianten fortgeführt, der Fußballer Messi bekommt Beine und ein Vogel einen Ast zum Draufsitzen.
Für OpenAI ist klar: Beim Versuch, für unzählige Fotos den jeweils nächsten Bildpunkt vorherzusagen, bildet die KI zwangsläufig interne Repräsentationen von Objekten wie Katzen – denn das erleichtert ihr die Aufgabe ungemein.
Dass die KI tatsächlich eine Art internes Bild von Katzen und anderen Objekten besitzt, obwohl sie nicht speziell dafür trainiert wurde, zeigen weitere Tests von OpenAI: In verschiedenen Bildanalyse-Benchmarks konnte iGPT Gegenstände und Tiere zuverlässig erkennen.
Keine Konkurrenz für bewährte KI-Systeme
Mit den besten Bildanalyse-KIs kann iGPT jedoch nicht mithalten – das liegt vor allem an der geringen Auflösung des Trainingsmaterials. Unabhängig von der Leistung steht der Trainingsaufwand in keinem Verhältnis zur Bildanalysefähigkeit: Für das ähnlich leistungsstarke MoCo-Modell rechnet eine v100 GPU nur etwa 70 statt 2.500 Tage.
Wenn nicht für die Bildanalyse, dann taugt iGPT vielleicht für die Bilderstellung? Witzige Katzen kommen schließlich immer gut an. Leider wird iGPT auch hier von alternativen KI-Modellen abgehängt, die auf GAN-Netzwerke setzen.
Ist iGPT also ein teurer Flop? Nein, denn OpenAI möchte mit iGPT zeigen, dass die Transformer-Architektur Potenzial in Feldern neben Sprache hat. Die Aufgabe muss nur in eine Form gebracht werden, in der die Daten so eindimensional wie Buchstaben oder aufeinanderfolgende Pixel sind – und der Transformer kann mit massig Rechenkraft Muster lernen und reproduzieren.
Mit dieser Brute-Force-Methode kommen die KI-Forscher unüberwacht trainierten KIs außerhalb der Sprachgenerierung einen Schritt näher. Das könnte dort nützlich sein, wo bisher keine unüberwacht trainierte KI existiert oder überwacht trainierte KIs nicht möglich sind.
Titelbild: OpenAI, Via: OpenAI