DetGPT gibt einen Ausblick auf KI-Anwendungen, die in Zukunft mit multimodalen Modellen möglich sein werden - und nicht nur gute.
Bei der Vorstellung von GPT-4 demonstrierte OpenAI einige multimodale Fähigkeiten, darunter die Umwandlung eines fotografierten und gekritzelten Webdesigns in Code oder die Fähigkeit, Fragen zu Bildern zu beantworten, die bereits über die "Be My Eyes"-Anwendung verfügbar ist. Obwohl diese Fähigkeiten noch nicht allgemein verfügbar sind, haben Open-Source-Modelle wie miniGPT-4 einen ersten Eindruck davon vermittelt.
Forschende der Hong Kong University of Science and Technology und der University of Hong Kong zeigen jetzt mit DetGPT eine leistungsfähigere miniGPT-4-Alternative. Das multimodale KI-Modell kombiniert den Visual Encoder BLIP-2 mit einem 13 Milliarden Parameter umfassenden Sprachmodell der Robin- oder Vicuna-Familie und Grounding-DINO für die Objektmarkierung.
DetGPT verbindet Sprachmodell-Fähigkeiten mit Bilderkennung
DetGPT konzentriert sich auf die Implementierung einer "Fotografieren und Fragen"-Funktion, die es Benutzer:innen ermöglicht, spezifische Informationen oder Aktionen in Bezug auf Objekte in einem Bild anzufordern. Das Modell geht über bestehende Alternativen wie miniGPT-4 hinaus, indem es die genaue Lokalisierung von Objekten und das Verstehen komplexer menschlicher Befehle durch ein großes Sprachmodell ermöglicht.
In einem Beispiel zeigt das Team, wie DetGPT auf die Aussage "Ich möchte ein kaltes Getränk" in einem Foto einer Küche, in der kein Getränk zu finden ist, den Kühlschrank als beste Möglichkeit identifiziert. Auf die Frage "Ich möchte morgen früh aufwachen" markiert das System den Wecker auf einem unordentlichen Tisch, und auf die Frage "Welche Früchte helfen gegen Bluthochdruck?" markiert das System Früchte auf einem Marktstand, die gegen Bluthochdruck helfen könnten.
Für das Training erstellte das Team einen Datensatz mit 30.000 Beispielen aus 5.000 Bildern des COCO-Datensatzes und ChatGPT-generierten Beispielen für Bildanweisungen.
DetGPT für Überwachung?
Modelle wie DetGPT, miniGPT-4, ein multimodales GPT-4 oder auf die Robotik spezialisierte Modelle wie PaLM-E zeigen das Potenzial zusätzlicher Modalitäten in großen KI-Modellen. Wie weit deren Einsatz reichen wird, ist noch unklar, doch wie Sprachmodelle werden sie wohl zahlreiche Jobs verändern - und womöglich auch staatliche Überwachung vereinfachen.
Denn einem Reddit-Post, in dem einer der beteiligten Forschenden die Arbeit vorstellt, findet sich folgende Passage:
Darüber hinaus sind die Beispiele für Objektkategorien, die von Personen gegeben werden, nicht immer vollständig. Wenn die Überwachung z.B. ordnungswidriges Verhalten an öffentlichen Orten erkennen soll, kann der Mensch nur einige einfache Szenarien vorgeben, wie z.B. das Mitführen eines Messers oder das Rauchen. Wird dem Erkennungsmodell jedoch direkt die Frage gestellt: "Erkenne Verhaltensweisen, die gegen die öffentliche Ordnung verstoßen", kann das Modell auf der Grundlage seines eigenen Wissens denken und Schlussfolgerungen ziehen und somit mehr inakzeptable Verhaltensweisen erkennen und diese zu relevanteren Kategorien verallgemeinern, die erkannt werden müssen.
Das würde zunächst ein Sprachmodell erfordern, dass auf die jeweilige Gesellschaft und ihre Normen justiert ist. Das Ergebnis wäre dann ein KI-System, das deutlich dynamischer unerwünschte Verhaltensweisen erkennen könnte, indem es ihr Auftreten nicht mehr nach einem statisch gelabelten Muster erkennt, sondern auch aus dem Auftreten begleitender Faktoren ableiten könnte.
Der Code und der Datensatz sind auf GitHub verfügbar, ebenso wie eine Demo . Das Modell ist noch nicht verfügbar.