DetGPT: Zwischen Ernährungsberatung und Überwachungsdystopie

13. Mai 2023

Midjourney prompted by THE DECODER

Kurz & Knapp

DetGPT kombiniert Bilderkennung und Sprachverarbeitung und kann Fragen zu Bildern beantworten und direkt auf Objekte verweisen.
So kann DetGPT etwa Obst erkennen, das den Blutdruck senken kann oder Gamern Tipps in Zelda geben.
Solche multimodalen Modelle könnten aber auch in der staatlichen Überwachung eingesetzt werden, wie ein Beispiel zeigt.

DetGPT gibt einen Ausblick auf KI-Anwendungen, die in Zukunft mit multimodalen Modellen möglich sein werden - und nicht nur gute.

Bei der Vorstellung von GPT-4 demonstrierte OpenAI einige multimodale Fähigkeiten, darunter die Umwandlung eines fotografierten und gekritzelten Webdesigns in Code oder die Fähigkeit, Fragen zu Bildern zu beantworten, die bereits über die "Be My Eyes"-Anwendung verfügbar ist. Obwohl diese Fähigkeiten noch nicht allgemein verfügbar sind, haben Open-Source-Modelle wie miniGPT-4 einen ersten Eindruck davon vermittelt.

Forschende der Hong Kong University of Science and Technology und der University of Hong Kong zeigen jetzt mit DetGPT eine leistungsfähigere miniGPT-4-Alternative. Das multimodale KI-Modell kombiniert den Visual Encoder BLIP-2 mit einem 13 Milliarden Parameter umfassenden Sprachmodell der Robin- oder Vicuna-Familie und Grounding-DINO für die Objektmarkierung.

DetGPT verbindet Sprachmodell-Fähigkeiten mit Bilderkennung

DetGPT konzentriert sich auf die Implementierung einer "Fotografieren und Fragen"-Funktion, die es Benutzer:innen ermöglicht, spezifische Informationen oder Aktionen in Bezug auf Objekte in einem Bild anzufordern. Das Modell geht über bestehende Alternativen wie miniGPT-4 hinaus, indem es die genaue Lokalisierung von Objekten und das Verstehen komplexer menschlicher Befehle durch ein großes Sprachmodell ermöglicht.

In einem Beispiel zeigt das Team, wie DetGPT auf die Aussage "Ich möchte ein kaltes Getränk" in einem Foto einer Küche, in der kein Getränk zu finden ist, den Kühlschrank als beste Möglichkeit identifiziert. Auf die Frage "Ich möchte morgen früh aufwachen" markiert das System den Wecker auf einem unordentlichen Tisch, und auf die Frage "Welche Früchte helfen gegen Bluthochdruck?" markiert das System Früchte auf einem Marktstand, die gegen Bluthochdruck helfen könnten.

Für das Training erstellte das Team einen Datensatz mit 30.000 Beispielen aus 5.000 Bildern des COCO-Datensatzes und ChatGPT-generierten Beispielen für Bildanweisungen.

DetGPT für Überwachung?

Modelle wie DetGPT, miniGPT-4, ein multimodales GPT-4 oder auf die Robotik spezialisierte Modelle wie PaLM-E zeigen das Potenzial zusätzlicher Modalitäten in großen KI-Modellen. Wie weit deren Einsatz reichen wird, ist noch unklar, doch wie Sprachmodelle werden sie wohl zahlreiche Jobs verändern - und womöglich auch staatliche Überwachung vereinfachen.

Denn einem Reddit-Post, in dem einer der beteiligten Forschenden die Arbeit vorstellt, findet sich folgende Passage:

Darüber hinaus sind die Beispiele für Objektkategorien, die von Personen gegeben werden, nicht immer vollständig. Wenn die Überwachung z.B. ordnungswidriges Verhalten an öffentlichen Orten erkennen soll, kann der Mensch nur einige einfache Szenarien vorgeben, wie z.B. das Mitführen eines Messers oder das Rauchen. Wird dem Erkennungsmodell jedoch direkt die Frage gestellt: "Erkenne Verhaltensweisen, die gegen die öffentliche Ordnung verstoßen", kann das Modell auf der Grundlage seines eigenen Wissens denken und Schlussfolgerungen ziehen und somit mehr inakzeptable Verhaltensweisen erkennen und diese zu relevanteren Kategorien verallgemeinern, die erkannt werden müssen.

Das würde zunächst ein Sprachmodell erfordern, dass auf die jeweilige Gesellschaft und ihre Normen justiert ist. Das Ergebnis wäre dann ein KI-System, das deutlich dynamischer unerwünschte Verhaltensweisen erkennen könnte, indem es ihr Auftreten nicht mehr nach einem statisch gelabelten Muster erkennt, sondern auch aus dem Auftreten begleitender Faktoren ableiten könnte.

Der Code und der Datensatz sind auf GitHub verfügbar, ebenso wie eine Demo . Das Modell ist noch nicht verfügbar.

Source: Projektseite Reddit

Verpassen Sie keine
aktuellen KI‑Einblicke.

Unabhängiger Journalismus, der Sie auf dem Laufenden hält.
Zugang zum Magazinarchiv und zu den Community‑Kommentaren.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

DetGPT: Zwischen Ernährungsberatung und Überwachungsdystopie

Kurz & Knapp

DetGPT verbindet Sprachmodell-Fähigkeiten mit Bilderkennung

DetGPT für Überwachung?

Verpassen Sie keineaktuellen KI‑Einblicke.

Verpassen Sie keine
aktuellen KI‑Einblicke.