Inhalt
summary Zusammenfassung

CLIPN bringt CLIP die "Semantik von Negationen" bei. Das soll in der Computer Vision helfen, Klassen zu erkennen, die nicht Teil der Trainingsdaten waren.

Anzeige

Computer-Vision-Modelle erkennen Objekte in den Bildern, mit denen sie trainiert wurden. In realen Anwendungen stoßen diese Modelle jedoch häufig auf unbekannte Objekte außerhalb ihrer Trainingsdaten, was zu schlechten Ergebnissen führt. KI-Forschende haben verschiedene Techniken vorgeschlagen, um KI-Modelle in die Lage zu versetzen, zu erkennen, wenn Eingaben "out-of-distribution" (OOD) sind - also aus unbekannten Klassen stammen, die während des Trainings nicht gesehen wurden. Bisherige Methoden haben jedoch ihre Grenzen, wenn es darum geht, OOD-Beispiele zu identifizieren, die bekannten Klassen ähneln.

Forschende der Hong Kong University of Science and Technology haben nun eine neue Technik namens CLIPN entwickelt, die die OOD-Erkennung verbessern soll, indem sie dem bekannten CLIP-Modell beibringen, unbekannte Eingaben abzulehnen. Die Grundidee besteht darin, sowohl positive als auch negative Texthinweise zusammen mit benutzerdefinierten Trainingstechniken zu verwenden, um CLIP ein Gespür dafür zu geben, wann eine Eingabe OOD ist.

Die Herausforderung: Schwer zu unterscheidende Unbekannte

Angenommen, ein Modell wurde mit Bildern von Katzen und Hunden trainiert. Wenn es ein Bild eines Eichhörnchens verarbeiten soll, ist das Eichhörnchen eine "Out-of-Distribution"-Klasse, da es nicht zu den bekannten Klassen Katze und Hund gehört.

Anzeige
Anzeige

Viele OOD-Erkennungsmethoden bewerten, wie gut eine Eingabe zu bekannten Klassen passt. Diese Methoden könnten jedoch das Bild des Eichhörnchens fälschlicherweise als Katze oder Hund klassifizieren, da es visuelle Ähnlichkeiten aufweist.

Bild: Wang et al.

CLIPN erweitert CLIP daher um neue lernbare "Nein"-Prompts und "Nein" Text-Encoder, um die Semantik von Negationen zu erfassen. Auf diese Weise lernt CLIP, wann und wie es "Nein" sagen soll, um zu erkennen, wann ein Bild außerhalb der bekannten Klassen liegt. Die CLIPN-Technik bringt dem Modell also bei, im Fall des Eichhörnchens "Nein, das ist keine Katze/kein Hund" zu sagen und damit die Klasse als OOD zu markieren.

In Experimenten zeigt das Team, dass CLIPN OOD-Beispiele identifiziert, die das Standard CLIP nicht erkennt. Den Forschenden zufolge verbessert CLIPN die OOD-Erkennung in 9 Referenzdatensätzen im Vergleich zu bestehenden Methoden um bis zu knapp 12 Prozent.

Es sei jedoch noch unklar, ob die Methode auch für spezialisierte Datensätze wie medizinische oder Satellitenbilder funktioniert und ob sie für andere Anwendungen wie Bildsegmentierung geeignet ist.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Hong Kong University of Science and Technology entwickeln CLIPN, eine Technik zur Erkennung unbekannter Objektklassen außerhalb der Trainingsdaten von Computer-Vision-Modellen.
  • CLIPN erweitert das bekannte CLIP-Modell durch Hinzufügen lernbarer "Nein"-Prompts und "Nein" Text-Encoder, um die Semantik von Negationen zu erfassen und dadurch unbekannte Klassen abzulehnen.
  • Die Technik zeigt Verbesserungen in der Erkennung von Out-of-Distribution-Beispielen im Vergleich zu bestehenden Methoden, allerdings ist noch unklar, ob sie für spezialisierte Datensätze wie medizinische oder Satellitenbilder funktioniert.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!