Inhalt
summary Zusammenfassung

OpenAIs ChatGPT profitiert vom Training mit menschlichem Feedback. Google zeigt nun, dass diese Methode auch Computer-Vision-Modelle verbessern kann.

Anzeige

Die ersten Deep-Learning-Modelle zur Objekterkennung basierten auf überwachtem Lernen mit einer großen Anzahl markierter Bilder. Beispielsweise wird ein Bild einer Katze mit einem digitalen Etikett mit dem Wort "Katze" versehen. Auf diese Weise lernt das System den Zusammenhang zwischen Wort und Bild.

Mit dem Aufkommen und dem Erfolg der Transformer-Architektur in der Sprachverarbeitung begannen Forscherinnen und Forscher, Transformer und selbstüberwachtes Lernen erfolgreich in der Computer Vision einzusetzen.

Exakt beschriftete Bilddateien wurden überflüssig: Wie Textmodelle lernten auch Bildmodelle aus großen Mengen unstrukturierter Daten. Googles Vision Transformer war eine der ersten Architekturen, die das Niveau älterer, überwacht trainierter Modelle erreichte.

Anzeige
Anzeige

Reinforcement Learning kann vortrainierte KI-Modelle verbessern

Bereits nach der Veröffentlichung des großen Sprachmodells GPT-2 begann OpenAI verstärkt mit dem Training von Sprachmodellen durch Reinforcement Learning mit menschlichem Feedback (RLHF) zu experimentieren. Denn große, vortrainierte Sprachmodelle sind zwar extrem vielseitig einsetzbar, aber schwer zu kontrollieren - eine Tatsache, die derzeit Microsoft mit dem Chatbot Bing zu spüren bekommt.

RLHF versucht dagegen, dem großen Sprachmodell über Belohnungssignale beizubringen, welche Textgenerierungen erwünscht und welche falsch oder unerwünscht sind. Wie ChatGPT zeigt, führt dies nicht nur zu einem zielgerichteteren Modell - es scheint sich auch positiv auf die Leistung des Systems auszuwirken.

Google-Forschende haben diese Erkenntnis nun aufgegriffen und getestet, ob auch große Computer-Vision-Modelle von Reinforcement Learning (RL) mit Belohnungssignalen profitieren können. Das Team trainierte mehrere Vision-Transformer-Modelle und optimierte sie dann mit einem einfachen Reinforcement-Learning-Algorithmus für bestimmte Aufgaben wie Objekterkennung, panoptische Segmentierung - eine Kombination aus semantischer Segmentierung und Erkennung - oder das Einfärben von Bildern.

Auch Computer-Vision-Modelle profitieren von Belohnungssignalen

Das Team zeigt, dass die durch RL verbesserten Modelle für die Objekterkennung und die panoptische Segmentierung auf dem Niveau von Modellen liegen, die auf diese Aufgaben spezialisiert sind. Das Modell für die Einfärbung liefert dank RL ebenfalls bessere Ergebnisse.

Das Team zeigt durch Reinforcement Learning erreichte deutliche Verbesserungen für die drei getesteten Computer-Vision-Einsatzbereiche. | Bild: Pinto, Kolesnikov et al.

Die Arbeit von Google zeigt als Machbarkeitsstudie, dass Reinforcement Learning mit Belohnungssignalen in der maschinellen Bildverarbeitung, ähnlich wie in der Sprachverarbeitung, zu besseren Modellen führen kann.

Empfehlung

Der nächste Schritt wäre, diese Belohnungssignale mit menschlichem Feedback zu kombinieren - wie bei ChatGPT. Die Forschenden halten das für eine vielversprechende Forschungsrichtung und möchten RLHF in der Computer Vision auf anspruchsvolle Aufgaben wie die Steuerung von Roboterarmen, die Objekte greifen sollen, anwenden. Hier könnten die für die Steuerung verantwortlichen Modelle durch RLHF eine höhere Erfolgsrate beim Greifen ermöglichen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Google-Forscher zeigen, dass Reinforcement Learning erfolgreich zur Feinjustierung von Computer-Vision-Modellen eingesetzt werden kann.
  • Das Team hält daher auch das bei ChatGPT so erfolgreiche RL-Training mit menschlichem Feedback für vielversprechend.
  • Die Methoden könnten etwa das Szenenverständnis von Robotern verbessern und sie so erfolgreicher Objekte greifen lassen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!