Was ChatGPT hilft, könnte auch Computer Vision helfen

OpenAIs ChatGPT profitiert vom Training mit menschlichem Feedback. Google zeigt nun, dass diese Methode auch Computer-Vision-Modelle verbessern kann.

Die ersten Deep-Learning-Modelle zur Objekterkennung basierten auf überwachtem Lernen mit einer großen Anzahl markierter Bilder. Beispielsweise wird ein Bild einer Katze mit einem digitalen Etikett mit dem Wort "Katze" versehen. Auf diese Weise lernt das System den Zusammenhang zwischen Wort und Bild.

Mit dem Aufkommen und dem Erfolg der Transformer-Architektur in der Sprachverarbeitung begannen Forscherinnen und Forscher, Transformer und selbstüberwachtes Lernen erfolgreich in der Computer Vision einzusetzen.

Exakt beschriftete Bilddateien wurden überflüssig: Wie Textmodelle lernten auch Bildmodelle aus großen Mengen unstrukturierter Daten. Googles Vision Transformer war eine der ersten Architekturen, die das Niveau älterer, überwacht trainierter Modelle erreichte.

Reinforcement Learning kann vortrainierte KI-Modelle verbessern

Bereits nach der Veröffentlichung des großen Sprachmodells GPT-2 begann OpenAI verstärkt mit dem Training von Sprachmodellen durch Reinforcement Learning mit menschlichem Feedback (RLHF) zu experimentieren. Denn große, vortrainierte Sprachmodelle sind zwar extrem vielseitig einsetzbar, aber schwer zu kontrollieren - eine Tatsache, die derzeit Microsoft mit dem Chatbot Bing zu spüren bekommt.

RLHF versucht dagegen, dem großen Sprachmodell über Belohnungssignale beizubringen, welche Textgenerierungen erwünscht und welche falsch oder unerwünscht sind. Wie ChatGPT zeigt, führt dies nicht nur zu einem zielgerichteteren Modell - es scheint sich auch positiv auf die Leistung des Systems auszuwirken.

Google-Forschende haben diese Erkenntnis nun aufgegriffen und getestet, ob auch große Computer-Vision-Modelle von Reinforcement Learning (RL) mit Belohnungssignalen profitieren können. Das Team trainierte mehrere Vision-Transformer-Modelle und optimierte sie dann mit einem einfachen Reinforcement-Learning-Algorithmus für bestimmte Aufgaben wie Objekterkennung, panoptische Segmentierung - eine Kombination aus semantischer Segmentierung und Erkennung - oder das Einfärben von Bildern.

Auch Computer-Vision-Modelle profitieren von Belohnungssignalen

Das Team zeigt, dass die durch RL verbesserten Modelle für die Objekterkennung und die panoptische Segmentierung auf dem Niveau von Modellen liegen, die auf diese Aufgaben spezialisiert sind. Das Modell für die Einfärbung liefert dank RL ebenfalls bessere Ergebnisse.

Das Team zeigt durch Reinforcement Learning erreichte deutliche Verbesserungen für die drei getesteten Computer-Vision-Einsatzbereiche. | Bild: Pinto, Kolesnikov et al.

Die Arbeit von Google zeigt als Machbarkeitsstudie, dass Reinforcement Learning mit Belohnungssignalen in der maschinellen Bildverarbeitung, ähnlich wie in der Sprachverarbeitung, zu besseren Modellen führen kann.

Empfehlung

KI-Forschung

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

Der nächste Schritt wäre, diese Belohnungssignale mit menschlichem Feedback zu kombinieren - wie bei ChatGPT. Die Forschenden halten das für eine vielversprechende Forschungsrichtung und möchten RLHF in der Computer Vision auf anspruchsvolle Aufgaben wie die Steuerung von Roboterarmen, die Objekte greifen sollen, anwenden. Hier könnten die für die Steuerung verantwortlichen Modelle durch RLHF eine höhere Erfolgsrate beim Greifen ermöglichen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Was ChatGPT hilft, könnte auch Computer Vision helfen

Reinforcement Learning kann vortrainierte KI-Modelle verbessern

Auch Computer-Vision-Modelle profitieren von Belohnungssignalen

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

AVIS zeigt Googles Fortschritte bei der KI-gestützten Bildersuche

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Was ChatGPT hilft, könnte auch Computer Vision helfen

Reinforcement Learning kann vortrainierte KI-Modelle verbessern

Auch Computer-Vision-Modelle profitieren von Belohnungssignalen

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

AVIS zeigt Googles Fortschritte bei der KI-gestützten Bildersuche