Inhalt
summary Zusammenfassung

Das Forschungskollektiv LAION hat zusammen mit Intel eine umfassende Suite von Modellen und Datensätzen veröffentlicht, die KI-Systemen emotionale Intelligenz verleihen sollen.

Anzeige

Die Empathic-Insight-Modelle analysieren Gesichtsbilder oder Audiodateien und geben für jede der 40 Emotionskategorien eine Intensitätsbewertung aus. Bei Gesichtern erfolgt die Bewertung auf einer Skala von 0 bis 7, bei Stimmen in drei Stufen: nicht vorhanden, leicht ausgeprägt oder stark ausgeprägt.

Nahaufnahme einer besorgt wirkenden Frau und Tabelle mit Emotionsvorhersagen, hohe Scores für Enttäuschung, Distress, Ärger.
Die Empathic-Insight-Modelle können Gesichtern bis zu 40 verschiedene Emotionen zuordnen. | Bild: LAION

EmoNet basiert auf einer Taxonomie aus 40 Emotions-Kategorien, die aus dem "Handbook of Emotions" entwickelt wurde. Dieses Standardwerk der Psychologie gilt als umfassende wissenschaftliche Sammlung zur Emotionsforschung. Die Forschenden analysierten das Handbuch systematisch und erweiterten die üblichen Grundemotionen um kognitive Zustände wie Konzentration und Verwirrung, physische Zustände wie Schmerz und Müdigkeit sowie soziale Emotionen wie Scham und Stolz.

Die Wissenschaftler:innen begründen diesen Ansatz damit, dass Emotionen nicht universell erkennbar sind, sondern vom Gehirn aus verschiedenen Signalen konstruiert werden. Daher setzen ihre Modelle auf Wahrscheinlichkeits-Schätzungen statt eindeutige Zuordnungen.

Anzeige
Anzeige

Nur synthetische Gesichtsbilder

Für das Training verwendeten die Forschenden über 203.000 Gesichtsbilder und 4.692 Audio-Samples. Die Sprachdaten stammen aus dem Laion's Got Talent Dataset mit über 5.000 Stunden synthetischer Aufnahmen in vier Sprachen: Englisch, Deutsch, Spanisch und Französisch. Die Daten wurden mit OpenAIs GPT-4o-Audio-Modell generiert.

Drei Porträts: 70-jährige Latina triumphierend, 30-jähriger Afroamerikaner lachend, 40-jährige Südostasiatin sehnsuchtsvoll.
Drei synthetische Beispielbilder aus dem Emonet-Face-Benchmark. | Bild: LAION

LAION verwendet ausschließlich synthetische Daten, um Privatsphäre-Probleme zu vermeiden und demografische Vielfalt zu gewährleisten. Die synthetischen Gesichtsbilder wurden mit verschiedenen Text-zu-Bild-Modellen wie Midjourney oder Flux erstellt und programmatisch auf Alter, Geschlecht und Ethnizität diversifiziert. Alle Audio-Samples wurden von Expert:innen mit Psychologie-Ausbildung validiert, wobei nur Bewertungen aufgenommen wurden, bei denen drei unabhängige Fachleute zur gleichen Einschätzung kamen.

Höhere Übereinstimmung mit menschlichen Bewertungen als Konkurrenz

In Benchmarks sollen die Empathic-Insight-Modelle etablierte Konkurrenz übertreffen. Das Empathic-Insight-Face Modell erreiche laut LAION auf dem EmoNet-Face HQ Benchmark eine bessere Übereinstimmung mit menschlichen Bewertungen als Gemini 2.5 Pro und proprietäre APIs wie Hume AI. Die Forschenden maßen dabei, wie gut die KI-Bewertungen mit den Einschätzungen von Psychologie-Expert:innen korrelieren.

Balkendiagramm: Übereinstimmung der Modelle mit menschlichen Emotionseinschätzungen in Prozent, EmpathicInsight-Face Large ~40 %.
Bis zu 40 Prozent der EmoNet-Bewertungen stimmen mit den menschlichen Einschätzungen überein, während Standard-VLMs nur rund 25–30 Prozent erreichen und eine Zufallsreferenz nahe null liegt. | Bild: LAION

Auch bei der Sprach-Emotionserkennung zeigen die LAION-Modelle laut den Forschenden überlegene Leistung. Das Empathic-Insight-Voice-Modell soll auf dem EmoNet-Voice Benchmark bestehende Audio-Sprachmodelle bei der Erkennung aller 40 Emotionskategorien übertreffen. Die Wissenschaftler:innen verglichen dabei verschiedene Modellgrößen und Ansätze für die Verarbeitung von Audiodaten.

Whisper-Weiterentwicklung transkribiert Stimme und Emotionen

Zusätzlich zu den Empathic-Insight-Modellen haben die Forschenden BUD-E Whisper entwickelt, eine Weiterentwicklung von OpenAIs Whisper-Modell. Während das ursprüngliche Whisper nur gesprochene Sprache in Text umwandelt, erstellt BUD-E Whisper strukturierte Beschreibungen des emotionalen Tons, erkennt stimmliche Ausbrüche wie Lachen oder Seufzen und schätzt Sprecher-Eigenschaften wie Alter und Geschlecht ein.

Empfehlung

Intel unterstützt das Projekt im Rahmen seiner Open-Source-Strategie für KI-Innovation. Die Partnerschaft zwischen LAION und Intel besteht seit 2021 zur Optimierung von KI-Modellen auf Intel-Hardware.

Alle EmoNet-Komponenten sind unter Creative Commons für die Modelle und Apache 2.0 für den Code verfügbar. Die Datensätze und Modelle können über Hugging Face heruntergeladen werden. Beide Empathic-Insight-Modelle sind auf Hugging Face als "Small" und "Large" Varianten verfügbar, um verschiedene Anwendungsfälle und Rechenkapazitäten zu unterstützen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Forschungskollektiv LAION und Intel veröffentlichen mit Empathic-Insight eine offene Suite von Modellen und Datensätzen, die Gesichtsbilder und Audiodateien in bis zu 40 Emotionskategorien auswerten können – darunter auch kognitive, physische und soziale Zustände.
  • Für das Training und die Validierung setzten die Forschenden ausschließlich synthetische Bild- und Sprachdaten ein, um Datenschutz und demografische Vielfalt zu gewährleisten.
  • Ergänzend stellen die Forschenden BUD-E Whisper vor – eine Weiterentwicklung von OpenAIs Whisper, die neben Transkription auch emotionale Töne und Sprecher-Eigenschaften erkennt.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!