Künstliche Intelligenz kann vielleicht keine Emotionen empfinden - analysieren hingegen, das geht schon.
KI-Entwickler des auf Emotionsmessung spezialisierten Unternehmens "Affectiva" stellen eine Künstliche Intelligenz vor, die Wut in der Stimme innerhalb von 1,2 Sekunden verlässlich erkennen können soll. Laut der Entwickler ist das nur unwesentlich langsamer als ein Mensch. Affectiva entstand 2009 als Ausgründung des MIT Media Labs.
Als technische Grundlage diente den Entwicklern das auf Audioanalyse vortrainierte neuronale Netzwerk "Soundnet". Es kann Objekte in Videos anhand ihres Klangs erkennen.
Für die Wut-Erkennung trainierten die Entwickler das Netz zusätzlich mit Videomaterial, das kommentierte Emotionen enthält, darunter Wut. Sie setzten also auf der mit allgemeinen Audio- und Videodaten trainierten Künstlichen Intelligenz mit einem Spezialtraining auf.
Weniger Daten für den Erfolg
Dieses sogenannte Transferlernen macht KI-Training effizienter: Da die Entwickler der Künstlichen Intelligenz das Hören nicht von Grund auf beibringen mussten, reichte ihnen für das Emotionstraining ein überschaubarer Datensatz (IEMOCAP) mit rund zwölf Stunden audiovisuellen Daten. Als Vergleich: Soundnet wurde mit zwei Millionen Videos trainiert, die umgerechnet einem Jahr Videomaterial entsprechen.
Der Datensatz fürs Emotionstraining entstand an der Universität Südkalifornien: Fünf Männer und fünf Frauen trugen ein vorgegebenes Skript in englischer Sprache vor. Dabei improvisierten sie Emotionen wie Wut, Angst, Überraschung, Freude oder Gleichgültigkeit.
Chatbots könnten Stimmung aufgreifen
Die Forscher berichten über zwei wesentliche Erkenntnisse. Zum einen funktioniere die Wut-Analyse mit leichten Leistungseinbußen auch für Chinesisch. Zum anderen zeige der Versuch, dass mit generischen Daten vortrainierte neuronale Netze mit überschaubarem Trainingsaufwand spezialisiert werden könnten.
Die KI-gestützte Wut-Analyse hat laut der Entwickler viele Anwendungsgebiete, zum Beispiel bei Unterhaltungen mit digitalen Assistenten, bei der Marktforschung oder im Kontext von Virtual und Augmented Reality.
KI-gestützte Überwachung ist ein weiteres Anwendungsszenario, das die Forscher allerdings nicht erwähnen. Bei Überwachungskameras kommt bereits KI-Technologie zum Einsatz, die "verdächtige Bewegungen", die auf aggressive Handlungen hindeuten, früh erkennen und dann Alarm schlagen soll.
Ähnliches wäre auch bei der Stimmanalyse vorstellbar, zum Beispiel bei Unterhaltungen auf öffentlichen Plätzen.
Quellen: Publikation, Via: Venturebeat