Diese Web-KI liefert euch den passenden Sound zu eurem Lieblingsbild

Wie klingt ein Bild? Ein von japanischen Forschern entwickeltes KI-System sucht mittels maschinellem Lernen aus 52.000 Soundschnipseln eine passende Geräuschkulisse aus.

Auf der Web-Plattform "Imaginary Soundscape" können Nutzer Bilder und Gemälde verlinken oder hochladen. Ein KI-System analysiert das Bild, erkennt Objekte darin und sucht eine zum Inhalt passende Soundlandschaft aus. In der Audiodatenbank stehen 52.000 Soundschnipsel zur Verfügung, die in einer Schleife abgespielt werden.

Die Objekterkennung funktioniert bei eindeutigen Motiven recht gut: Beispielsweise hört man Blätterrauschen, wenn Wald im Bild ist, Gespräche bei vielen Menschen oder Wellen, wenn das Meer das Motiv ist. Umso detaillierter und abstrakter das Bild ist, desto unpassender wird die Tonauswahl - aber deshalb ist sie nicht unbedingt weniger interessant.

Im Gegenteil, es ist recht faszinierend, den - je nach Definition - kreativen Prozess einer Künstlichen Intelligenz zu beobachten und sich zu fragen, wie dieses oder jenes Ergebnis wohl zustande kam.

Entwickelt wurde der Algorithmus und die Web-Plattform von Yuma Kajihara, Shoya Dozono und Nao Tokui von der Universität Tokio. Anfang des Jahres veröffentlichten sie eine Version, die Bilder aus Google Maps mit passenden Hintergrundgeräuschen unterlegt. Hintergrundinfos zum Projekt stehen hier, die wissenschaftliche Publikation ist hier einsehbar.

Das folgende Video zeigt die Google-Maps-Variante des Algorithmus im Einsatz.

https://www.youtube.com/watch?v=uU-sZq2JOY4

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Diese Web-KI liefert euch den passenden Sound zu eurem Lieblingsbild

Besser coden mit KI

OpenAIs ChatGPT Enterprise hat Tausende Unternehmen auf der Warteliste

Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Diese Web-KI liefert euch den passenden Sound zu eurem Lieblingsbild

Besser coden mit KI

OpenAIs ChatGPT Enterprise hat Tausende Unternehmen auf der Warteliste

Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele