Google hat ein neues KI-Modell namens DolphinGemma vorgestellt, das gemeinsam mit dem Wild Dolphin Project (WDP) und Forschenden der Georgia Tech entwickelt wurde.
Ziel des Projekts ist es, die Kommunikation wildlebender Atlantischer Fleckendelfine (Stenella frontalis) besser zu verstehen. Das WDP erforscht seit fast 40 Jahren eine Delfingruppe auf den Bahamas und hat dabei eine umfangreiche Datenbank aus Ton- und Videomaterial aufgebaut. Diese enthält Informationen zu einzelnen Delfinen, ihren Lauten, Verhaltensweisen und sozialen Interaktionen.
DolphinGemma wurde mit diesen Daten trainiert und nutzt Googles Audiotechnologien, etwa den SoundStream-Tokenizer, um Delfinlaute in digitale Form zu bringen. Das Modell kann typische Lautmuster wie Pfeiftöne, Klicks oder Impulslaute erkennen, analysieren und sogar neue, realistisch klingende Sequenzen erzeugen. Es funktioniert ähnlich wie Sprachmodelle für Menschen, indem es Vorhersagen über die nächsten Laute in einer Folge trifft.
DolphinGemma geht mit Pixel-Smartphones unter Wasser
Zum Einsatz kommt DolphinGemma direkt im Feld über Google Pixel Smartphones, mit denen die Forscher unter Wasser Daten aufzeichnen und analysieren. Parallel nutzt das Team das sogenannte CHAT-System (Cetacean Hearing Augmentation Telemetry), das speziell entwickelte künstliche Pfeiftöne mit bestimmten Objekten wie Seetang oder Spieltüchern verknüpft. Ziel ist es, dass Delfine diese Töne lernen und verwenden, um mit den Forschern zu interagieren. Dabei erkennt ein Pixel-Smartphone in Echtzeit, welchen Ton ein Delfin imitiert, und übermittelt dem Taucher akustisch, welches Objekt gewünscht ist.
Diese Kombination aus KI, mobiler Technik und langjähriger Feldforschung soll helfen, Strukturen in der Delfinsprache zu erkennen und langfristig eine Form der Verständigung zwischen Mensch und Delfin zu ermöglichen. Google plant, DolphinGemma im Sommer 2025 als offenes Modell zu veröffentlichen, damit auch andere Forschungsteams es für die Analyse von Meeressäuger-Kommunikation einsetzen können.
DolphinGemma reiht sich in Googles umfassendere Bemühungen ein, KI für die Erforschung von Tierkommunikation und speziell Meeressäugern einzusetzen. So entwickelte Google im Rahmen seines "AI for Social Good"-Programms in Partnerschaft mit der NOAA eine Walsuch-KI. Diese analysiert Audiodaten von Hydrophonen, die seit 2005 an zwölf Standorten im Pazifik die Rufe von Meeressäugern aufzeichnen. Ein Google-KI-Modell half auch kürzlich bei der Identifizierung eines rätselhaften Unterwasserklangs als bisher unbekannten Ruf des Brydeswals. Der als "Biotwang" bezeichnete Ruf konnte durch die Kombination von visuellen Sichtungen und akustischen Aufnahmen zugeordnet werden.
Auch das Earth Species Project versucht Repräsentationen für tierische Kommunikation arbeitet, sowohl für einzelne als auch für mehrere Arten gleichzeitig. Ziel ist es, auch nicht-verbale Kommunikationsformen wie Bienentänze zu verstehen.