Google bringt mit Gemini Embedding 2 Text, Bild, Video und Audio in einen gemeinsamen Vektorraum

11. März 2026

Google

Kurz & Knapp

Google hat mit Gemini Embedding 2 sein erstes nativ multimodales Embedding-Modell vorgestellt, das Text, Bilder, Videos, Audio und PDFs in einem gemeinsamen Vektorraum abbildet und so direkt vergleichbar macht.
Das Modell verarbeitet Audio ohne Umweg über Transkription, erlaubt die Kombination mehrerer Modalitäten in einer Anfrage und vervierfacht das Token-Limit auf 8192.
In Benchmarks liegt Gemini Embedding 2 laut Google in fast allen getesteten Kategorien vor Konkurrenzmodellen wie Amazons Nova 2 und Voyage Multimodal 3.5, besonders deutlich bei Text-Video-Aufgaben.

Google stellt sein erstes nativ multimodales Embedding-Modell vor. Gemini Embedding 2 soll Text, Bilder, Videos, Audio und Dokumente in einem einzigen semantischen Raum abbilden und damit komplexe KI-Pipelines vereinfachen.

Noch im Juli 2025 hatte Google mit gemini-embedding-001 ein reines Text-Embedding-Modell veröffentlicht, das über 100 Sprachen unterstützte und auf dem MTEB-Multilingual-Leaderboard einen Spitzenplatz belegte. Mit Gemini Embedding 2 geht Google nun einen deutlichen Schritt weiter: Das neue Modell basiert ebenfalls auf der Gemini-Architektur, bildet aber erstmals auch Bilder, Video, Audio und PDF-Dokumente in denselben Vektorraum ab wie Text.

Embeddings sind numerische Darstellungen von Daten, die deren Bedeutung erfassen. Sie bilden die Grundlage für Anwendungen wie semantische Suche, Retrieval-Augmented Generation (RAG), Sentiment-Analyse und Daten-Clustering. Der entscheidende Vorteil eines gemeinsamen Embedding-Raums: Unterschiedliche Medientypen lassen sich direkt miteinander vergleichen, ohne separate Modelle oder Zwischenschritte.

Gemini Embedding 2 unterstützt fünf Modalitäten, von Text über Bilder und Video bis zu Audio und PDF-Dokumenten. | Bild: Google

Audio ohne Umweg über Transkription

Bei Text unterstützt Gemini Embedding 2 laut Google bis zu 8192 Input-Tokens, eine Vervierfachung gegenüber den 2048 Tokens des Vorgängers. Bilder können bis zu sechs Stück pro Anfrage in den Formaten PNG und JPEG verarbeitet werden. Videos dürfen bis zu 120 Sekunden lang sein, Dokumente als PDF bis zu sechs Seiten umfassen.

Beim Audio geht Google einen eigenen Weg. Das Modell verarbeitet Audiodaten nativ, ohne sie zuvor in Text transkribieren zu müssen. Viele bisherige Ansätze setzen auf eine Zwischenstufe über Speech-to-Text, was Informationsverluste mit sich bringen kann. Gemini Embedding 2 umgeht diesen Schritt vollständig.

Dazu kommt sogenannter "Interleaved Input": Entwickler können mehrere Modalitäten in einer einzigen Anfrage kombinieren, etwa ein Bild zusammen mit einem beschreibenden Text einreichen. Laut Google erfasst das Modell dadurch die Zusammenhänge zwischen verschiedenen Medientypen besser, als wenn jede Modalität isoliert eingebettet würde.

Wie schon beim Vorgänger kommt auch bei Gemini Embedding 2 das sogenannte Matryoshka Representation Learning (MRL) zum Einsatz. Die Technik verschachtelt Informationen so, dass die Ausgabedimensionen dynamisch herunterskaliert werden können, ähnlich einer Matrjoschka-Puppe, bei der kleinere Darstellungen in größeren enthalten sind.

Die Standarddimension liegt bei 3072, Google empfiehlt zusätzlich 1536 und 768 als sinnvolle Abstufungen. Entwickler können damit je nach Anwendungsfall zwischen maximaler Qualität und geringeren Speicherkosten abwägen. Das Modell unterstützt laut Google die semantische Erfassung in über 100 Sprachen.

Gemini Embedding 2 führt in fast allen getesteten Benchmark-Kategorien

Google untermauert den Leistungsanspruch von Gemini Embedding 2 mit Benchmark-Vergleichen gegen Amazons Nova 2 Multimodal Embeddings, Voyage Multimodal 3.5 sowie die eigenen Vorgängermodelle. In allen getesteten Kategorien liegt das neue Modell laut den veröffentlichten Zahlen vorn, von Text über Bild und Video hin zu gesprochener Sprache.

Besonders deutlich zeigt sich der Vorsprung bei Text-Video-Aufgaben: Gemini Embedding 2 erreicht hier bis zu 68,8 Punkte, während Amazon Nova 2 bei 60,3 und Voyage Multimodal 3.5 bei 55,2 landen. Auch bei Text-Bild-Vergleichen liegt Google mit 93,4 zu 84,0 (Amazon) klar vorn.

Balkendiagramm mit Benchmark-Ergebnissen von Gemini Embedding 2 im Vergleich zu anderen Embedding-Modellen in den Kategorien Text, Bild, Video und Audio. Gemini Embedding 2 erreicht in allen Kategorien die höchsten Werte. — Google vergleicht Gemini Embedding 2 mit Konkurrenzmodellen in Text-, Bild-, Video- und Audio-Benchmarks. In beinahe allen Kategorien soll das Modell vorn liegen. | Bild: Google

Laut Google setzen bereits frühe Zugangspartner das Modell für multimodale Anwendungen ein. Embeddings seien die Technologie, die viele Google-Produkte antreibe, vom RAG-gestützten Context-Engineering bis zu großflächigem Datenmanagement und klassischer Suche.

Gemini Embedding 2 ist über die Gemini API und Vertex AI verfügbar. Google stellt interaktive Colab-Notebooks bereit und unterstützt Integrationen mit gängigen Frameworks und Vektordatenbanken, darunter LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB und Vector Search. Zusätzlich hat Google eine leichtgewichtige Demo für multimodale semantische Suche veröffentlicht, mit der sich die Fähigkeiten des Modells ausprobieren lassen sollen.

Wettbewerb um die besten Embeddings nimmt zu

Erst Ende Februar hatte die KI-Suchmaschine Perplexity zwei eigene Open-Source-Embedding-Modelle unter MIT-Lizenz veröffentlicht. Die Modelle pplx-embed-v1 und pplx-embed-context-v1 sind zwar auf Text beschränkt, setzen aber auf extreme Speichereffizienz und bidirektionales Textverständnis.

Auf dem MTEB-Retrieval-Benchmark erreichte Perplexitys größtes Modell laut eigenen Angaben Werte auf dem Niveau von Alibabas Qwen3-Embedding und übertraf Googles damaliges gemini-embedding-001 bei deutlich geringerem Speicherbedarf.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Google