Google öffnet Zugang zu Gemini 1.5 Pro und stellt Imagen 2.0 mit Bild-Animationen vor

Google Cloud hat auf seiner Next-Konferenz neue Modelle und Funktionen für Vertex AI vorgestellt. Dazu gehören öffentliche Testversionen des bisher größten Kontextfensters eines Sprachmodells mit Gemini Pro 1.5 sowie "lebende Bilder" mit Imagen 2.0.

Auf der Konferenz Google Cloud Next hat der Suchmaschinenriese Neuerungen für seine KI-Plattform Vertex AI angekündigt. Vertex AI ermögliche nicht nur die Entwicklung von KI-Anwendungen und -Agenten, sondern auch deren Bereitstellung und Wartung, so Amin Vahdat, VP/GM ML, Systems, and Cloud AI bei Google.

Gemini 1.5 Pro bietet das bisher größte LLM-Kontextfenster

Das Sprachmodell Gemini 1.5 Pro ist ab sofort als öffentliche Testversion in Vertex AI verfügbar. Es bietet laut Vahdat bis zu einer Million Token Kontextfenster. Die Angabe beschreibt die Datenmenge, die das Modell gleichzeitig verarbeiten kann. Das bisher größte kommerziell verfügbare Kontextfenster liegt bei 200K in Claude 3, Gemini 1.5 übertrifft es also um das Fünffache.

Video: Google Deepmind

Das große Kontextfenster ermöglicht natives multimodales Inferencing über riesige Datenmengen. Kunden können damit laut Google neue Anwendungsfälle entwickeln, darunter KI-gestützte Kundendienstmitarbeiter und akademische Tutoren, die Analyse großer Sammlungen komplexer Finanzdokumente, die Erkennung von Dokumentationslücken und die Exploration ganzer Codebasen oder Datensammlungen in natürlicher Sprache.

Allerdings haben diese großen Kontextfenster noch signifikante Schwächen bei der lückenlosen Verarbeitung eingegebener Informationen.

Gemini 1.5 Pro auf Vertex AI unterstützt auch die Verarbeitung von Audio- und Videostreams. Das ermögliche eine nahtlose multimodale Analyse, die Erkenntnisse aus Text, Bildern, Video und Audio liefert - beispielsweise kann das Modell Ergebnispräsentationen oder Investorentreffen transkribieren, durchsuchen, analysieren und Fragen dazu beantworten.

Anbindung an Echtzeit- und Unternehmensdaten

Um die Antwortgenauigkeit der Sprachmodelle zu verbessern, erweitert Google seine Grounding-Funktionen in Vertex AI, einschließlich der Möglichkeit, Antworten direkt aus der Google-Suche oder aus Unternehmensdaten zu begründen.

Dadurch erhalten die Nutzer Zugang zu aktuellen und qualitativ hochwertigen Informationen, wodurch die Genauigkeit der Modellantworten laut Google verbessert wird. Das Grounding in spezifischen Daten sei auch die Grundlage für die Entwicklung der nächsten Generation von KI-Agenten, die über den Chat hinausgehen und proaktiv nach Informationen suchen und Aufgaben für den Benutzer ausführen.

Empfehlung

KI in der Praxis

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Google hat zudem die MLOps-Funktionen von Vertex AI erweitert, einschließlich eines neuen Prompt Management Service und Evaluierungstools für große Modelle, die Unternehmen dabei helfen sollen, schneller von der Experimentier- in die Produktionsphase überzugehen.

Kunden können die ML-Verarbeitung jetzt auf die USA oder die Europäische Union beschränken, wenn sie Gemini 1.0 Pro und Imagen verwenden.

Imagen 2.0 animiert Bilder

Die Bilderzeugungsmodelle der Imagen 2.0-Familie können nun verwendet werden, um kurze, vier Sekunden lange "Live-Bilder" aus Prompts zu erzeugen. Zunächst werden die Live-Bilder mit 24 Bildern pro Sekunde, einer Auflösung von 360x640 Pixeln und einer Dauer von vier Sekunden geliefert.

Das Modell eignet sich für Themen wie Natur, Essen und Tiere und kann eine Reihe von Kamerawinkeln und -bewegungen erzeugen, wobei die Konsistenz über die gesamte Sequenz erhalten bleibt. Imagen ist mit Sicherheitsfiltern und digitalen Wasserzeichen ausgestattet.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Imagen 2.0 bietet nun auch erweiterte Bildbearbeitungsfunktionen wie In- und Outpainting. Damit können unerwünschte Elemente aus einem Bild entfernt, neue Elemente hinzugefügt und die Bildränder erweitert werden, um ein größeres Sichtfeld zu erzeugen - alles per Texteingabe.

Auch die digitale Wasserzeichenfunktion, die auf Googles DeepMind SynthID basiert, ist nun allgemein verfügbar. Sie ermöglicht es den Kunden, unsichtbare Wasserzeichen zu erzeugen und Bilder und Live-Bilder zu verifizieren, die von der Imagen-Modellfamilie erzeugt wurden.

Google öffnet Zugang zu Gemini 1.5 Pro und stellt Imagen 2.0 mit Bild-Animationen vor

Gemini 1.5 Pro bietet das bisher größte LLM-Kontextfenster

Anbindung an Echtzeit- und Unternehmensdaten

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Imagen 2.0 animiert Bilder

Google startet interaktives Lernformat "Guided Learning" in Gemini-App

Google-Deal mit Stromversorgern: KI-Last weicht bei Netzengpässen

Googles MLE-STAR soll komplexe Machine-Learning-Pipelines automatisieren

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Google öffnet Zugang zu Gemini 1.5 Pro und stellt Imagen 2.0 mit Bild-Animationen vor

Gemini 1.5 Pro bietet das bisher größte LLM-Kontextfenster

Anbindung an Echtzeit- und Unternehmensdaten

Imagen 2.0 animiert Bilder

Artikel teilen

Bankverbindung