Google öffnet Zugang zu Gemini 1.5 Pro und stellt Imagen 2.0 mit Bild-Animationen vor

9. April 2024

Google

Google Cloud hat auf seiner Next-Konferenz neue Modelle und Funktionen für Vertex AI vorgestellt. Dazu gehören öffentliche Testversionen des bisher größten Kontextfensters eines Sprachmodells mit Gemini Pro 1.5 sowie "lebende Bilder" mit Imagen 2.0.

Auf der Konferenz Google Cloud Next hat der Suchmaschinenriese Neuerungen für seine KI-Plattform Vertex AI angekündigt. Vertex AI ermögliche nicht nur die Entwicklung von KI-Anwendungen und -Agenten, sondern auch deren Bereitstellung und Wartung, so Amin Vahdat, VP/GM ML, Systems, and Cloud AI bei Google.

Gemini 1.5 Pro bietet das bisher größte LLM-Kontextfenster

Das Sprachmodell Gemini 1.5 Pro ist ab sofort als öffentliche Testversion in Vertex AI verfügbar. Es bietet laut Vahdat bis zu einer Million Token Kontextfenster. Die Angabe beschreibt die Datenmenge, die das Modell gleichzeitig verarbeiten kann. Das bisher größte kommerziell verfügbare Kontextfenster liegt bei 200K in Claude 3, Gemini 1.5 übertrifft es also um das Fünffache.

Video: Google Deepmind

Das große Kontextfenster ermöglicht natives multimodales Inferencing über riesige Datenmengen. Kunden können damit laut Google neue Anwendungsfälle entwickeln, darunter KI-gestützte Kundendienstmitarbeiter und akademische Tutoren, die Analyse großer Sammlungen komplexer Finanzdokumente, die Erkennung von Dokumentationslücken und die Exploration ganzer Codebasen oder Datensammlungen in natürlicher Sprache.

Allerdings haben diese großen Kontextfenster noch signifikante Schwächen bei der lückenlosen Verarbeitung eingegebener Informationen.

Gemini 1.5 Pro auf Vertex AI unterstützt auch die Verarbeitung von Audio- und Videostreams. Das ermögliche eine nahtlose multimodale Analyse, die Erkenntnisse aus Text, Bildern, Video und Audio liefert - beispielsweise kann das Modell Ergebnispräsentationen oder Investorentreffen transkribieren, durchsuchen, analysieren und Fragen dazu beantworten.

Anbindung an Echtzeit- und Unternehmensdaten

Um die Antwortgenauigkeit der Sprachmodelle zu verbessern, erweitert Google seine Grounding-Funktionen in Vertex AI, einschließlich der Möglichkeit, Antworten direkt aus der Google-Suche oder aus Unternehmensdaten zu begründen.

Dadurch erhalten die Nutzer Zugang zu aktuellen und qualitativ hochwertigen Informationen, wodurch die Genauigkeit der Modellantworten laut Google verbessert wird. Das Grounding in spezifischen Daten sei auch die Grundlage für die Entwicklung der nächsten Generation von KI-Agenten, die über den Chat hinausgehen und proaktiv nach Informationen suchen und Aufgaben für den Benutzer ausführen.

Google hat zudem die MLOps-Funktionen von Vertex AI erweitert, einschließlich eines neuen Prompt Management Service und Evaluierungstools für große Modelle, die Unternehmen dabei helfen sollen, schneller von der Experimentier- in die Produktionsphase überzugehen.

Kunden können die ML-Verarbeitung jetzt auf die USA oder die Europäische Union beschränken, wenn sie Gemini 1.0 Pro und Imagen verwenden.

Imagen 2.0 animiert Bilder

Die Bilderzeugungsmodelle der Imagen 2.0-Familie können nun verwendet werden, um kurze, vier Sekunden lange "Live-Bilder" aus Prompts zu erzeugen. Zunächst werden die Live-Bilder mit 24 Bildern pro Sekunde, einer Auflösung von 360x640 Pixeln und einer Dauer von vier Sekunden geliefert.

Das Modell eignet sich für Themen wie Natur, Essen und Tiere und kann eine Reihe von Kamerawinkeln und -bewegungen erzeugen, wobei die Konsistenz über die gesamte Sequenz erhalten bleibt. Imagen ist mit Sicherheitsfiltern und digitalen Wasserzeichen ausgestattet.

Imagen 2.0 bietet nun auch erweiterte Bildbearbeitungsfunktionen wie In- und Outpainting. Damit können unerwünschte Elemente aus einem Bild entfernt, neue Elemente hinzugefügt und die Bildränder erweitert werden, um ein größeres Sichtfeld zu erzeugen - alles per Texteingabe.

Auch die digitale Wasserzeichenfunktion, die auf Googles DeepMind SynthID basiert, ist nun allgemein verfügbar. Sie ermöglicht es den Kunden, unsichtbare Wasserzeichen zu erzeugen und Bilder und Live-Bilder zu verifizieren, die von der Imagen-Modellfamilie erzeugt wurden.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Google

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren