Inhalt
summary Zusammenfassung

Google Cloud hat auf seiner Next-Konferenz neue Modelle und Funktionen für Vertex AI vorgestellt. Dazu gehören öffentliche Testversionen des bisher größten Kontextfensters eines Sprachmodells mit Gemini Pro 1.5 sowie "lebende Bilder" mit Imagen 2.0.

Auf der Konferenz Google Cloud Next hat der Suchmaschinenriese Neuerungen für seine KI-Plattform Vertex AI angekündigt. Vertex AI ermögliche nicht nur die Entwicklung von KI-Anwendungen und -Agenten, sondern auch deren Bereitstellung und Wartung, so Amin Vahdat, VP/GM ML, Systems, and Cloud AI bei Google.

Gemini 1.5 Pro bietet das bisher größte LLM-Kontextfenster

Das Sprachmodell Gemini 1.5 Pro ist ab sofort als öffentliche Testversion in Vertex AI verfügbar. Es bietet laut Vahdat bis zu einer Million Token Kontextfenster. Die Angabe beschreibt die Datenmenge, die das Modell gleichzeitig verarbeiten kann. Das bisher größte kommerziell verfügbare Kontextfenster liegt bei 200K in Claude 3, Gemini 1.5 übertrifft es also um das Fünffache.

Video: Google Deepmind

Anzeige
Anzeige

Das große Kontextfenster ermöglicht natives multimodales Inferencing über riesige Datenmengen. Kunden können damit laut Google neue Anwendungsfälle entwickeln, darunter KI-gestützte Kundendienstmitarbeiter und akademische Tutoren, die Analyse großer Sammlungen komplexer Finanzdokumente, die Erkennung von Dokumentationslücken und die Exploration ganzer Codebasen oder Datensammlungen in natürlicher Sprache.

Allerdings haben diese großen Kontextfenster noch signifikante Schwächen bei der lückenlosen Verarbeitung eingegebener Informationen.

Gemini 1.5 Pro auf Vertex AI unterstützt auch die Verarbeitung von Audio- und Videostreams. Das ermögliche eine nahtlose multimodale Analyse, die Erkenntnisse aus Text, Bildern, Video und Audio liefert - beispielsweise kann das Modell Ergebnispräsentationen oder Investorentreffen transkribieren, durchsuchen, analysieren und Fragen dazu beantworten.

Anbindung an Echtzeit- und Unternehmensdaten

Um die Antwortgenauigkeit der Sprachmodelle zu verbessern, erweitert Google seine Grounding-Funktionen in Vertex AI, einschließlich der Möglichkeit, Antworten direkt aus der Google-Suche oder aus Unternehmensdaten zu begründen.

Dadurch erhalten die Nutzer Zugang zu aktuellen und qualitativ hochwertigen Informationen, wodurch die Genauigkeit der Modellantworten laut Google verbessert wird. Das Grounding in spezifischen Daten sei auch die Grundlage für die Entwicklung der nächsten Generation von KI-Agenten, die über den Chat hinausgehen und proaktiv nach Informationen suchen und Aufgaben für den Benutzer ausführen.

Empfehlung

Google hat zudem die MLOps-Funktionen von Vertex AI erweitert, einschließlich eines neuen Prompt Management Service und Evaluierungstools für große Modelle, die Unternehmen dabei helfen sollen, schneller von der Experimentier- in die Produktionsphase überzugehen.

Kunden können die ML-Verarbeitung jetzt auf die USA oder die Europäische Union beschränken, wenn sie Gemini 1.0 Pro und Imagen verwenden.

Imagen 2.0 animiert Bilder

Die Bilderzeugungsmodelle der Imagen 2.0-Familie können nun verwendet werden, um kurze, vier Sekunden lange "Live-Bilder" aus Prompts zu erzeugen. Zunächst werden die Live-Bilder mit 24 Bildern pro Sekunde, einer Auflösung von 360x640 Pixeln und einer Dauer von vier Sekunden geliefert.

Das Modell eignet sich für Themen wie Natur, Essen und Tiere und kann eine Reihe von Kamerawinkeln und -bewegungen erzeugen, wobei die Konsistenz über die gesamte Sequenz erhalten bleibt. Imagen ist mit Sicherheitsfiltern und digitalen Wasserzeichen ausgestattet.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Imagen 2.0 bietet nun auch erweiterte Bildbearbeitungsfunktionen wie In- und Outpainting. Damit können unerwünschte Elemente aus einem Bild entfernt, neue Elemente hinzugefügt und die Bildränder erweitert werden, um ein größeres Sichtfeld zu erzeugen - alles per Texteingabe.

Auch die digitale Wasserzeichenfunktion, die auf Googles DeepMind SynthID basiert, ist nun allgemein verfügbar. Sie ermöglicht es den Kunden, unsichtbare Wasserzeichen zu erzeugen und Bilder und Live-Bilder zu verifizieren, die von der Imagen-Modellfamilie erzeugt wurden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Cloud hat auf der Next-Konferenz neue Funktionen für seine KI-Plattform Vertex AI vorgestellt, darunter das bisher größte Sprachmodell Gemini Pro 1.5 mit bis zu einer Million Token-Kontextfenstern und multimodaler Verarbeitung von Audio- und Videostreams.
  • Vertex AI erweitert seine Grounding-Funktionen, um die Genauigkeit von Sprachmodellen zu verbessern, indem Antworten direkt aus der Google-Suche oder aus Unternehmensdaten begründet werden. Außerdem wurden die MLOps-Funktionen erweitert, um den Übergang von der Experimentier- zur Produktionsphase zu beschleunigen.
  • Die Bilderzeugungsmodelle Imagen 2.0 können nun kurze "Live-Bilder" aus Prompts erzeugen und Bilder durch Texteingabe bearbeiten, wobei eine digitale Wasserzeichenfunktion zur Verifizierung der generierten Inhalte allgemein verfügbar ist.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!