Anzeige
Anzeige
Anzeige
Short

Der YouTuber "Greg Technology" hat Googles kritisierte multimodale Gemini-KI-Demonstration mit OpenAIs GPT-4 Vision nachgestellt, um kombinierte Sprach- und Bildprompts in Echtzeit zu demonstrieren. Das ursprüngliche Video der Gemini-KI-Demonstration wurde kritisiert, weil es inszeniert und nicht in Echtzeit aufgenommen war. Das Video von Greg Technology mit GPT-4V zeigt, wie er über eine Zeichnung diskutiert, nach Emoticons fragt und die KI ein Spiel identifizieren lässt - alles in Echtzeit. Natürlich ist die Demo nicht so ausgefeilt wie Googles Video, aber: Sie ist echt. Greg hat seinen Demo-Code auf GitHub veröffentlicht.

Anzeige
Anzeige
Short

Googles internes Projekt "Project Ellmann" zielt darauf ab, den Nutzern mithilfe von KI einen umfassenden Einblick in ihre Lebensgeschichte zu geben, indem mobile Daten wie Fotos und Suchanfragen herangezogen werden. Das Projekt sieht vor, Googles neuestes KI-Modell, Gemini, zu nutzen, um Suchergebnisse zu analysieren, Muster in Nutzerfotos zu erkennen und einen Chatbot zu erstellen, der komplexe Fragen zum Leben eines Nutzers beantwortet. Das vorgeschlagene System könnte Fotos einen tieferen Kontext geben, wichtige Momente im Leben erkennen und sogar Ereignisse wie die Geburt eines Kindes ableiten. Das Projekt umfasst auch "Ellmann Chat", einen Chatbot, der bereits Details über das Leben des Benutzers kennt. Das Projekt wurde kürzlich auf einem internen Treffen vorgestellt, aber es ist unklar, ob es in Google Fotos oder in ein anderes Produkt integriert wird. Google erklärte gegenüber The Verge, dass Ellmann ein frühes internes Experiment sei.

Anzeige
Anzeige
Google News