Der YouTuber "Greg Technology" hat Googles kritisierte multimodale Gemini-KI-Demonstration mit OpenAIs GPT-4 Vision nachgestellt, um kombinierte Sprach- und Bildprompts in Echtzeit zu demonstrieren. Das ursprüngliche Video der Gemini-KI-Demonstration wurde kritisiert, weil es inszeniert und nicht in Echtzeit aufgenommen war. Das Video von Greg Technology mit GPT-4V zeigt, wie er über eine Zeichnung diskutiert, nach Emoticons fragt und die KI ein Spiel identifizieren lässt - alles in Echtzeit. Natürlich ist die Demo nicht so ausgefeilt wie Googles Video, aber: Sie ist echt. Greg hat seinen Demo-Code auf GitHub veröffentlicht.
Anzeige