Der YouTuber "Greg Technology" hat Googles kritisierte multimodale Gemini-KI-Demonstration mit OpenAIs GPT-4 Vision nachgestellt, um kombinierte Sprach- und Bildprompts in Echtzeit zu demonstrieren. Das ursprüngliche Video der Gemini-KI-Demonstration wurde kritisiert, weil es inszeniert und nicht in Echtzeit aufgenommen war. Das Video von Greg Technology mit GPT-4V zeigt, wie er über eine Zeichnung diskutiert, nach Emoticons fragt und die KI ein Spiel identifizieren lässt - alles in Echtzeit. Natürlich ist die Demo nicht so ausgefeilt wie Googles Video, aber: Sie ist echt. Greg hat seinen Demo-Code auf GitHub veröffentlicht.
You have read 2 of our articles this month. Thank you for your interest!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Quellen
News, Tests und Berichte über VR, AR und MIXED Reality.
Kultige HL2-Mod "Entropy: Zero" bekommt VR-Modus
Tobii und Prophesee entwickeln wichtige neue Eyetracking-Technik
Neuer VR-Sci-Fi-Shooter beeindruckt mit aufwendiger Grafik und physikbasierter Action
MIXED.de
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!