LMSYS Org hat die Chatbot Arena um Bilderkennung erweitert, um Vision-Language-Modelle (VLMs) von OpenAI, Anthropic, Google und anderen KI-Anbietern zu vergleichen. In zwei Wochen wurden über 17.000 Nutzerpräferenzen in mehr als 60 Sprachen gesammelt. GPT-4o und Claude 3.5 Sonnet schneiden bei Bilderkennung deutlich besser ab als Gemini 1.5 Pro und GPT-4 Turbo. Während Claude 3 Opus bei Sprachmodellen besser ist als Gemini 1.5 Flash, sind beide bei VLMs ähnlich gut. Das Open-Source-Modell Llava-v1.6-34b übertrifft knapp Claude-3-Haiku. Die gesammelten Daten zeigen häufige Anwendungen wie Bildbeschreibung, Matheaufgaben, Dokumentenverständnis, Meme-Erklärung und Geschichtenschreiben. Als nächstes plant das Team die Unterstützung mehrerer Bilder sowie von PDFs, Videos und Audio. Large Model Systems Organization (LMSYS Org) ist eine offene Forschungsorganisation, die von Studenten und Dozenten der UC Berkeley in Zusammenarbeit mit der UCSD und der CMU gegründet wurde.
Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Quellen
News, Tests und Berichte über VR, AR und MIXED Reality.
Pimax 60G Airlink: Erste öffentliche Demos für CES 2025 angekündigt
Pimax Crystal Super: Kommende High-End VR-Brille mit "Retina-Auflösung" wird günstiger als gedacht
VR-Brillen ab 11,99 $ pro Monat: Pimax führt Raten-Modell für High-End VR-Headsets ein
MIXED.de
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!