Microsoft veröffentlicht die Vision-Modelle Florence-2, die zum Teil größere Spezialistenmodelle schlagen. Florence-2 ist ein Prompt-basiertes Vision-Modell für verschiedene Computer-Vision- und Vision-Sprach-Aufgaben wie Bildbeschreibung, Objekterkennung, Lokalisierung oder Segmentierung. Laut Microsoft übertrifft Florence-2 in vielen Evaluationen andere, spezialisiertere und deutlich größere Bildverarbeitungsmodelle. Für das Training von Florence hat Microsoft den Datensatz FLD-5B mit 5,4 Milliarden Annotationen für 126 Millionen Bilder erstellt. Die Modelle sind unter der MIT-Lizenz bei Hugging Face verfügbar und können kommerziell genutzt werden.
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Quellen
News, Tests und Berichte über VR, AR und MIXED Reality.
Dead Second ist der perfekte Feierabend-VR-Shooter für Meta Quest 3
Meta Quest 3: Diese besondere Mixed Reality-Erfahrung solltet ihr nicht verpassen
Dieser VR-Hit kostet gerade nur 2 Euro im Steam Sale
MIXED.de
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!