Microsoft veröffentlicht die Vision-Modelle Florence-2, die zum Teil größere Spezialistenmodelle schlagen. Florence-2 ist ein Prompt-basiertes Vision-Modell für verschiedene Computer-Vision- und Vision-Sprach-Aufgaben wie Bildbeschreibung, Objekterkennung, Lokalisierung oder Segmentierung. Laut Microsoft übertrifft Florence-2 in vielen Evaluationen andere, spezialisiertere und deutlich größere Bildverarbeitungsmodelle. Für das Training von Florence hat Microsoft den Datensatz FLD-5B mit 5,4 Milliarden Annotationen für 126 Millionen Bilder erstellt. Die Modelle sind unter der MIT-Lizenz bei Hugging Face verfügbar und können kommerziell genutzt werden.
Anzeige