Computer Vision gibt Maschinen Augen, mit denen sie die Welt ähnlich sehen können wie Menschen. Das ermöglicht viele Anwendungen. Die Open-Source-Software YOLOv8 zeigt den aktuellen Stand der Technologie.
YOLO ("You only look once") ist eine Open Source Bildanalyse-KI, die seit 2015 von der Computer-Vision-Gemeinschaft entwickelt wird. Trotz hoher Akkuratheit ist das Modell klein und läuft auf handelsüblicher Computer-Hardware, sogar auf einem Raspberry-Pi. YOLO bietet von Haus aus Unterstützung für Objekterkennung, Instanzsegmentierung und Bildklassifizierung.
YOLOv8 ist schneller und akkurater als Vorgängermodelle
Im Vergleich zu früheren YOLO-Modellen soll YOLOv8 gerade bei den kompakteren Versionen, die auf schwächerer Hardware laufen, deutliche Fortschritte bei der Bildsegmentierung und Objekterkennung bieten. So erkannte das kleinste YOLOv8-Modell in Benchmarks etwa rund 30 Prozent mehr Objekte in einer Testszene.
Zu solchen Objekten gehören Menschen, Autos oder Kinderwagen, aber auch Details wie Blumenkübel, Handtaschen, Rucksäcke oder ein Messer am Gemüsestand auf dem Marktplatz.
Je mehr, schneller, performanter und zuverlässiger ein CV-System Objekte in der Umgebung erkennt und verfolgt, desto mehr Anwendungsszenarien sind möglich, zum Beispiel für Alltagsroboter oder Augmented-Reality-Brillen, die ihre Umgebung navigieren und verstehen müssen.
YOLOv8 gibt es zum Zeitpunkt der Veröffentlichung (10. Januar 2023) in fünf Versionen. Das kleinste Modell Nano hat einen Mittelwert bei der durchschnittlichen Objekterkennungspräzision (mAP-Wert, mean average precision) von 37,3, das größte YOLOv8 Xtra Large liegt bei 53,9.
Der mAP-Wert ist eine gängige Metrik in der Computer Vision zur Bewertung der Leistung von Objekterkennungsalgorithmen. Er gibt an, wie gut ein Algorithmus korrekt Objekte erkennt und sie von Fehlalarmen unterscheidet. Ein höherer mAP-Wert bedeutet in der Regel eine bessere Leistung.
Fortschritte bei Computer Vision könnten unseren Alltag ebenso stark beeinflussen wie Bild- und Sprach-KI
Seit der Veröffentlichung von OpenAIs DALL-E 2 und GPT-3 haben sich Diskussionen zu Fortschritten im KI-Bereich auf Bild- und Sprachmodelle fokussiert.
Doch YOLOv8 zeigt, dass sich auch das maschinelle Sehen konstant weiterentwickelt und performanter wird. Das hat auf unseren Alltag potenziell ebenso oder sogar mehr Einfluss als Sprach- und Bild-Systeme: utopisch (etwa selbstfahrende Autos) oder dystopisch (Überall-Überwachung, automatisierte Kriege).
Das folgende Video dokumentiert die Geschwindigkeit und Präzision von YOLOv8 bei Objekterkennung und Tracking.
Besonders an YOLO ist neben der Leistung auch die bewegte Hintergrundgeschichte des Modells: Der ursprüngliche YOLO-Entwickler Joe Redmon beendete 2020 seine Arbeit an der Software. Der aus seiner Sicht mögliche Missbrauch von YOLO für militärische Zwecke oder Überwachungsanwendungen seien "unmöglich zu ignorieren", so Redmon damals.
Redmon stellte mit YOLOv3 die Entwicklung ein - aber die CV-Community führte sie fort. Die neueste Version v8 stammt von der Firma Ultralytics, die unter anderem mit der US Intelligence Community (IC) und dem US-Verteidigungsministerium (DoD) zusammenarbeitet.
YOLOv8 ist für Open-Source-Projekte und akademische Anwendungen frei bei Github zur Verfügung. Kommerzielle Projekte benötigen eine kostenpflichtige Enterprise-Lizenz über Ultralytics. Preise gibt es auf Anfrage.