Inhalt
summary Zusammenfassung

Computer Vision gibt Maschinen Augen, mit denen sie die Welt ähnlich sehen können wie Menschen. Das ermöglicht viele Anwendungen. Die Open-Source-Software YOLOv8 zeigt den aktuellen Stand der Technologie.

Anzeige

YOLO ("You only look once") ist eine Open Source Bildanalyse-KI, die seit 2015 von der Computer-Vision-Gemeinschaft entwickelt wird. Trotz hoher Akkuratheit ist das Modell klein und läuft auf handelsüblicher Computer-Hardware, sogar auf einem Raspberry-Pi. YOLO bietet von Haus aus Unterstützung für Objekterkennung, Instanzsegmentierung und Bildklassifizierung.

YOLOv8 ist schneller und akkurater als Vorgängermodelle

Im Vergleich zu früheren YOLO-Modellen soll YOLOv8 gerade bei den kompakteren Versionen, die auf schwächerer Hardware laufen, deutliche Fortschritte bei der Bildsegmentierung und Objekterkennung bieten. So erkannte das kleinste YOLOv8-Modell in Benchmarks etwa rund 30 Prozent mehr Objekte in einer Testszene.

Zu solchen Objekten gehören Menschen, Autos oder Kinderwagen, aber auch Details wie Blumenkübel, Handtaschen, Rucksäcke oder ein Messer am Gemüsestand auf dem Marktplatz.

Anzeige
Anzeige

Je mehr, schneller, performanter und zuverlässiger ein CV-System Objekte in der Umgebung erkennt und verfolgt, desto mehr Anwendungsszenarien sind möglich, zum Beispiel für Alltagsroboter oder Augmented-Reality-Brillen, die ihre Umgebung navigieren und verstehen müssen.

Die Performance von YOLOv8 im Vergleich zu YOLOv5. | Bild: Learn Open CV

YOLOv8 gibt es zum Zeitpunkt der Veröffentlichung (10. Januar 2023) in fünf Versionen. Das kleinste Modell Nano hat einen Mittelwert bei der durchschnittlichen Objekterkennungspräzision (mAP-Wert, mean average precision) von 37,3, das größte YOLOv8 Xtra Large liegt bei 53,9.

Der mAP-Wert ist eine gängige Metrik in der Computer Vision zur Bewertung der Leistung von Objekterkennungsalgorithmen. Er gibt an, wie gut ein Algorithmus korrekt Objekte erkennt und sie von Fehlalarmen unterscheidet. Ein höherer mAP-Wert bedeutet in der Regel eine bessere Leistung.

Fortschritte bei Computer Vision könnten unseren Alltag ebenso stark beeinflussen wie Bild- und Sprach-KI

Seit der Veröffentlichung von OpenAIs DALL-E 2 und GPT-3 haben sich Diskussionen zu Fortschritten im KI-Bereich auf Bild- und Sprachmodelle fokussiert.

Doch YOLOv8 zeigt, dass sich auch das maschinelle Sehen konstant weiterentwickelt und performanter wird. Das hat auf unseren Alltag potenziell ebenso oder sogar mehr Einfluss als Sprach- und Bild-Systeme: utopisch (etwa selbstfahrende Autos) oder dystopisch (Überall-Überwachung, automatisierte Kriege).

Empfehlung

Das folgende Video dokumentiert die Geschwindigkeit und Präzision von YOLOv8 bei Objekterkennung und Tracking.

Besonders an YOLO ist neben der Leistung auch die bewegte Hintergrundgeschichte des Modells: Der ursprüngliche YOLO-Entwickler Joe Redmon beendete 2020 seine Arbeit an der Software. Der aus seiner Sicht mögliche Missbrauch von YOLO für militärische Zwecke oder Überwachungsanwendungen seien "unmöglich zu ignorieren", so Redmon damals.

Redmon stellte mit YOLOv3 die Entwicklung ein - aber die CV-Community führte sie fort. Die neueste Version v8 stammt von der Firma Ultralytics, die unter anderem mit der US Intelligence Community (IC) und dem US-Verteidigungsministerium (DoD) zusammenarbeitet.

YOLOv8 ist für Open-Source-Projekte und akademische Anwendungen frei bei Github zur Verfügung. Kommerzielle Projekte benötigen eine kostenpflichtige Enterprise-Lizenz über Ultralytics. Preise gibt es auf Anfrage.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • YOLO ist eine Open-Source-Software für maschinelles Sehen, die seit 2015 von der Computer-Vision-Community entwickelt wird.
  • Die neuste Version v8 ist schneller und akkurater als frühere Versionen. Sie erkennt etwa mehr Objekte in einer Szene und demonstriert den aktuellen Stand der Technologie.
  • Computer Vision, zum Beispiel für AR-Brillen, Roboter oder Überwachungsdrohnen, hat potenziell ebenso großen Einfluss auf unser Leben wie KI-Sprach- oder -Bildmodelle.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!