YOLOv8 zeigt die enormen Fähigkeiten des maschinellen Sehens

Computer Vision gibt Maschinen Augen, mit denen sie die Welt ähnlich sehen können wie Menschen. Das ermöglicht viele Anwendungen. Die Open-Source-Software YOLOv8 zeigt den aktuellen Stand der Technologie.

YOLO ("You only look once") ist eine Open Source Bildanalyse-KI, die seit 2015 von der Computer-Vision-Gemeinschaft entwickelt wird. Trotz hoher Akkuratheit ist das Modell klein und läuft auf handelsüblicher Computer-Hardware, sogar auf einem Raspberry-Pi. YOLO bietet von Haus aus Unterstützung für Objekterkennung, Instanzsegmentierung und Bildklassifizierung.

YOLOv8 ist schneller und akkurater als Vorgängermodelle

Im Vergleich zu früheren YOLO-Modellen soll YOLOv8 gerade bei den kompakteren Versionen, die auf schwächerer Hardware laufen, deutliche Fortschritte bei der Bildsegmentierung und Objekterkennung bieten. So erkannte das kleinste YOLOv8-Modell in Benchmarks etwa rund 30 Prozent mehr Objekte in einer Testszene.

Zu solchen Objekten gehören Menschen, Autos oder Kinderwagen, aber auch Details wie Blumenkübel, Handtaschen, Rucksäcke oder ein Messer am Gemüsestand auf dem Marktplatz.

Je mehr, schneller, performanter und zuverlässiger ein CV-System Objekte in der Umgebung erkennt und verfolgt, desto mehr Anwendungsszenarien sind möglich, zum Beispiel für Alltagsroboter oder Augmented-Reality-Brillen, die ihre Umgebung navigieren und verstehen müssen.

Die Performance von YOLOv8 im Vergleich zu YOLOv5. | Bild: Learn Open CV

YOLOv8 gibt es zum Zeitpunkt der Veröffentlichung (10. Januar 2023) in fünf Versionen. Das kleinste Modell Nano hat einen Mittelwert bei der durchschnittlichen Objekterkennungspräzision (mAP-Wert, mean average precision) von 37,3, das größte YOLOv8 Xtra Large liegt bei 53,9.

Der mAP-Wert ist eine gängige Metrik in der Computer Vision zur Bewertung der Leistung von Objekterkennungsalgorithmen. Er gibt an, wie gut ein Algorithmus korrekt Objekte erkennt und sie von Fehlalarmen unterscheidet. Ein höherer mAP-Wert bedeutet in der Regel eine bessere Leistung.

Fortschritte bei Computer Vision könnten unseren Alltag ebenso stark beeinflussen wie Bild- und Sprach-KI

Seit der Veröffentlichung von OpenAIs DALL-E 2 und GPT-3 haben sich Diskussionen zu Fortschritten im KI-Bereich auf Bild- und Sprachmodelle fokussiert.

Doch YOLOv8 zeigt, dass sich auch das maschinelle Sehen konstant weiterentwickelt und performanter wird. Das hat auf unseren Alltag potenziell ebenso oder sogar mehr Einfluss als Sprach- und Bild-Systeme: utopisch (etwa selbstfahrende Autos) oder dystopisch (Überall-Überwachung, automatisierte Kriege).

Empfehlung

KI in der Praxis

Urteil zu GitHub Copilot: KI-Programmiertool verstößt nicht gegen Urheberrecht

Das folgende Video dokumentiert die Geschwindigkeit und Präzision von YOLOv8 bei Objekterkennung und Tracking.

Besonders an YOLO ist neben der Leistung auch die bewegte Hintergrundgeschichte des Modells: Der ursprüngliche YOLO-Entwickler Joe Redmon beendete 2020 seine Arbeit an der Software. Der aus seiner Sicht mögliche Missbrauch von YOLO für militärische Zwecke oder Überwachungsanwendungen seien "unmöglich zu ignorieren", so Redmon damals.

Redmon stellte mit YOLOv3 die Entwicklung ein - aber die CV-Community führte sie fort. Die neueste Version v8 stammt von der Firma Ultralytics, die unter anderem mit der US Intelligence Community (IC) und dem US-Verteidigungsministerium (DoD) zusammenarbeitet.

YOLOv8 ist für Open-Source-Projekte und akademische Anwendungen frei bei Github zur Verfügung. Kommerzielle Projekte benötigen eine kostenpflichtige Enterprise-Lizenz über Ultralytics. Preise gibt es auf Anfrage.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

YOLOv8 zeigt die enormen Fähigkeiten des maschinellen Sehens

YOLOv8 ist schneller und akkurater als Vorgängermodelle

Fortschritte bei Computer Vision könnten unseren Alltag ebenso stark beeinflussen wie Bild- und Sprach-KI

Urteil zu GitHub Copilot: KI-Programmiertool verstößt nicht gegen Urheberrecht

COLORBENCH zeigt Schwächen multimodaler KI

BiMediX2: Leistungsstarke KI für medizinische Bildanalyse auf Englisch und Arabisch

KI-System erkennt und bewertet Spielszenen und Fouls - und kommentiert sie sogar

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Umstrittenes KI-Manipulationsexperiment der Universität Zürich auf Reddit endet ohne Paper

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

YOLOv8 zeigt die enormen Fähigkeiten des maschinellen Sehens

YOLOv8 ist schneller und akkurater als Vorgängermodelle

Fortschritte bei Computer Vision könnten unseren Alltag ebenso stark beeinflussen wie Bild- und Sprach-KI

Artikel teilen

Bankverbindung