YOLOv9: Präzisere Echtzeit-Objekterkennung mit weniger Rechenaufwand

Die Bildanalyse-KI YOLOv9 setzt neue Maßstäbe für die Objekterkennung in Echtzeit. Im Vergleich zu früheren Modellen bietet sie eine höhere Genauigkeit bei geringerem Rechenaufwand.

YOLO, kurz für "You Only Look Once", ist eine Open-Source-Bildanalyse-KI, die Objekte in Echtzeit erkennt. Die Software versetzt Maschinen in die Lage, wie Menschen zu "sehen", und eine Vielzahl von Objekten in Bildern identifizieren.

YOLO ist hochpräzise und kann auf handelsüblicher Computerhardware betrieben werden. Es unterstützt Funktionen wie Objekterkennung, Instanzsegmentierung und Bildklassifikation.

YOLOv9 macht mehr mit weniger

Neue Technologien wie Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN) sind in YOLOv9 integriert. PGI verbessert die Netzaktualisierung für eine genauere Objekterkennung, während GELAN die Netzarchitektur optimiert, um die Genauigkeit und Geschwindigkeit zu erhöhen.

Im Vergleich zu YOLOv8 reduziert YOLOv9 die Anzahl der Parameter um 49 Prozent und die Berechnungskomplexität um 43 Prozent, während die durchschnittliche Genauigkeit (AP, Average Precision) auf dem MS COCO Datensatz um 0,6 Prozent steigt. Das folgende Video zeigt YOLOv9 im Vergleich zu älteren YOLO-Modellen.

Die Flexibilität der GELAN-Architektur und die Effizienz von PGI ermöglichen es, die Modelle an die Anforderungen der Inferenzsysteme anzupassen, ohne die Leistung zu beeinträchtigen, so die Entwickler.

Obwohl YOLOv9 speziell für die Objekterkennung entwickelt wurde, könne es durch Verbesserungen in der Netzwerkarchitektur und im Trainingsprozess auch für andere Aufgaben des maschinellen Sehens angepasst werden.

Die Entwickler von YOLOv9, Chien-Yao Wang, I-Hau Yeh und Hong-Yuan Mark Liao, haben den Quellcode auf GitHub veröffentlicht. Eine Anleitung für die Anpassung von YOLOv9 auf eigene Daten ist hier verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

YOLOv9: Präzisere Echtzeit-Objekterkennung mit weniger Rechenaufwand

YOLOv9 macht mehr mit weniger

Google Gemini 2.5 kann Bildinhalte jetzt per natürlicher Sprache analysieren und markieren

COLORBENCH zeigt Schwächen multimodaler KI

BiMediX2: Leistungsstarke KI für medizinische Bildanalyse auf Englisch und Arabisch

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

YOLOv9: Präzisere Echtzeit-Objekterkennung mit weniger Rechenaufwand

YOLOv9 macht mehr mit weniger

Google Gemini 2.5 kann Bildinhalte jetzt per natürlicher Sprache analysieren und markieren

COLORBENCH zeigt Schwächen multimodaler KI

BiMediX2: Leistungsstarke KI für medizinische Bildanalyse auf Englisch und Arabisch