Die Bildanalyse-KI YOLOv9 setzt neue Maßstäbe für die Objekterkennung in Echtzeit. Im Vergleich zu früheren Modellen bietet sie eine höhere Genauigkeit bei geringerem Rechenaufwand.
YOLO, kurz für "You Only Look Once", ist eine Open-Source-Bildanalyse-KI, die Objekte in Echtzeit erkennt. Die Software versetzt Maschinen in die Lage, wie Menschen zu "sehen", und eine Vielzahl von Objekten in Bildern identifizieren.
YOLO ist hochpräzise und kann auf handelsüblicher Computerhardware betrieben werden. Es unterstützt Funktionen wie Objekterkennung, Instanzsegmentierung und Bildklassifikation.
YOLOv9 macht mehr mit weniger
Neue Technologien wie Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN) sind in YOLOv9 integriert. PGI verbessert die Netzaktualisierung für eine genauere Objekterkennung, während GELAN die Netzarchitektur optimiert, um die Genauigkeit und Geschwindigkeit zu erhöhen.
Im Vergleich zu YOLOv8 reduziert YOLOv9 die Anzahl der Parameter um 49 Prozent und die Berechnungskomplexität um 43 Prozent, während die durchschnittliche Genauigkeit (AP, Average Precision) auf dem MS COCO Datensatz um 0,6 Prozent steigt. Das folgende Video zeigt YOLOv9 im Vergleich zu älteren YOLO-Modellen.
Die Flexibilität der GELAN-Architektur und die Effizienz von PGI ermöglichen es, die Modelle an die Anforderungen der Inferenzsysteme anzupassen, ohne die Leistung zu beeinträchtigen, so die Entwickler.
Obwohl YOLOv9 speziell für die Objekterkennung entwickelt wurde, könne es durch Verbesserungen in der Netzwerkarchitektur und im Trainingsprozess auch für andere Aufgaben des maschinellen Sehens angepasst werden.
Die Entwickler von YOLOv9, Chien-Yao Wang, I-Hau Yeh und Hong-Yuan Mark Liao, haben den Quellcode auf GitHub veröffentlicht. Eine Anleitung für die Anpassung von YOLOv9 auf eigene Daten ist hier verfügbar.