Microsoft-Forscher verkleinern mit einer neuen Methode große KI-Modelle für mehr Recheneffizienz. Anders als bestehende Komprimierungsverfahren braucht OTO nur einen Durchgang und schafft dabei bessere Ergebnisse.
Egal, ob maschinelle Sprachverarbeitung, Bilderkennung oder Textgenerierung: Große KI-Modelle sind derzeit die Lösung für effektivere Künstliche Intelligenz.
Die teils Milliarden Parameter großen Modelle lernen schneller und sind deutlich leistungsstärker als kleinere Netze. Doch sie benötigen auch starke Hardware für das KI-Training, viel Strom und mitunter mehr Rechenzeit als kleinere Modelle.
Aus groß rechne klein
Da Cloud-Lösungen nicht in allen Szenarien eine Option sind, wollen KI-Forscher große KI-Modelle komprimieren: Beim sogenannten "Pruning" werden für die Leistung überflüssige Neuronen aus dem künstlichen neuronalen Netz entfernt. Das Ergebnis: Ein schlankes KI-Modell, das an die Leistung des großen heranreicht und gleichzeitig weniger Ressourcen benötigt.
Aktuelle Pruning-Methoden haben jedoch ein Problem: Es werden zwar Parameter mit Nullwert identifiziert, doch diese Parameter sind häufig mit Netzwerkstrukturen wie etwa einem Bias-Neuron verknüpft, dessen Wert nicht Null ist. Aufgrund der Funktionsweise künstlicher neuronaler Netze trägt so auch ein Netz-Abschnitt, dessen Wert eigentlich Null ist, immer noch zur Ausgabe an die nächste Schicht weiter.
Daher braucht Pruning derzeit noch einen mehrstufigen Prozess, bei dem redundante Parameter oder Nullwerte aufgespürt und entfernt werden. Da diese jedoch Teil des Netzes sind, führt ihre Entfernung zunächst zu Einbußen in der Leistung, was durch Nachtraining oder Feinjustierung ausgeglichen werden muss.
Bestehende Pruning-Methoden sind außerdem immer auf bestimmte Architekturen oder Anwendungen spezialisiert und funktionieren unter veränderten Bedingungen nicht mehr gut.
Only Train Once findet Nullnummern
In einer neuen Forschungsarbeit stellen KI-Forscher von Microsoft, der Zhejiang Universtiät, der Johns Hopkins Universtiät, der Universtiät Denver und des Georgia Institute of Technology die neue Pruning-Methode "Only Train Once" (OTO) vor. Wie der Name bereits andeutet, komprimiert die neue Methode große Netzwerke in einem einzigen Durchgang.
Die Forscher umgehen die Probleme aktueller Pruning-Methoden, indem sie alle trainierbaren Parameter eines großen KI-Modells in unabhängige Gruppen aufteilen. Während des Trainings identifiziert der von den Forschern verwendete Trainingsalgorithmus dann in diesen Gruppen sogenannte Null-Invariante Gruppen (Zero-invariant groups, ZIGs).
Eine Gruppe ist dann eine ZIG, wenn alle Parameter und alle Ausgaben der Gruppe an die nächste Schicht Nullen sind. Damit hat eine ZIG keine Auswirkung auf die Ausgabe des gesamten Netzwerks und kann daher im Pruning-Prozess direkt entfernt werden.
Microsofts OTO-Methode schiebt sich an die Spitze
Die OTO-Methode der Forscher zeigt in verschiedenen Benchmarks, dass sie nicht nur bei der Reduktion des Pruning-Aufwands oben mitspielt. Die Forscher testeten die Methode für Bildanalyse-KIs wie ResNet50 oder VGG16 mit dem CIFAR10-Bilddatensatz oder mit dem NLP-Modell BERT im SQuAD-Fragen-Benchmark.
Bei CIFAR10 erreicht etwa die mit OTO komprimierte VGG16-Architektur eine Top-1-Genauigkeit von 91 Prozent bei 2,5 Prozent der ursprünglichen Größe und 16,3 Prozent der benötigten FLOPS. In SQuAD reduziert OTO BERT auf eine Größe von 40 Prozent bei knapp 71 Prozent Genauigkeit und einer 1,8-fachen Beschleunigung der Rechenzeit.
Insgesamt zeigt die OTO-Methode in den getesteten Komprimierungs-Benchmarks die besten Pruning-Ergebnisse und beweist so großes Potenzial für effizientere KI-Entwicklung. Im nächsten Schritt wollen die Forscher die Methode weiter verbessern und auf neue Aufgaben anwenden. Die Arbeit könnte in Zukunft bessere KI-Modelle für Edge-Geräte wie Smartphones hevorbringen.
Via: Arxiv