Ein neues Open-Source-System ermöglicht das Training von Sprachmodellen mit 70 Milliarden Parametern auf Gaming-GPUs.
Ein von Answer.AI veröffentlichtes Open-Source-System ermöglicht erstmals das effiziente Training von Sprachmodellen mit 70 Milliarden Parametern auf herkömmlichen Desktop-Computern mit Standard-Gaming-Grafikkarten. Das System kombiniert die Technologien FSDP und QLoRA und ist das Ergebnis einer Zusammenarbeit zwischen Answer.AI, Hugging Face und anderen Forschern.
Die Herausforderung beim Training großer Sprachmodelle liegt in der begrenzten Speicherkapazität herkömmlicher Grafikkarten, die im Vergleich zu teuren Rechenzentrumskarten mit bis zu 80 GB RAM nur über maximal 24 GB RAM verfügen.
QLoRA, eine Entwicklung des beteiligten Forschers Tim Dettmers, ermöglicht das Training größerer Modelle auf einer einzelnen GPU durch den Einsatz von Quantisierung und LoRA. Quantisierung reduziert die Anzahl der Bits, die zur Speicherung der Parameter eines neuronalen Netzes verwendet werden, während LoRA spezielle Adapter trainiert, ohne das gesamte Modell zu verändern.
FSDP (Fully Sharded Data Parallel) des PyTorch-Teams von Meta hingegen ermöglicht es, ein Modell auf mehrere GPUs zu verteilen, um alle Grafikkarten gleichzeitig zu nutzen. Diese Technik teilt die Parameter eines großen Modells auf und ermöglicht es, während des Trainings alle benötigten Fragmente auf der jeweiligen GPU bereitzustellen.
Team trainiert erfolgreich 70 Milliarden Parameter Modell auf zwei GPUs
Durch die Kombination von QLoRA und FSDP gelang es dem Team, ein Modell mit 70 Milliarden Parametern auf zwei GPUs mit je 24 GB zu trainieren. Zusätzlich wurden Techniken wie Gradienten-Checkpointing und CPU-Offloading eingesetzt, um den GPU-Speicherbedarf zu reduzieren. Darüber hinaus reduzierte das Team den Speicherverbrauch weiter mit HQQ, einer Methode, die eine schnellere und genauere Quantisierung als frühere Ansätze ermöglicht. HQQ wurde erfolgreich in das FSDP-System integriert.
Ziel ist es, KI zugänglicher zu machen und mehr Menschen in die Lage zu versetzen, wertvolle Modelle nicht nur zu nutzen, sondern auch zu erstellen. Potenziell könnten mit der Methode und neuen Karten in Zukunft noch größere KI-Modelle trainiert werden.