Anzeige
Skip to content

Google CALM beschleunigt große Sprachmodelle um 50 Prozent bei gleicher Qualität

Image description
Google

Google zeigt eine Methode, mit der große Sprachmodelle Texte deutlich schneller generieren. In Tests konnte das Unternehmen knapp 50 Prozent Rechenzeit einsparen.

Große Sprachmodelle kommen in verschiedenen Aufgaben der Verarbeitung natürlicher Sprache zum Einsatz, etwa der Übersetzung oder der Text-Generation. Modelle wie GPT-3, PaLM oder LaMDA erzielen beeindruckende Ergebnisse und zeigen, dass die Leistung der Sprachmodelle mit ihrer Größe zunimmt.

Solche riesigen Modelle sind jedoch im Vergleich zu kleineren Varianten langsam und benötigen viel Rechenleistung. Da sie zudem ein Wort nach dem anderen vorhersagen und die Vorhersage eines Wortes abgeschlossen sein muss, bevor das Modell das nächste vorhersagen kann, lässt sich die Generation von Text nicht parallelisieren.

Googles CALM greift Vorhersagen aus früheren Schichten ab

Google zeigt nun Confident Adaptive Language Modeling (CALM), eine Methode für die Beschleunigung der Text-Generierung großer Sprachmodelle. Hinter der Methode steht die Intuition, dass die Vorhersage einiger Wörter leicht ist, während andere schwer vorherzusagen sind. Aktuelle Sprachmodelle verwenden jedoch für jedes Wort in einem Satz die gleichen Ressourcen. CALM verteilt dagegen die verwendeten Rechenressourcen dynamisch während der Text-Generation.

Anzeige
DEC_D_Incontent-1

Video: Google

Sprachmodelle setzen auf mehrere Transformer-Schichten, in der Attention- und Feedforward-Module interne Repräsentationen von Text modifizieren. Im Decoder entsteht durch diesen Prozess so am Ende die Vorhersage des nächsten Wortes.

Statt diesen Prozess durch alle Schichten laufen zu lassen, misst CALM das Vertrauen des Modells in seine Vorhersage schon in frühen Schichten und spielt diese direkt aus, wenn der Wert hoch genug ist. Ist der Wert niedrig, wird die Vorhersage wie gewohnt in die späteren Schichten verlagert.

CALM reduziert in Tests die Rechenzeit um knapp 50 Prozent

Um CALM zu testen, trainiert Google ein T5-Modell und vergleicht die Leistung von CALM mit einem Standardmodell. Dabei zeigt das Team, dass die Methode in verschiedenen Benchmarks für Übersetzung, Zusammenfassung und Antworten hohe Werte erreicht und im Schnitt deutlich weniger Schichten pro Wort verwendet. In der Praxis spare CALM auf TPUs bis zu 50 Prozent der Rechenzeit bei gleichbleibender Qualität.

Anzeige
DEC_D_Incontent-2

CALM ermöglicht eine schnellere Texterzeugung mit Sprachmodellen, ohne die Qualität des ausgegebenen Textes zu beeinträchtigen. Erreicht wird dies durch die dynamische Anpassung des Rechenaufwands pro Generierungszeitschritt, sodass das Modell die Berechnungssequenz frühzeitig beenden kann, wenn es sich sicher genug fühlt.

Google

Mit immer größer werdenden Modellen sei die effiziente Nutzung dieser zentral, so Google. CALM ist ein wichtiger Beitrag zu diesem Ziel und kann laut Google mit bekannten anderen Effizienz-Ansätzen wie Destillation oder Sparsity kombiniert werden.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren