Inhalt
summary Zusammenfassung

Google zeigt eine Methode, mit der große Sprachmodelle Texte deutlich schneller generieren. In Tests konnte das Unternehmen knapp 50 Prozent Rechenzeit einsparen.

Anzeige

Große Sprachmodelle kommen in verschiedenen Aufgaben der Verarbeitung natürlicher Sprache zum Einsatz, etwa der Übersetzung oder der Text-Generation. Modelle wie GPT-3, PaLM oder LaMDA erzielen beeindruckende Ergebnisse und zeigen, dass die Leistung der Sprachmodelle mit ihrer Größe zunimmt.

Solche riesigen Modelle sind jedoch im Vergleich zu kleineren Varianten langsam und benötigen viel Rechenleistung. Da sie zudem ein Wort nach dem anderen vorhersagen und die Vorhersage eines Wortes abgeschlossen sein muss, bevor das Modell das nächste vorhersagen kann, lässt sich die Generation von Text nicht parallelisieren.

Googles CALM greift Vorhersagen aus früheren Schichten ab

Google zeigt nun Confident Adaptive Language Modeling (CALM), eine Methode für die Beschleunigung der Text-Generierung großer Sprachmodelle. Hinter der Methode steht die Intuition, dass die Vorhersage einiger Wörter leicht ist, während andere schwer vorherzusagen sind. Aktuelle Sprachmodelle verwenden jedoch für jedes Wort in einem Satz die gleichen Ressourcen. CALM verteilt dagegen die verwendeten Rechenressourcen dynamisch während der Text-Generation.

Anzeige
Anzeige

Video: Google

Sprachmodelle setzen auf mehrere Transformer-Schichten, in der Attention- und Feedforward-Module interne Repräsentationen von Text modifizieren. Im Decoder entsteht durch diesen Prozess so am Ende die Vorhersage des nächsten Wortes.

Statt diesen Prozess durch alle Schichten laufen zu lassen, misst CALM das Vertrauen des Modells in seine Vorhersage schon in frühen Schichten und spielt diese direkt aus, wenn der Wert hoch genug ist. Ist der Wert niedrig, wird die Vorhersage wie gewohnt in die späteren Schichten verlagert.

CALM reduziert in Tests die Rechenzeit um knapp 50 Prozent

Um CALM zu testen, trainiert Google ein T5-Modell und vergleicht die Leistung von CALM mit einem Standardmodell. Dabei zeigt das Team, dass die Methode in verschiedenen Benchmarks für Übersetzung, Zusammenfassung und Antworten hohe Werte erreicht und im Schnitt deutlich weniger Schichten pro Wort verwendet. In der Praxis spare CALM auf TPUs bis zu 50 Prozent der Rechenzeit bei gleichbleibender Qualität.

CALM ermöglicht eine schnellere Texterzeugung mit Sprachmodellen, ohne die Qualität des ausgegebenen Textes zu beeinträchtigen. Erreicht wird dies durch die dynamische Anpassung des Rechenaufwands pro Generierungszeitschritt, sodass das Modell die Berechnungssequenz frühzeitig beenden kann, wenn es sich sicher genug fühlt.

Google

Mit immer größer werdenden Modellen sei die effiziente Nutzung dieser zentral, so Google. CALM ist ein wichtiger Beitrag zu diesem Ziel und kann laut Google mit bekannten anderen Effizienz-Ansätzen wie Destillation oder Sparsity kombiniert werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google zeigt Confident Adaptive Language Modeling (CALM), eine Methode, die die Texterzeugung bei großen Sprachmodellen erheblich beschleunigt.
  • CALM kann die Vorhersage eines Wortes bereits in frühen Schichten der Transformer-Modelle beenden, wenn das Modell hohes Vertrauen in die eigene Vorhersage zeigt.
  • In Tests reduzierte CALM die Berechnungszeit auf TPUs um bis zu 50 Prozent bei gleichbleibender Textqualität.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!