Das KI-Unternehmen Magic AI hat ein auf Code spezialisiertes Sprachmodell mit einem Kontextfenster von 100 Millionen Token entwickelt.
Magic AI hat ein neues Sprachmodell namens LTM-2-mini vorgestellt, das mit einem Kontextfenster von 100 Millionen Token arbeiten kann. Dies entspricht etwa 10 Millionen Codezeilen oder 750 Romanen und übertrifft bisherige Grenzen deutlich.
Laut Magic AI könnte diese Entwicklung die Funktionsweise von KI-Modellen grundlegend verändern. Bisher lag der Fokus auf dem Training, und die meisten Modelle arbeiten mit relativ kurzen Kontexten während der Inferenz. Eine Ausnahme bildet Googles Gemini-Modellreihe, die mit bis zu 2 Millionen bzw. testweise 10 Millionen Token Kontext bereits interessante Anwendungsfälle zeigte.
Magic AI konzentriert sich mit dieser Technologie auf den Bereich der Softwareentwicklung. Ein Modell mit Zugriff auf den gesamten Code, die Dokumentation und Bibliotheken eines Projekts könnte die Codegenerierung erheblich verbessern, so das Unternehmen.
Zur Evaluierung von Modellen mit langen Kontextfenstern hat Magic AI einen neuen Benchmark namens HashHop entwickelt. Dieser soll Schwächen bisheriger Methoden wie "Needle in a Haystack" vermeiden.
HashHop löst "Needle in a Haystack" ab
Bei "Needle in a Haystack" wird eine zufällige Information in einen langen Kontext eingebettet, und das Modell soll diese finden. Magic AI argumentiert, dass diese Methode Schwächen aufweist: Ungewöhnliche Informationen könnten in einem inhaltlich unpassenden Kontext herausstechen, und Modelle könnten lernen, solche semantischen Anomalien zu erkennen.
HashHop verwendet stattdessen Hashes, die zufällig und nicht komprimierbar sind. Das Modell wird mit Hash-Paaren trainiert und muss dann den Wert eines zufällig ausgewählten Hash-Paares vervollständigen. Dies erfordert, dass das Modell den maximalen Informationsgehalt für eine gegebene Kontextgröße speichern und abrufen kann.
Eine anspruchsvollere Variante von HashHop fordert das Modell auf, Schritte zu überspringen, etwa direkt von Hash 1 zu Hash 6 zu springen. Dies testet die Fähigkeit der Modellarchitektur, über mehrere Punkte des gesamten Kontexts im latenten Raum in einem Schritt zu springen und darauf zuzugreifen.
Laut Magic AI eliminiert HashHop implizite und explizite semantische Hinweise, die es traditionellen rekurrenten neuronalen Netzen (RNNs) und den jüngst populär gewordenen State Space Models (SSMs) bisher ermöglichten, gute Ergebnisse zu erzielen.
LTM-2-mini ist 1000-mal effizienter als Llama-3
Magic AI gibt an, dass der Algorithmus von LTM-2-mini für die Verarbeitung eines 100-Millionen-Token-Kontexts etwa 1000-mal effizienter sei als der Aufmerksamkeitsmechanismus von Llama 3.1 405B. Auch der Speicherbedarf sei deutlich geringer.
Das Unternehmen arbeitet bereits an einem größeren LTM-2-Modell und baut dafür in Zusammenarbeit mit Google Cloud und Nvidia neue Supercomputer. Laut Magic-CEO Eric Steinberger soll das System mit Nvidias Blackwell GB200 NLV72-Chips die Trainings- und Inferenzeffizienz deutlich verbessern.
Magic AI hat kürzlich 320 Millionen Dollar von Investoren wie Eric Schmidt, Jane Street und Sequoia eingesammelt. Insgesamt beläuft sich die Finanzierung des Unternehmens nun auf 465 Millionen Dollar.