Inhalt
summary Zusammenfassung

Nach sechs Jahren bekommt Googles BERT-Modell einen modernen Nachfolger: ModernBERT übertrifft seinen Vorgänger in Geschwindigkeit, Effizienz und Qualität - und das als Open Source.

Anzeige

Wie die Entwickler Answer.AI und LightOn in einem Blogpost ankündigen, haben sie mit ModernBERT einen würdigen Nachfolger für Googles populäres BERT-Modell entwickelt. Das neue Encoder-Only-Modell übertrifft seinen Vorgänger und andere Varianten wie DeBERTaV3 in allen wichtigen Bereichen.

Laut den Entwicklern ist ModernBERT bis zu viermal schneller bei der Verarbeitung von Texten unterschiedlicher Länge und benötigt dabei deutlich weniger Speicher. Das Modell wurde mit 2 Billionen Token aus verschiedenen Quellen trainiert, darunter Webdokumente, Code und wissenschaftliche Artikel.

Streudiagramm: Pareto-Effizienz-Analyse von Sprachmodellen, X-Achse zeigt Runtime (ms/token), Y-Achse GLUE-Score (84-91), gelb markierte Pareto-Front.
Die Pareto-Frontier zeigt einen klaren Trade-off zwischen Ausführungsgeschwindigkeit und GLUE-Score verschiedener Sprachmodelle. ModernBERT-Large erreicht dabei einen optimalen Kompromiss mit hoher Effizienz bei 20ms/Token und einem GLUE-Score von 90. | Image: Answer.AI, LightOn

Eine besondere Stärke ist die Verarbeitung längerer Texte: ModernBERT kann Eingaben von bis zu 8.192 Token verarbeiten - das 16-fache der üblichen 512 Token bei existierenden Encoder-Modellen.

Anzeige
Anzeige

ModernBERT ist zudem nach Angaben der Entwickler das erste Encoder-Modell, das auch mit großen Mengen an Programmiercode trainiert wurde. Das macht sich bei der Leistung bemerkbar: Auf dem StackOverflow-QA-Datensatz erreicht ModernBERT als erstes Modell einen Score von über 80.

Deutliche Kosteneinsparungen in der Praxis

ModernBERT sei zwar kein Ferrari, aber ein Honda Civic fit für die Rennstrecke: "Wenn man auf die Autobahn fährt, tauscht man sein Auto nicht gegen einen Rennwagen ein, sondern hofft, dass der zuverlässige Alltagswagen problemlos die Geschwindigkeitsgrenze erreicht", so die Entwickler

Sie betonen den praktischen Nutzen im Verhältnis zu den Kosten: Während große Sprachmodelle wie ChatGPT mehrere Cent pro Anfrage kosten und Sekunden für eine Antwort benötigen, ist ModernBERT als Open-Source-Modell lokal einsetzbar und deutlich schneller.

Für die Filterung von 15 Billionen Token im FineWeb-Edu-Projekt fielen mit einem BERT-basierten Modell Kosten von etwa 60.000 Dollar an. Die gleiche Aufgabe hätte selbst mit dem günstigsten decoder-basierten Modell wie Google Gemini Flash über eine Million Dollar gekostet, so die Entwickler.

Sie sehen vielfältige Einsatzmöglichkeiten für ModernBERT, etwa als neuer Standard in RAG-Systemen, bei der Codesuche oder in der Inhaltsmoderation. Im Vergleich zu großen generativen Modellen wie GPT-4 sei ModernBERT deutlich ressourceneffizienter und läuft auch auf Consumer-Hardware wie Gaming-GPUs.

Empfehlung

ModernBERT wird in zwei Größen veröffentlicht: eine Basisversion mit 139 Millionen Parametern und eine große Version mit 395 Millionen Parametern. Beide Modelle sind auf der Hugging Face Plattform unter der Apache 2.0 Lizenz verfügbar und können existierende BERT-Modelle nahtlos ersetzen. Ein noch größeres Bert-Modell soll im nächsten Jahr erscheinen, Pläne für eine multimodale Variante gibt es nicht.

Um die Entwicklung von Anwendungen zu fördern, haben die Entwickler einen Wettbewerb ausgeschrieben: Die fünf besten Demos werden mit jeweils 100 Dollar und einem sechsmonatigen Hugging Face Pro-Abonnement prämiert.

BERT (Bidirectional Encoder Representations from Transformers) wurde 2018 von Google als ein auf der Transformer-Architektur basierendes Sprachmodell vorgestellt und vom Konzern insbesondere für die eigene Suche verwendet. Seitdem hat das Modell zahlreiche Modifikationen erfahren. Auf HuggingFace ist es mit mehr als 68 Millionen monatlichen Downloads eines der beliebtesten KI-Modelle.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Hugging Face, Lighton und Answer.AI haben mit ModernBERT einen Nachfolger für Googles BERT-Modell entwickelt, der seinen Vorgänger in Geschwindigkeit, Effizienz und Qualität übertrifft und als Open-Source-Projekt verfügbar ist.
  • ModernBERT verarbeitet Texte bis zu viermal schneller als BERT, benötigt weniger Speicher und kann Eingaben von bis zu 8.192 Token verarbeiten. Es wurde auch mit Programmiercode trainiert und erreichte als erstes reines Encoder-Modell einen Score von über 80 auf dem StackOverflow QA-Datensatz.
  • Als ressourceneffizientes Open-Source-Modell bietet ModernBERT vielfältige Einsatzmöglichkeiten wie RAG, Code- und Contentsuche und läuft dabei auch auf Consumer-Hardware.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!