Inhalt
summary Zusammenfassung

InternLM ist ein großes Sprachmodell mit 104 Milliarden Parametern, das vom staatlichen chinesischen KI-Labor Shanghai AI Lab in Zusammenarbeit mit dem Überwachungsunternehmen SenseTime vorgestellt wird.

An der Entwicklung sind auch die Chinese University of Hongkong, die Fudan University und die Shanghai Jiaotong University beteiligt. Entsprechend stark ist das Modell vorwiegend in chinesischer Sprache. Hier kann es OpenAIs ChatGPT oder Anthropics Claude deutlich übertreffen.

Im C-Eval Leaderboard zur Bewertung der Fähigkeiten großer Sprachmodelle in chinesischer Sprache liegt es jedoch hinter GPT-4. InternLM wurde mit 1,6 Billionen Token trainiert und dann wie GPT-4 mittels RLHF und ausgewählten Beispielen auf menschliche Bedürfnisse verfeinert. Als Basis dient eine GPT-ähnliche Transformer-Architektur.

Bild: Screenshot cevalbenchmark.com

Für das Training wurden hauptsächlich Daten aus "Massive Web Text" verwendet und mit Enzyklopädien, Büchern, wissenschaftlichen Papieren und Code angereichert. Die Forscherinnen und Forscher entwickelten auch das Trainingssystem "Uniscale-LLM", das dank einer Reihe paralleler Trainingstechniken in der Lage sein soll, große Sprachmodelle mit mehr als 200 Milliarden Parametern auf 2048 Grafikprozessoren zuverlässig zu trainieren.

Anzeige
Anzeige

InternLM in Benchmarks auf ChatGPT-Niveau

In Benchmarks mit Aufgaben, die menschlichen Tests nachempfunden sind, wie MMLU, AGIEval, C-Eval und GAOKAO-Bench, erreicht InternLM ebenfalls Leistungen auf ChatGPT-Niveau. Es bleibt jedoch hinter GPT-4 zurück, was die Forschenden auch auf das kleine Kontextfenster von nur 2000 Token zurückführen.

In anderen Bereichen wie der Wissensabfrage hängt das Modell ebenfalls hinter OpenAIs besten Modelle hinterher. Populäre Open-Source-Sprachmodelle wie Metas LLaMA mit 65 Milliarden Parametern übertrifft InternLM in den meisten getesteten Benchmarks signifikant.

Bild: Shanghai AI Lab / Sense Time

Das Sprachmodell wird vom Team nicht veröffentlicht, bisher ist nur eine technische Dokumentation verfügbar. Allerdings schreibt das Team auf Github, dass es in Zukunft "mehr mit der Community teilen" möchte, ohne jedoch Details zu nennen.

Unabhängig von der Veröffentlichung gibt InternLM einen interessanten Einblick in den aktuellen Stand der chinesischen Forschung zu großen Sprachmodellen, wenn man davon ausgeht, dass das staatliche AI Labor und SenseTime hier ihre bisher beste Arbeit vorgelegt haben. "Es ist ein langer Weg zu höherer Intelligenz", schreibt das Forschungsteam.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • InternLM ist ein Sprachmodell mit 104 Milliarden Parametern, das vom chinesischen KI-Labor Shanghai AI Lab und SenseTime in Zusammenarbeit mit drei Universitäten entwickelt wurde.
  • Das Modell zeigt eine gute Leistung in chinesischer Sprache, liegt aber in chinesischen Benchmarks hinter GPT-4. Ansonsten arbeitet es auf dem Niveau von ChatGPT und ist besser als Open-Source-Modelle.
  • Das Team veröffentlicht nur eine technische Dokumentation, kündigt aber an, in Zukunft "mehr" mit der Community teilen zu wollen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!