Inhalt
summary Zusammenfassung

Der Softwareentwickler Ishan Anand hat das komplette 124 Millionen Parameter umfassende GPT-2 in ein Excel-Spreadsheet gepackt. Ziel ist es, auch Nicht-Entwickler:innen einen Einblick zu geben, wie moderne LLMs basierend auf der weit verbreiteten Transformer-Architektur im Detail funktionieren.

Das Excel-File mit dem GPT-2 Sprachmodell ist rund 1,2 GB groß und erfordert die neueste Excel-Version auf Windows. Vor Gebrauch unter macOS warnt Anand, da die Dateigröße das Programm zum Einfrieren bringe. Das Sprachmodell arbeite komplett lokal ausschließlich mit Excel-eigenen Funktionen, ohne Zugriff auf Cloud-Dienste oder Python-Skripte.

Ein Token pro Minute

Ein Ersatz für einen Chatbot wie ChatGPT ist die Excel-Datei selbstverständlich nicht. Die Bedienung ist nicht sonderlich komfortabel: Nutzer:innen können Wörter in eine bestimmte Zelle eingeben und sehen nach rund einer Minute in einer anderen, welches das nächste wahrscheinlichste Wort ist. Anhand verschiedener Tabellen lässt sich dann aber nachvollziehen, was bei der Verarbeitung im Hintergrund passiert.

In einem Vortrag bei den Seattle AI Tinkerers demonstrierte Anand die Funktionsweise. Er gab den Satzanfang "Mike is quick, he moves" ein. Das Modell vervollständigte den Satz korrekt mit "quickly".

Anzeige
Anzeige

Anand erläuterte, dass es ihm darum geht, die Konzepte der zugrunde liegenden Transformer-Architektur anschaulich und interaktiv erfahrbar zu machen. Tatsächlich sei ein Sprachmodell grundsätzlich gut für eine Excel-Datei geeignet, da es hauptsächlich aus mathematischen Operationen bestehe, so Anand gegenüber Ars Technica. Die Tokenisierung, also die Umwandlung von Wörtern in Zahlen, sei jedoch eine besondere Herausforderung gewesen.

Anand möchte damit ein niedrigschwelliges Verständnis ermöglichen, etwa, warum das der Transformer-Architektur zugrundeliegende Paper "Attention is all you need" heißt, dem sein Projekt namentlich mit "Spreadsheets is all you need" Tribut zollt. Dafür hat er auf seiner Website bereits Lernvideos veröffentlicht, weitere sollen folgen.

Doch auch für Entwickler:innen sieht Anand Vorteile. So lässt sich z.B. anhand der Tabellenansicht leichter nachvollziehen, warum Techniken wie "Chain of Thought"-Prompting die Leistung verbessern: Weil sie dem Modell mehr Raum und mehr "Durchgänge" durch die Attention-Schichten geben, um Zusammenhänge zu erkennen.

ChatGPT half bei Umsetzung

Ursprünglich implementierte er das Projekt in Google Sheets, wechselte dann aber mangels Speicherplatz zu Excel. Die technischen Limitierungen sind Anand bewusst: Mehr als 10 Token Kontext sind derzeit nicht möglich, ohne die internen Gewichtsmatrizen aufwändig umzustrukturieren. An dem Projekt arbeite Anand bereits seit Juni 2023. ChatGPT sei dabei besonders hilfreich gewesen.

GPT-2 galt bei seiner Veröffentlichung 2019 als Meilenstein in der Entwicklung großer Sprachmodelle. Aus Sorge vor Missbrauch zögerte OpenAI zunächst, den vollen Quellcode und die trainierten Parameter zu veröffentlichen. Erst später im Jahr 2019 wurde GPT-2 dann doch in vollem Umfang zugänglich gemacht. Die Excel-Variante nutzt das "kleine" GPT-2-Small mit 124 Millionen Parametern statt der vollständigen Ausgabe mit 1,5 Milliarden Parametern. Heutige Modelle auf Niveau von GPT-4 umfassen in der Regel mehrere 100 Milliarden Parameter.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Softwareentwickler Ishan Anand hat eine kleine Version von OpenAIs GPT-2 in ein Excel-Spreadsheet integriert, um Nicht-Entwicklern einen Einblick in die Funktionsweise von modernen LLMs und der Transformer-Architektur zu ermöglichen.
  • Das 1,2 GB große Excel-File arbeitet komplett lokal und ohne Zugriff auf Cloud-Dienste oder Python-Skripte, jedoch ist die Bedienung nicht so komfortabel wie bei einem Chatbot.
  • Anand möchte mit diesem Projekt ein niedrigschwelliges Verständnis für Sprachmodelle und ihre zugrunde liegenden Konzepte fördern und hat bereits Lernvideos auf seiner Website veröffentlicht, mit weiteren in Planung.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!