EleutherAI: Von Discord-Codern zu einer offenen KI-Wissenschaftsorganisation

EleutherAI gehört zu den Open-Source-Pionieren der generativen KI-Entwicklung, insbesondere im Bereich der Sprachmodelle. Aus den Hobby-Hackern auf einem Discord-Server werden nun Festangestellte einer gemeinnützigen Institution.

Das Forschungskollektiv EleutherAI professionalisiert sich. In den vergangenen zweieinhalb Jahren hat es sich nach eigenen Angaben von einer "Gruppe von Hackern auf Discord" zu einer "florierenden Community für offene Wissenschaft" entwickelt. Jetzt formiert sich EleutherAI zu einem gemeinnützigen Forschungsinstitut, wie sie in ihrem Blog mitteilen.

Mitglieder von EleutherAI haben nach eigenen Angaben in den vergangenen 18 Monaten 28 Paper verfasst, Dutzende Modelle trainiert und zehn Codebases veröffentlicht, darunter:

das Open-Source-LLM GPT-NeoX-20B
das Bildmodell VQGAN-CLIP
den 825 GB großen Text-Trainingsdatensatz "The Pile"

Eine vollständige Liste der wissenschaftlichen Arbeiten samt Links zu den Papern und Auflistung aller Beteiligten findet sich hier. EleutherAI war auch an der Entwicklung von Stable Diffusion beteiligt.

Führende Positionen übernehmen dabei Stella Rose Biderman als Executive Director und Head of Research, Curtis Huebner als Head of Alignment und Shiv Purohit als Head of Engineering.

Zuvor war der Organisator Connor Leahy (hier unser Podcast mit ihm) verantwortlich, der sich wie einige andere ehemalige Mitglieder künftig eigenen Projekten zum Thema Alignment widmen wird. 20 Wissenschaftler:innen können nun jedoch Vollzeit für EleutherAI arbeiten.

KI-Durchbrüche passieren nicht im Nebenjob

Geldgeber sind das KI-Unternehmen Stability AI, das Code-Depot Hugging Face, die GPU-Cloud-Betreiber CoreWeave und Lambda, Nat Friedman (zuletzt CEO von GitHub) und die Bildbearbeitungssoftware Canva.

Es ist sehr deutlich geworden, dass das größte Hindernis für das, was wir erreichen könnten, die Tatsache ist, dass eine 40-Stunden-Woche und die Beschäftigung mit innovativer KI-Forschung nebenbei für die meisten Beschäftigten nicht tragbar ist.

EleutherAI

Seit der Gründung des Kollektivs habe sich die Welt stark verändert, so EleutherAI. Das weltweit größte Open-Source-Sprachmodell im Stil von GPT-3 (wahrscheinlich eine kleine Variante von GPT-2) habe damals 1,5 Milliarden Parameter gehabt (heutige Modelle haben Hunderte von Milliarden Parametern), und GPT-3 selbst sei nur für ausgewählte Forscherinnen und Forscher zugänglich gewesen.

Überdies hätten die meisten NLP-Forscher nur ein sehr begrenztes Verständnis von der Technik gehabt, die erforderlich ist, um solche Modelle zu trainieren, sowie von ihren Fähigkeiten und Grenzen.

Empfehlung

KI in der Praxis

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

"Wir begannen als eine bunt zusammengewürfelte Gruppe, von der niemand je gehört hatte, und innerhalb eines Jahres hatten wir das weltweit größte OSS-Modell im GPT-3-Stil veröffentlicht."

Neuer Schwerpunkt bei Alignment und Ethik

Statt neue Modelle zu entwickeln, wollen sich die Forschenden nun auf andere Bereiche der KI-Entwicklung konzentrieren, für die sie ursprünglich ihre eigenen Modelle trainiert hätten:

Da sich der Zugang zu LLMs verbessert hat, hat sich unser Forschungsschwerpunkt in Richtung Interpretierbarkeit, Alignment, Ethik und Evaluierung von LLMs verlagert. Wir freuen uns darauf, weiter zu wachsen und uns an die Bedürfnisse der Forschenden und der Öffentlichkeit anzupassen.

EleutherAI

Neben kommerziellen Unternehmen wie Google, Microsoft und OpenAI, die ihre Arbeiten nur zum Teil veröffentlichen, stellen solche Non-Profit-Organisationen eine Gegenbewegung in der KI-Landschaft dar. Auch LAION oder OpenBioML verfolgen ähnliche Bestrebungen für eine offene KI-Wissenschaft.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

EleutherAI: Von Discord-Codern zu einer offenen KI-Wissenschaftsorganisation

KI-Durchbrüche passieren nicht im Nebenjob

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

Neuer Schwerpunkt bei Alignment und Ethik

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

GPT-3-Alternative: EleutherAI veröffentlicht Open Source KI-Modell

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

EleutherAI: Von Discord-Codern zu einer offenen KI-Wissenschaftsorganisation

KI-Durchbrüche passieren nicht im Nebenjob

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

Neuer Schwerpunkt bei Alignment und Ethik

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

GPT-3-Alternative: EleutherAI veröffentlicht Open Source KI-Modell