Generative KI zu trainieren und bereitzustellen ist teuer, insbesondere wenn man sie wie Microsoft für Millionen von Kunden skalieren will.
Bereits im vergangenen Herbst gab es Berichte, dass Microsoft deshalb die Forschung an kleineren, effizienteren KI-Modellen intensivieren wolle.
Laut The Information verstärkt Microsoft diesen Weg nun weiter. Ein neues GenAI-Team soll kleinere und günstigere LLMs für Konversationen entwickeln. Die Redaktion beruft sich dabei auf zwei Personen, die direkt mit der Materie vertraut sind.
Diese sogenannten "Small Language Models" (SLMs) sollen die Qualität großer Sprachmodelle wie OpenAIs GPT-4 imitieren können, dabei aber deutlich weniger Rechenleistung benötigen. SLMs könnten speziell einfache Anfragen an Chatbots wie Bing und Windows Copilot verarbeiten, um Rechenkosten zu sparen.
Microsoft hat mehrere führende KI-Entwickler aus seiner Forschungsgruppe in das neue GenAI-Team überführt, darunter Sebastien Bubeck, der auch an Microsofts Vorzeige-SLM Phi-2 mitgearbeitet hat. Microsoft hat Phi-2 Anfang des Jahres als Open Source veröffentlicht, es soll Googles kommerzielles Nano-Modell übertreffen.
Das GenAI-Team wird von Corporate Vice President Misha Bilenko geleitet und berichtet an CTO Kevin Scott. Microsoft beschäftigt weiterhin ein Turing-Team, das große Sprachmodelle entwickelt. Turing-Modelle werden in Copilot-Produkten teilweise in Kombination mit OpenAI-Modellen eingesetzt. Auch hier sollen die Microsoft-Modelle die einfacheren Aufgaben übernehmen und Kosten sparen.
Skalierung ist alles in der KI, aber sie ist teuer
Skalierung ist in der KI das beherrschende Thema, in der Modellentwicklung ebenso wie in der Anwendung. Modelle müssen immer größer und leistungsfähiger werden.
Gleichzeitig soll die Technologie möglichst schnell an viele Menschen verteilt werden, um im Wettlauf um Marktanteile Lock-in-Effekte zu erzielen.
Ohne Effizienzsteigerungen dreht sich die Preisspirale in diesem Szenario immer schneller nach oben.
Laut einer anonymen Quelle des Wall Street Journals hat Microsoft in den ersten Monaten des Jahres mehr als 20 US-Dollar pro Nutzer und Monat bei der generativen Code-KI Github Copilot verloren. Einige Nutzer sollen bis zu 80 Dollar pro Monat gekostet haben. Microsoft nimmt 10 Dollar pro Monat.
Bereits im Herbst 2023 soll Forschungschef Peter Lee deshalb "viele" der 1500 Forscher des Unternehmens damit beauftragt haben, kleinere und kostengünstigere KI-Systeme für Konversationen zu entwickeln.
KI-Anbieter suchen zudem nach Möglichkeiten, ihre Abhängigkeit von teuren KI-Chips wie denen von Nvidia zu verringern, indem sie ihre eigenen Chips entwickeln, die billiger und effizienter sind. Die teuren Prozessoren von Nvidia sind ein Kostentreiber, auch weil sie schwer zu beschaffen sind.
OpenAI-CEO Sam Altman, in Sorge vor einer Chip-Knappheit, soll in Gesprächen mit TSMC zu einem eigenen Chip-Unternehmen sein. Doch bis sich diese Bemühungen positiv auf die Kosten auswirken, dürften Jahre vergehen.
Microsofts Lee soll sein Team angewiesen haben, einen Großteil der 2.000 Nvidia-Grafikkarten, die seiner Forschungseinheit zur Verfügung stehen, für die Entwicklung effizienterer KI-Modelle zu verwenden.
In der Zwischenzeit darf der Fokus auf Kosteneffizienz jedoch nicht zu Lasten der Qualität gehen, da dadurch der Mehrwert für die Nutzer verringert und die Adaption von KI verlangsamt werden könnte. Die leistungsfähigsten Modelle, konkret GPT-4, sind für viele Textaufgaben gerade gut genug.
Seit dem Start von GPT-4 im März beschweren sich ChatGPT-Nutzende immer wieder, dass die Performance des Modells nachgelassen habe, was mit Effizienzmaßnahmen seitens OpenAI zusammenhängen könnte. Wissenschaftlich lässt sich das jedoch nur anekdotisch belegen.
Auch OpenAI dürfte mit neuen Modellen wie GPT-4 Turbo in erster Linie auf Effizienzgewinne abzielen. Effizienz soll bei OpenAI auch Entwicklungsschwerpunkt der neuen Modell-Generation sein, weshalb aktuelle prototypische Modelle nach Wüsten benannt sind.