Inhalt
summary Zusammenfassung

Das KI-Startup Cosine hat mit Genie ein neues Modell zur Unterstützung von Softwareentwicklern vorgestellt. In Benchmarks übertrifft es die Konkurrenz deutlich. Der Schlüssel zum Erfolg soll die Nachahmung menschlichen Denkens sein.

Anzeige

Cosine, ein KI-Startup aus San Francisco, hat mit Genie ein neues KI-Modell vorgestellt, das - wie viele Konkurrenten auch - Software-Entwickler:innen bei ihrer Arbeit unterstützen soll.

In Zusammenarbeit mit OpenAI konnten sie jedoch eine GPT-4o-Variante mit hochwertigem Material trainieren, die zumindest in Benchmarks überzeugende Ergebnisse zeigt. Schlüssel zum Erfolg soll es gewesen sein, "menschliches Denken" zu kodieren. Das soll nicht nur Vorteile in der Softwareentwicklung bringen.

Großer Abstand in SWE-Bench

Laut Cosine-Mitbegründer und CEO Alistair Pullen erreichte Genie eine Punktzahl von 30 Prozent im SWE-Bench-Test. Das ist die höchste Punktzahl, die je von einem KI-Modell in diesem Bereich erzielt wurde.

Anzeige
Anzeige

Genie übertrifft daran gemessen die Leistung anderer auf Coding spezialisierter Sprachmodelle wie denen von Amazon (19 Prozent) oder Devin von Cognition (13,8 Prozent auf einem Teil von SWE-Bench). Letzteres weckte bei seiner Vorstellung im März mit ähnlichen Behauptungen wie solchen von Cosine große Erwartungen, ist aber noch immer nicht frei zugänglich.

Bild: Cosine

Die Architektur von Genie ist darauf ausgelegt, die kognitiven Prozesse menschlicher Entwickler:innen nachzuahmen, sodass es sowohl selbstständig als auch in Zusammenarbeit Fehler beheben, neue Softwarefunktionen entwickeln, Code umstrukturieren und verschiedene programmierbezogene Aufgaben ausführen kann.

Die KI wurde mit einem proprietären Verfahren entwickelt, bei dem eine nicht öffentliche Variante des neusten OpenAI-Modells GPT-4o mit Milliarden von Token an hochwertigen Daten trainiert und feinabgestimmt wurde, die Cosine fast ein Jahr lang mithilfe von erfahrenen Entwickler:innen kuratiert hatte. Der Mix besteht zu jeweils 21 Prozent aus JavaScript und Python, zu jeweils 14 Prozent aus TypeScript und TSX sowie zu jeweils drei Prozent aus weiteren Sprachen von Java über C++ bis Ruby.

Ein wesentlicher Faktor für Genies Leistungssteigerung sei das selbstverbessernde Training gewesen. Zunächst lernte das Modell hauptsächlich anhand von perfektem, funktionierendem Code, konnte dadurch aber auch schlecht mit eigenen Fehlern umgehen.

Hier schafften synthetische Daten Abhilfe: War Genies erster Lösungsvorschlag fehlerhaft, zeigte man dem Modell anhand des korrekten Ergebnisses, wie es sich verbessern kann. Mit jeder Wiederholung dieses Prozesses wurden Genies Lösungen besser und erforderten immer weniger Korrekturen.

Empfehlung

Technologie holt die Vision ein

Pullen sah schon Anfang 2022 das Potenzial von großen Sprachmodellen, menschliche Softwareentwickler:innen zu unterstützen. Damals jedoch habe die Technik noch nicht ausgereicht, um die Vision von Genie in die Realität umzusetzen.

Vor allem das Kontextfenster, zu der Zeit in vielen Fällen bei nur 4.000 Tokens, stellte sich als Flaschenhals heraus. Mittlerweile können Modelle wie Gemini 1.5 Pro bis zu zwei Millionen Tokens in einem Prompt verarbeiten. Mit wie vielen Tokens Genie umgehen kann, verrät Cosine nicht.

Bild: Cosine

Cosine sieht sich vor allem gegenüber Codinghilfen im Vorteil, die lediglich generelle Modelle wie GPT-4 in einem eigenen Produkt verpacken. "Jeder, der an diesem Problem arbeitet, stößt an dieselbe Grenze der Modellintelligenz, weshalb wir uns dafür entschieden haben, eher zu trainieren als zu prompten", erklärt Pullen.

Video: Alistair Pullen/X

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Software ist nur der Anfang

In Zukunft plant Cosine, sein Portfolio auf kleinere, spezialisierte und größere, allgemeinere Modelle zu erweitern, seine Arbeit in Open-Source-Communities auszudehnen und die Fähigkeiten von Genie basierend auf Feedback seiner Kund:innen regelmäßig zu erweitern. Künftig sei bei der Größe des Datensets auch ein vollständiges Modelltraining nicht ausgeschlossen.

Nicht nur Programmierer:innen sollen von dem Konzept profitieren: "Wir glauben fest daran, dass wir in der Lage sind, das menschliche Denken für jeden Beruf und jede Branche zu kodifizieren. Software ist nur der intuitivste Ausgangspunkt, und wir können es kaum erwarten, euch zu zeigen, woran wir sonst noch arbeiten."

Das Unternehmen plant, Genie in zwei Preisstufen anzubieten: eine Option für rund 20 US-Dollar mit einigen Funktions- und Nutzungseinschränkungen und ein Angebot auf Unternehmensebene mit erweiterten Funktionen und praktisch unbegrenzter Nutzung. Bisher können sich Interessenten nur auf eine Warteliste setzen lassen.

Die Ausgründung des bekannten Inkubators Y Combinator hat kürzlich 2,5 Millionen US-Dollar an Seed-Finanzierung von verschiedenen Risikokapitalfirmen erhalten, um die Entwicklung von Genie und zukünftige Pläne zu unterstützen.

Cosine scheint logische Erkenntnisse aus der jüngsten KI-Entwicklung sinnvoll kombiniert zu haben. Training kann zu besseren Ergebnissen führen als reines Prompt Engineering, die Nachahmung menschlicher Arbeit ebenfalls und die Qualität der Datenbasis spielt ohnehin eine übergeordnete Rolle. Dass aber die Kombination dieser Bausteine zu einem so signifikanten Benchmark-Vorsprung führt, ist durchaus überraschend.

Die potenziellen Auswirkungen von KI-Modellen wie Genie auf die Softwareentwicklungsbranche sind erheblich, da sie die Produktivität steigern und es den Teams ermöglichen könnten, sich auf strategischere Initiativen zu konzentrieren. Bislang gibt es jedoch nur die vom Unternehmen selbst veröffentlichten Benchmarks, um sich ein Bild von der angeblichen Leistung zu machen.

Anzeige
Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das KI-Startup Cosine hat mit Genie ein neues Modell vorgestellt, das in Zusammenarbeit mit OpenAI trainiert wurde und im SWE-Bench-Test eine Rekordpunktzahl von 30 Prozent erreichte - deutlich mehr als Konkurrenten wie Amazon oder Devin von Cognition.
  • Genie wurde mit einem proprietären Verfahren trainiert, bei dem eine nicht öffentliche GPT-4o-Variante mit Milliarden von Token hochwertiger, von erfahrenen Entwickler:innen kuratierter Daten aus verschiedenen Programmiersprachen feinabgestimmt wurde. Ein selbstverbesserndes Training mit synthetischen Daten half dem Modell, mit eigenen Fehlern umzugehen.
  • Cosine plant, sein Portfolio auf spezialisierte und allgemeinere Modelle zu erweitern sowie die Fähigkeiten von Genie basierend auf Kundenfeedback auszubauen. Das Unternehmen glaubt, menschliches Denken für jeden Beruf und jede Branche kodifizieren zu können, und will Genie sowohl für Einzelpersonen als auch Unternehmen anbieten.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!