Anzeige
Skip to content
Read full article about: Neues KI-Ranking: GPT-5.2 führt vor Claude Opus 4.5 und Gemini 3 Pro

Artificial Analysis hat Version 4.0 seines Intelligence Index veröffentlicht, der die Leistung von KI-Modellen über verschiedene Benchmarks hinweg misst. OpenAIs GPT-5.2 mit höchster Reasoning-Stufe führt das Ranking an, gefolgt von Anthropics Claude Opus 4.5 und Googles Gemini 3 Pro.

Die Bewertung deckt vier gleichgewichtete Kategorien ab: Agenten, Programmierung, wissenschaftliches Denken und Allgemeines. Im Vergleich zur Vorgängerversion sind die Ergebnisse weniger gesättigt: Spitzenmodelle erreichen maximal 50 Punkte statt zuvor 73.

Artificial Analysis Intelligence Index v4.0: Gesamtranking der KI-Modelle. GPT-5.2 (xhigh) führt mit 50 Punkten, gefolgt von Claude Opus 4.5 (49) und Gemini 3 Pro Preview (48). Die Spitzenmodelle liegen eng beieinander. | Bild: Artificial Analysis

Der neue Index ersetzt drei bisherige Tests (AIME 2025, LiveCodeBench und MMLU-Pro) durch drei neue: AA-Omniscience prüft Wissen und Halluzinationen über 40 Themen, GDPval-AA testet KI-Modelle auf wirtschaftlich wertvolle Aufgaben in 44 Berufen und CritPt bewertet Physik-Forschungsaufgaben.

Alle Tests wurden laut Artificial Analysis unabhängig und mit standardisierter Methodik durchgeführt, die auf der Webseite von Artificial Analysis einsehbar ist.

Read full article about: OpenAI will 2026 die Lücke zwischen KI-Fähigkeiten und Alltagsnutzung schließen

Dass KI-Modelle fähiger sind als die Menschen, die sie nutzen, scheint das neue Narrativ der KI-Industrie für 2026 zu sein. Nach Satya Nadella äußert sich nun auch OpenAI-Produktchefin Fidji Simo: Ziel für 2026 sei es, die Lücke zwischen KI-Fähigkeiten und deren Nutzung im Alltag zu schließen. Marktführer werde, wer Forschung in nützliche Produkte umwandelt.

ChatGPT habe mehr als 800 Millionen wöchentlich aktive Nutzer und eine Million Geschäftskunden. 2026 solle ChatGPT vom Chatbot zum "Super-Assistenten" werden, der Ziele versteht, Kontext speichert und proaktiv hilft. In einem geleakten Dokument von Mitte 2025 beschrieb OpenAI, dass ein solcher Super-Assistent mit menschlicher Aufmerksamkeit konkurriere.

Für Unternehmen will OpenAI eine Plattform für automatisierte Arbeitsabläufe schaffen. Entwickler sollen mit Codex einen "automatisierten Teamkollegen" erhalten. OpenAI benötigt starke Leistungssteigerungen bei KI-Agenten, um höhere Preise zu rechtfertigen: Angeblich denkt das Unternehmen über bis zu 20.000 US-Dollar pro Monat nach.

Anzeige
Anzeige
Read full article about: OpenAI verliert Top-KI-Forscher Jerry Tworek nach sieben Jahren

OpenAI verliert mit Jerry Tworek einen weiteren hochrangigen Forscher. Er verlässt das Unternehmen nach fast sieben Jahren, wie er in einer Nachricht an sein Team mitteilte. Tworek war maßgeblich an der Entwicklung von GPT-4, ChatGPT und den ersten KI-Modellen für das Programmieren beteiligt sowie an der Entwicklung neuer Skalierungshorizonte. Zuletzt leitete er das Team für "Reasoning Models", also KI-Systeme für komplexe logische Schlüsse. Er gehörte zum Kernteam hinter den o1- und o3-Modellen, die als Grundlage für den starken KI-Fortschritt der letzten Monate gelten.

Als Grund für seinen Abschied nennt Tworek den Wunsch, wissenschaftliche Felder zu erkunden, die bei OpenAI nur schwer zu bearbeiten seien. Das könnte ein Seitenhieb auf den starken Produkt- und Umsatzfokus von CEO Sam Altman sein, der für Unzufriedenheit im Forschungsteam sorgen soll. Wohin Tworek als Nächstes wechselt, ist nicht bekannt.

Read full article about: Falcon H1R 7B: Neues Reasoning-KI-Modell schlägt in Benchmarks größere Konkurrenz

Das Technology Innovation Institute (TII) aus Abu Dhabi hat mit Falcon H1R 7B ein kleines Reasoning-Sprachmodell mit 7 Milliarden Parametern veröffentlicht. Es erreicht laut TII über verschiedene Benchmarks hinweg die Leistung von Modellen, die zwei- bis siebenmal größer sind. Das Modell nutzt eine hybride Transformer-Mamba-Architektur und erzielt dadurch höhere Verarbeitungsgeschwindigkeiten als vergleichbare Modelle. Wie immer gilt: Benchmarks korrelieren gerade bei kleinen KI-Modellen nur bedingt mit der realen Leistungsfähigkeit.

via Technology Innovation Institute (TII)

Das Modell steht als vollständiger Checkpoint und quantisierte Version auf Hugging Face zur Verfügung. Eine Demo ist ebenfalls verfügbar. Die Veröffentlichung erfolgt unter der Falcon-LLM-Lizenz, die kostenlose Nutzung, Vervielfältigung, Änderung und Verbreitung des Modells erlaubt. Die Nutzung muss allerdings der Acceptable Use Policy entsprechen, die jederzeit aktualisiert werden kann.

Anzeige
Read full article about: Jede zwanzigste ChatGPT-Nachricht weltweit befasst sich mit Gesundheitsfragen

Mehr als fünf Prozent aller weltweit über ChatGPT verschickten Nachrichten drehen sich um das Thema Gesundheit. Laut einem Bericht, den OpenAI exklusiv mit Axios teilte, nutzen täglich alleine 40 Millionen US-Bürger den Chatbot für medizinische Fragen. Die Nutzer lassen sich Arztrechnungen erklären, vergleichen Versicherungen oder prüfen Symptome, oft weil gerade kein Arzt verfügbar ist. Das Unternehmen hatte diesen Trend bereits früh erkannt und vermarktete GPT-5 als besonders leistungsfähiges Modell für solche Anwendungsfälle.

OpenAI verzeichnete laut dem Bericht zuletzt wöchentlich fast zwei Millionen Fragen alleine zu Versicherungsthemen, da die Regierung unter US-Präsident Donald Trump zum neuen Jahr lange geltende Subventionen für Krankenversicherungen auslaufen ließ.

Gerade im medizinischen Bereich birgt die Nutzung allerdings viele Gefahren, da die Modelle noch immer halluzinieren und viele Nutzer:innen zusätzlich die schwächeren Modellvarianten ohne Reasoning nutzen dürften, speziell, wenn sie sich direkt mit dem Modell unterhalten. Diese Risiken ignoriert OpenAI freilich im neu veröffentlichten Werbefilm.