Inception Mercury 2: Erstes Diffusions-basiertes Reasoning-Modell ist extrem schnell

24. Februar 2026

Mercury

Kurz & Knapp

Das KI-Start-up Inception Labs hat mit Mercury 2 ein Reasoning-Modell vorgestellt, das auf Diffusion statt auf der üblichen Transformer-Architektur basiert.
Statt Text linear Wort für Wort zu erzeugen, verfeinert das Modell mehrere Textbausteine gleichzeitig; ähnlich einem Lektor, der einen ganzen Entwurf auf einmal überarbeitet, anstatt nur ein Wort nach dem anderen zu betrachten.
Laut Inception Labs erreicht Mercury 2 eine Geschwindigkeit von 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs und ist damit mehr als fünfmal schneller als herkömmliche Modelle.

Das KI-Start-up Inception launcht das erste Diffusions-basierte Reasoning-KI-Modell.

Mercury 2 erzeugt Antworten nicht wie übliche Sprachmodelle linear Wort für Wort, sondern verfeinert mehrere Textbausteine gleichzeitig; das Startup vergleicht das mit einem Lektor, der einen ganzen Entwurf auf einmal überarbeitet, anstatt nur einzelne Wörter zu betrachten.

Laut Inception ist Mercury 2 damit mehr als fünfmal schneller als herkömmliche Modelle und erreicht 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs. Die End-to-End-Latenz liegt bei nur 1,7 Sekunden. Zum Vergleich: Gemini 3 Flash benötigt 14,4 Sekunden, Claude Haiku 4.5 mit aktiviertem Reasoning 23,4 Sekunden. Die Qualität sei vergleichbar mit führenden geschwindigkeitsoptimierten Modellen, so das Unternehmen.

Auch beim Preis will Inception die Konkurrenz unterbieten: Mercury 2 kostet 0,25 Dollar pro Million Eingabe-Tokens und 0,75 Dollar pro Million Ausgabe-Tokens. Damit ist es bei den Eingabe-Tokens halb so teuer wie Gemini 3 Flash (0,50/3,00 Dollar) und beim Output viermal günstiger. Im Vergleich zu Claude Haiku 4.5 (1,00/5,00 Dollar) ist Mercury 2 bei den Eingabe-Tokens etwa viermal und beim Output mehr als zweieinhalbmal günstiger.

Model	E2E Latency (Seconds)	GPQA Diamond	LCB	SciCode	IFBench	AIME	TAU
Mercury 2	1.7	74	67	38	71	91	53
GPT-5 Nano (Minimal)	4.5	43	47	29	33	27	26
Claude 4.5 Haiku (Non-Reasoning)	5.0	65	51	34	42	39	33
Gemini 2.5 Flash-Lite (Reasoning)	7.8	71	59	29	53	69	31
Gemini 3 Flash (Reasoning)	14.4	90	91	51	78	78	80
Gemini 2.5 Flash (Reasoning)	15.6	79	69	39	50	57	32
GPT-5 Mini (Medium)	22.8	80	69	41	71	48	71
Claude 4.5 Haiku (Reasoning)	23.4	67	62	43	54	84	55

Inception richtet sich laut eigenen Angaben an Unternehmen mit latenzempfindlichen Anwendungen wie Sprachassistenten, Coding-Tools und Suchsystemen. Das Modell bietet ein 128K-Kontextfenster, Werkzeugnutzung und JSON-Ausgabe.

Mercury 2 ist ab sofort über eine OpenAI-kompatible API verfügbar. Unternehmen können frühen Zugang beantragen, außerdem lässt sich das Modell direkt im Chat testen.

Auf der Suche nach der Transformer-Alternative

Inception hatte im vergangenen November 50 Millionen US-Dollar Kapital erhalten von Investoren wie Microsoft, Nvidia und Snowflake. Den ersten Prototyp zeigte das Start-up bereits Anfang 2025. Mit Mercury 2 liefert Inception nun ein produktionsreifes Modell mit Reasoning-Fähigkeiten nach.

Auch Google Deepmind arbeitet an Diffusions-basierten Sprachmodellen. Gemini Diffusion erzielte in Benchmarks ähnlich gute Leistungen wie das damals aktuelle Gemini 2.0 Flash-Lite-Modell. Seit der ersten Vorstellung im Mai 2025 äußerte sich Google allerdings nicht mehr zum Diffusion-Experiment.

Der Ansatz, Text ähnlich wie bei der Bilderzeugung parallel statt sequenziell zu generieren, gewinnt damit etwas an Aufmerksamkeit. Generell suchen immer mehr Start-ups nach Alternativen zur dominierenden Transformer-Architektur. Ob sich Diffusions-basierte Sprachmodelle dabei langfristig durchsetzen, ist allerdings noch offen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Inception Labs