KI-Radar #3: Wie der Token zur betriebswirtschaftlichen Größe wird
Monatsabo, Chat öffnen, Frage stellen: So funktionierte generative KI bisher. Agentische Workflows sprengen dieses Modell. Sie verbrauchen ein Vielfaches an Token, laufen autonom über Stunden und machen Flatrates für Anbieter untragbar. Gleichzeitig differenzieren sich Tokenpreise nach Geschwindigkeit, Spezialisierung und wirtschaftlichem Wert. Doch während die Kosten immer präziser messbar werden, bleibt der Nutzen oft vage. Die Folge: Tokenverbrauch wird zur Ersatzkennzahl für Wertschöpfung, obwohl er nur Aktivität misst, nicht Ergebnis.
Sechsmal im Jahr nimmt die THE-DECODER-Redaktion im "KI-Radar" ein grundlegendes KI-Thema besonders gründlich unter die Lupe. Das geschieht als Newsletter und exklusiv hier auf der Seite für THE-DECODER-Abonnenten. Ausgabe #3 behandelt die entstehende Tokenökonomie generativer KI. Ausgabe #1 behandelte den aktuellen Stand bei agentischer KI. Ausgabe #2 untersuchte die messbaren Auswirkungen von KI auf Produktivität.
Lange fühlte sich generative KI an wie klassische Software. Monatsabo abschließen, Chat öffnen, Frage stellen, Antwort bekommen. Power-User sahen über APIs zwar schon immer, was einzelne Anfragen tatsächlich kosteten. Gerade deshalb griffen viele von ihnen zu Flatrates, die bei intensiver Nutzung deutlich günstiger waren. Für die meisten Nutzer blieben die Kosten jedoch unsichtbar.
Der breite Einsatz von Flatrates war möglich, weil menschliche Nutzung natürliche Grenzen hat. Menschen tippen langsam, lesen Antworten, machen Pausen, gehen in Meetings, machen Feierabend. Ein Agent kennt diese Grenzen nicht. Er liest Dateien, ruft Tools auf, schreibt Code, prüft Zwischenergebnisse, korrigiert Fehler und setzt erneut an. Auf Wunsch des Nutzers so lange, bis die Aufgabe im Idealfall erledigt ist.
Hinzu kommt der Druck auf Anbieterseite. Die großen KI-Häuser haben Hunderte Milliarden Dollar in Rechenzentren, Chips und Modelltraining gesteckt. Diese Investitionen müssen erwirtschaftet werden, in einer Größenordnung, die Pauschaltarife strukturell nicht hergeben.
Diese Ausgabe des KI-Radars ordnet die entstehende Tokenökonomie entlang dieser Entwicklungen ein. Wie verschiebt sich die Abrechnung vom Abo zum Verbrauch? Wie wird der Token selbst zum segmentierten Produkt? Und warum ist Tokenverbrauch trotzdem kein geeignetes Maß für KI-Wertschöpfung?
Warum Anbieter von der Flatrate abrücken
Die sichtbarste Veränderung ist der Umbau der Preismodelle als Reaktion auf zunehmende Nutzung. GitHub Copilot stellt ab dem 1. Juni 2026 schrittweise auf ein nutzungsbasiertes Modell mit "GitHub AI Credits" um. Die Credits orientieren sich am tatsächlichen Tokenverbrauch und an den API-Preisen der jeweiligen Modelle. Sie greifen überall dort, wo Copilot mehr tut, als simple Codevorschläge zu machen, also primär in Chat, CLI und den Agentenfunktionen. Klassische Vervollständigungen bleiben in bezahlten Plänen frei von dieser Regelung.
GitHubs Begründung bringt das Problem auf den Punkt: Eine kurze Chatfrage wurde bislang ähnlich behandelt wie eine autonome Coding-Session über mehrere Stunden. Das lässt sich auf Dauer nicht aufrechterhalten.
Auch Anthropic trennt inzwischen stärker zwischen normaler Nutzung und agentischen Workflows. Claude Code, Claude Cowork und Managed Agents machen aus Claude einen digitalen Arbeiter. Engpässe bei Claude Code erklärte Anthropic mit Spitzenlasten und Kontexten von bis zu einer Million Token. Die älteren Pläne passten zu intensiver Chatnutzung, aber nicht zu dauerlaufenden Agenten-Workflows.
Wie stark sich der Verbrauch zwischen Anwendungsfeldern unterscheidet, zeigt Anthropics eigene Auswertung der öffentlichen API: Fast die Hälfte aller agentischen Tool-Calls entfällt auf Softwareentwicklung, jenen Bereich, der zuerst von agentischen Modellen und Gerüsten wie Claude Code profitierte.
Customer Service, Sales, Finance oder E-Commerce liegen jeweils bei wenigen Prozent. Dort dominieren noch einfache Chatanfragen. Diese Verteilung dürfte sich verbreitern, sobald agentische Workflows in Office-, Recherche-, Finance- und Legal-Tools ausgereifter werden. Mit ihr wandert die Tokenrechnung in Bereiche, in denen sie heute bisher nicht spürbar ist.
Warum der Tokenpreis allein in die Irre führt
Damit verschiebt sich die Kostenfrage. Solange KI vor allem als Chat genutzt wurde, konnte der Preis pro Token wie eine technische Randgröße wirken. In agentischen Workflows wird er zur Managementgröße.
Der naheliegendste Fehler in der neuen Tokenökonomie ist der schlichte Preisvergleich. GPT-5.5 kostet pro Million Output-Token 30 Dollar, DeepSeek V4 Pro 87 Cent. Über die tatsächlichen Kosten im Einsatz sagt das wenig. Neben dem Preis pro Token zählt der Verbrauch pro Aufgabe. Wie bei einem Auto: Der Spritpreis allein verrät nichts darüber, was die Fahrt von Hamburg nach München kostet. Man muss auch die Strecke und den Verbrauch kennen.
So kann ein günstiges Modell teuer werden, wenn es mehr Anläufe braucht, häufiger scheitert oder mehr Nacharbeit erfordert. Ein teureres Modell rechnet sich dagegen, wenn es mit weniger Schleifen ans Ziel kommt und seltener menschliche Kontrolle verlangt.
Benchmarks und andere Auswertungen zeigen das deutlich: GPT-5.5 etwa sollte durch kürzere Antworten einen Teil des höheren Listenpreises ausgleichen. Eine Auswertung realer Nutzung durch OpenRouter zeigte dennoch Kostensteigerungen von 49 bis 92 Prozent gegenüber dem Vorgänger, je nach Eingabelänge.
Natürlich kann auch beides steigen: der Tokenpreis und die Anzahl verbrauchter Token, so wie bei Googles Gemini 3.5 Flash. Hier stieg der Tokenpreis gegenüber dem Vorgänger Gemini 3 Flash um den Faktor drei. In der Auswertung von Artificial Analysis brauchte das Modell im Intelligence-Index-Lauf zusätzlich mehr Arbeitsschritte. Das Ergebnis: Es wurde in diesem Test teurer als das aktuelle Google-Flaggschiff Gemini 3.1 Pro.
In die andere Richtung wirkt der Preisdruck von Anbietern wie DeepSeek. Hinter den extrem niedrigen Preisen steckt eine eigene Wette: Wer pro Token nur einen Bruchteil zahlt, kann denselben Lauf vier- oder fünfmal anstoßen und bleibt trotzdem günstiger. Solange das Endergebnis stimmt, ist das attraktiv. Wo es nicht ausreicht, frisst Nacharbeit den Preisvorteil schnell wieder auf.
Wie sich der Tokenmarkt nach Leistungsklassen ausdifferenziert
Je stärker sich der Markt ausdifferenziert, desto weniger sinnvoll ist es, von „dem" Tokenpreis zu sprechen. Der Preis pro Million Token bleibt wichtig, sagt aber nur innerhalb einer klaren Leistungsklasse etwas aus. Ein schneller Token in einem Coding-Agenten, ein günstiger Token in einer Massenanwendung und ein spezialisierter Token in der Sicherheitsanalyse lassen sich technisch ähnlich abrechnen, sind ökonomisch aber unterschiedliche Produkte.
Unterschiedliche Modellklassen und Abo-Stufen gab es schon länger. Neu ist, dass sich die Differenzierung auf zusätzliche Achsen ausweitet: Latenz, Verarbeitungsmodus, Kontextgröße, Agentenlaufzeit, Spezialisierung und zunehmend auch den wirtschaftlichen Wert des Outputs. Anbieter verkaufen damit nicht einfach Rechenzeit in Tokenform, sondern unterschiedliche Inferenzleistungen: Je knapper, schneller oder wertvoller diese Leistung ist, desto stärker kann sich der Preis von den reinen Compute-Kosten lösen.
Nvidia-Chef Jensen Huang hat diese Entwicklung in zwei aktuellen Interviews deutlich ausgesprochen. Bei Dwarkesh Patel erklärt er, warum Nvidia kürzlich die Inferenz-Architektur des Startups Groq lizenziert und in das eigene CUDA-Ökosystem integriert hat. Der Grund liege in der Ökonomie: Der Wert eines Tokens sei inzwischen so gestiegen, dass sich unterschiedliche Preise für unterschiedliche Token-Arten lohnen.
Back in the old days, just a couple of years ago, Token were either free or barely expensive. But now you can have different customers, and those customers want different answers. Because the customers make so much money – for example, our software engineers – if I can give them much more responsive Token so that they're even more productive than they are today, I would pay for it.
Jensen Huang, Nvidia
Huang beschreibt damit die technische Seite dieser Segmentierung. Premium-Inferenz mit niedrigerer Latenz rechnet sich, weil Token an der Spitze des Marktes deutlich höhere Preise tragen können. Nvidia spricht von einer Erweiterung der Pareto-Front: mehrere optimale Punkte aus Preis und Geschwindigkeit, je nach Kundensegment.
Noch deutlicher wird diese Logik dort, wo der Wert aus dem möglichen Ergebnis entsteht. Laut The Information testete Palo Alto Networks Anthropics Sicherheitsmodell Mythos, um eigenen Quellcode nach Schwachstellen zu durchsuchen. Das Modell fand demnach in rund drei Wochen mehr als zwei Dutzend kritische Schwachstellen, etwa fünfmal so viele wie bestehende Verfahren.
Zugleich verbrauchte der Test sehr schnell Tokenkosten in Millionenhöhe. Solche Kosten können trotzdem rational sein, wenn die gefundenen Sicherheitslücken bei Ausnutzung ein Vielfaches kosten würden. Der Token in einem solchen Lauf ist ökonomisch ein anderes Produkt als der Token in einer Chatantwort, auch wenn beide technisch über Tokenverbrauch abgerechnet werden.
Eine weitere Form dieser Segmentierung entsteht dort, wo Token Zugang zu proprietären Daten und spezialisierten Modellen eröffnen. Das britische Biotech-Unternehmen Basecamp Research will mit seinem "Trillion Gene Atlas"-Projekt den eigenen biologischen KI-Datensatz von 10 Milliarden auf eine Billion Gene und andere Daten skalieren, um Modelle für die Wirkstoffentwicklung zu trainieren. Der Datensatz ist proprietär.
Liefern solche Modelle belastbare Zwischenprodukte wie Wirkstoffkandidaten oder biologisch tragfähige Hypothesen, lässt sich ein Tokenlauf nicht mehr mit einer Chat- oder Coding-Antwort vergleichen. Entscheidend ist dann nicht mehr, was der Tokenlauf technisch kostet, sondern welchen exklusiven Zugang er eröffnet: zu proprietären Daten, spezialisierten Modellen und möglichen Zwischenprodukten mit hohem wirtschaftlichem Wert.
Im Gespräch mit Lex Fridman beschreibt Huang diese Entwicklung so: Computer seien früher Lagerhäuser für Daten gewesen, heute seien sie Fabriken für Token. Und wie jede Fabrik produziere auch diese mehrere Produkte gleichzeitig.
The Token are starting to segment, like iPhones. You have free Token, you have premium Token, and you have several Token in the middle. […] The idea that somebody's willing to pay $1.000 per million Token is just around the corner. It's not if, it's only when.
Jensen Huang
Nach Huangs Lesart bildet sich also ein Markt mit klar abgestuften Segmenten heraus: Token werden zunehmend an unterschiedliche Wertversprechen gekoppelt.
Die Produktivitätslücke und die Versuchung des Tokenmaxxing
Agentische KI wird verbrauchsbasiert abgerechnet, Tokenpreise differenzieren sich nach Leistungsklassen. Die Kostenseite der KI-Nutzung wird dadurch präziser, höher und sichtbarer. Damit werden Fragen drängender: Spart KI Zeit? Macht sie Menschen produktiver? Rechnet sich der Einsatz?
Die Rechnung ist allerdings asymmetrisch. Die Kosten lassen sich immer genauer messen, der Nutzen bleibt oft vage: bessere Entscheidungen, schnellere Recherche, weniger Routinearbeit, frühere Fehlererkennung.
Diese Lücke zwischen lokalen Produktivitätsgewinnen und der schwierigen Messung von Auswirkungen auf Unternehmensbilanzen haben wir bereits im KI-Radar #2: Warum KI-Produktivität zwischen Benchmark und Bilanz verschwindet beschrieben.
Wie schwer die Zuordnung selbst innerhalb eines einzelnen Unternehmens wird, zeigt der Fall Uber. Laut Fortune soll der Konzern sein für 2026 geplantes Budget für AI-Coding-Tools bereits nach vier Monaten ausgeschöpft haben. Uber-COO Andrew Macdonald stellte infrage, ob sich die steigende Nutzung von Claude Code klar mit mehr nützlichen Consumer-Features verbinden lässt. Die Tokenkosten sind auf den Cent genau bekannt. Ob daraus Produkte werden, die Nutzerinnen und Nutzer wirklich benötigen, die sich zudem noch positiv auf die Unternehmensergebnisse auswirken, ist offen.
Eine Ebene höher, in den volkswirtschaftlichen Gesamtrechnungen, wird das Problem grundsätzlicher. SemiAnalysis beschreibt es als "Dark Output": KI könnte wirtschaftlich wertvolle Arbeit erledigen, die in klassischen Statistiken kaum auftaucht. Besonders sichtbar werde das, wenn Aufgaben, die früher als Beraterstunde, Rechtsdienstleistung oder externer Auftrag bezahlt wurden, in interne KI-Workflows wandern. Die Token- oder Cloudkosten blieben messbar, der Wert der erledigten Arbeit erscheine aber nicht mehr als eigene Transaktion im BIP.
Das Argument von SemiAnalysis: Anders als bei Schrauben oder Autos gibt es im Dienstleistungssektor keine zählbare Mengeneinheit. Statistikbehörden leiten die "Menge" erbrachter Leistungen aus Umsätzen und Listenpreisen ab. Fallen die Rechnungen einer Kanzlei oder Agentur weg, weil die gleiche Arbeit intern per KI erledigt wird, lesen die Statistiken das als Output-Rückgang, nicht als Produktivitätsgewinn.
Aus dieser doppelten Messlücke folgt eine pragmatische Notlösung im Management. Weil saubere Wirkungsmessung fehlt, wird der Tokenverbrauch selbst zur Steuerungsgröße. Mehr Token, mehr Agentenläufe, höhere Tool-Adoption werden als Indikatoren für mehr Wertschöpfung gelesen, auch wenn niemand den Zusammenhang sauber belegen kann. Für diesen Reflex kursiert inzwischen ein Begriff: Tokenmaxxing.
Tokenmaxxing ist die Annahme, dass mehr KI-Nutzung automatisch mehr Nutzen bringt. Der Reiz dieser Denkweise liegt in ihrer Einfachheit: Wenn KI grundsätzlich produktiv macht, dann ist mehr KI grundsätzlich besser. Und das einzige verlässliche Maß für „mehr KI" ist der Tokenverbrauch. Doch der misst Aktivität, nicht Ergebnis. Ein Agent, der zwei Stunden lang eine Aufgabe falsch löst, verbraucht mehr Token als einer, der sie in fünf Minuten richtig löst. In der Tokenmaxxing-Logik sähe der erste produktiver aus.
Agentische KI verschärft das Problem auf zwei Wegen. Erstens steigt der Verbrauch massiv. Zweitens fällt der unmittelbare menschliche Qualitätscheck weg. Im Chat sieht der Nutzer die Antwort sofort und urteilt in derselben Sekunde. Ein Agent läuft autonom über Minuten oder Stunden und legt am Ende ein Ergebnis vor, das erst geprüft, korrigiert oder verworfen werden muss. Bis dahin ist der Tokenverbrauch das einzige Signal über den Lauf.
Genau das macht den Tokenmaxxing-Reflex in agentischen Systemen besonders verführerisch. Wird der Verbrauch erst einmal zum Ziel, entsteht der Anreiz, Token zu verschwenden. Große Tech-Unternehmen wie Meta und Amazon mussten das bereits erleben.
Warum agentische KI klare Aufgabenrahmung braucht
Wenn Tokenverbrauch allein keine verlässliche Steuerungsgröße ist, muss die Steuerung früher ansetzen: bei der Aufgabe selbst, lange bevor der Output entsteht. Hier liegt der eigentliche Bruch zur bisherigen Praxis. Im Chat scheitert ein schlechter Prompt billig. Der Nutzer sieht die unbrauchbare Antwort, formuliert neu, fertig. Ein Agent dagegen soll längere, komplexere Aufgaben übernehmen. Ein Fehlversuch ist hier deutlich teurer. Bricht ein Lauf nach zwei Stunden ergebnislos ab, sind die Token trotzdem verbraucht.
Agentische KI benötigt deshalb mehr als gute Prompts und Context Engineering. Sie benötigt eine klare Aufgabenrahmung: Was soll gelöst werden? Welche Daten und Werkzeuge sind erlaubt? Wann prüft ein Mensch? Wann bricht der Agent ab? Was darf der Versuch kosten?
Diese Logik kennt jedes Unternehmen aus der Zusammenarbeit mit Freelancern oder Agenturen. Ein Redakteur sagt einem freien Autor nicht „Schreib mal, egal wie lange es dauert", sondern nennt Thema, Länge, Zweck, Termin und Honorar.
Ein Beispiel: „Prüfe diesen Pull-Request mit dem Standardmodell. Erkennst du sicherheitsrelevante Änderungen, eskaliere auf das teurere Review-Modell. Brich ab, wenn der Kontext 200.000 Token überschreitet."
Solche Limits zu setzen, ist anspruchsvoll, weil sich der Verbrauch einer Aufgabe vorab schwer schätzen lässt. In der Praxis müssen die Werte je nach Anwendungsfall empirisch entstehen. Erste Läufe zeigen typische Tokenmengen, daraus werden Budgets abgeleitet, Anomalien lösen Alarme aus. Qualität, Kosten und Verantwortlichkeiten müssen gemeinsam geplant werden.
Im genannten Beispiel steckt zugleich die praktische Antwort auf die Tokensegmentierung. Wer ein günstiges Standardmodell für die Routinearbeit nutzt und nur bei Bedarf auf ein teures Spezialmodell eskaliert, übersetzt die abstrakte Idee unterschiedlicher Token-Klassen in eine konkrete Steuerungsregel.
Frühe Mythos-Tester berichten laut The Information bereits von genau solchen Routing-Ansätzen. Das teure Modell übernimmt Planung, Bewertung oder kritische Analysen, günstigere Modelle leisten Teile der Ausführung. Was bei den Anbietern als Produktdifferenzierung erscheint, wird auf der Nutzerseite zu einer Routing-Architektur.
Die Tokenökonomie ist kein IT-Team
Tokenökonomie ist deshalb auch kein reines IT-Thema. Die IT misst, was technisch passiert. Sie baut Dashboards, setzt Limits und vergleicht Anbieter. Ob ein Ergebnis fachlich gut genug ist, kann sie allerdings meistens nicht beurteilen. Dafür braucht es Fachwissen.
Tokenökonomie wird daher vermutlich eine Kompetenz, die in viele Rollen hineinwächst. Entwickler steuern Coding-Agenten und wägen Kosten gegen Testtiefe ab. Juristen entscheiden, welche Vertragsprüfungen automatisiert laufen und wo menschliche Prüfung den Ausschlag gibt.
Marketingteams budgetieren Agentenlauf für Kampagnenanalysen und bewerten, ob die generierten Ergebnisse eine weitere Iteration rechtfertigen. Finanzanalysten legen fest, ab welcher Komplexität ein Bericht vom günstigeren Standardmodell auf ein leistungsstärkeres Modell eskaliert wird.
Parallel dazu entsteht eine zweite Steuerungsebene, die über einzelne Fachrollen hinausgeht. Einkauf und Finanzen verhandeln Credits, Kontingente und Anbieterbedingungen in einem Markt, der seine Preislogik gerade umbaut. FinOps-Strukturen aus dem Cloud-Geschäft lassen sich teilweise übertragen, reichen aber allein nicht aus. Denn wie die IT kann auch FinOps nicht beurteilen, ob ein teurer Lauf das richtige Ergebnis geliefert hat.
Was der Tokenverbrauch im Betrieb tatsächlich verrät
Wenn Aufgabenrahmung und Routing-Architektur stehen, bleibt eine weitere Frage offen: Woran erkennt man im laufenden Betrieb, ob ein Arbeitsablauf tatsächlich funktioniert?
Steuerbar wird die Tokenökonomie erst, wenn Verbrauch und Ergebnis zusammen gelesen werden. Der Tokenverbrauch ist dann kein Ziel, sondern ein Diagnose-Signal. Er zeigt, wo etwas nicht stimmt, sagt aber nicht, was. Vier Symptommuster lassen sich in der Praxis unterscheiden.
Hoher Verbrauch, brauchbares Ergebnis. Der unauffälligste Fall und gerade deshalb leicht zu übersehen. Die Aufgabe wird gelöst, aber teurer als nötig. Die Ursachen liegen meist im Routing: ein Frontier-Modell für eine Aufgabe, die ein kleineres erledigt hätte, ein vollgeladener Kontext, der bei jedem Schritt mitgeschleppt wird, oder fehlendes Caching. Ob der Wert den Aufwand rechtfertigt, muss geprüft werden. Wenn nicht, muss optimiert werden.
Hoher Verbrauch, schlechtes Ergebnis. Hier liegt das größte Risiko der agentischen Ära. Geld wird verbrannt, ohne dass am Ende etwas Verwertbares steht. Die Ursache liegt fast nie an einer einzelnen Stelle. Unklare Aufgabenrahmung, falsch gewählte Modellklasse und fehlende Abbruchregeln greifen meist ineinander. War die Aufgabe überhaupt agentisch lösbar? Taugte das gewählte Modell dafür? Wusste der Agent, was „fertig" bedeutet?
Niedriger Verbrauch, hohe Nacharbeit. Token sind billig, weil das Modell schnell antwortet und wenig nachdenkt. Aber jeder Output muss aufwendig von Menschen überarbeitet werden. Die Kosten verschieben sich lediglich von der Tokenrechnung in die Personalrechnung. Ein teureres Modell kann in solchen Fällen am Ende günstiger sein. Dieses Muster ist besonders trügerisch, weil die Tokenrechnung wie ein Erfolg aussieht.
Verbrauch ohne zuordenbaren Wert. Tokenkosten erscheinen in der Bilanz, aber niemand kann sagen, welcher Vorgang welchen Beitrag geleistet hat. Arbeit, die früher anders, extern oder gar nicht erledigt wurde, wandert in interne Tokenkosten und verschwindet dort aus der Wertzuordnung. Es ist derselbe Mechanismus wie beim Dark Output, nur auf Prozessebene statt auf Volkswirtschaftsebene. Lösen lässt sich das nur durch klare Zuordnung von Kosten und Nutzen zu Prozessen und Verantwortlichen.
Wohin sich die Tokenökonomie entwickeln könnte
Wo die Tokenökonomie in den kommenden Jahren steht, hängt von mehr ab als von Modellen und Preisen. Es hängt auch davon ab, wie schnell Unternehmen lernen, KI-Arbeit zu steuern: Aufgaben zu rahmen, Modelle gezielt zuzuweisen und Ergebnisse zu bewerten. Genau hier laufen die beiden Treiber zusammen: agentischer Verbrauch und Token-Segmentierung treffen auf die Steuerungsfrage. Drei Szenarien lassen sich daraus ableiten.
Baseline
Die großen Anbieter setzen das hybride Modell aus Basisabo und nutzungsbasierten Credits flächendeckend durch. Zuerst in der Softwareentwicklung, danach in weiteren Funktionen wie Recherche, Vertrieb und Legal. Unternehmen bauen schrittweise FinOps-Strukturen für KI aus, etablieren Budgets pro Workflow und experimentieren mit Modell-Routing. Premium-Segmente entstehen in eng abgegrenzten Bereichen wie Cybersecurity, Life Sciences und ausgewählten Forschungsanwendungen, ohne den breiten Markt umzukrempeln. Die Diskussion über den realen Produktivitätsbeitrag bleibt unscharf, weil sich Produktivitätsgewinne weiterhin nur teilweise in den Bilanzen niederschlagen. Tokenökonomie wird als Managementkompetenz in Fachrollen verankert, ohne eigene Disziplin zu werden.
Beschleunigung
Verbessern sich Agentenmodelle und Tool-Integration schneller als erwartet, breiten sich autonome Workflows zügig über die Softwareentwicklung hinaus aus: in Cybersecurity, Life Sciences, Finanzen und Beratung. Treiber sind höhere Erfolgsquoten pro Lauf, reife Routing-Architekturen und der Investitionsdruck der Hyperscaler, ihre Capex zu refinanzieren. Die Segmentierung des Tokenmarktes beschleunigt sich. Jensen Huangs Vorhersage eines Marktes mit Token bis zu 1.000 Dollar pro Million wird empirisch geprüft. Unternehmen, die Aufgabenrahmung, Routing und Diagnose beherrschen, ziehen messbar an weniger disziplinierten Wettbewerbern vorbei. Aus differenzierten Preisen pro Modellklasse werden schließlich ergebnisbasierte Preismodelle. „Pay per Pull Request", „Pay per Vulnerability", später vielleicht sogar „Pay per validierter Wirkstoffkandidat".
Verlangsamung
Häufen sich Fälle wie bei Uber, in denen KI-Budgets ohne klaren Nutzen explodieren, setzen CFOs härtere Limits und verzögern Rollouts. Bremsfaktoren sind unzuverlässige Agenten, hohe Nacharbeitskosten, regulatorische Auflagen und die anhaltende Schwierigkeit, Produktivitätsgewinne in der Bilanz nachzuweisen. Anbieter geraten unter Druck, Garantien für Ergebnisqualität zu geben oder Preise zu senken. Preiskämpfer wie DeepSeek gewinnen Anteile, ohne dass sich die agentische Vision flächig durchsetzt. Die Token-Segmentierung bleibt auf eng abgesteckte Pilot-Workflows beschränkt. Premium-Token existieren, finden aber keinen Massenmarkt.
Unser Standpunkt
Am wahrscheinlichsten ist das Baseline-Szenario. Die Umstellung auf verbrauchsbasierte Modelle ist bei den großen Anbietern bereits beschlossen oder im Gang. Ein breites Zurück zur reinen Flatrate wirkt unter den aktuellen Kostenstrukturen unwahrscheinlich. Zugleich zeigen Beispiele wie Uber und die Kostensteigerungen bei GPT-5.5 oder Gemini 3.5 Flash, dass Unternehmen die nötige Steuerungskompetenz erst aufbauen müssen. Das spricht gegen eine schnelle Beschleunigung.
Eine echte Bremsung ist ebenfalls unwahrscheinlich. Dafür sind der Investitionsdruck der Anbieter und die frühen Nutzenbelege in der Softwareentwicklung zu stark. Wahrscheinlicher ist ein Übergang, in dem KI-Nutzung teurer, sichtbarer und stärker gemanagt wird.
In der Agenten-Ära wird der Token zur betriebswirtschaftlichen Größe, vergleichbar mit dem Spritverbrauch einer Spedition. Wer wirtschaftlich fahren will, muss wissen, wie viele Liter pro Tour anfallen, welche Tour welchen Sprit benötigt und welche Tour sich überhaupt lohnt. Beherrschen werden diese Ökonomie die Unternehmen, die eine Frage beantworten können: Welche Arbeit kaufen wir mit welchen Token, und woran erkennen wir, dass es sich gelohnt hat?
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.