Anthropic hat nach eigenen Angaben eine überraschend simple Methode entwickelt, um die Problemlösungsfähigkeiten seines KI-Assistenten Claude zu verbessern: Einen zusätzlichen "Denk-Zwischenschritt" in Form eines Notizblocks ("Scratchpad") und entsprechender Prompts.
Claude erhält einen zusätzlichen Befehl namens "think", der es dem System erlaubt, seine Überlegungen in einem separaten Bereich festzuhalten, bevor es weitermacht. Technisch ist das ein simpler JSON-Befehl, der Gedanken protokolliert.
{
"name": "think",
"description": "Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "A thought to think about."
}
},
"required": ["thought"]
}
}
Wichtig ist die Unterscheidung zum kürzlich vorgestellten "Extended Thinking", das Claudes Denkprozess vor der Antwortgenerierung verbessert. Das "Think-Tool" hingegen kommt während der Antwortgenerierung zum Einsatz - besonders wenn Claude neue Informationen verarbeiten muss, die es durch Tool-Aufrufe erhält.
Und noch ein Denkschritt
Trotz seiner Einfachheit zeigt der Ansatz in Tests eine deutliche Wirkung: Bei der Evaluierung im Tau-Bench-Framework, das Kundenserviceszenarien simuliert, erreichte Claude mit dem optimierten Prompt in der "Airline Domain" eine Verbesserung von 54 Prozent gegenüber der Baseline.
In Software-Engineering-Tests (SWE-Bench) führte der Einsatz des Tools "Think" zu einer durchschnittlichen Verbesserung von 1,6 Prozent. Insbesondere die Verbesserungen bei mehrschrittigen Aufgaben und das bessere Befolgen von Instruktionen sollen sich laut Anthropic positiv auf agentische KI-Systeme auswirken, die bislang nicht mit Verlässlichkeit glänzen.

Der Schlüssel zum Erfolg liegt laut Anthropic in der Kombination des "Scratchpads" mit passenden Beispiel-Prompts, die dem System zeigen, wie es diesen Denkraum nutzen soll. So erhält Claude Beispiele, wie er Regeln auflisten, Informationen überprüfen und Handlungen planen kann.
## Using the think tool
Before taking any action or responding to the user after receiving tool results, use the think tool as a scratchpad to:
- List the specific rules that apply to the current request
- Check if all required information is collected
- Verify that the planned action complies with all policies
- Iterate over tool results for correctness
Here are some examples of what to iterate over inside the think tool:
<think_tool_example_1>
User wants to cancel flight ABC123
- Need to verify: user ID, reservation ID, reason
- Check cancellation rules:
* Is it within 24h of booking?
* If not, check ticket class and insurance
- Verify no segments flown or are in the past
- Plan: collect missing info, verify rules, get confirmation
</think_tool_example_1>
<think_tool_example_2>
User wants to book 3 tickets to NYC with 2 checked bags each
- Need user ID to check:
* Membership tier for baggage allowance
* Which payments methods exist in profile
- Baggage calculation:
* Economy class × 3 passengers
* If regular member: 1 free bag each → 3 extra bags = $150
* If silver member: 2 free bags each → 0 extra bags = $0
* If gold member: 3 free bags each → 0 extra bags = $0
- Payment rules to verify:
* Max 1 travel certificate, 1 credit card, 3 gift cards
* All payment methods must be in profile
* Travel certificate remainder goes to waste
- Plan:
1. Get user ID
2. Verify membership level for bag fees
3. Check which payment methods in profile and if their combination is allowed
4. Calculate total: ticket price + any bag fees
5. Get explicit confirmation for booking
</think_tool_example_2>
Praktischen Nutzen sieht Anthropic in drei Bereichen: Bei der Analyse von Tool-Outputs, bei der Einhaltung komplexer Richtlinien und bei sequenziellen Entscheidungen, bei denen Fehler teuer werden können.
Für optimale Ergebnisse empfiehlt Anthropic, dem System domänenspezifische Beispiele zu geben, wie es den Denkraum nutzen soll. Bei einfachen Aufgaben oder nicht-sequenziellen Prozessen sei dieser zusätzliche Schritt hingegen überflüssig.
Das "Think"-Werkzeug kann mit geringem Aufwand in bestehende Claude-Systeme integriert werden und beeinträchtigt die Performance nur dann, wenn es aktiv genutzt wird. Die Verbesserungen wurden hauptsächlich mit Claude 3.7 Sonnet getestet, funktionieren aber laut Anthropic auch mit Claude 3.5 Sonnet (New).