Anthropic verbessert Claude-Leistung mit simplem "Denk"-Befehl

22. März 2025

Midjourney prompted by THE DECODER / Anthropic

Anthropic hat nach eigenen Angaben eine überraschend simple Methode entwickelt, um die Problemlösungsfähigkeiten seines KI-Assistenten Claude zu verbessern: Einen zusätzlichen "Denk-Zwischenschritt" in Form eines Notizblocks ("Scratchpad") und entsprechender Prompts.

Claude erhält einen zusätzlichen Befehl namens "think", der es dem System erlaubt, seine Überlegungen in einem separaten Bereich festzuhalten, bevor es weitermacht. Technisch ist das ein simpler JSON-Befehl, der Gedanken protokolliert.

{
  "name": "think",
  "description": "Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
  "input_schema": {
    "type": "object",
    "properties": {
      "thought": {
        "type": "string",
        "description": "A thought to think about."
      }
    },
    "required": ["thought"]
  }
}

Wichtig ist die Unterscheidung zum kürzlich vorgestellten "Extended Thinking", das Claudes Denkprozess vor der Antwortgenerierung verbessert. Das "Think-Tool" hingegen kommt während der Antwortgenerierung zum Einsatz - besonders wenn Claude neue Informationen verarbeiten muss, die es durch Tool-Aufrufe erhält.

Und noch ein Denkschritt

Trotz seiner Einfachheit zeigt der Ansatz in Tests eine deutliche Wirkung: Bei der Evaluierung im Tau-Bench-Framework, das Kundenserviceszenarien simuliert, erreichte Claude mit dem optimierten Prompt in der "Airline Domain" eine Verbesserung von 54 Prozent gegenüber der Baseline.

In Software-Engineering-Tests (SWE-Bench) führte der Einsatz des Tools "Think" zu einer durchschnittlichen Verbesserung von 1,6 Prozent. Insbesondere die Verbesserungen bei mehrschrittigen Aufgaben und das bessere Befolgen von Instruktionen sollen sich laut Anthropic positiv auf agentische KI-Systeme auswirken, die bislang nicht mit Verlässlichkeit glänzen.

Liniendiagramm: Vergleich von vier Claude-Konfigurationen (Think+Prompt, Extended thinking, Think, Baseline) bei Airline-Aufgaben über k=1-5. UND Datentabelle: Detaillierte Leistungswerte der vier Claude-Konfigurationen für k=1 bis k=5 bei Airline-Aufgaben. — Der "Think + Prompt"-Ansatz verbessert Claudes Leistung bei Airline-Aufgaben deutlich gegenüber der Baseline. Die Überlegenheit bleibt auch bei steigender Komplexität (k=1 bis k=5) konstant bestehen, während andere Methoden stärker abfallen. | Bild: Anthropic

Der Schlüssel zum Erfolg liegt laut Anthropic in der Kombination des "Scratchpads" mit passenden Beispiel-Prompts, die dem System zeigen, wie es diesen Denkraum nutzen soll. So erhält Claude Beispiele, wie er Regeln auflisten, Informationen überprüfen und Handlungen planen kann.

## Using the think tool

Before taking any action or responding to the user after receiving tool results, use the think tool as a scratchpad to:
- List the specific rules that apply to the current request
- Check if all required information is collected
- Verify that the planned action complies with all policies
- Iterate over tool results for correctness 

Here are some examples of what to iterate over inside the think tool:
<think_tool_example_1>
User wants to cancel flight ABC123
- Need to verify: user ID, reservation ID, reason
- Check cancellation rules:
  * Is it within 24h of booking?
  * If not, check ticket class and insurance
- Verify no segments flown or are in the past
- Plan: collect missing info, verify rules, get confirmation
</think_tool_example_1>

<think_tool_example_2>
User wants to book 3 tickets to NYC with 2 checked bags each
- Need user ID to check:
  * Membership tier for baggage allowance
  * Which payments methods exist in profile
- Baggage calculation:
  * Economy class × 3 passengers
  * If regular member: 1 free bag each → 3 extra bags = $150
  * If silver member: 2 free bags each → 0 extra bags = $0
  * If gold member: 3 free bags each → 0 extra bags = $0
- Payment rules to verify:
  * Max 1 travel certificate, 1 credit card, 3 gift cards
  * All payment methods must be in profile
  * Travel certificate remainder goes to waste
- Plan:
1. Get user ID
2. Verify membership level for bag fees
3. Check which payment methods in profile and if their combination is allowed
4. Calculate total: ticket price + any bag fees
5. Get explicit confirmation for booking
</think_tool_example_2>

Praktischen Nutzen sieht Anthropic in drei Bereichen: Bei der Analyse von Tool-Outputs, bei der Einhaltung komplexer Richtlinien und bei sequenziellen Entscheidungen, bei denen Fehler teuer werden können.

Für optimale Ergebnisse empfiehlt Anthropic, dem System domänenspezifische Beispiele zu geben, wie es den Denkraum nutzen soll. Bei einfachen Aufgaben oder nicht-sequenziellen Prozessen sei dieser zusätzliche Schritt hingegen überflüssig.

Das "Think"-Werkzeug kann mit geringem Aufwand in bestehende Claude-Systeme integriert werden und beeinträchtigt die Performance nur dann, wenn es aktiv genutzt wird. Die Verbesserungen wurden hauptsächlich mit Claude 3.7 Sonnet getestet, funktionieren aber laut Anthropic auch mit Claude 3.5 Sonnet (New).

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Anthropic verbessert Claude-Leistung mit simplem "Denk"-Befehl

Und noch ein Denkschritt

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.