Inhalt
summary Zusammenfassung

Anthropic hat nach eigenen Angaben eine überraschend simple Methode entwickelt, um die Problemlösungsfähigkeiten seines KI-Assistenten Claude zu verbessern: Einen zusätzlichen "Denk-Zwischenschritt" in Form eines Notizblocks ("Scratchpad") und entsprechender Prompts.

Anzeige

Claude erhält einen zusätzlichen Befehl namens "think", der es dem System erlaubt, seine Überlegungen in einem separaten Bereich festzuhalten, bevor es weitermacht. Technisch ist das ein simpler JSON-Befehl, der Gedanken protokolliert.

{
  "name": "think",
  "description": "Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
  "input_schema": {
    "type": "object",
    "properties": {
      "thought": {
        "type": "string",
        "description": "A thought to think about."
      }
    },
    "required": ["thought"]
  }
}

Wichtig ist die Unterscheidung zum kürzlich vorgestellten "Extended Thinking", das Claudes Denkprozess vor der Antwortgenerierung verbessert. Das "Think-Tool" hingegen kommt während der Antwortgenerierung zum Einsatz - besonders wenn Claude neue Informationen verarbeiten muss, die es durch Tool-Aufrufe erhält.

Und noch ein Denkschritt

Trotz seiner Einfachheit zeigt der Ansatz in Tests eine deutliche Wirkung: Bei der Evaluierung im Tau-Bench-Framework, das Kundenserviceszenarien simuliert, erreichte Claude mit dem optimierten Prompt in der "Airline Domain" eine Verbesserung von 54 Prozent gegenüber der Baseline.

Anzeige
Anzeige

In Software-Engineering-Tests (SWE-Bench) führte der Einsatz des Tools "Think" zu einer durchschnittlichen Verbesserung von 1,6 Prozent. Insbesondere die Verbesserungen bei mehrschrittigen Aufgaben und das bessere Befolgen von Instruktionen sollen sich laut Anthropic positiv auf agentische KI-Systeme auswirken, die bislang nicht mit Verlässlichkeit glänzen.

Liniendiagramm: Vergleich von vier Claude-Konfigurationen (Think+Prompt, Extended thinking, Think, Baseline) bei Airline-Aufgaben über k=1-5. UND Datentabelle: Detaillierte Leistungswerte der vier Claude-Konfigurationen für k=1 bis k=5 bei Airline-Aufgaben.
Der "Think + Prompt"-Ansatz verbessert Claudes Leistung bei Airline-Aufgaben deutlich gegenüber der Baseline. Die Überlegenheit bleibt auch bei steigender Komplexität (k=1 bis k=5) konstant bestehen, während andere Methoden stärker abfallen. | Bild: Anthropic

Der Schlüssel zum Erfolg liegt laut Anthropic in der Kombination des "Scratchpads" mit passenden Beispiel-Prompts, die dem System zeigen, wie es diesen Denkraum nutzen soll. So erhält Claude Beispiele, wie er Regeln auflisten, Informationen überprüfen und Handlungen planen kann.

## Using the think tool

Before taking any action or responding to the user after receiving tool results, use the think tool as a scratchpad to:
- List the specific rules that apply to the current request
- Check if all required information is collected
- Verify that the planned action complies with all policies
- Iterate over tool results for correctness 

Here are some examples of what to iterate over inside the think tool:
<think_tool_example_1>
User wants to cancel flight ABC123
- Need to verify: user ID, reservation ID, reason
- Check cancellation rules:
  * Is it within 24h of booking?
  * If not, check ticket class and insurance
- Verify no segments flown or are in the past
- Plan: collect missing info, verify rules, get confirmation
</think_tool_example_1>

<think_tool_example_2>
User wants to book 3 tickets to NYC with 2 checked bags each
- Need user ID to check:
  * Membership tier for baggage allowance
  * Which payments methods exist in profile
- Baggage calculation:
  * Economy class × 3 passengers
  * If regular member: 1 free bag each → 3 extra bags = $150
  * If silver member: 2 free bags each → 0 extra bags = $0
  * If gold member: 3 free bags each → 0 extra bags = $0
- Payment rules to verify:
  * Max 1 travel certificate, 1 credit card, 3 gift cards
  * All payment methods must be in profile
  * Travel certificate remainder goes to waste
- Plan:
1. Get user ID
2. Verify membership level for bag fees
3. Check which payment methods in profile and if their combination is allowed
4. Calculate total: ticket price + any bag fees
5. Get explicit confirmation for booking
</think_tool_example_2>

Praktischen Nutzen sieht Anthropic in drei Bereichen: Bei der Analyse von Tool-Outputs, bei der Einhaltung komplexer Richtlinien und bei sequenziellen Entscheidungen, bei denen Fehler teuer werden können.

Für optimale Ergebnisse empfiehlt Anthropic, dem System domänenspezifische Beispiele zu geben, wie es den Denkraum nutzen soll. Bei einfachen Aufgaben oder nicht-sequenziellen Prozessen sei dieser zusätzliche Schritt hingegen überflüssig.

Das "Think"-Werkzeug kann mit geringem Aufwand in bestehende Claude-Systeme integriert werden und beeinträchtigt die Performance nur dann, wenn es aktiv genutzt wird. Die Verbesserungen wurden hauptsächlich mit Claude 3.7 Sonnet getestet, funktionieren aber laut Anthropic auch mit Claude 3.5 Sonnet (New).

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic verbessert die Leistungen seines KI-Assistenten Claude mit einem einfachen "Think"-Werkzeug: Claude notiert dabei während der Bearbeitung komplexer Aufgaben Zwischenschritte in einem digitalen Notizblock, um strukturierter vorzugehen.
  • In ersten Tests erzielte Claude durch die Nutzung dieser Methode in simulierten Kundenservice-Szenarien eine Leistungssteigerung von 54 Prozent; bei Software-Engineering-Aufgaben fiel der Zuwachs mit durchschnittlich 1,6 Prozent geringer, aber noch immer beachtlich aus.
  • Laut Anthropic eignet sich das "Think"-Werkzeug besonders für komplexe Entscheidungen und Analysen und lässt sich leicht in bestehende Systeme integrieren.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!