Ein Forschungsteam von MIT, IBM und der University of Washington hat mit TOUCAN den bislang größten offenen Datensatz für KI-Agenten veröffentlicht. 1,5 Millionen echte Tool‑Interaktionen sollen offene Modelle bei der Arbeit mit externen Werkzeugen verbessern.
Das Forschungsteam vom MIT‑IBM Watson AI Lab und der University of Washington veröffentlicht mit TOUCAN einen neuen Datensatz, der 1,5 Millionen Werkzeug‑Interaktionen aus realen Model Context Protocol‑Umgebungen (MCP) enthält. Das Projekt soll eine Lücke schließen: Es gibt kaum offen lizenzierte Trainingsdaten, in denen Sprachmodelle lernen, echte Tools korrekt zu verwenden.
Der Datensatz nutzt 495 reale MCP‑Server mit zusammen mehr als 2.000 Werkzeugen. Diese decken ein breites Spektrum ab – von Web‑Suche und Entwicklungstools bis zu Finanz‑, Wetter‑ oder KI‑Diensten. Jeder Eintrag beschreibt eine vollständige Nutzungskette aus Aufgabenstellung, Tool‑Aufrufen, Antworten und Endergebnis.
Echte Tool‑Ausführung statt Simulation
Frühere offene Datensätze wie ToolLLM oder ToolACE basierten meist auf simulierten Tool‑Antworten. TOUCAN greift dagegen auf tatsächliche API‑Ausführungen in realen Umgebungen zu. Das soll realistischere Fehler, Verzögerungen oder Kontextabhängigkeiten abbilden. Das sind Aspekte, die in echten Agentensystemen oft das Problem sind.
Die Daten wurden in einer fünfstufigen Pipeline erzeugt: Zunächst sammelten und prüften die Forschenden MCP‑Server von Smithery.ai. Dann erzeugten fünf verschiedene Sprachmodelle (darunter Mistral, Kimi‑K2 und Qwen3‑32B) Trainingsaufgaben, die in mehreren Stufen auf Qualität, Realismus und Nachvollziehbarkeit gefiltert wurden. Drei weitere Modelle erzeugten aus diesen Aufgaben konkrete Interaktionsverläufe mit echten Werkzeug‑Aufrufen.
Drei Zusatzschritte erweitern den Datensatz: unlösbare Aufgaben, um Fehlverhalten zu verringern, Varianten mit unterschiedlichen Rollen oder Kontexten und längere Dialoge mit mehreren Nutzereingaben.
Verbesserte Tool‑Nutzung offener Modelle
In Tests mit drei offenen Qwen‑2.5‑Modellen (7B, 14B, 32B Parameter) zeigten sich deutliche Leistungszuwächse. Auf dem Benchmark BFCL V3 stieg die Punktzahl des Qwen‑2.5‑32B‑Modells nach Feinabstimmung mit TOUCAN um 8,7 Prozentpunkte und lag damit über GPT‑4.5‑Preview in mehreren Teilbereichen. Auch in τ‑Bench, τ²‑Bench und MCP‑Universe zeigten sich Zugewinne zwischen drei und sieben Punkten gegenüber den Ausgangsmodellen.
Im MCP‑Universe‑Benchmark – einem Test mit echten Werkzeug‑Schnittstellen – übertrafen die TOUCAN‑Modelle teils größere offene Systeme wie Llama‑3.3 (70B) und GLM‑4.5 (106B). Nach Angaben der Forschenden verschiebt sich damit die Leistungs‑Effizienz‑Grenze kleinerer Modelle sichtbar nach vorn.
Bedeutung und Grenzen
TOUCAN erleichtert es, Open‑Source‑Modelle für den Umgang mit echten Tools zu trainieren, ein Bereich, in dem bislang fast ausschließlich geschlossene Systeme wie GPT‑5 oder Claude 4.5 führend sind. Gleichzeitig zeigt der Datensatz, wie groß der Einfluss von Trainingsmaterialien ist: kleinere Modelle erreichen ähnliche Aufgabenlösungsraten wie frühere proprietäre Systeme, bleiben aber noch hinter den neuesten Generationen zurück.
Die Forschenden geben an, alle MCP‑Daten aus öffentlich zugänglichen Quellen gesammelt zu haben. Persönliche Informationen wurden vorverarbeitet und entfernt. Der Code und Datensatz liegen auf GitHub und Hugging Face und werden unter einer permissiven Lizenz bereitgestellt. Das Team plant Erweiterungen, etwa ein Expertenmodell zur Toolsimulation und einen Web‑Such‑Benchmark.