Inhalt
summary Zusammenfassung

Ein Forschungsteam von MIT, IBM und der University of Washington hat mit TOUCAN den bislang größten offenen Datensatz für KI-Agenten veröffentlicht. 1,5 Millionen echte Tool‑Interaktionen sollen offene Modelle bei der Arbeit mit externen Werkzeugen verbessern.

Anzeige

Das Forschungsteam vom MIT‑IBM Watson AI Lab und der University of Washington veröffentlicht mit TOUCAN einen neuen Datensatz, der 1,5 Millionen Werkzeug‑Interaktionen aus realen Model Context Protocol‑Umgebungen (MCP) enthält. Das Projekt soll eine Lücke schließen: Es gibt kaum offen lizenzierte Trainingsdaten, in denen Sprachmodelle lernen, echte Tools korrekt zu verwenden.

Der Datensatz nutzt 495 reale MCP‑Server mit zusammen mehr als 2.000 Werkzeugen. Diese decken ein breites Spektrum ab – von Web‑Suche und Entwicklungstools bis zu Finanz‑, Wetter‑ oder KI‑Diensten. Jeder Eintrag beschreibt eine vollständige Nutzungskette aus Aufgabenstellung, Tool‑Aufrufen, Antworten und Endergebnis.

Echte Tool‑Ausführung statt Simulation

Frühere offene Datensätze wie ToolLLM oder ToolACE basierten meist auf simulierten Tool‑Antworten. TOUCAN greift dagegen auf tatsächliche API‑Ausführungen in realen Umgebungen zu. Das soll realistischere Fehler, Verzögerungen oder Kontextabhängigkeiten abbilden. Das sind Aspekte, die in echten Agentensystemen oft das Problem sind.

Anzeige
Anzeige

Die Daten wurden in einer fünfstufigen Pipeline erzeugt: Zunächst sammelten und prüften die Forschenden MCP‑Server von Smithery.ai. Dann erzeugten fünf verschiedene Sprachmodelle (darunter Mistral, Kimi‑K2 und Qwen3‑32B) Trainingsaufgaben, die in mehreren Stufen auf Qualität, Realismus und Nachvollziehbarkeit gefiltert wurden. Drei weitere Modelle erzeugten aus diesen Aufgaben konkrete Interaktionsverläufe mit echten Werkzeug‑Aufrufen.

Drei Zusatzschritte erweitern den Datensatz: unlösbare Aufgaben, um Fehlverhalten zu verringern, Varianten mit unterschiedlichen Rollen oder Kontexten und längere Dialoge mit mehreren Nutzereingaben.

Verbesserte Tool‑Nutzung offener Modelle

In Tests mit drei offenen Qwen‑2.5‑Modellen (7B, 14B, 32B Parameter) zeigten sich deutliche Leistungszuwächse. Auf dem Benchmark B​FCL V3 stieg die Punktzahl des Qwen‑2.5‑32B‑Modells nach Feinabstimmung mit TOUCAN um 8,7 Prozentpunkte und lag damit über GPT‑4.5‑Preview in mehreren Teilbereichen. Auch in τ‑Bench, τ²‑Bench und MCP‑Universe zeigten sich Zugewinne zwischen drei und sieben Punkten gegenüber den Ausgangsmodellen.

Im MCP‑Universe‑Benchmark – einem Test mit echten Werkzeug‑Schnittstellen – übertrafen die TOUCAN‑Modelle teils größere offene Systeme wie Llama‑3.3 (70B) und GLM‑4.5 (106B). Nach Angaben der Forschenden verschiebt sich damit die Leistungs‑Effizienz‑Grenze kleinerer Modelle sichtbar nach vorn.

Bedeutung und Grenzen

TOUCAN erleichtert es, Open‑Source‑Modelle für den Umgang mit echten Tools zu trainieren, ein Bereich, in dem bislang fast ausschließlich geschlossene Systeme wie GPT‑5 oder Claude 4.5 führend sind. Gleichzeitig zeigt der Datensatz, wie groß der Einfluss von Trainingsmaterialien ist: kleinere Modelle erreichen ähnliche Aufgabenlösungsraten wie frühere proprietäre Systeme, bleiben aber noch hinter den neuesten Generationen zurück.

Empfehlung

Die Forschenden geben an, alle MCP‑Daten aus öffentlich zugänglichen Quellen gesammelt zu haben. Persönliche Informationen wurden vorverarbeitet und entfernt. Der Code und Datensatz liegen auf GitHub und Hugging Face und werden unter einer permissiven Lizenz bereitgestellt. Das Team plant Erweiterungen, etwa ein Expertenmodell zur Toolsimulation und einen Web‑Such‑Benchmark.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein Forschungsteam von MIT, IBM und der University of Washington stellt mit TOUCAN den bisher größten offenen Datensatz für KI-Agenten vor, der 1,5 Millionen reale Werkzeug-Interaktionen aus über 2.000 verschiedenen Tools enthält.
  • Im Gegensatz zu bisherigen Datensätzen basiert TOUCAN nicht auf simulierten, sondern auf echten API-Ausführungen, wodurch typische Fehler und Verzögerungen realistischer abgebildet werden; die Daten wurden durch eine mehrstufige Pipeline erzeugt und um Varianten für Fehlverhalten und Dialogtiefe ergänzt.
  • Durch Training mit TOUCAN konnten offene Modelle wie Qwen-2.5 ihre Leistung bei der Nutzung externer Werkzeuge deutlich steigern und in Benchmarks teilweise größere Systeme wie Llama-3.3 und GLM-4.5 übertreffen; der Datensatz steht unter einer offenen Lizenz auf Hugging Face zur Verfügung.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!