OpenAI hat auf GitHub ein neues Open-Source-Framework mit dem Namen "Swarm" veröffentlicht. Laut dem Unternehmen handelt es sich dabei um ein experimentelles Tool zur Erstellung, Orchestrierung und Bereitstellung von Multi-Agenten-Systemen.
Das Framework konzentriert sich darauf, die Koordination und Ausführung von Agenten leichtgewichtig, hochgradig kontrollierbar und einfach testbar zu machen. Dies wird durch zwei grundlegende Abstraktionen erreicht: Routinen und Übergaben.
Ein Agent umfasst dabei Anweisungen und Werkzeuge und kann zu jedem Zeitpunkt entscheiden, ein Gespräch an einen anderen Agenten zu übergeben. Diese grundlegenden Bausteine sind laut OpenAI leistungsfähig genug, um komplexe Dynamiken zwischen Werkzeugen und Agentennetzwerken auszudrücken.
Swarm zeigt auch, was OpenAI unter "agentischer KI" versteht: eine Abstraktion, die ein Sprachmodell, spezifische Anweisungen (System-Prompts) und Werkzeuge umfasst. Diese Agenten können miteinander interagieren, Aufgaben an andere Agenten übergeben und die ihnen zur Verfügung stehenden Werkzeuge nutzen.
Swarm ermöglicht es laut OpenAI-Entwicklern, skalierbare Lösungen für reale Probleme zu erstellen, ohne dabei eine steile Lernkurve in Kauf nehmen zu müssen. Das Framework läuft fast vollständig auf der Clientseite und speichert, ähnlich wie die Chat Completions API, keinen Zustand zwischen den Aufrufen.
Handoffs und Routinen als Kernkonzepte
OpenAI betont, dass Swarm derzeit ein experimentelles Beispiel-Framework ist, das die Schnittstellen für Multi-Agenten-Systeme erforschen soll. Es ist nicht für den Produktiveinsatz gedacht und erhält daher keine offizielle Unterstützung. Es sei keine offizielle Framework-Veröffentlichung.
Das primäre Ziel von Swarm ist es, die in einem OpenAI-Cookbook beschriebenen Muster von Handoffs und Routinen zu demonstrieren. Handoffs ermöglichen es einem Agenten, die Kontrolle über ein Gespräch an einen anderen Agenten zu übergeben, ähnlich wie bei einer Telefonweiterleitung.
Routinen sind eine Reihe von Schritten in natürlicher Sprache, die zusammen mit den notwendigen Werkzeugen zu ihrer Ausführung definiert werden. Sie können als eine Art Zustandsmaschine betrachtet werden, die von Sprachmodellen robust gehandhabt werden kann.
OpenAI argumentiert, dass dieser Ansatz besonders gut geeignet ist, wenn es darum geht, eine große Anzahl unabhängiger Fähigkeiten und Anweisungen zu verwalten, die schwer in einem einzigen Prompt zu codieren sind.
Swarm sei eine leichtgewichtige, skalierbare und hochgradig anpassbare Alternative zur Assistants API. Während Assistants vollständig gehostete Threads und ein integriertes Speicher- und Abrufmanagement biete, sei Swarm für Entwickler optimiert, die vollständige Transparenz und feingranulare Kontrolle über Kontext, Schritte und Werkzeugaufrufe wünschen.
Beispiele und Dokumentation verfügbar
OpenAI hat auf GitHub mehrere Beispiele veröffentlicht, die die Verwendung von Swarm demonstrieren. Dazu gehören ein einfacher Triage-Agent, ein Wetter-Agent und komplexere Setups wie ein Airline-Kundendienst und ein persönlicher Einkaufsassistent.
Eine ausführliche Dokumentation erklärt die Kernkonzepte und die Verwendung des Frameworks. Dazu gehören Anleitungen zum Ausführen von Swarm, zur Definition von Agenten und Funktionen sowie zur Handhabung von Streaming und Evaluierungen.