Inhalt
summary Zusammenfassung

Ein Team von Forschern, darunter Hugging Face-Chefforscher Thomas Wolf, hat in nur 24 Stunden eine Open-Source-Nachbildung von OpenAIs Deep Research auf den Weg gebracht.

Anzeige

Das Team um Hugging Face-Mitgründer Thomas Wolf demonstriert mit seiner Entwicklung, wie schnell sich komplexe KI-Systeme zumindest im Ansatz nachbauen lassen. Laut Hugging Face Blog ist das Ziel, OpenAIs proprietäre KI-Technologie der Öffentlichkeit zugänglich zu machen, und insbesondere das OpenAI Deep Research zugrundeliegende Agent-Framework nachzubilden.

Ein wesentlicher Fortschritt gelang dem Team durch den Einsatz eines Code-Agenten. Im Gegensatz zu bisherigen Systemen drückt dieser Aktionen in Programmcode statt in JSON aus. Das Ergebnis: 30 Prozent weniger Verarbeitungsschritte und damit deutlich geringere Betriebskosten bei besserer Performance im Vergleich zu herkömmlichen LLMs.

Vergleich zweier LLM-Agent-Implementierungen: Text/JSON vs. Code-basierter Ansatz mit APIs für Länderpreisvergleich eines Smartphones.
Bei der Preisberechnung eines Smartphones in verschiedenen Ländern benötigt die JSON-basierte Lösung für jeden Schritt (Wechselkurs abrufen, Preis nachschlagen, Steuern berechnen) separate Aktionen. Der Code-Agent hingegen kann die gesamte Berechnung in einer einzigen Schleife durchführen. | Bild: via Hugging Face

Für die technische Umsetzung kombinierten die Entwickler zwei Hauptwerkzeuge aus dem Microsoft Agent-Research-Projekt Magentic-One: einen textbasierten Webbrowser für Recherchen und einen Text-Inspector zum Lesen verschiedener Dateiformate.

Anzeige
Anzeige

Komplexe Aufgaben im Praxistest

Die Leistungsfähigkeit des Systems zeigt sich im GAIA-Benchmark, der als einer der umfassendsten Tests für KI-Agenten gilt. Eine Aufgabe lautet etwa: "Welche Früchte aus dem Gemälde 'Embroidery from Uzbekistan' von 2008 wurden im Oktober 1949 beim Frühstück auf jenem Ozeandampfer serviert, der später als schwimmende Kulisse für den Film 'The Last Voyage' diente?"

Um diese Frage zu beantworten, muss der KI-Agent mehrere komplexe Schritte ausführen:

  • Die Früchte im Gemälde identifizieren (Bildverarbeitung)
  • Den im Film verwendeten Ozeandampfer ermitteln
  • Dessen Frühstücksmenü von 1949 finden
  • Die Informationen in der geforderten Form (Uhrzeigersinn, Pluralform) ausgeben

Bei solchen mehrstufigen Aufgaben erreichte Hugging Faces System 55,15 Prozent - deutlich mehr als Magnetic-One mit 46 Prozent, aber noch unter OpenAIs Deep Research mit 67 Prozent.

Parallel zur Hugging-Face-Implementierung sind bereits weitere Open-Source-Versionen entstanden, unter anderem von Entwicklern wie dzhng, assafelovic und Jina AI. Hugging Face plant, diese verschiedenen Ansätze zu vergleichen und zu dokumentieren.

Als nächsten Entwicklungsschritt kündigt das Unternehmen die Arbeit an GUI-Agenten an, die direkt mit Bildschirm, Maus und Tastatur interagieren können. Der Code ist bereits auf GitHub verfügbar, eine sporadisch funktionierende Live-Demo hier.

Empfehlung

OpenAI Deep Research hat weiter Vorsprung

Das HF-Team räumt ein, dass bis zur vollen Parität mit OpenAIs Deep Research noch viel Arbeit nötig sei. Insbesondere die Browser-Nutzung und -Interaktion müsse verbessert werden, um über die aktuelle rein textbasierte Webinteraktion hinauszukommen.

Ein wesentlicher Unterschied dürfte sein, dass Hugging Face nur mit den am Markt verfügbaren Open-Source-Sprachmodellen arbeiten kann. OpenAI hat nach eigenen Angaben speziell für Deep Research ein eigenes o3-Modell mittels Reinforcement Learning auf anspruchsvolle Webaufgaben trainiert.

Dennoch rückt die Open-Source-Lösung zumindest im GAIA-Benchmark bereits in die Nähe von OpenAI - nach dem Deepseek-Hype ein weiteres Indiz dafür, dass es noch keine großen Gräben in der KI-Entwicklung gibt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Hugging-Face-Mitbegründer Thomas Wolf und sein Team arbeiten an einer Open-Source-Version von OpenAI Deep Research, um die proprietäre KI-Technologie der Öffentlichkeit zugänglich zu machen.
  • Im GAIA-Benchmark, der komplexe, mehrstufige Aufgaben beinhaltet, erreichte das System 55,15 Prozent gelöste Aufgaben. Damit liegt es zwischen Magentic-One ohne Code-Agenten (ca. 46 Prozent) und OpenAI Deep Research (ca. 67 Prozent).
  • Ein wichtiger Schritt war die Verwendung eines Code-Agenten, der Aktionen in Programmcode statt in JSON ausdrückt. Das Team plant nun, an GUI-Agenten zu arbeiten, räumt aber ein, dass noch viel Arbeit erforderlich ist, um volle Parität mit dem OpenAI-System zu erreichen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!