Hugging Face-Team will Open-Source-Alternative zu OpenAI Deep Research entwickeln

Ein Team von Forschern, darunter Hugging Face-Chefforscher Thomas Wolf, hat in nur 24 Stunden eine Open-Source-Nachbildung von OpenAIs Deep Research auf den Weg gebracht.

Das Team um Hugging Face-Mitgründer Thomas Wolf demonstriert mit seiner Entwicklung, wie schnell sich komplexe KI-Systeme zumindest im Ansatz nachbauen lassen. Laut Hugging Face Blog ist das Ziel, OpenAIs proprietäre KI-Technologie der Öffentlichkeit zugänglich zu machen, und insbesondere das OpenAI Deep Research zugrundeliegende Agent-Framework nachzubilden.

Ein wesentlicher Fortschritt gelang dem Team durch den Einsatz eines Code-Agenten. Im Gegensatz zu bisherigen Systemen drückt dieser Aktionen in Programmcode statt in JSON aus. Das Ergebnis: 30 Prozent weniger Verarbeitungsschritte und damit deutlich geringere Betriebskosten bei besserer Performance im Vergleich zu herkömmlichen LLMs.

Vergleich zweier LLM-Agent-Implementierungen: Text/JSON vs. Code-basierter Ansatz mit APIs für Länderpreisvergleich eines Smartphones. — Bei der Preisberechnung eines Smartphones in verschiedenen Ländern benötigt die JSON-basierte Lösung für jeden Schritt (Wechselkurs abrufen, Preis nachschlagen, Steuern berechnen) separate Aktionen. Der Code-Agent hingegen kann die gesamte Berechnung in einer einzigen Schleife durchführen. | Bild: via Hugging Face

Für die technische Umsetzung kombinierten die Entwickler zwei Hauptwerkzeuge aus dem Microsoft Agent-Research-Projekt Magentic-One: einen textbasierten Webbrowser für Recherchen und einen Text-Inspector zum Lesen verschiedener Dateiformate.

Komplexe Aufgaben im Praxistest

Die Leistungsfähigkeit des Systems zeigt sich im GAIA-Benchmark, der als einer der umfassendsten Tests für KI-Agenten gilt. Eine Aufgabe lautet etwa: "Welche Früchte aus dem Gemälde 'Embroidery from Uzbekistan' von 2008 wurden im Oktober 1949 beim Frühstück auf jenem Ozeandampfer serviert, der später als schwimmende Kulisse für den Film 'The Last Voyage' diente?"

Um diese Frage zu beantworten, muss der KI-Agent mehrere komplexe Schritte ausführen:

Die Früchte im Gemälde identifizieren (Bildverarbeitung)
Den im Film verwendeten Ozeandampfer ermitteln
Dessen Frühstücksmenü von 1949 finden
Die Informationen in der geforderten Form (Uhrzeigersinn, Pluralform) ausgeben

Bei solchen mehrstufigen Aufgaben erreichte Hugging Faces System 55,15 Prozent - deutlich mehr als Magnetic-One mit 46 Prozent, aber noch unter OpenAIs Deep Research mit 67 Prozent.

Parallel zur Hugging-Face-Implementierung sind bereits weitere Open-Source-Versionen entstanden, unter anderem von Entwicklern wie dzhng, assafelovic und Jina AI. Hugging Face plant, diese verschiedenen Ansätze zu vergleichen und zu dokumentieren.

Als nächsten Entwicklungsschritt kündigt das Unternehmen die Arbeit an GUI-Agenten an, die direkt mit Bildschirm, Maus und Tastatur interagieren können. Der Code ist bereits auf GitHub verfügbar, eine sporadisch funktionierende Live-Demo hier.

Empfehlung

KI in der Praxis

Meta nutzte Piraterie-Netzwerke für KI-Trainingsdaten - mit Zuckerbergs Segen

OpenAI Deep Research hat weiter Vorsprung

Das HF-Team räumt ein, dass bis zur vollen Parität mit OpenAIs Deep Research noch viel Arbeit nötig sei. Insbesondere die Browser-Nutzung und -Interaktion müsse verbessert werden, um über die aktuelle rein textbasierte Webinteraktion hinauszukommen.

Ein wesentlicher Unterschied dürfte sein, dass Hugging Face nur mit den am Markt verfügbaren Open-Source-Sprachmodellen arbeiten kann. OpenAI hat nach eigenen Angaben speziell für Deep Research ein eigenes o3-Modell mittels Reinforcement Learning auf anspruchsvolle Webaufgaben trainiert.

Dennoch rückt die Open-Source-Lösung zumindest im GAIA-Benchmark bereits in die Nähe von OpenAI - nach dem Deepseek-Hype ein weiteres Indiz dafür, dass es noch keine großen Gräben in der KI-Entwicklung gibt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Hugging Face-Team will Open-Source-Alternative zu OpenAI Deep Research entwickeln

Komplexe Aufgaben im Praxistest

Meta nutzte Piraterie-Netzwerke für KI-Trainingsdaten - mit Zuckerbergs Segen

OpenAI Deep Research hat weiter Vorsprung

Apple plant angeblich KI-Offensive: Gleich vier neue Produkte für das smarte Zuhause

Studie warnt: Ärzte verlieren durch KI bei Koloskopien diagnostische Fähigkeiten

OpenAI rudert bei Routing zurück: GPT-5-Modelle jetzt zur direkten Auswahl

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Hugging Face-Team will Open-Source-Alternative zu OpenAI Deep Research entwickeln

Komplexe Aufgaben im Praxistest

OpenAI Deep Research hat weiter Vorsprung

Artikel teilen

Bankverbindung