Inhalt
summary Zusammenfassung

Das Alibaba-Forschungslabor Tongyi hat mit ZeroSearch ein Verfahren entwickelt, um große Sprachmodelle ohne Zugriff auf reale Websuche für Suchaufgaben zu trainieren.

Anzeige

Chatbots sollen möglichst präzise auf Fragen reagieren – auch dann, wenn ihr internes Wissen nicht ausreicht. Dafür müssen sie via Reinforcement Learning (RL) lernen, gezielt Informationen zu suchen. Um diese Fähigkeit im Training zu entwickeln, greifen viele Verfahren bisher auf echte Suchmaschinen wie Google zurück. Laut einem Forschungsteam von Alibaba ist das allerdings nicht nur teuer, sondern vor allem schwer kontrollierbar und technisch nicht skalierbar.

Das Team schlägt daher mit ZeroSearch einen anderen Weg vor: Statt während des Trainings eine reale Websuche zu verwenden, wird der Suchprozess durch ein zweites Sprachmodell simuliert. Dieses generiert auf Suchanfragen hin kurze Texte, die entweder relevante oder absichtlich irrelevante Informationen enthalten – ähnlich wie ein echtes Suchergebnis, aber vollständig unter Kontrolle der Forschenden.

Such-Simulation in drei Stufen

Das Qwen-2.5-Sprachmodell, das später eingesetzt werden soll, durchläuft einen strukturierten Lernprozess. In jeder Runde entscheidet es zunächst, ob es eine Suche braucht. Falls ja, formuliert es eine Anfrage, die an das Simulationsmodell übergeben wird. Anschließend verarbeitet es die generierten Dokumente und gibt eine Antwort, die via RL bewertet wird.

Anzeige
Anzeige

Zu Beginn des Trainings sind die simulierten Suchergebnisse absichtlich hilfreich. Im Verlauf des Trainings wird die Qualität schrittweise verschlechtert – ein sogenannter Curriculum-Ansatz. So lernt das Modell, auch aus unklaren oder widersprüchlichen Informationen sinnvolle Schlüsse zu ziehen – ähnlich wie im echten Internet.

Das Simulationsmodell selbst wird zuvor über Feintuning trainiert. Dabei lernt es, wie „nützliche“ und „nutzlose“ Suchergebnisse aussehen. Diese Unterscheidung wird über kleine Änderungen im Prompt – also der Anweisung an das Modell – gesteuert.

Mehrstufige Suchprozesse erfolgreich gelernt

Beispiele aus den Testläufen zeigen, dass das Modell mehrstufige Suchprozesse erfolgreich meistert. In einem Fall sollte es herausfinden: "Wer ist der Ehepartner der Person, die die Stimme von Smokey the Bear spricht?" Die simulierte Suche ermittelte zunächst, wer die Figur spricht und erhielt als Antwort Sam Elliott. Anschließend führte das Modell selbstständig eine zweite Suche nach dem Namen seiner Frau durch - und fand Katharine Ross. Das Modell verknüpfte beide Schritte logisch miteinander, ordnete die Informationen aus den simulierten Suchergebnissen richtig zu und formulierte schließlich eine vollständige und richtige Antwort.

Diese Fähigkeit, eine Frage in mehrere Teilfragen zu zerlegen und Zwischenergebnisse sinnvoll weiterzuverwenden, ist ein zentrales Ziel des Trainings mit ZeroSearch.

Großer Kostenvorteil – bei voller Kontrolle

Die Simulation vermeidet nicht nur Abhängigkeiten von externen Suchdiensten, sondern senkt auch die Kosten erheblich. In den Experimenten verursachten 64.000 Suchanfragen über SerpAPI mit Google rund 586 US-Dollar an API-Kosten. Das Simulationsmodell auf vier über AWS gemieteten A100-Grafikkarten kostete dagegen nur rund 71 US-Dollar an Rechenzeit.

Empfehlung

Der zusätzliche Vorteil: Die simulierte Suche ist jederzeit verfügbar, reagiert mit konstantem Stil und kann gezielt schwieriger oder einfacher gestaltet werden. Damit wird das Training laut dem Team berechenbarer und robuster.

Leistungsstärker als Suche mit Google im Training

Das Team testete ZeroSearch auf sieben bekannten Frage-Antwort-Datensätzen, darunter Natural Questions, TriviaQA und HotpotQA. Dabei schnitt es besser oder gleich gut ab wie Verfahren, die mit echter Google-Suche trainiert wurden. Besonders stark war das System, wenn das verwendete Simulationsmodell groß war – 14 Milliarden Parametern.

Auch kleinere Modelle mit 7 Milliarden Parametern erreichten vergleichbare Ergebnisse. Entscheidender als die Größe war allerdings, dass das Simulationsmodell über ein spezielles Training auf seine Aufgabe vorbereitet wurde. Modelle, die lediglich per Prompt gesteuert wurden, lieferten deutlich schlechtere Ergebnisse.

Alibaba hat einige der Modelle auf HuggingFace veröffentlicht. Mehr Informationen und den Code gibt es auf GitHub.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Alibaba-Forschungslabor Tongyi hat mit ZeroSearch ein Verfahren entwickelt, bei dem große Sprachmodelle für Suchaufgaben trainiert werden, ohne auf reale Suchmaschinen wie Google zugreifen zu müssen. Stattdessen simuliert ein zweites Sprachmodell die Suchergebnisse, was volle Kontrolle und geringere Kosten ermöglicht.
  • Im Training lernt das Sprachmodell, ob und wie es Suchanfragen formuliert, verarbeitet die simulierten Antworten und verbessert sich durch ein gestuft schwieriger werdendes Curriculum. So kann das Modell mehrstufige Suchprozesse eigenständig durchführen und aus unklaren Informationen sinnvolle Antworten ableiten.
  • In Tests auf sieben bekannten Datensätzen schnitt ZeroSearch besser oder gleich gut ab wie Methoden mit echter Websuche. Besonders effektiv war das System, wenn das Simulationsmodell speziell auf seine Aufgabe trainiert wurde. Die Kosten für das Training sanken im Vergleich zu echten Websuchen deutlich.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!