Das Alibaba-Forschungslabor Tongyi hat mit ZeroSearch ein Verfahren entwickelt, um große Sprachmodelle ohne Zugriff auf reale Websuche für Suchaufgaben zu trainieren.
Chatbots sollen möglichst präzise auf Fragen reagieren – auch dann, wenn ihr internes Wissen nicht ausreicht. Dafür müssen sie via Reinforcement Learning (RL) lernen, gezielt Informationen zu suchen. Um diese Fähigkeit im Training zu entwickeln, greifen viele Verfahren bisher auf echte Suchmaschinen wie Google zurück. Laut einem Forschungsteam von Alibaba ist das allerdings nicht nur teuer, sondern vor allem schwer kontrollierbar und technisch nicht skalierbar.
Das Team schlägt daher mit ZeroSearch einen anderen Weg vor: Statt während des Trainings eine reale Websuche zu verwenden, wird der Suchprozess durch ein zweites Sprachmodell simuliert. Dieses generiert auf Suchanfragen hin kurze Texte, die entweder relevante oder absichtlich irrelevante Informationen enthalten – ähnlich wie ein echtes Suchergebnis, aber vollständig unter Kontrolle der Forschenden.
Such-Simulation in drei Stufen
Das Qwen-2.5-Sprachmodell, das später eingesetzt werden soll, durchläuft einen strukturierten Lernprozess. In jeder Runde entscheidet es zunächst, ob es eine Suche braucht. Falls ja, formuliert es eine Anfrage, die an das Simulationsmodell übergeben wird. Anschließend verarbeitet es die generierten Dokumente und gibt eine Antwort, die via RL bewertet wird.
Zu Beginn des Trainings sind die simulierten Suchergebnisse absichtlich hilfreich. Im Verlauf des Trainings wird die Qualität schrittweise verschlechtert – ein sogenannter Curriculum-Ansatz. So lernt das Modell, auch aus unklaren oder widersprüchlichen Informationen sinnvolle Schlüsse zu ziehen – ähnlich wie im echten Internet.
Das Simulationsmodell selbst wird zuvor über Feintuning trainiert. Dabei lernt es, wie „nützliche“ und „nutzlose“ Suchergebnisse aussehen. Diese Unterscheidung wird über kleine Änderungen im Prompt – also der Anweisung an das Modell – gesteuert.
Mehrstufige Suchprozesse erfolgreich gelernt
Beispiele aus den Testläufen zeigen, dass das Modell mehrstufige Suchprozesse erfolgreich meistert. In einem Fall sollte es herausfinden: "Wer ist der Ehepartner der Person, die die Stimme von Smokey the Bear spricht?" Die simulierte Suche ermittelte zunächst, wer die Figur spricht und erhielt als Antwort Sam Elliott. Anschließend führte das Modell selbstständig eine zweite Suche nach dem Namen seiner Frau durch - und fand Katharine Ross. Das Modell verknüpfte beide Schritte logisch miteinander, ordnete die Informationen aus den simulierten Suchergebnissen richtig zu und formulierte schließlich eine vollständige und richtige Antwort.
Diese Fähigkeit, eine Frage in mehrere Teilfragen zu zerlegen und Zwischenergebnisse sinnvoll weiterzuverwenden, ist ein zentrales Ziel des Trainings mit ZeroSearch.
Großer Kostenvorteil – bei voller Kontrolle
Die Simulation vermeidet nicht nur Abhängigkeiten von externen Suchdiensten, sondern senkt auch die Kosten erheblich. In den Experimenten verursachten 64.000 Suchanfragen über SerpAPI mit Google rund 586 US-Dollar an API-Kosten. Das Simulationsmodell auf vier über AWS gemieteten A100-Grafikkarten kostete dagegen nur rund 71 US-Dollar an Rechenzeit.
Der zusätzliche Vorteil: Die simulierte Suche ist jederzeit verfügbar, reagiert mit konstantem Stil und kann gezielt schwieriger oder einfacher gestaltet werden. Damit wird das Training laut dem Team berechenbarer und robuster.
Leistungsstärker als Suche mit Google im Training
Das Team testete ZeroSearch auf sieben bekannten Frage-Antwort-Datensätzen, darunter Natural Questions, TriviaQA und HotpotQA. Dabei schnitt es besser oder gleich gut ab wie Verfahren, die mit echter Google-Suche trainiert wurden. Besonders stark war das System, wenn das verwendete Simulationsmodell groß war – 14 Milliarden Parametern.
Auch kleinere Modelle mit 7 Milliarden Parametern erreichten vergleichbare Ergebnisse. Entscheidender als die Größe war allerdings, dass das Simulationsmodell über ein spezielles Training auf seine Aufgabe vorbereitet wurde. Modelle, die lediglich per Prompt gesteuert wurden, lieferten deutlich schlechtere Ergebnisse.
Alibaba hat einige der Modelle auf HuggingFace veröffentlicht. Mehr Informationen und den Code gibt es auf GitHub.