Inhalt
summary Zusammenfassung

Agent Laboratory ist ein agentisches Open-Source-Framework von AMD und der Johns Hopkins University, das die Forschungsarbeit im Bereich des maschinellen Lernens beschleunigen soll. Dabei kombiniert es menschliche Ideenfindung mit KI-gesteuerten Arbeitsabläufen.

Anzeige

Im Gegensatz zu früheren Ansätzen, die sich auf die unabhängige Forschungsideenfindung durch KI-Agenten konzentrierten, wurde Agent Laboratory entwickelt, um menschliche Wissenschaftler:innen bei der Ausführung ihrer eigenen Forschungsideen mithilfe von Sprachagenten zu unterstützen - und nicht zu ersetzen.

Pixelart-Visualisierung eines Forschungsablaufs: Virtuelles Labor mit mehreren Agenten, Zeitstrahl von Literaturrecherche bis Berichterstellung und begleitende Dokumente.
Das Agent Laboratory ermöglicht einen vollständig automatisierten Forschungsprozess von der Literaturrecherche bis zur Berichterstellung. Mehrere KI-Agenten arbeiten in einer virtuellen Laborumgebung zusammen, um wissenschaftliche Untersuchungen durchzuführen und zu dokumentieren. | Bild: Schmidgall et al.

Literaturrecherche, Experimente und Berichterstellung

Der Arbeitsablauf von Agent Laboratory besteht aus drei Hauptphasen: Literaturrecherche, Experimente und Berichterstellung.

In der Literaturrecherche-Phase sammelt und kuratiert der PhD-Agent relevante Forschungsarbeiten für die gegebene Forschungsidee. Dabei nutzt der Agent die arXiv-API, um verwandte Arbeiten abzurufen und führt Aktionen wie Zusammenfassung, Volltext und Arbeit hinzufügen durch, um eine umfassende Übersicht zu erstellen.

Anzeige
Anzeige

In der Planungsphase erstellen die PhD- und Postdoc-Agenten durch einen Dialog einen detaillierten, umsetzbaren Forschungsplan auf Basis der Literaturrecherche und des Forschungsziels. Sie legen fest, wie das Forschungsziel erreicht werden soll und welche experimentellen Komponenten zur Umsetzung der spezifizierten Forschungsidee erforderlich sind.

Prozessdiagramm: Dreiphasiger Forschungsworkflow mit KI-Agenten für Literaturrecherche, Experimente und Berichtserstellung, inkl. Tools und Rollenverteilung.
Spezialisierte Tools wie mle-solver und paper-solver automatisieren komplexe Forschungsaufgaben von der Literaturrecherche bis zur Berichtserstellung. | Bild: Schmidgall et al.

In der Phase "Experimente durchführen" konzentriert sich der ML-Engineer-Agent auf die Implementierung und Ausführung des zuvor formulierten Versuchsplans. Dies wird durch mle-solver erleichtert, ein spezielles Modul, das maschinellen Lerncode autonom generiert, testet und verfeinert.

Schließlich fassen die PhD- und Professor-Agenten die Forschungsergebnisse in einem umfassenden akademischen Bericht zusammen, wofür die Forschenden hier ein Beispiel zur Verfügung stellen.

Dieser Prozess wird durch ein spezielles Modul namens paper-solver erleichtert, das den Bericht iterativ generiert und verfeinert, um die durchgeführte Forschung in einem für den Menschen lesbaren Format zusammenzufassen. Die einzelnen Prompts für den Forschungsprozess sind im Paper dokumentiert.

o1-preview schneidet bei der menschlichen Bewertung am besten ab

Menschen bewerteten dann die Arbeiten, die vom Tool im autonomen Modus generiert wurden, unter Berücksichtigung von experimenteller Qualität, Berichtsqualität und Nützlichkeit. Die Ergebnisse zeigten eine Variabilität in der Leistung über verschiedene LLM-Backends hinweg, wobei o1-preview als das nützlichste wahrgenommen wurde, während o1-mini die höchsten Bewertungen für die experimentelle Qualität erzielte.

Empfehlung

Die Bewertungen durch menschliche Gutachter:innen ergaben, dass o1-preview unter den Modellen am besten abschnitt, insbesondere in Bezug auf Klarheit und Stichhaltigkeit. Es zeigte sich jedoch eine deutliche Diskrepanz zwischen menschlichen und maschinellen Bewertungen: Die maschinellen Bewertungen überschätzten die Qualität im Vergleich zu den menschlichen Bewertungen deutlich.

Zwei Tabellen zeigen NeurIPS-Bewertungskriterien im Vergleich: Automatisierte vs. menschliche Reviewer-Scores für verschiedene Qualitätsaspekte wissenschaftlicher Arbeiten.
Die automatisierten Reviewer bewerten die generierten Paper durchschnittlich 2,3 Punkte höher als menschliche Gutachter. Besonders bei Klarheit und Präsentation zeigen sich deutliche Bewertungsunterschiede zwischen Menschen und KI-Systemen. | Bild: Schmidgall et al.

Der Copilot-Modus in Agent Laboratory wurde ebenfalls anhand von benutzerdefinierten und vorausgewählten Themen evaluiert. Im Vergleich zum autonomen Modus erhielten die in diesem Modus generierten Arbeiten insgesamt höhere Punktzahlen, obwohl es Kompromisse bei der experimentellen Qualität und der Nützlichkeit gab.

Für die verschiedenen Modell-Backends wurden detaillierte Kosten- und Inferenzzeitstatistiken vorgelegt, die zeigen, dass Agent Laboratory im Vergleich zu anderen Arbeiten eine automatische Forschung zu einem stark reduzierten Preis ermöglicht. Mit einem GPT-4o-Backend betrugen die Kosten pro Arbeit nur 2,33 US-Dollar.

Drei Tabellen vergleichen Kosten, Zeitaufwand und Erfolgsraten verschiedener KI-Modelle in Agent Laboratory über verschiedene Workflow-Phasen.
Die Performance-Analyse zeigt deutliche Unterschiede zwischen den drei KI-Modellen in Kosten, Zeit und Erfolgsrate. GPT-4o erreicht bei geringeren Kosten die höchste Gesamtleistung, während o1-preview trotz deutlich höherer Kosten und einer längeren Bearbeitungszeit nur ähnliche Erfolgsraten erzielt. | Bild: Schmidgall et al.

Zu den Einschränkungen von Agent Laboratory zählen die Forschenden, dass die Selbstbewertung durch die LLMs eine Herausforderung darstellt, dass die automatisierte Struktur die Möglichkeiten einschränkt und die Gefahr von Halluzinationen bei den generierten Inhalten besteht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Während der Fortschritt bei der Weiterentwicklung großer Sprachmodelle über die letzten Monate ins Stocken gekommen zu sein scheint, konzentrieren sich viele Unternehmen und Wissenschaftler:innen derzeit auf die Verknüpfung mehrerer LLM-Instanzen und Tools zu solchen Agenten-Frameworks. Dabei orientieren sie sich häufig an Strukturen und Arbeitsabläufen menschlicher Organisationen, etwa für Fokusgruppen oder zum Übersetzen langer Dokumente.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Agent Laboratory ist ein Open-Source-Framework von AMD und der Johns Hopkins University, das menschliche Ideenfindung mit KI-gesteuerten Arbeitsabläufen kombiniert, um die Forschungsarbeit im Bereich des maschinellen Lernens zu beschleunigen.
  • Der Arbeitsablauf besteht aus drei Hauptphasen: Literaturrecherche durch einen PhD-Agenten, Erstellung eines detaillierten Forschungsplans durch PhD- und Postdoc-Agenten sowie Implementierung und Ausführung von Experimenten durch einen ML-Engineer-Agenten.
  • Menschliche Bewertungen zeigten eine Variabilität in der Leistung über verschiedene LLMs hinweg, wobei o1-preview als am nützlichsten wahrgenommen wurde.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!