Agent Laboratory soll menschliche Forschungsarbeit unterstützen

Agent Laboratory ist ein agentisches Open-Source-Framework von AMD und der Johns Hopkins University, das die Forschungsarbeit im Bereich des maschinellen Lernens beschleunigen soll. Dabei kombiniert es menschliche Ideenfindung mit KI-gesteuerten Arbeitsabläufen.

Im Gegensatz zu früheren Ansätzen, die sich auf die unabhängige Forschungsideenfindung durch KI-Agenten konzentrierten, wurde Agent Laboratory entwickelt, um menschliche Wissenschaftler:innen bei der Ausführung ihrer eigenen Forschungsideen mithilfe von Sprachagenten zu unterstützen - und nicht zu ersetzen.

Pixelart-Visualisierung eines Forschungsablaufs: Virtuelles Labor mit mehreren Agenten, Zeitstrahl von Literaturrecherche bis Berichterstellung und begleitende Dokumente. — Das Agent Laboratory ermöglicht einen vollständig automatisierten Forschungsprozess von der Literaturrecherche bis zur Berichterstellung. Mehrere KI-Agenten arbeiten in einer virtuellen Laborumgebung zusammen, um wissenschaftliche Untersuchungen durchzuführen und zu dokumentieren. | Bild: Schmidgall et al.

Literaturrecherche, Experimente und Berichterstellung

Der Arbeitsablauf von Agent Laboratory besteht aus drei Hauptphasen: Literaturrecherche, Experimente und Berichterstellung.

In der Literaturrecherche-Phase sammelt und kuratiert der PhD-Agent relevante Forschungsarbeiten für die gegebene Forschungsidee. Dabei nutzt der Agent die arXiv-API, um verwandte Arbeiten abzurufen und führt Aktionen wie Zusammenfassung, Volltext und Arbeit hinzufügen durch, um eine umfassende Übersicht zu erstellen.

In der Planungsphase erstellen die PhD- und Postdoc-Agenten durch einen Dialog einen detaillierten, umsetzbaren Forschungsplan auf Basis der Literaturrecherche und des Forschungsziels. Sie legen fest, wie das Forschungsziel erreicht werden soll und welche experimentellen Komponenten zur Umsetzung der spezifizierten Forschungsidee erforderlich sind.

Prozessdiagramm: Dreiphasiger Forschungsworkflow mit KI-Agenten für Literaturrecherche, Experimente und Berichtserstellung, inkl. Tools und Rollenverteilung. — Spezialisierte Tools wie mle-solver und paper-solver automatisieren komplexe Forschungsaufgaben von der Literaturrecherche bis zur Berichtserstellung. | Bild: Schmidgall et al.

In der Phase "Experimente durchführen" konzentriert sich der ML-Engineer-Agent auf die Implementierung und Ausführung des zuvor formulierten Versuchsplans. Dies wird durch mle-solver erleichtert, ein spezielles Modul, das maschinellen Lerncode autonom generiert, testet und verfeinert.

Schließlich fassen die PhD- und Professor-Agenten die Forschungsergebnisse in einem umfassenden akademischen Bericht zusammen, wofür die Forschenden hier ein Beispiel zur Verfügung stellen.

Dieser Prozess wird durch ein spezielles Modul namens paper-solver erleichtert, das den Bericht iterativ generiert und verfeinert, um die durchgeführte Forschung in einem für den Menschen lesbaren Format zusammenzufassen. Die einzelnen Prompts für den Forschungsprozess sind im Paper dokumentiert.

o1-preview schneidet bei der menschlichen Bewertung am besten ab

Menschen bewerteten dann die Arbeiten, die vom Tool im autonomen Modus generiert wurden, unter Berücksichtigung von experimenteller Qualität, Berichtsqualität und Nützlichkeit. Die Ergebnisse zeigten eine Variabilität in der Leistung über verschiedene LLM-Backends hinweg, wobei o1-preview als das nützlichste wahrgenommen wurde, während o1-mini die höchsten Bewertungen für die experimentelle Qualität erzielte.

Empfehlung

KI-Forschung

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

Die Bewertungen durch menschliche Gutachter:innen ergaben, dass o1-preview unter den Modellen am besten abschnitt, insbesondere in Bezug auf Klarheit und Stichhaltigkeit. Es zeigte sich jedoch eine deutliche Diskrepanz zwischen menschlichen und maschinellen Bewertungen: Die maschinellen Bewertungen überschätzten die Qualität im Vergleich zu den menschlichen Bewertungen deutlich.

Zwei Tabellen zeigen NeurIPS-Bewertungskriterien im Vergleich: Automatisierte vs. menschliche Reviewer-Scores für verschiedene Qualitätsaspekte wissenschaftlicher Arbeiten. — Die automatisierten Reviewer bewerten die generierten Paper durchschnittlich 2,3 Punkte höher als menschliche Gutachter. Besonders bei Klarheit und Präsentation zeigen sich deutliche Bewertungsunterschiede zwischen Menschen und KI-Systemen. | Bild: Schmidgall et al.

Der Copilot-Modus in Agent Laboratory wurde ebenfalls anhand von benutzerdefinierten und vorausgewählten Themen evaluiert. Im Vergleich zum autonomen Modus erhielten die in diesem Modus generierten Arbeiten insgesamt höhere Punktzahlen, obwohl es Kompromisse bei der experimentellen Qualität und der Nützlichkeit gab.

Für die verschiedenen Modell-Backends wurden detaillierte Kosten- und Inferenzzeitstatistiken vorgelegt, die zeigen, dass Agent Laboratory im Vergleich zu anderen Arbeiten eine automatische Forschung zu einem stark reduzierten Preis ermöglicht. Mit einem GPT-4o-Backend betrugen die Kosten pro Arbeit nur 2,33 US-Dollar.

Drei Tabellen vergleichen Kosten, Zeitaufwand und Erfolgsraten verschiedener KI-Modelle in Agent Laboratory über verschiedene Workflow-Phasen. — Die Performance-Analyse zeigt deutliche Unterschiede zwischen den drei KI-Modellen in Kosten, Zeit und Erfolgsrate. GPT-4o erreicht bei geringeren Kosten die höchste Gesamtleistung, während o1-preview trotz deutlich höherer Kosten und einer längeren Bearbeitungszeit nur ähnliche Erfolgsraten erzielt. | Bild: Schmidgall et al.

Zu den Einschränkungen von Agent Laboratory zählen die Forschenden, dass die Selbstbewertung durch die LLMs eine Herausforderung darstellt, dass die automatisierte Struktur die Möglichkeiten einschränkt und die Gefahr von Halluzinationen bei den generierten Inhalten besteht.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Während der Fortschritt bei der Weiterentwicklung großer Sprachmodelle über die letzten Monate ins Stocken gekommen zu sein scheint, konzentrieren sich viele Unternehmen und Wissenschaftler:innen derzeit auf die Verknüpfung mehrerer LLM-Instanzen und Tools zu solchen Agenten-Frameworks. Dabei orientieren sie sich häufig an Strukturen und Arbeitsabläufen menschlicher Organisationen, etwa für Fokusgruppen oder zum Übersetzen langer Dokumente.

Agent Laboratory soll menschliche Forschungsarbeit unterstützen

Literaturrecherche, Experimente und Berichterstellung

o1-preview schneidet bei der menschlichen Bewertung am besten ab

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

OpenAIs neuer Agent verwirklicht eine Vision, die das Unternehmen seit 2017 verfolgt

Start-up Butterfly Effect hinter KI-Agent "Manus" löst China-Team auf

Salesforce will die Verkehrsleitung im Agenten-Zeitalter übernehmen

Mathe-Durchbruch von OpenAI zeigt den stillen Fortschritt bei KI-Selbsteinschätzung

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Agent Laboratory soll menschliche Forschungsarbeit unterstützen

Literaturrecherche, Experimente und Berichterstellung

o1-preview schneidet bei der menschlichen Bewertung am besten ab

Artikel teilen

Bankverbindung