Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Logan Kilpatrick, der bei OpenAI für die Beziehungen zu den Entwicklern zuständig ist, sieht Prompt Engineering als "Fehler und nicht als Funktion".

Prompting als Fähigkeit sei nicht anders als die Fähigkeit, effizient mit Menschen zu sprechen. Die "harte Arbeit", einen Prompt im Detail zu formulieren, müsse von KI-Systemen übernommen werden.

Das wiederum werte die drei Fähigkeiten Lesen, Schreiben und Sprechen auf. Zwar könne man mit speziellen Prompts gelegentlich fünf Prozent mehr Leistung erzielen. Der Aufwand für gute Ergebnisse würde aber in Zukunft um den Faktor 10 sinken, so dass sich spezielle Prompts nicht mehr lohnen würden.

OpenAI hat bereits bei der Veröffentlichung von DALL-E 3 deutlich gemacht, dass es komplexe Prompts eher als hinderlich ansieht: Die konkreten, sehr detaillierten Prompts schreibt die Bild-KI einfach selbst auf Basis der Nutzerwünsche. Bei der Veröffentlichung der Software hat OpenAI explizit darauf hingewiesen, dass komplexe Prompts nicht mehr notwendig seien.

Anzeige
Anzeige

Prompting überflüssig? Big AI macht’s nicht vor

Kilpatricks Prognose steht in krassem Gegensatz zu der Art und Weise, wie Big AI derzeit selbst Sprachmodelle und deren Fortschritte präsentiert: Hier spielt Prompting eine ganz wesentliche Rolle, um Bestwerte in Benchmarks zu erzielen.

So nutzte Google bei der Vorstellung von Gemini Ultra ein komplexes Prompting-Verfahren, um im viel beachteten Sprachverständnis-Benchmark MMLU einen neuen Bestwert zu erzielen.

Dabei wurde das eigene Modell Gemini Ultra mit GPT-4 mit einem alternativen, weniger leistungsfähigen Prompting-Verfahren verglichen, was Google Kritik einbrachte.

Kurz darauf konterten Microsoft und OpenAI mit einem noch komplexeren Prompt: Dank einer adaptierten Variante des für medizinische Zwecke entwickelten "Medprompt" schlug GPT-4 Gemini Ultra im MMLU erneut.

Aber Medprompt selbst ist wiederum ein anschauliches Beispiel für die Bedeutung guter Prompts: Es konnte die Trefferquote von GPT-4 im MedQA-Datensatz auf über 90 Prozent anheben, mit einer Leistungssteigerung von etwa acht Prozent.

Empfehlung
Bild: Microsoft

In der Praxis können diese acht Prozent den Unterschied zwischen "unbrauchbar" und "brauchbar" ausmachen, wenn es um die Genauigkeit bei der Beantwortung medizinischer Fragen geht.

Auf der anderen Seite, und das ist das Zukunftsszenario, das Kilpatrick meint: Wenn GPT-5 und Co. in diesem Beispiel von Haus aus deutlich an der 90-Prozent-Marke liegen, verliert ein Verfahren wie Medprompt an Relevanz.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Logan Kilpatrick, der bei OpenAI für die Beziehungen zu den Entwicklern zuständig ist, hält Prompt Engineering für einen "Fehler und keine Funktion" und erwartet, dass der Aufwand, um gute Ergebnisse zu erzielen, in Zukunft um den Faktor 10 sinken wird.
  • Dennoch setzen große KI-Unternehmen wie Google und Microsoft derzeit auf komplexe Prompts, um in Benchmarks wie Googles Gemini Ultra und Microsofts GPT-4 die besten Ergebnisse zu erzielen.
  • Kilpatrick prognostiziert, dass zukünftige KI-Modelle wie GPT-5 inhärent leistungsfähiger sein werden, wodurch komplexe Prompts an Relevanz verlieren.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!