Inhalt
summary Zusammenfassung

Forscher des Tencent AI Lab Seattle haben eine neue Methode zur Generierung synthetischer Daten vorgestellt: synthetische Persönlichkeiten.

Anzeige

Das Tencent AI Lab nennt sie "Personas" und schafft damit Stellvertreter für reale Menschen, um Milliarden synthetischer Datensätze für die Entwicklung von KI-Systemen zu generieren.

Als Teil der Forschung hat das Team den "Persona Hub" geschaffen, eine Sammlung von 1 Milliarde virtueller Charaktere. Die Forscher verwenden zwei Ansätze: Bei "Text-to-Persona" werden Persönlichkeiten aus Webtexten abgeleitet. "Persona-to-Persona" hingegen generiert neue Personas auf Basis von Beziehungen zu bereits erstellten Persönlichkeiten. Im Prinzip dienen die Personas als eine Art Multiplikator für synthetische Daten, da die unterschiedlichen Hintergründe jeweils eigene Datenvarianten erzeugen können, ähnlich wie beim Prompting eine zugewiesene Rolle die Ausgabe von Sprachmodellen beeinflusst.

Bild: Tencent AI Lab Seattle

Synthetische Personas können dazu verwendet werden, eine Vielzahl von Daten für das Training von KI-Modellen zu generieren. Als Beispiele nennen sie mathematische Probleme, logische Denkaufgaben und Anweisungen für Sprachmodelle.

Anzeige
Anzeige

Personas können Wissen großer Sprachmodelle "auslesen"

In einem Experiment generierten die Forscher mit Hilfe von Persona Hub 1,07 Millionen mathematische Aufgaben. Ein damit trainiertes Modell mit 7 Milliarden Parametern erreichte im MATH-Benchmark eine Genauigkeit von 64,9 Prozent. Das entspricht der Leistung von OpenAIs gpt-4-turbo-preview bei einem Bruchteil der Modellgröße.

Die Wissenschaftler sehen in ihrer Methode das Potenzial für einen Paradigmenwechsel in der Datengenerierung für KI. Statt auf von Menschen erzeugte Daten angewiesen zu sein, könnten große Sprachmodelle künftig selbst vielfältige synthetische Daten erzeugen. Weitere Anwendungsmöglichkeiten sieht das Team für NPCs in Videospielen oder in der Entwicklung von berufsspezifischen Tools.

Die Publikation weist aber auch auf mögliche Risiken und ethische Bedenken hin. So könnte die Methode es ermöglichen, die gesamte in einem Sprachmodell gespeicherte Wissensbasis quasi "auszulesen" und zu replizieren.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Tencent AI Lab Seattle haben eine Methode entwickelt, um mit synthetischen Persönlichkeiten Milliarden von Datensätzen für das Training von KI-Modellen zu generieren.
  • Das Team schuf den "Persona Hub" mit einer Milliarde virtueller Charaktere, die als Multiplikator für synthetische Daten dienen, indem sie durch ihre Hintergründe vielfältige Datenvarianten erzeugen können.
  • Die Methode könnte einen Paradigmenwechsel ermöglichen, bei dem große Sprachmodelle selbstständig Trainingsdaten generieren, birgt aber auch Risiken wie die Replikation der gesamten Wissensbasis eines Modells.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!