Inhalt
summary Zusammenfassung

Bei der Analyse der Trainingstexte des Open-Source-Sprachmodells Bloom sind sensible Daten und rassistische Beleidigungen aufgetaucht. Ein Datensatz-Such-Tool soll die Transparenz zukünftiger Modelle verbessern.

Anzeige

"Warum sagen LMs (Language Models, also: Sprachmodelle), was sie sagen? Wir wissen es oft nicht - aber vielleicht bekommen wir jetzt eine bessere Vorstellung davon." Mit diesen Worten kündigt NLP-Forscherin Aleksandra "Ola" Piktus ihr jüngstes Projekt auf Twitter an.

In Zusammenarbeit mit Hugging Face hat die Wissenschaftlerin die Suchmaske "Roots" für das Open-Source-Modell Bloom veröffentlicht, mit dem sich die zugrundeliegende Datenbank mit 176 Milliarden Parametern in 59 Sprachen durchsuchen lässt.

Bloom ist im Juli 2022 gestartet und eine mögliche Open-Source-Alternative zu GPT-3 von OpenAI, insbesondere wegen des frei zugänglichen und mehrsprachigen Charakters.

Anzeige
Anzeige

Tool soll Messlatte "für die nächste Generation" Sprachmodell höher setzen

Die Möglichkeit, Trainingsmaterial ohne Coding-Kenntnisse zu durchsuchen, sei notwendig, um ein gemeinsames Verständnis häufiger Probleme aufzubauen und die Messlatte für die nächste Generation Sprachmodelle höher zu legen, so Piktus.

Mithilfe der Roots-Suchmaschine seien bereits sensible Daten von Privatpersonen, Sprachkontamination und Fake News gefunden worden. Eine Frau fand mit einer ähnlichen Suchmaschine für KI-Trainingsbilder zuvor Fotos aus ihrer Krankenakte im Datensatz.

Roots durchsucht 1,6 TB an Textdaten in 46 natürlichen und 13 Programmiersprachen. Die Analyse von Piktus zeigt: Die einzelnen Datenpunkte unterscheiden sich drastisch in ihrer Länge. Um sie aber vergleichen und einordnen zu können, hat sie diese in gleich große Passagen von 128 Wörtern aufgeteilt und jedem eine eindeutige ID zugewiesen.

Bild: Aleksandra Piktus

Sensible Daten sind geschwärzt statt entfernt

Der Datensatz OSCAR ist Piktus als Quelle besonders vieler persönlicher Daten aufgefallen. Damit diese nicht durch die Suchmaschine an die Öffentlichkeit gelangen, wird ein Skript angewandt, die die Ergebnisse schwärzt.

"Auf diese Weise kann man die Daten einsehen und das Problem beobachten, aber persönliche Informationen werden überwiegend entfernt", heißt es im begleitenden Papier.

Empfehlung
Bild: Aleksandra Piktus

Rassismus und Hassrede kommt unter anderem aus Filmuntertiteln

Die beteiligten Wissenschaftler:innen hätten zudem Anzeichen für "minderwertige Texte" beobachtet, etwa rassistische Beleidigungen, sexuell eindeutige Sprache oder Hassreden, die häufig aus Datensätzen mit Filmuntertiteln stammen würden.

Während Menschen diese Form der Sprache, die meistens bewusst eingesetzt werde, im Kontext einordnen könnten, übernehme sie ein Sprachmodell ohne Einordnung, so die Forscherin.

Die aktuelle Version des Tools sei stark von der Benutzerführung populärer Suchmaschinen beeinflusst. Für die Zukunft sei geplant, mehr quantitative Informationen wie die Häufigkeit bestimmter Begriffe, die Anzahl der Treffer oder Co-Occurrence-Statistiken anzuzeigen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Für ein besseres Verständnis von Sprachmodellen kann deren Trainingsmaterial untersucht werden.
  • Eine Forscherin hat daher eine Datensatz-Suchmaschine für das Open-Source-Modell Bloom veröffentlicht.
  • Rassismus und Hassrede in den Trainingsdaten kommen unter anderem aus Filmuntertiteln.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!