Der Tech-Riese IBM hat Anfang des Jahres einen KI-Trainingsdatensatz für Gesichtserkennung veröffentlicht. Doch die Urheber der Fotos wissen nichts von ihrer Beteiligung.
KIs brauchen Trainingsdaten und zwar viele – aber woher kommen die? Meist stammen sie aus öffentlichen Datensätzen, die von staatlichen Institutionen, Forschungseinrichtungen oder großen Firmen zusammengestellt werden.
Beispiele sind das Statistische Bundesamt, die amerikanische Sammlung öffentlicher Daten „data.gov“ oder der Bild-Datensatz „ImageNet“, mit dem Google Bild-KIs trainiert.
Wer eine KI auf Gesichtserkennung trainieren will, braucht vor allem eines: Fotos von Gesichtern. Auch hier gibt es eine Vielzahl Datensätze. Der Gesichtserkennungsspezialist „Kairos“ führt in einem Blog-Beitrag aktuell 60 frei verfügbare Sätze auf.
Ist eine Gesichtserkennungs-KI trainiert, kann sie für verschiedene Aufgaben eingesetzt werden: iPhones entsperren, einzelne Personen in Menschenmengen erkennen, verschlossene Türen öffnen und mehr.
Fragwürdiger Ursprung der Fotos
Doch woher stammen die vielen Fotos in den Datensätzen? Die Antwort laut NBC: Ein guter Teil wird einfach aus dem Internet gezogen. Entsprechende Bilder würden häufig ohne das Wissen der Menschen gesammelt, die sie ins Internet hochgeladen haben.
„Das ist das schmutzige kleine Geheimnis der KI-Trainingsdaten. Forscher schnappen sich einfach alle Bilder, die sie finden können“, sagte NYU Jura-Professor Jason Schultz gegenüber NBC. Es existierten Dutzende Foto-Datensätze, die hauptsächlich mit Internetbildern bestückt würden.
Flickr-Nutzer sind ahnungslos
Jüngstes Beispiel: Der “Diversity of Faces“ Datensatz von IBM. Die im Januar veröffentlichte Sammlung enthält knapp eine Million Fotos der Bildplattform Flickr. Doch keiner der von NBC kontaktierten Urheber wusste etwas von der unfreiwilligen Beteiligung am KI-Training.
Von einigen Fotografen finden sich fast 1.000 Fotos von Familien und Bekannten im Datensatz. Da die Fotos über die Creative Commons Lizenz eingestellt wurden, ist das grundsätzlich erlaubt - sofern der Konzern die Daten nicht verwendet, um eigene Produkte zu entwickeln. Laut IBM ist das nicht der Fall.
Neben den Bedenken zum Schutz des Urheberrechts existieren ethische: Die zweckentfremdete Bildverwendung ist ein Eingriff in die Privatsphäre von Millionen Menschen, der einer umstrittenen Technologie zugutekommt.
Die Urheber hätten ihre Einwilligung zum Gebrauch ihrer Fotos unter der Creative Commons Lizenz in einem anderen Kontext gegeben, sagte Meredith Whittake, Co-Direktor des AI Now Instituts, gegenüber NBC.
Jetzt würden sie unwissentlich zu Mithelfern bei der Entwicklung einer Technologie, die als Überwachungsinstrument missbraucht werden könne.
IBM verkauft schon länger Überwachungssoftware
Dass diese Befürchtung nicht unbegründet ist, zeigt ein Blick auf IBMs Geschichte: Nach den Terroranschlägen in New York im September 2001 verkaufte die Firma der New Yorker Polizei Überwachungstechnologie, die Personen anhand der Haut- oder Haarfarbe identifizierte. IBM führt außerdem eine Videoanalysesoftware, die in den Aufnahmen von Körperkameras der Polizei Menschen nach Herkunft filtert.
Der neue IBM Datensatz soll jedoch das genaue Gegenteil bewirken: Er soll Vorurteile gegenüber Minderheiten reduzieren. Woody Hartzog, Professor für Recht und Computerwissenschaft, spricht gegenüber NBC von einer "Zwickmühle": Gesichtserkennung könne sehr schädlich sein, wenn sie ungenau ist, und sehr repressiv, wenn sie sehr genau ist.
Quelle: NBC