Für das Training Künstlicher Intelligenz tragen Organisationen und Unternehmen große Datenmengen zusammen - häufig aus dem Internet. Ein neues Tool soll mehr Transparenz in die Bildverwendung bringen.
So kann es passieren, dass die eigenen ins Internet hochgeladenen Bilder unfreiwillig Teil einer Datenmasse für das KI-Training werden. Beispielsweise geriet IBM in die Kritik, als das Unternehmen im Januar 2019 einen Datensatz für das Gesichtstraining veröffentlichte, der knapp eine Million Fotos von Flickr enthielt.
Die Urheber gaben ihre Einwilligung indirekt beim Hochladen der Bilder, da sie diese kostenlos und frei verfügbar unter einer Creative Commons Lizenz anboten. Allerdings enthält die Lizenz keinen Passus zum Thema KI-Training, sondern nur für die Weiterverwertung der Bilder in herkömmlichen Nutzungsszenarien. Klar: Die Macher der CC-Lizenz hatten bei deren Konzeption den Aufschwung von Deep Learning verständlicherweise nicht auf dem Schirm.
Rückwärtssuche zeigt Datensatzzugehörigkeit von Bildern
Adam Harvey, US-Künstler und Forscher aus Berlin, befasst sich seit einigen Jahren mit Gesichtserkennung, ihren Folgen und wie man die Systeme bekämpfen kann, unter anderem mit Spezialkleidung, die den Algorithmus verwirrt.
Jetzt hat Harvey gemeinsam mit Kollegen ein neues Projekt gestartet: Auf der Webseite Exposing.ai lässt sich prüfen, ob ein bestimmtes Foto in einer von sechs großen Datenbanken auftaucht, die typischerweise für das Training und das Benchmarking von Bildanalyse-KIs eingesetzt werden oder wurden. Derzeit unterstützt die Rückwärtssuche nur die Fotoplattform Flickr, eine Unterstützung für YouTube ist laut Spiegel in Planung.
Der Datensatz Megaface beispielsweise wurde nach Recherchen der New York Times unter anderem vom Verteidigungsunternehmen Northrop Grumman, von In-Q-Tel, Investmentarm der CIA, ByteDance, Muttergesellschaft der chinesischen Social-Media-App TikTok und vom chinesischen Überwachungsunternehmen Megvii heruntergeladen - und das, obwohl der Datensatz für wissenschaftliche Benchmarks und nicht für kommerzielle Zwecke zusammengestellt wurde. Megaface wird offiziell nicht mehr weiterentwickelt und verteilt.
Titelbild: Microsoft