Künstliche Intelligenz ist nur so viel Wert wie die Daten, mit der sie trainiert wird. Facebook spannt die eigenen Nutzer für die Datengewinnung ein.
Bild- und Objekterkennung ist grundlegend für Künstliche Intelligenz: Sie bringt dem Computer das eigenständige Sehen bei. Sehende Computer mit einem Verständnis für die Umgebung sind wichtig für autonome Roboter, selbstfahrende Autos, Augmented und Virtual Reality und viele weitere Zukunftstechnologien.
Die zugrundeliegenden Trainingsverfahren sind allerdings aufwendig: Laut Facebooks Technikchef Mike Schroepfer ist die beste KI nicht dazu in der Lage, einen spezifischen Inhalt auf einem Bild zu erkennen, wenn dieser Inhalt nicht zuvor von einem Menschen beschrieben wurde.
Das bedeutet: Bilder müssen von Menschen durchgesehen und beschriftet werden, bevor die Künstliche Intelligenz sie verwerten kann. Bei Tausenden Bildern ist das eine Menge Handarbeit.
Crowdsourcing fürs KI-Training
Gut für Facebook, dass es eine starke Unterstützer-Gemeinschaft hat, die unwissentlich die arbeitsintensive Vorbereitung der Trainingsdaten übernimmt - sogar unbezahlt.
Es sind Instagram-Nutzer, die ihre Bilder auf die Fotoplattform hochladen und mit sogenannten Hashtags versehen. Das sind Stichwörter, die beschreiben, was auf dem Bild zu sehen ist, beispielsweise "Sonnenuntergang" oder "Pfannkuchen".
Facebook hat laut eigenen Angaben für das KI-Training Zugriff auf bis zu 3,5 Milliarden Instagram-Bilder, die mit circa 17.000 Hashtags versehen wurden. Bei der Vorsortierung wählte Facebook Bilder mit möglichst spezifischen Hashtags aus.
Diese Instagram-Datensätze sind offenbar gutes Trainingsmaterial: Eine Facebook-KI, die mit einer Milliarde Instagram-Bildern und 1.500 passenden Schlagworten trainiert wurde, erzielte anschließend beim Bildanalyse-Standardtest ImageNet eine Erkennungsrate von 85,4 Prozent. Es schlägt somit den bisherigen Bestwert um gut zwei Prozent. Schroepfer stellte dieses Ergebnis auf der Facebook Entwicklerkonferenz F8 vor.
Die Crowdsourcing-KI ist laut Facebook ein wichtiger Bestandteil zukünftiger KI-Entwicklung, da Datensätze immer umfangreicher werden.
Wer gewährleistet Qualität und Neutralität der Crowdsourcing-KI?
Allerdings drängt sich die Frage nach der Qualität und Neutralität von KI-Trainingsdaten auf, wenn diese nicht durch Wissenschaftler, sondern von jedermann erstellt werden:
Wer kann absehen, welche statistischen Verzerrungen sich bei Crowdsourcing-Daten in ein KI-System einschleichen? Und welche Konsequenzen es langfristig hat, wenn diese KI über viele Anwendungen hinweg skaliert wird? Wer kontrolliert und verantwortet, dass Menschen - noch dazu in Unkenntnis darüber, dass ihre Bilder für das Training einer Künstlichen Intelligenz verwendet werden - ihre Bilder fair und vorurteilsfrei verschlagworten?
Die Künstliche Intelligenz übernimmt die Informationen nur, sie bewertet sie nicht in einem gesellschaftlichen Kontext. Dafür ist der Mensch verantwortlich.
Facebook jedenfalls will die mit Instagram-Daten trainierte KI für die eigenen Plattformen einsetzen: Sie soll dabei helfen, unerwünschte Inhalte zu erkennen und bei der Moderation unterstützten. Neben Fotos können zukünftig auch Videos analysiert werden.
"Wir brauchen Durchbrüche bei Künstlicher Intelligenz, damit wir all unsere Probleme lösen können", sagt Schroepfer. Mit "uns" meint er Facebook, nicht die Menschheit.