Daten, Daten, Daten – Gesichter für die KI

Wer ein neuronales Netz trainieren möchte, benötigt sehr viele Daten. Das ist allgemein bekannt. Doch woher kommen die Daten? Sind es Netze, die das Verhalten einer Produktionsmaschine lernen sollen, ist es noch relativ einfach. Die Sensoren liefern Daten und der Mensch kann sie klassifizieren. Damit kann man lernen. Es existieren Unmengen von offenen Datenbanken mit Trainingsdaten für nahezu alle Arten von neuronalen Netzen. Kaggle hat einiges an Sets, damit man sein Algorithmus anlernen und validieren kann. Viele Unternehmen bieten unter dem Begriff Open Data einige Daten, wie beispielsweise die Bahn es tut.

Die Frage ist, woher diese Daten alle Stammen. Bei den Daten der Unternehmen ist es noch relativ einfach zu sagen. Trainingssets für Bilderkennung sind da schon schwerer nachvollziehbar.

Eine bekannte Datenbank für Gesichtserkennung ist MegaFace. Darin enthalten sind Millionen von Trainingsdaten und Testsets. Ein Traum – vor allem für die, die Algorithmen verbessern, neuronale Netze trainieren oder validieren möchten.

Nur, woher stammen diese Bilder?

Die Antwort ist so einfach wie erschreckend: Aus dem Netz. Bei MegaFace allem Anschein nach auch von Flickr. Wer dort Fotos seiner Kinder hochgeladen und dabei die Lizenz auf Creative Commons gestellt hat, wird wahrscheinlich die fotografierten Gesichter in dieser Datenbank finden können. Schöne neue Welt.

Einmal mehr bewahrheitet sich die Weisheit:

Das Internet vergisst nichts.

Auch wenn die Bilder aus Flickr schon lange entfernt wurden, MegaFace hat sie wahrscheinlich noch. Der ungeheuere Datenhunger im Bereich der KI und der unachtsame Umgang mit seinen Bildern, führt zu solchen Auswüchsen. Liest man die Datenschutzbedingungen von Instagram, stellt man schnell fest: Meine Bilder gehören zwar mir, aber Instagram darf damit auch außerhalb der Plattform machen, was sie wollen. Das ist nur ein Beispiel. Instagram und WhatsApp gehören zu Facebook, um noch mal daran zu erinnern. Vermutlich ist es bei anderen Bilderdiensten nicht anders. Das validiert eine weitere Weisheit der Neuzeit:

Daten sind das neue Öl.

Daher ist es um so wichtiger, immer zu überlegen, welche Bilder veröffentlicht werden. Vor allem wenn es sich um Kinderfotos handelt. Die haben im Prinzip nichts auf diesen Plattformen zu suchen. Fotos von anderen müssen immer mit Einverständnis veröffentlicht werden.

Photo by John Noonan on Unsplash

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.