Datenschutz: Fotos veröffentlichen = KI trainieren?

Entwickler von Systemen Künstlicher Intelligenz (KI) sind auf eine Nutzung umfangreicher Datenbestände angewiesen, wenn sie auf statistische Verfahren gestützte Modelle effektiv trainieren möchten. Allgemein gilt der Grundsatz: Die Qualität der Ergebnisse steigt mit der Quantität der Trainingsdaten. Was liegt da näher, als den „Datenhunger“ der KI mit öffentlich verfügbaren Informationen zu stillen?

Das Internet bietet hier reichlich Nahrung: Die Bilddokumentation des eigenen Lebens unter Einschluss zahlreicher anderer Personen in Sozialen Medien ist längst keine Seltenheit mehr. Dabei sind in Fotos oft mehr Informationen gespeichert, als es den Beteiligten lieb ist: Kontexte, Bildbeschreibungen, auch die gern übersehenen, oftmals automatisiert angelegten Metadaten „plaudern“ darüber, wer wo wie abgebildet ist. Eine KI, die aus solchen Daten lernt, wird dann auch damit arbeiten.

Risiken durch die Veröffentlichung von Posts und Fotos im Internet

In seinem unten vermerkten 34. Tätigkeitsbericht vom 28.10.2025 unter Nr. 8.1 ordnet der Bayerische Landesbeauftragte für den Datenschutz (BayLfD) die skizzierten Risiken ein und gibt Bürgerinnen und Bürgern wie auch bayerischen öffentlichen – insbesondere staatlichen und kommunalen – Stellen Empfehlungen für präventive Maßnahmen. Im Einzelnen führt der BayLfD Folgendes aus:

„Viele Nutzerinnen und Nutzer von internetbasierten Anwendungen, insbesondere Sozialen Medien, haben keine genauen Vorstellungen darüber, wie detailreich ihr digitales Abbild ausfällt – und welche ,Schönheitsfehler‘ es im Einzelnen (schon) zeigt. Manche vor Jahren geschriebenen Posts und hochgeladenen Fotos sind immer noch öffentlich, selbst wenn die Kennung und das Passwort für die betreffende Plattform längst vergessen sind und die Nutzerin oder der Nutzer auf andere Plattformen weitergezogen ist. Vielen Nutzenden war bei alldem auch nie so recht bewusst, dass moderne Smartphones gespeicherte Fotos häufig ,von sich aus‘ mit Metadaten wie dem Namen oder Geokoordinaten anreichern. Nutzende können deshalb durchaus weit mehr von sich öffentlich preisgegeben haben, als ihnen aktuell bewusst und/oder erwünscht ist.

Was einmal an zuordnungsfähigen Informationen, insbesondere an Fotos, öffentlich ist, kann grundsätzlich jedermann zu Gesicht bekommen – auch derzeitige (oder zukünftige) Vorgesetzte, Geschäftspartnerinnen, die Gegenpartei in einem Rechtsstreit, Mitschüler, (Ex-)Partner oder Verwandte. Ganz unscheinbar und zunächst einmal unbemerkt gesellt sich eine wachsende Anzahl von KI-Systemen hinzu, die öffentlich abrufbare Informationen zu unterschiedlichen, teils unbekannten oder sogar unerwünschten Zwecken sammeln (,crawlen‘) und nutzen. Initiativen wie das Large-scale Artificial Intelligence Open Network (LAION) kommen den KI-Entwicklern noch weiter entgegen: Nach ihren an sich positiv klingenden Grundsätzen von Transparenz und Offenheit bietet diese Non-Profit-Organisation eigenen Angaben zufolge Trainings-Datensätze, Werkzeuge und Modelle zum Experimentieren mit Machine Learning zur freien Verfügung an. Auf dieser Grundlage sollen KI-Anwendungen ohne hohe Investitionskosten für den Aufbau umfangreicher Datenbestände entwickelt werden können, damit – so das Ziel dieser Organisation – nicht ausschließlich finanzstarke Großunternehmen den Markt- und Forschungsbereich ,KI‘ unter sich aufteilen. Wie ein bekannt gewordener Fall zeigt, können solche Trainingsdatensätze jedoch auch (ungewollt) sogar sensible personenbezogene Daten enthalten: Bei der Analyse des Trainingsdatensatzes für die KI-Bildgenerierung ,LAION5B‘ haben Datenjournalistinnen des Bayerischen Rundfunks eine Vielzahl an Informationen entdeckt, mit denen Personen identifiziert werden könnten: Neben Gesichtern und Namen fanden sie Geokoordinaten, E-Mails und sogar Kontonummern.

Das Beispiel zeigt: Angesichts des ,Datenhungers‘ von KI und der bereits heute umfangreichen Verarbeitung öffentlich abrufbarer Informationen ist immer wieder zu überdenken, welche potenziellen Risiken mit einer Veröffentlichung personenbezogener Informationen einhergehen können. Unbeabsichtigt preisgegebene, zusätzliche Informationen in Form von Metadaten verschärfen das Problem zusätzlich.

Insbesondere trägt der internationale Datenhandel dazu bei, dass ,das Internet‘ einmal veröffentlichte Daten oft nicht ,vergisst‘ – selbst wenn personenbezogene Daten auf Löschungsanträge hin aus einzelnen Trainingsdatensätzen vielleicht eliminiert werden können. Sind die Daten einmal in ein KI-System eingeflossen, gestaltet sich die Situation noch komplizierter: Einzelne Daten können grundsätzlich nicht wieder ,heraustrainiert‘ werden. Vielmehr müsste das jeweilige Modell mit einem aktualisierten Trainingsdatensatz ,fortgebildet‘ werden (was mit erheblichen Kosten verbunden wäre). Zudem lässt sich an einem trainierten Modell in der Regel nicht nachweisen, dass bestimmte Daten Teil der Trainingsdaten waren.

Die Risiken für die Rechte und Freiheiten der Bürgerinnen und Bürger wachsen also. Werden etwa Personenfotos zum Training KI-gestützter Gesichtserkennung genutzt und wird dieses Instrument etwa in einem Urlaubsland für Fahndungszwecke eingesetzt, können sich bei einer ,ahnungslosen‘ Einreise leicht nachteilige Konsequenzen ergeben – zumal im Fall falsch-positiver Treffer.“

Fotos sind mehr als die Summe ihrer Pixel

„Beim Speichern eines Fotos können der eigentlichen Aufnahme zusätzliche Informationen (sog. Metadaten) – meist automatisiert – hinzugefügt werden. Dabei fungiert etwa das ,Exchangeable Image File Format‘ (kurz: ,Exif‘) als Standard für solche Metadaten und definiert eine ganze Reihe an Datenfeldern (sog. ,Exif-Tags‘) mit technischen Informationen, wie etwa Kameramodell, Zeitpunkt der Aufnahme oder Kameraeinstellungen. Die Liste an Informationen wirkt auf den ersten Blick unauffällig, doch können gleich in mehreren Datenfeldern personenbezogene Daten hinterlegt werden. Besonders erwähnenswert sind hier die Felder ,Autor/Fotograf‘ sowie der Copyright-Vermerk, die ganz bewusst einen Personenbezug vorsehen, aber auch die geografische Position, die von Geräten mit integriertem GPS-Sensor hinzugefügt wird (fast jedes moderne Smartphone verfügt über einen solchen). Viele sind sich der Existenz dieser Datenfelder ebenso wenig bewusst wie der schädlichen Verwendungsmöglichkeiten für deren Inhalte. Werden Fotodateien mit Exif-Tags im Internet veröffentlicht, kann die Privatsphäre beispielsweise folgendermaßen beeinträchtigt werden:

Ortungsverfolgung: Eine Person veröffentlicht ein Urlaubsfoto an einem Strand. Das Foto weist keine besonderen Landschaftsmerkmale auf und die Person ist deshalb der Überzeugung, dass ihr konkreter Aufenthaltsort bei einer Veröffentlichung dieses Fotos unbekannt bleibt. Das für die Aufnahme genutzte Smartphone speichert jedoch im Hintergrund die Geokoordinaten mit ab. Wird diese Bilddatei auf ein Soziales Netzwerk hochgeladen, können die Metadaten ausgelesen werden, um den Standort des Benutzers zu erfahren. Dass es sich hierbei um kein rein theoretisches Szenario handelt, zeigt ein Fall, über den die Presse bereits im Jahr 2012 berichtete.
Veröffentlichung privater Momente: Angenommen, eine Person lädt ein Bild mit sensiblen Inhalten – wie zum Beispiel ein freizügiges Foto oder eine private Versammlung – in der Annahme hoch, dass sie selbst auf dem Foto nicht ohne weiteres identifizierbar ist (Gesicht nicht ausreichend gut erkennbar). Da die Metadaten aber den Namen des Benutzers enthalten können, ist mit diesen unbewusst mitgespeicherten Informationen unter Umständen doch eine Identifizierung möglich. Dies war zwar bereits vor der Existenz aktueller KI möglich, neueste Entwicklungen in der Bilderkennung und im gesamten Verarbeitungsprozess verschärfen das Problem aber deutlich. Fotos können automatisiert in sehr großer Zahl und sehr hoher Geschwindigkeit verarbeitet, verglichen und ganz allgemein mit anderen Fotos und Informationen zusammengeführt werden. Das ist betroffenen Personen beim Hochladen oder dem Festlegen der Privatsphäreeinstellungen oftmals kaum bewusst. Fotos, auf denen Gesichter zu erkennen sind, können schnell zur Quelle einer Rufschädigung werden …“

(…)

34. Tätigkeitsbericht des Bayerischen Landesbeauftragten für den Datenschutz vom 28.10.2025

Den vollständigen Beitrag lesen Sie in der Fundstelle Bayern 07/2026, Rn. 61.