
Förderjahr 2023 / Stipendien Call #18 / ProjektID: 6755 / Projekt: Data-based algorithmic systems and individuals
Wenn es um gesellschaftlich unerwünschte Effekte von KI-Systemen geht, ist ein Thema, das immer wieder aufkommt, das Thema „Bias“. Der Begriff Bias ist breit und auch in verschiedenen wissenschaftlichen Disziplinen verortet—ein und derselbe Begriff meint je nach disziplinärer Einbettung etwas Anderes: In der Psychologie geht es dabei um verzerrte kognitive Wahrnehmungen oder Beurteilungen—etwa der „authority bias“, der den Effekt beschreibt, dass Informationen, die von Autoritätspersonen stammen, tendenziell eher geglaubt wird. In der Statistik beschreibt Bias die systematische Abweichung einer zu schätzenden Größe von dem tatsächlich eingetretenen Ereignis bzw. der tatsächlichen Größe.
Im Kontext von datenbasierten algorithmischen Systemen spricht man von Bias, wenn die Ergebnisse für bestimmte Gruppen systematisch schlechter oder anders ausfallen als für andere Gruppen—vor allem dann, wenn es sich um benachteiligungsrelevante Anwendungsbereiche und Gruppen handelt. Ein Beispiel, das mitunter viel diskutiert wurde, sind automatisierte Gesichtserkennungs-Systeme, die Gesichter mit hellem Hautton systematisch besser erkennen und zuordnen können als Gesichter mit dunklem Hautton. Hier habe ich über die Problematik geschrieben. Das ist unangenehm für Nutzer:innen, wenn das Entsperren des eigenen Smartphones nicht gut funktioniert—und es wird gravierend, wenn solche Gesichtserkennungs-Systeme in der Strafverfolgung eingesetzt werden, um Bilder von Überwachungskameras mit einem Gesichtsbilder-Datensatz zu vergleichen. So kam es in den USA schon zu mehreren Verhaftungen von unbeteiligten Personen nach einem fehlerhaften Gesichtsbild-Matching.
Da viele KI-Systeme proprietär sind und also nicht von außen getestet werden können, kann man in vielen Fällen nur mutmaßen, was die Gründe für systematische Fehlfunktionen sein könnten. Ein möglicher Grund ist eine Unausgewogenheit in den zugrundeliegenden Trainingsdaten: Ein KI-System zur Gesichtserkennung wird mit großen Datenmengen zu Gesichtern trainiert. Gibt es in diesen Trainingsdaten ein starkes Ungleichgewicht, etwa einen verhältnismäßigen Überschuss an Gesichtsbildern mit hellem Hautton und ein Mangel an Gesichtsbildern mit dunklem Hautton, dann werden die Ergebnisse besser für helle Hauttöne und eher schlechter für dunkle sein. Über Bias in Daten habe ich hier geschrieben. Wichtig zu erwähnen ist, dass das alles Mutmaßungen sind—tatsächliche Transparenz zu den Trainingsdaten des erwähnten Gesichtserkennungs-Systems gab es im Rahmen der Diskussion nicht. Zur prinzipiellen gesellschaftlichen Notwendigkeit von Transparenz bei KI-Systemen habe ich mit einem Kollegen hier ein peer-reviewed Paper geschrieben.
Ich habe mich zu dem Thema des systematischen Bias-Testing mit einer Fallstudie beschäftigt, in der es bis zu einem gewissen Grad Transparenz gab, um Bias-Testing durchzuführen: Auf vormals Twitter gibt es ein Image-Cropping-Tool—Bilder, die von Nutzer:innen hochgeladen werden, erscheinen auf der Timeline als Bildausschnitte. Diese Ausschnitte wurden automatisiert von der Plattform mittels Machine Learning hergestellt: ein datenbasiertes KI-System wurde auf vielen Bildern trainiert, um einen Bildausschnitt um den Bildbereich mit maximaler sogenannter „saliency“ zu generieren. Saliency ist dabei ein Maß für Wichtigkeit eines Bildbereichs. Ist ein Bild größtenteils homogen, etwa eine Landschaft, mit einem Fokalpunkt, etwa einem Haus in der Landschaft, dann soll der Bildausschnitt um diesen Fokalpunkt, also um das Haus in der Landschaft erstellt werden.
Es wurden Vorwürfe von Nutzer:innen laut, dass Bildausschnitte von Bildern, auf denen mehrere Menschen mit Variation in Hauttönen zu sehen sind, systematisch um die Person mit hellerem Hautton erstellt werden—Menschen mit dunklerem Hautton würden, so der Vorwurf, in der Vorschau der Timeline herausgeschnitten und unsichtbar gemacht.
Die Plattform Twitter, bevor sie von Elon Musk gekauft und umbenannt wurde, nahm diese Vorwürfe ernst und reagierte auf eine recht einzigartige Art auf den Bias-Vorwurf: Es wurde ein „Bias Bounty“-Wettbewerb ausgerufen—eine Art Kopfgeld-Jagd, bei der die Allgemeinheit dazu aufgerufen und motiviert wurde, das Zuschnitt-Tool mittels einer API zu testen und eigene Bias-Tests durchzuführen, um den Vorwürfen auf den Grund zu gehen. Das war mit Blick auf institutionelle Transparenz ein ungewöhnlicher Schritt.
In einem peer-reviewed Paper habe ich einige dieser Experimente zum Bias-Testing untersucht und bin zu dem Schluss gekommen, dass die Testing-Methodologie oft porös ist und sich so keine robusten und Schlüsse ziehen lassen. Das liegt aber nicht an fehlender Sorgfalt der Forscher:innen, sondern ist im Untersuchungsgegenstand an sich begründet—Bias als Begriff ist auch in diesem Kontext mit vielen Übersetzungen und Operationalisierungen verbunden, und es ist wegen der Vielzahl von Einflussfaktoren nicht möglich, robuste Testings durchzuführen. Das heißt: Alle Ambiguitäten und Problematiken, die es im Zusammenhang mit Quantifizierungen und Datafizierung an sich gibt, gibt es erst recht auch dann, wenn man standardisierte Bias-Testings durchführt. Hier ist das vollständige Paper über die Problematik in open access verfügbar.