Vom Code zur Klarheit: Neurale Netzwerke und die Erklärbarkeit dahinter

Vom Code zur Klarheit: Neurale Netzwerke und die Erklärbarkeit dahinter

Die Ergebnisse meiner Arbeit (22.10.2023)

Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

In vorherigen Beiträgen sprach ich über den Einsatz von BERT-Modellen gegen Hassreden und ihre Erklärbarkeit. Wie haben sich die Erklärbarkeitsmethoden bewährt? Heute fokussiere ich mich auf die Ergebnisse meiner Arbeit.

Im Zuge der digitalen Revolution, die uns immer wieder neue, fortschrittliche Modelle beschert, habe ich mich intensiv mit Erklärbarkeitsmethoden beschäftigt. In vorherigen Blogbeiträgen habe ich bereits darüber berichtet, wie BERT Transformer-Modelle gegen Herausforderungen wie Hassreden eingesetzt werden können und wie solche Modelle für den Menschen nachvollziehbarer bzw. erklärbarer gemacht werden können. Heute möchte ich genauer auf die Ergebnisse und Erkenntnisse meiner Arbeit eingehen.

Ergebnisse im Detail

Alle meiner trainierten BERT Modelle waren fähig Hass-und Gegenrede in Texten ausreichend gut zu erkennen. Das bildete den Grundstein für weitere Untersuchung bezüglich verschiedener Erklärbarkeitsmethoden. Nach der eingehenden Evaluierung vier ausgewählter Erklärbarkeitsmethoden (ProtoTEx, LIME, GlobEnc, Integrated Gradients) für BERT-Klassifikatoren ergaben sich folgende Schlüsselerkenntnisse:

ProtoTEx: Trotz des Potenzials, das in dieser Methode steckte, stellte sie sich als nicht optimal für meine Studie heraus. Das ideale Szenario wäre gewesen, dass die Methode gelernte Trainingsdaten wiedergibt ("Prototypen") die ähnlich der vorhergesagten Klasse während der Klassifikation des Input Textes sind. Ein zentrales Problem war die Tatsache, dass die ausgewählten Prototypen oft nicht zu dieser tatsächlich vorhergesagten Klasse des Modells passten, was für die Erklärbarkeit für den Menschen nicht intuitiv ist. Auf Grund dessen wurde diese Methode verworfen.
Integrated Gradients und GlobEnc: Auch wenn sie in der Theorie überzeugend wirkten, erfüllten sie in der Praxis die Kriterien nicht ausreichend genug um als Nützlich für den Menschen angesehen zu werden.
LIME: Im Gegensatz dazu zeigte LIME vielversprechendere Resultate. Vor allem in den Bereichen Verständlichkeit und Genauigkeit schnitt diese Methode besser ab.

Blick in die Zukunft

Es ist offensichtlich, dass trotz aller Fortschritte noch einiges an Verbesserungsbedarf besteht. Die immer komplexeren Transformer-Modelle erfordern ausgefeilte Tools und Ansätze für ihre Interpretation und Erklärbarkeit. Meine Arbeit zeigte, dass gerade die Erklärbarkeit für Modelle die mit schwierigen Aufgabenstellungen wie des erkennen von Hass- und Gegenrede nicht ausreichend sind um in realen Settings verwendet zu werden. Außerdem könnte Zukünftig ein spannender Weg sein, verschiedene Methodiken miteinander zu kombinieren, um deren Vorteile zu bündeln. Ein weiterer Fokus sollte auf einer nutzerzentrierten Forschung liegen, um Interfaces zu kreieren, die wirklich den Bedürfnissen der Nutzer:innen entsprechen, sowie das in Betracht ziehen von mehr Kontext rund um die Texte, um den Sinn und Zweck der Sätze besser nachvollziehen zu können.

Abschließend bleibt zu sagen: Es ist noch viel zu tun bezüglich von Sicherheit im Netz und Erklärbarkeit von KI Modellen. Die (meine) Forschung geht jedenfalls weiter!

Adrian Jaques Böck

Drohungen, Beleidigungen, Hetze und hasserfüllte Postings – sie zählen zu den größten
Problemen welche die voranschreitende Digitalisierung mit sich bring. Die „User-generierte
Gegenrede“ (Counterspeech) durch Nutzer:innen zeigt großes Potential, um gegen Hass im
Internet zu agieren. Im Rahmen meiner Masterarbeit soll eine Methode basierend auf Algorithmen des
Machine Learning verwendet werden, die es schafft deutsche Hasspostings sowie deren
Gegenrede zu detektieren und die dahinter stehenden Verfasser:innen der Gegenrede aktiv zu
unterstützten.
Die Klassifikations-Entscheidungen solcher Algorithmen sind für den Menschen
oftmals nicht erklärbar und/oder nachvollziehbar. Auf Grund dessen ist es Ziel der Arbeit, einen
Detektor für deutsche Gegenrede zu entwickeln der nicht nur die Gegenrede selbst im Netz
findet, sondern auch für den Menschen verständlich aufzeigt, welche Aspekte des Beitrags den
verwendeten Algorithmus dazu bewegen einen Beitrag als Gegenrede zu klassifizieren

Skills:

Programming

Python

Data Science

Natural Language Processing

Social Media

AI | KI

Machine Learning

Design

Web-Design

Weitere Blogbeiträge

Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

Ergebnisse im Detail

Blick in die Zukunft

Tags:

Adrian Jaques Böck

Skills:

Weitere Blogbeiträge

Bewertung von Explainable AI (XAI): Fokus auf Verständlichkeit und Transparenz

Counter Speech-Klassifizierung: Einblick in das Training des Classifiers

Bessere Verständlichkeit von Transformer-Modellen

Technologien in der Textklassifikation

Wie gegen Hass im Netz vorgehen?