Bessere Verständlichkeit von Transformer-Modellen

Bessere Verständlichkeit von Transformer-Modellen

Mein Ansatz zum "warum" von BERT-Transformern (11.04.2023)

Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

Die Fähigkeit, Entscheidungen zu erklären, kann nicht nur Vertrauen in Neuronale Netze stärken, sondern auch die Risiken von Vorurteilen oder Fehlern minimieren. Dieser Eintrag stellt meinen Ansatz zur Erklärbarkeit von komplexen Transformern dar.

Da in den letzten Beiträgen das theoretische Wissen zu Transformern in Bezug auf Gegenrede besprochen wurde möchte ich mich in diesem Beitrag dem Themenschwerpunkt der Explainability für Transformer Modelle und der von mir gewählten Methoden widmen.

Was ist "Explainability" überhaupt?

Unter dem Begriff Explainability wird die Erklärbarkeit eines Modelles verstanden. Die Erklärbarkeit von solch komplexen Modellen wie Transformern ist dahingehend wichtig, um für den Menschen nachvollziehbar zu gestalten, weshalb das Modell eine gewisse Vorhersage/Entscheidung getroffen hat. Bei einigen Methoden werden beispielsweise Aufmerksamkeitsgewichte in den Schichten des Modelles analysiert und ggf. visualisiert. Es gibt auch Methoden, bei denen Wörter verändert werden und daraufhin beobachtet wird wie sich der Output bzw. die Vorhersage des Modelles verändert. In Modellen mit mehren Schichten so wie es eben die Transformer sind ist ein weiterer Ansatz, die Interaktion der Layer innerhalb des Modells zu analysieren und zu verstehen.

Ein Haufen an Methoden und das große Fragezeichen

Anfangs war es für mich nicht einfach den Überblick über die Vielzahl an bereits vorhandenen Erklärbarkeitsmethoden zu bewahren. Angefangen von traditionellen Methoden bis hin zu komplexeren Verfahren für neuronale Netzwerke ist der Bereich der Explainability sehr breit gefächert. Schwierig war vor allem auch, dass viele Ansätze nicht scharf voneinander trennbar sind, sondern oft miteinander Ähnlichkeiten zueinander haben. Auch die Bezeichnungen bzw. die Definitionen diverser Wörter unterscheiden sich teilweise in der Literatur, was Anfangs einiges an Verständnisprobleme zur Folge hatte.

Nach ausführlicher Recherche habe ich beschlossen, mich für meine Arbeit auf so genannte „Feature Attribution Methods“ zu konzentrieren, bei denen analysiert wird, wie der Input eines Textes zum Output bzw. der Vorhersage beiträgt. Dadurch die Forschung bezüglich der Explainability-Methoden für Modelle für Counter-Speech sehr rar ist wurde die Recherche auf andere Themenbereiche wie Sentiment Analyse und Hate-Speech Detection ausgeweitet.

Mein Explainability-Ansatz

Es gibt einige dieser Feature Attribution Methods die verwendet werden können um Transformer Modelle besser erklärbar zu machen. Leider ist sich die Literatur nicht einig, welche der verschiedenen Arten nun die vielversprechendsten Ergebnisse liefern, beziehungsweise für den Menschen am hilfreichsten sind. Für meine Masterarbeit habe ich jeweils eine Methode von vier gewählten Methodenarten gewählt die ich miteinander vergleichen werde, um deren Vor- und Nachteile besser zu verstehen, deren Unterschiede zu erkennen und zu evaluieren, welche davon für den Menschen am hilfreichsten sind.

Die gewählten Methodenarten sind:

Gradient-based
Perturbation-based
Attention-based und
Prototypes

Gradienten-basierte Methoden berechnen, wie stark jeder Eingabevektor zur Vorhersage beiträgt. Gradienten werden von Transformern verwendet um die Gewichtungen des Neuronalen Netzes anzupassen. Je höher die Gewichtung, desto wichtiger ist das Eingangsmerkmal (Feature). Stellvertretend für die Gradient-based Methoden wurde Integrated Gradients [1] gewählt. Bei dieser Methode werden die Gradienten entlang des Pfades innerhalb des Netzwerkes akkumuliert und ein Attribution-Score in Bezug auf den Basiswert berechnet.

Als Perturbation-based Methode wurde LIME [2] ausgewählt, die eine lokale lineare Approximation zum BERT-Transformer darstellt. Hier wird eine Stichprobe aus den Daten leicht verändert und für jeden Datenpunkt eine Gewichtung des Features berechnet. Durch diese Gewichtungen kann eine Annäherung der komplexen Funktionalität des Transformers mit Hilfe einer einfachen linearen Funktion eines bestimmten Punktes erreicht werden. Die funktionsweise bzw. die Zusammenhänge in dieser linearen Approximation sind nachvollziehbar und dadurch erklärbar. LIME und Integrated Gradients konnten im Rahmen der Arbeit bereits ohne größere Probleme implementiert werden.

Als dritte Methode wurde eine Attention-basierte Methode gewählt, hier werden ebenfalls Gewichtungen berechnet. Der Attention-Mechanismus ist eine besondere Eigenschaft von Transformer Modellen der es dem Modell ermöglicht sich auf verschiedene Teile der Eingabesequenz zu konzentrieren. Dabei wird ein Kontextvektor aus dem Eingabe-Token (zB.: ein Wort) berechnet und eine gewichtete Summe der Eingabe-Token erstellt. Die Gewichtungen werden über die dot-product-Scores in den Attention-Schichten eines Transformers berechnet und unterscheiden sich demnach durch ihre Berechnung von etwa den Gewichtungen die mit etwa Gradienten ermittelt werden. Für diese Methode wird GlobEnc [3] verwendet, welche ebenfalls bereits erfolgreich implementiert wurde.

Als vierte und Letzte Methodenart wurde die Erklärung mittels Prototypen gewählt. Als Prototypen werden repräsentative Instanzen einer Klasse verstanden die die wichtigsten Merkmale und Eigenschaften einer Klasse wieder spiegeln. Sie dienen während der Vorhersage dann als Referenzwerte die erklären, weshalb der Transformer eine Vorhersage getroffen hat. Für diese Methode wird derzeit die Methode ProtoTex [4] implementiert, was sich leider als nicht ganz so einfach herausstellt, da meine Modellarchitektur nicht mit dem des Source Codes zusammenpasst.

Langsam aber stätig geht es voran

Die letzten Wochen ist abgesehen von der bereits fertigen Literaturrecherche schon einiges programmiert und auch verschriftlicht worden. Die nächsten Hürden sind das fertige implementieren der Explanability-Methoden, das trainieren meines BERT-Modelles, die Evaluierung der Techniken und der Ergebnisse sowie das fertige verschriftlichen der Arbeit.

[1] J. D. Janizek, P. Sturmfels, und S.-I. Lee, „Explaining Explanations: Axiomatic Feature Interactions for Deep Networks“, J Mach Learn Res, Bd. 22, Nr. 1, Juli 2022.

[2] M. T. Ribeiro, S. Singh, und C. Guestrin, „‚Why Should I Trust You?‘: Explaining the Predictions of Any Classifier“. arXiv, 9. August 2016. doi: 10.48550/arXiv.1602.04938.

[3] A. Modarressi, M. Fayyaz, Y. Yaghoobzadeh, und M. T. Pilehvar, „GlobEnc: Quantifying Global Token Attribution by Incorporating the Whole Encoder Layer in Transformers“, in Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Seattle, United States: Association for Computational Linguistics, Juli 2022, S. 258–271. doi: 10.18653/v1/2022.naacl-main.19.

[4] A. Das, C. Gupta, V. Kovatchev, M. Lease, und J. J. Li, „ProtoTEx: Explaining Model Decisions with Prototype Tensors“. arXiv, 22. Mai 2022. doi: 10.48550/arXiv.2204.05426.

Adrian Jaques Böck

Drohungen, Beleidigungen, Hetze und hasserfüllte Postings – sie zählen zu den größten
Problemen welche die voranschreitende Digitalisierung mit sich bring. Die „User-generierte
Gegenrede“ (Counterspeech) durch Nutzer:innen zeigt großes Potential, um gegen Hass im
Internet zu agieren. Im Rahmen meiner Masterarbeit soll eine Methode basierend auf Algorithmen des
Machine Learning verwendet werden, die es schafft deutsche Hasspostings sowie deren
Gegenrede zu detektieren und die dahinter stehenden Verfasser:innen der Gegenrede aktiv zu
unterstützten.
Die Klassifikations-Entscheidungen solcher Algorithmen sind für den Menschen
oftmals nicht erklärbar und/oder nachvollziehbar. Auf Grund dessen ist es Ziel der Arbeit, einen
Detektor für deutsche Gegenrede zu entwickeln der nicht nur die Gegenrede selbst im Netz
findet, sondern auch für den Menschen verständlich aufzeigt, welche Aspekte des Beitrags den
verwendeten Algorithmus dazu bewegen einen Beitrag als Gegenrede zu klassifizieren

Skills:

Programming

Python

Data Science

Natural Language Processing

Social Media

AI | KI

Machine Learning

Design

Web-Design

Weitere Blogbeiträge

Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

Was ist "Explainability" überhaupt?

Ein Haufen an Methoden und das große Fragezeichen

Mein Explainability-Ansatz

Langsam aber stätig geht es voran

Tags:

Adrian Jaques Böck

Skills:

Weitere Blogbeiträge

Vom Code zur Klarheit: Neurale Netzwerke und die Erklärbarkeit dahinter

Bewertung von Explainable AI (XAI): Fokus auf Verständlichkeit und Transparenz

Counter Speech-Klassifizierung: Einblick in das Training des Classifiers

Technologien in der Textklassifikation

Wie gegen Hass im Netz vorgehen?