Förderjahr 2024 / Projekt Call #19 / ProjektID: 7377 / Projekt: LeichteSprach KI
Im Zuge der Recherche und Tests sind wir zur Erkenntnis gelangt, dass wir ein Service benötigen, welches die Qualität von Leichte Sprache Texte analysiert und quantifiziert. Dieses Tool hatten wir vorab nicht angedacht, aber ist nach Recherche und ersten Tests maßgeblich für das weitere Vorgehen bei dem Projekt.
Nur wenn wir Texte verstehen können, können wir diese auch erstellen. Und wir können so auf die fehlenden Trainingsdaten eher verzichten.
Dieses Service nennen wir “Leichte Sprache Checker” und besteht aus vielen Regeln, die jeweils ein eigenes Modell verwenden. Das kann ein vorhandenes Open Source Modell sein oder ein von uns neu trainiertes.
Wie ist der aktuelle Stand der Leichte Sprache Checker API?
Der aktuelle Stand zeigt, dass der Leichte-Sprache-Checker schon viele Regeln solide abdeckt und mehrere Modelle bereits auf produktionsnahem Niveau laufen. Die nächsten Schritte liegen vor allem darin, schwächere Regeln durch BERT-basierte Varianten zu ersetzen und einige veraltete Heuristiken zu konsolidieren. Insgesamt ist das System schon stark funktionsfähig und lässt sich mit gezielten Modellverbesserungen gut in Richtung eines durchgehend KI-gestützten Prüfwerkzeugs weiterentwickeln.
Derzeitiger Status der Systeme/Regeln, die umgesetzt wurden:
- Regelname,
- Performance = Eigene Einschätzung von derzeit erreichter Qualität,
- Methodik = Erklärung, wie es funktioniert/wie es erreicht wurde,
- Entwicklungsbedarf = Potenzielle Verbesserungen oder noch benötigte Adaptionen
Details:
regel_abkuerzungen_bert
Performance: 8.5/10 Methodik: Generierung synthetischer Trainingsdaten für BERT-Finetuning. Das trainierte Modell klassifiziert Abkürzungen mittels Sequenzlabeling. Entwicklungsbedarf: Aufeinander Folgende Abkürzungen werden aktuell als einzelne Einheit erkannt (Split-Logik erforderlich). Punktzeichen-Erkennung erfordert Filterung.
regel_abkuerzungen
Performance: 5/10 Methodik: Hybrider Ansatz aus statischer Liste, Pattern-Matching und kontextueller Analyse. Entwicklungsbedarf: Auflösen oder Integration in hybriden Ansatz (Liste + BERT-Klassifikation).
regel_bert_komplexitaet
Performance: 6/10 Methodik: Berechnung des Zentroid-Vektors der 3.000 häufigsten Wörter. Komplexitätsmessung über Kosinus-Distanz zwischen Zentroid und Einzelwort. Entwicklungsbedarf: Beibehaltung als Komponente im Multi-Rule-System. In Kombination mit Wortlängen-, Fremdwort- und Abkürzungserkennung ausreichend.
regel_passiv_erkennung
Performance: 8/10 Methodik: spaCy Dependency-Parsing und morphologische Analyse. Entwicklungsbedarf: Zustandspassiv mit "sein" (blinder Fleck) erfordert eventuell BERT-Finetuning.
regel_fremdwoerter
Performance: 6/10 Methodik: Fremdwortliste kombiniert mit Scoring-System (Wortlänge, Endungsmuster, Corpus-Wahrscheinlichkeiten). Anmerkung: Erkennt generell schwierige Wörter (über Fremdwörter hinaus). Für Leichte-Sprache-Prüfung funktional, für reine Fremdworterkennung unscharf. Entwicklungsbedarf: Ersatz durch BERT-Finetuning auf synthetischen Daten.
regel_genitiv
Performance: 8.5/10 Methodik: spaCy Dependency-Parsing. Entwicklungsbedarf: Optionales BERT-Finetuning für Edge-Cases.
regel_interpunktion
Performance: 9/10 Methodik: Pattern-Matching mit konfigurierbarem Whitelist-Ansatz. Entwicklungsbedarf: Anpassung an spezifische Anforderungen bei Bedarf.
regel_komplexe_woerter
Performance: 7/10 Methodik: Perplexität-Vergleich (Standardsprache vs. Leichte Sprache). Limitiert durch eingeschränkte Verfügbarkeit an Leichte-Sprache-Korpora. Entwicklungsbedarf: Keine Änderungen geplant. Als Komponente im Multi-Rule-System beibehalten (hohe Falsch-Negativ-Rate, aber hohe Precision bei Treffern).
regel_komposita
Performance: 8/10 Methodik: german_compound_splitter-Bibliothek mit Aho-Corasick Pattern-Matching. Entwicklungsbedarf: Ersatz oder Erweiterung durch BERT-Finetuning auf synthetischen Daten.
regel_konjunktiv
Performance: 9/10 Methodik: spaCy Dependency-Parsing mit morphologischem Fallback. Entwicklungsbedarf: Produktionsreif.
regel_kurze_woerter
Performance: 3/10 Methodik: Silbenzählung, Zeichenlänge, Präfix/Suffix-Erkennung, Sequenzanalyse. Entwicklungsbedarf: Redundant durch andere Regeln. Kandidat für Deaktivierung.
regel_mehrere_aussagen
Performance: 7/10 Methodik: BERT-Finetuning auf StaGe-Dataset (Multi-Statement-Detection). Datenmenge suboptimal, führt zu Falsch-Negativen. Entwicklungsbedarf: Weiteres Finetuning mit erweiterten Trainingsdaten.
regel_nebensaetze
Performance: 9.5/10 Methodik: spaCy Dependency-Parsing. Entwicklungsbedarf: Produktionsreif.
regel_negationen
Performance: 9/10 Methodik: spaCy Dependency-Parsing (dep_=ng, lemma_-basiert) kombiniert mit Matcher für grammatikalische Sonderfälle. Entwicklungsbedarf: Produktionsreif. BERT-Finetuning optional für semantische Negationen.
regel_passiv (Personalpronomen)
Performance: 8.5/10 Methodik: Finetuned Model für Passiv-Erkennung. Entwicklungsbedarf: Finetuning auf satzübergreifende Personalpronomen-Analyse.
regel_perplexity_saetze
Performance: 0/10 Methodik: N-Gramm-Modell auf Leichte-Sprache-Korpora trainiert. Perplexitätsscore pro Satz. Entwicklungsbedarf: Ersatz durch BERT-Finetuning auf synthetischen Daten.
regel_redewendungen
Performance: 0/10 Methodik: Dictionary-basiert mit Pattern-Matching. Entwicklungsbedarf: Ersatz durch BERT-Finetuning auf synthetischen Daten.
regel_satzlaenge
Performance: 0/10 Methodik: Adaptiver Schwellenwert (8-10 Wörter) basierend auf Nebensätzen, Einschüben, Passivkonstruktionen und Token-Anzahl. Entwicklungsbedarf: Konzeptionelle Neubewertung erforderlich. Reine Satzlängenmessung möglicherweise unzureichender Indikator.
regel_synonyme
Performance: 0/10 Methodik: spaCy Word-Vectors für Ähnlichkeitsmessung. Schwellenwert-basierte Synonym-Klassifikation. Entwicklungsbedarf: Evaluierung erforderlich.
regel_zahlwoerter
Performance: 0/10 Methodik: Dictionary-basiert. Entwicklungsbedarf: BERT-Finetuning mit synthetischen Daten.
Wir haben ein erstes System und rudimentäre API gebaut, welche die oben genannten Punkte überprüft und Ergebnisse ausgibt. Diese API wird aktuell noch weiter optimiert. Sobald dieses System in einem funktionstüchtigen Status vorhanden ist, werden wir vorhandene Leichte Sprache Texte analysieren und die Qualität davon beurteilen.
Sobald wir hier zufriedenstellende Ergebnisse erhalten, werden synthetische Daten erzeugt, die analysiert und für das Training verwendet werden können. Dabei wird dann ein LLM Modell trainiert, welches für die Erzeugung von Leichte Sprache Texte herangezogen werden kann.