Netidee Blog Bild
Österreichisches Sentence Splitting
Titel-Wirr-Warr (14.09.2024)
Förderjahr 2023 / Projekt Call #18 / ProjektID: 6716 / Projekt: shrinkwrap.legal

Um Gerichtsurteile zu analysieren, würden wir in einer Vorstufe gerne die Sprache genauer unter die Lupe nehmen. Dies ist wichtig, um etwa Vorbringen (stets im Konjunktiv) und Feststellungen (Mitvergangenheit) unterscheiden zu können. Diese Aufgaben sind im Jargon als "Natural Language Processing" aufzufinden.

Für uns beide eher ein neues Gebiet, wollten wir uns in einem ersten Schritt der trivialen Aufgabe, Text in unterschiedliche Sätze aufzuteilen, widmen. In der Informatik ist das als "Sentence splitting" bekannt. Unsere ersten Gehversuche machten wir mit stanford-corenlp. Die Ernüchterung stellte sich schnell ein: Obwohl deutsche Sprache an sich unterstützt wird, scheitert das Gesamtsystem bereits an trivialen Unterschieden zwischen Deutsch und Österreich - wird eine Datumsangabe wie "17. Januar 2024" richtig getrennt, scheitert das System am "17. Jänner 2024" deshalb, weil "Jänner" im deutschen Wortschatz nicht vorkommt. Diese Ungenauigkeit konnten wir mit einem Pull Request beheben. Die nächste Ernüchterung stellte sich dann ein, als wir merkten, dass im deutschen lediglich die Titel "Dr." und "Prof." als solche erkannt werden - im österreichischen Titel-Wirr-Warr gleicht es einer Sisyphus-Aufgabe, alle Titel und deren möglichen Abkürzungen, vom Dipl.-HTL-Ing. bis zum Mag.sc.hum. einzutragen. 

Selbst modernere Bibliotheken wir das großartige spacy scheitern im regelbasierten Splitting scheinbar an Titeln: Unser Beispielsatz:

Am 17. Januar 2024 wurde mir der LL.M. (WU) verliehen. Bereits am 24.1.2024 wurde ich danach zum Dr.ius. benannt - dieser ist höherwertiger als ein Mag.iur. oder ein Mag.a.iur, auf der Visitenkarte wird danach RA Dr. Meier stehen, denn weder der Univ.-Ass., noch der Dipl.-Ing. werden dort angeführt. Wohnhaft bleibe ich in der Bergg. 4-7 im 2. Stock, Top 18.

Wird von Spacy fast richtig auf

  • Am 17. Januar 2024 wurde mir der LL.M. (WU) verliehen.
  • Bereits am 24.1.2024 wurde ich danach zum Dr.ius.
  • benannt - dieser ist höherwertiger als ein Mag.iur.
  • oder ein Mag.a.iur, auf der Visitenkarte wird danach RA Dr. Meier stehen, denn weder der Univ.-Ass.,
  • noch der Dipl.-Ing. werden dort angeführt.
  • Wohnhaft bleibe ich in der Bergg.
  • 4-7 im 2. Stock, Top 18.

aufgeteilgt - manche Titel werden richtig erkannt, Abkürzungen von Straßen beispielsweise fälschlich nicht.

Die Lösung dazu lag dann im Machine Learning: wtpsplit ist eine Bibliothek, die auf machine-learning-models aufsetzt. Wenngleich mit höherer Rechenleistung war es uns damit dann möglich, zufriedenstellende Ergebnisse zu erzielen. Im obigen Beispielsatz wurde ohne Nacharbeiten richtig getrennt:

  • Am 17. Januar 2024 wurde mir der LL.M. (WU) verliehen.
  • Bereits am 24.1.2024 wurde ich danach zum Dr.ius. benannt - dieser ist höherwertiger als ein Mag.iur. oder ein Mag.a.iur, auf der Visitenkarte wird danach RA Dr. Meier stehen, denn weder der Univ.-Ass., noch der Dipl.-Ing. werden dort angeführt.
  • Wohnhaft bleibe ich in der Bergg. 4-7 im 2. Stock, Top 18.

Thomas Schreiber

Profile picture for user Thomas Schreiber
Thomas besitzt Master in Informatik der TU Wien und Wirtschaftsrecht der WU. Er widmet sich der Schnittstelle zwischen Recht und Technik.
Neben seinem Hauptberuf in der RTR-GmbH beschäftigt er sich als Programmierer von FlexLex mit der Erstellung von PDFs für den Buchdruck, als Mitgründer von NetzBeweis mit digitaler Signatur.

Skills:

Backend Entwicklung
,
Frontend Entwicklung
CAPTCHA
Diese Frage dient der Überprüfung, ob Sie ein menschlicher Besucher sind und um automatisierten SPAM zu verhindern.
    Datenschutzinformation
    Der datenschutzrechtliche Verantwortliche (Internet Privatstiftung Austria - Internet Foundation Austria, Österreich) würde gerne mit folgenden Diensten Ihre personenbezogenen Daten verarbeiten. Zur Personalisierung können Technologien wie Cookies, LocalStorage usw. verwendet werden. Dies ist für die Nutzung der Website nicht notwendig, ermöglicht aber eine noch engere Interaktion mit Ihnen. Falls gewünscht, treffen Sie bitte eine Auswahl: