Netidee Blog Bild
Visuelle Analyse von Text
Wie kann man Überblick über lange Texte gewinnen? Vorstellung einiger Visual Analytics Werkzeuge zur Text Analyse (27.02.2018)
Förderjahr 2017 / Project Call #12 / ProjektID: 2116 / Projekt: ContractVis

Während wir visuellen Darstellungen von Zahlenverhältnissen (z.B. Wahlergebnisse als Balkendiagramm) oder Zeitreihen (z.B. Tageshöchsttemperatur als Liniendiagramm) oft in Zeitungen oder anderen Medien begegnen können, sind visuelle Darstellungen von Text weniger naheliegend – außer natürlich den Text komplett hinzuschreiben. Durch die geschickte Kombination von Algorithmen und Visualisierungen lassen sich relevante Information auch aus langen Texten kompakt darstellen und können je nach Interesse gezielt weiter erforscht werden.

Im folgenden Blogpost sollen einige solche visuellen Textanalyse Werkzeuge vorgestellt werden.

 

Word Cloud (erzeugt mit EdWordle)

Word Clouds fassen einen Text zusammen, indem sie die häufigsten Wörter in absteigender Schriftgröße darstellen. Diese Wörter werden so platziert, dass sich ein auf Kompaktheit optimiertes Layout ergibt, das oft auch ästhetisch ansprechend ist. Eine Einschränkung von Word Clouds ist, dass der visuelle Vergleich zwischen zwei Wort Clouds nicht leicht möglich ist, weil selbst geringe Änderungen am Text ein komplett anderes Layout ergeben können.

Online Tool: z.B. http://www.edwordle.net/

Referenz: Viégas, F. B., & Wattenberg, M. (2008). Tag Clouds and the Case for Vernacular Visualization. Interactions, 15(4), 49–52. https://doi.org/10.1145/1374489.1374501

 

Word Tree (generiert mit dem Tool von Jason Davies)

Ein Word Tree zeigt alle Textpassagen in denen ein gesuchtes Stichwort (im Bild “mouse”) vorkommt und stellt diese als einen Baum dar. So werden alle Passagen zusammengefasst, in denen das nächste bzw. übernächste Wort dasselbe ist. Im Bild sieht man oben alle Passagen, in denen “mouse, who” vorkommt. Rechts im Bild können wir drei Sätze mit dem Stichwort im Detail lesen. Die Leiste in der Mitte zeigt, wo im gesamten Text das Stichwort vorkommt.

Online Tool: https://www.jasondavies.com/wordtree/

Referenz: Wattenberg, M., & Viegas, F. B. (2008). The Word Tree, an Interactive Visual Concordance. IEEE Transactions on Visualization and Computer Graphics, 14(6), 1221–1228. https://doi.org/10.1109/TVCG.2008.172

 

DocuBurst tool searching for "animal" and hyponyms

Auch DocuBurst starten wir mit einem Stichwort. Daraufhin wird der Text nach Unterbegriffen (Hyponyme) dieses Stichwortes durchsucht. Beispielsweise finden wir bei der Suche nach “animal” die Tiere “mouse”, “cat” oder “goldfish”. Diese Hierarchie von Begriffen wird in einer sogenannten Sunburst Visualisierung dargestellt. Im Bild wurde “mouse” ausgewählt und wir sehen rechts in der Leiste, die Stellen wo dieses Wort vorkommt. Die Box unten zeigt eine dieser Stellen im Detail, sodass der Begriff im Kontext steht.

Desktop Tool: https://github.com/vialab/docuburst-desktop/

Referenz: Collins, C., Carpendale, S., & Penn, G. (2009). DocuBurst: Visualizing Document Content using Language Structure. Computer Graphics Forum, 28(3), 1039–1046. https://doi.org/10.1111/j.1467-8659.2009.01439.x

 

VarifocalReader ist ein Forschungsprototyp der Universität Stuttgart, der speziell für die Analyse historischer Bücher entwickelt wurde. Dazu werden Zusammenfassung des Textes auf mehreren Ebenen wie Kapitel, Absätze oder Zeilen als Word Cloud oder Balkendiagramm dargestellt. Von links nach rechts rückt der Fokus immer mehr zum Detail - bis hin zu Scans der Seiten aus den Originalbüchern.

Website: http://epoetics.visus.uni-stuttgart.de/

Referenz: Koch, S., John, M., Wörner, M., Müller, A., & Ertl, T. (2014). VarifocalReader: In-Depth Visual Analysis of Large Text Documents. IEEE Transactions on Visualization and Computer Graphics, 20(12), 1723–1732. https://doi.org/10.1109/TVCG.2014.2346677

 

Die Visual Readability Analysis der Universität Konstanz ist ein Forschungsprototyp, der Autoren unterstützen soll ihre Texte gezielt auf bessere Lesbarkeit hin zu überarbeiten. Dazu werden pro Satz verschiedene Kennzahlen wie Komplexität des Vokabulars und Satzlänge berechnet und mittels Farbkodierung (blau für leicht lesbar bis rot für schwer lesbar) dargestellt (vgl. Bild).

Website: https://www.vis.uni-konstanz.de/forschung/text/age-suitability-and-readability-analysis/

Referenz: Oelke, D., Spretke, D., Stoffel, A., & Keim, D. A. (2012). Visual Readability Analysis: How to Make Your Writings Easier to Read. IEEE Transactions on Visualization and Computer Graphics, 18(5), 662–674. https://doi.org/10.1109/TVCG.2011.266

 

Diese Auswahl von Methoden und Beispielen zur visuellen Textanalyse zeigt Möglichkeiten auf, wie wir in ContractVis Vertragstexte aufbereiten könnten. Mehr dazu in den folgenden Blogposts.

Für alle, die zu Ende gelesen haben, gibt es noch eine Gewinnfrage: Der Text welchen Buches wurde in den ersten drei Bildern analysiert? Für die erste richtige Antwort (per NetIdee / Twitter / Email) gibt es eine Flasche Traubensaft vom Weingut Roch (abzuholen in St. Pölten).

Tags:

text visualization state-of-the-art visual analytics

Alexander Rind

Profile picture for user alexander.rind
Alexander is passionate about data and, thus, creates interactive visual interfaces that support humans in exploring and making sense of their data. For this, he employs methods of information visualization, visual analytics, and user-centered design.

Skills:

Visual Analytics
,
Information Visualization
,
User-Centered Design
,
Usability
,
Research
,
D3.js
,
Web Development
CAPTCHA
Diese Frage dient der Überprüfung, ob Sie ein menschlicher Besucher sind und um automatisierten SPAM zu verhindern.
    Alexander Rind
    07.03.2018
    Stimmt genau: Grundlage der Word Cloud, Word Tree und DocuBurst Bilder war "Alice's Adventures in Wonderland by Lewis Carroll", das als free ebook von Projekt Gutenberg angeboten wird.
    Christoph
    05.03.2018
    Ich glaube es ist Alice im Wunderland :-)

    Weitere Blogbeiträge

    Datenschutzinformation
    Der datenschutzrechtliche Verantwortliche (Internet Privatstiftung Austria - Internet Foundation Austria, Österreich) würde gerne mit folgenden Diensten Ihre personenbezogenen Daten verarbeiten. Zur Personalisierung können Technologien wie Cookies, LocalStorage usw. verwendet werden. Dies ist für die Nutzung der Website nicht notwendig, ermöglicht aber eine noch engere Interaktion mit Ihnen. Falls gewünscht, treffen Sie bitte eine Auswahl: