Text- und Sprachanalyse mit msllit

Einleitung und Erklärung


Ein Text als Menge von Worten verstanden, sagt noch nicht besonders viel über einen Text und seinen Inhalt aus, doch trotzdem lassen sich mit den Mengenangaben zu bestimmten Worten interessante Vergleich durchführen. Die Vergleichbarkeit von Worten zwischen zwei Texten muss dann aber wieder auf die Gesamtanzahl der Worte zum Text relativiert oder normiert werden. Beispiel: Die Aussage, im Alten Testament kommt das Wort "Feind" 60x und im Neuen Testament nur 10x vor, verführt zu dem Schluss, dass das Wort "Feind" im Alten Testament 6x häufiger vorkommt. Das ist jedoch nicht korrekt. Das AT hat ca. 600.000 Worte, das NT nur ca. 200.000 Worte. Das bedeutet, dass das Wort Feind, relativiert an der Textlänge in Wirklichkeit im AT nur doppelt so häufig vorkommt.

Diese Analysen geben Auskunft darüber, welche Wörter vom Autor am häufigsten benutzt werden. Daraus lässt sich auf Vorlieben des Autors, auf den Inhalt aber auch auf das Denken des Autors schließen. So wird z.B. bei Kafka das Wort "gewiss" häufig benutzt. Eingefleischten Kafka-Lesern wird das bekannt vorkommen. Mit diesen Analysen kann man den so sezierten Text dann danach überprüfen, wie häufig der eine Autor das Wort "Frieden" benützt und wie oft der andere. Werke können auch daraufhin analysiert werden, ob bestimmte Wortfelder wie z.B. "Welt" "Mensch" "Natur" darin vorkommen.
Der in einem Werk verwendete Wortschatz kann anhand der Anzahl der verschieden benutzten Worte beurteilt werden.

Sprache als Vektorraum

Die Anzahl eines bestimmten Wortes im Verhältnis zur Gesamtwortzahl macht Texte völlig unterschiedlicher Herkunft bezüglich dieses Wortes vergleichbar. Wenn man die deutsche Sprache als Vektorraum sieht, bildet jedes Wort eine Dimension. Beispiel: Bestünde die deutsche Sprache nur aus den Worten "Du" und "bist". Der Satz "Du bist du" entspricht dem Vektor (2,1). Die nachfolgende Datei ist damit ein individueller Bedeutungsvektor im multidimensionalen Semantikraum der deutschen Sprache. Er hat eine Richtung, eine Länge, eine Basis und einen Ursprung. Jeder Text spannt seinen eigenen Vektorraum auf. Sätze und Abschnitte können als Untervektorräume gesehen werden. Viel Spaß beim Analysieren und vergleichen von Texten.

Analyse zu

 

Hier eine kommentierte Auswahl-Analyse der oben genannten Werke:

(Zur Häufigkeit des Vorkommens im Werk wurde auch gleich die relative Häufigkeit ermittelt. Sie gibt das Verhältnis zwischen dem Vorkommen des Wortes im Text und der Anzahl der verschieden Worte, die im Text vorkommen (Beispiel bei Faust für das Wort "Liebe": 9 Vorkommen im Text / 6445 * 1000) und  steht immer in Klammern. Damit lassen sich die Bedeutung bestimmter Wörter (z.B. Kampf) von verschiedenen Werken vergleichen. Wenn man voraussetzt, dass ein Wort, das häufig in einem Text vorkommt, eine hohe Bedeutung hat (die wirkliche Bedeutung ergibt sich sicherlich individuell aus dem Satzzusammenhang, insofern ist das etwas vereinfachend), dann kann man die relative Häufigkeit auch mit "Bedeutungsdichte" oder Semantik-Dichte übersetzen.  

Aus den Vergleichen der Bedeutungs-Dichte lassen sich bestimmte Aussagen ableiten. So hat das Wort "Liebe" in der Bibel eine hohe Bedeutungsdichte, sie wird mit 6,4 nur von  "Hamlet" übertroffen.


Allgemeine Erkenntnisse und Ableitungen aus den Textanalysen:


Offene Fragen:
 



 

Das perl-skript "msllit"