Text- und Sprachanalyse mit msllit
Einleitung und Erklärung
Ein Text als Menge von Worten verstanden, sagt noch nicht besonders viel über einen
Text und seinen Inhalt aus, doch trotzdem lassen sich mit den Mengenangaben zu bestimmten
Worten interessante Vergleich durchführen. Die Vergleichbarkeit von Worten zwischen
zwei Texten muss dann aber wieder auf die Gesamtanzahl der Worte zum Text relativiert
oder normiert werden. Beispiel: Die Aussage, im Alten Testament kommt das Wort "Feind"
60x und im Neuen Testament nur 10x vor, verführt zu dem Schluss, dass das Wort "Feind"
im Alten Testament 6x häufiger vorkommt. Das ist jedoch nicht korrekt. Das AT hat
ca. 600.000 Worte, das NT nur ca. 200.000 Worte. Das bedeutet, dass das Wort Feind,
relativiert an der Textlänge in Wirklichkeit im AT nur doppelt so häufig vorkommt.
Diese Analysen geben Auskunft darüber, welche Wörter vom Autor am häufigsten benutzt
werden. Daraus lässt sich auf Vorlieben des Autors, auf den Inhalt aber auch auf
das Denken des Autors schließen. So wird z.B. bei Kafka das Wort "gewiss" häufig
benutzt. Eingefleischten Kafka-Lesern wird das bekannt vorkommen. Mit diesen Analysen
kann man den so sezierten Text dann danach überprüfen, wie häufig der eine Autor
das Wort "Frieden" benützt und wie oft der andere. Werke können auch daraufhin analysiert
werden, ob bestimmte Wortfelder wie z.B. "Welt" "Mensch" "Natur" darin vorkommen.
Der in einem Werk verwendete Wortschatz kann anhand der Anzahl der verschieden benutzten
Worte beurteilt werden.
Sprache als Vektorraum
Die Anzahl eines bestimmten Wortes im Verhältnis zur Gesamtwortzahl macht Texte
völlig unterschiedlicher Herkunft bezüglich dieses Wortes vergleichbar. Wenn man
die deutsche Sprache als Vektorraum sieht, bildet jedes Wort eine Dimension. Beispiel:
Bestünde die deutsche Sprache nur aus den Worten "Du" und "bist". Der Satz "Du bist
du" entspricht dem Vektor (2,1). Die nachfolgende Datei ist damit ein individueller
Bedeutungsvektor im multidimensionalen Semantikraum der deutschen Sprache. Er hat
eine Richtung, eine Länge, eine Basis und einen Ursprung. Jeder Text spannt seinen
eigenen Vektorraum auf. Sätze und Abschnitte können als Untervektorräume gesehen
werden. Viel Spaß beim Analysieren und vergleichen von Texten.
Analyse zu
Hier eine kommentierte Auswahl-Analyse der oben genannten Werke:
(Zur Häufigkeit des Vorkommens im Werk wurde auch gleich die relative Häufigkeit
ermittelt. Sie gibt das Verhältnis zwischen dem Vorkommen des Wortes im Text und
der Anzahl der verschieden Worte, die im Text vorkommen (Beispiel bei Faust für
das Wort "Liebe": 9 Vorkommen im Text / 6445 * 1000) und steht immer in Klammern.
Damit lassen sich die Bedeutung bestimmter Wörter (z.B. Kampf) von verschiedenen
Werken vergleichen. Wenn man voraussetzt, dass ein Wort, das häufig in einem Text
vorkommt, eine hohe Bedeutung hat (die wirkliche Bedeutung ergibt sich sicherlich
individuell aus dem Satzzusammenhang, insofern ist das etwas vereinfachend), dann
kann man die relative Häufigkeit auch mit "Bedeutungsdichte" oder Semantik-Dichte
übersetzen.
Aus den Vergleichen der Bedeutungs-Dichte lassen sich bestimmte Aussagen ableiten.
So hat das Wort "Liebe" in der Bibel eine hohe Bedeutungsdichte, sie wird mit 6,4
nur von "Hamlet" übertroffen.
Allgemeine Erkenntnisse und Ableitungen aus den Textanalysen:
- Die Hauptwörter sind die Sinnträger, sie vermitteln auch wenn sie alleine stehen
Sinn und Bedeutung. Alle anderen Wortarten entfalten ihre Wirkung nur im Kontext,
sind also für Häufigkeitsanalysen nicht geeignet.
- Märchen der Gebrüder Grimm sind ca. 5 Mal umfangreicher und verwenden fast doppelt
so viele verschiedene Wörter wie Faust I+II.
- Das Wörtchen "und" hat bei den Märchen die höchste relative Häufigkeit erzielt.
- Faust verglichen mit König Lear hat bei gleichem Umfang ( ca. 33.000 Wörter) ca
1/6 mehr Wortschatz.
- "Augen" kommt in Lear, Hamlet und Faust II ziemlich oft vor
- Hamlet hat mit 7.6 die höchste Dichte des Wortes "Liebe". Dafür kommt das Wort "Kuß"
gar nicht vor.
- Hamlet hat auch bei dem Wort "Tod" den höchsten Wert (4.3),
- Das Wort "Haß" kommt ziemlich selten vor: Die höchste Dichte verzeichnet hier Faust
II.
Offene Fragen:
- Was ist das ausdruckstärkste Wort in der deutschen Literatur ?
- Inwiefern unterscheidet sich die Bedeutung des Wortes "Liebe" im englischen verglichen
mit dem deutschen Drama ?
-