Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
signifikanz [2014/05/20 09:34] admin [Log-Likelihood-Maß] |
signifikanz [2018/05/15 11:30] |
||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
- | ====== Signifikanzmaße bei der Beurteilung von Kookkurrenzen ====== | ||
- | In der Statistik wird unter Signifikanz eine Kennzahl verstanden, welche die Wahrscheinlichkeit eines systematischen Zusammenhangs zwischen Variablen, im Falle von Textanalysen also zwischen Teiltexten (z.B. Wörtern), bezeichnet. Die Signifikanz drückt aus, ob ein scheinbarer Zusammenhang rein zufälliger Natur sein könnte oder mit hoher Wahrscheinlichkeit tatsächlich vorliegt. | ||
- | |||
- | Zur Berechnung werden abhängig vom Untersuchungsgegenstand unterschiedliche Formeln herangezogen, | ||
- | |||
- | Eines der einfachsten Signifikanzmaße ist eine frequenzsortierte Kookkurrenzliste, | ||
- | |||
- | ^ Korpus ^ Anzahl Kookkurrenzen^ Kookkurrenzen freq = 1^ in Prozent ^ | ||
- | |BTL ((Bibliotheca Teubneriana Latina, Online-Version, | ||
- | |MPL ((Patrologia Latina Database, CD-ROM Version, November 1995c)) | 580.247.568| | ||
- | |Perseus Shakespeare ((William Shakespeare in Perseus Digital Library, Renaissance Materials, Stand vom Mai 2013)) | 6.746.602| | ||
- | |TLG ((TLG-E, CD-ROM Version aus dem Jahre 1999)) | 355.021.014| | ||
- | |||
- | Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, sind Berechnungsmethoden erforderlich, | ||
- | ===== Dice ===== | ||
- | |||
- | Beim Dice-Koeffizienten (auch Sørensen-Dice-Koeffizent, | ||
- | |||
- | Ermittelt wird die Anzahl der N-Gramme, die in beiden Termen vorhanden sind, um diese ins Verhältnis zur Gesamtzahl der N-Gramme zu setzen. | ||
- | Berechnet wird nach der Formel | ||
- | < | ||
- | wobei < | ||
- | |||
- | |||
- | ^Beispiel 1:\\ Ausdruck a = Tür\\ Ausdruck b = Tor\\ ^ < | ||
- | |Bigramm |Trigramm | | ||
- | |a = { §T, Tü, ür, r§ }\\ b = { §T, To, or, r§ }\\ < | ||
- | |||
- | ^Beispiel 2\\ Ausdruck a = Spiegel\\ Ausdruck b = Spargel\\ ^ < | ||
- | |Bigramm |Trigramm | | ||
- | |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ < | ||
- | |||
- | Bei der Bewertung von Kokkurrenzen kann der Dice-Koeffizient genutzt werden, indem die Häufigkeiten (Frequenzen) der Wörter ins Verhältnis gesetzt werden. | ||
- | < | ||
- | |||
- | Aus der oben angeführten Berechnung ergeben sich relativ einfache Bewertungsmaßstäbe. Je frequenter die beiden Begriffe gemeinsam benutzt werden, um so mehr nähert sich der Wert 1. Treten beide Begriffe nur gemeinsam auf, wird die höchste Signifikanz mit 1 erreicht. Wie oft diese Kookkurrenz im Korpus zu finden ist, spielt dabei keine Rolle. Daraus ergibt sich eine wichtige Eigenschaft des Dice-Koeffizienten: | ||
- | ===== Jaccard ===== | ||
- | |||
- | Beim Jaccard-Koeffizienten (nach dem Botaniker Paul Jaccard) wird die Ähnlichkeit zweier Terme mittels einer Zahl zwischen 0 und 1 angegeben. | ||
- | Berechnungsgrundlage bei Textmining-Verfahren sind sogenannte N-Gramme. | ||
- | Bei N-Grammen wird ein Term bzw. ein Text in gleich große Teile zerlegt. Diese Fragmente können Buchstaben, Phoneme, ganze Wörter oder ähnliches sein. | ||
- | |||
- | Ermittelt wird die Anzahl der N-Gramme, die in beiden Termen vorhanden sind, um diese ins Verhältnis zur Gesamtzahl der N-Gramme zu setzen. Berechnet wird nach der Formel < | ||
- | |||
- | |||
- | ^Beispiel 1:\\ Ausdruck a = Tür\\ Ausdruck b = Tor\\ ^ < | ||
- | |Bigramm |Trigramm | | ||
- | |a = { §T, Tü, ür, r§ }\\ b = { §T, To, or, r§ }\\ < | ||
- | |||
- | ^Beispiel 2\\ Ausdruck a = Spiegel\\ Ausdruck b = Spargel\\ ^ < | ||
- | |Bigramm |Trigramm | | ||
- | |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ < | ||
- | |||
- | Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus: | ||
- | |||
- | ^ < | ||
- | | 100 | 100 | 1 | 0,01 | 0,005 | | ||
- | | 100 | 100 | 10 | 0,1 | 0,05 | | ||
- | | 100 | 100 | 50 | 0,5 | 0,33 | | ||
- | | 100 | 100 | 90 | 0,9 | 0,82 | | ||
- | | 100 | 100 | 100 | 1 | 1 | | ||
- | |||
- | |||
- | |||
- | |||
- | ===== Poisson-Maß ===== | ||
- | |||
- | Ein Ansatz zur Berechnung von signifikanten Kookkurrenzen basiert auf der Poisson-Verteilung (benannt nach dem Mathematiker Siméon Denis Poisson), einer diskreten Wahrscheinlichkeitsverteilung | ||
- | < | ||
- | |||
- | Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, | ||
- | < | ||
- | an, welche beispielsweise für die Berechnung von Korpora im [[http:// | ||
- | |||
- | Nach einer Umstellung und der Grundannahme < | ||
- | |||
- | <m>p = { n_{ab} * log {n_{ab} * n} / {n_a * n_b} - n_{ab} } / { log n } </ | ||
- | |||
- | Somit ließe sich das Poisson-Maß auf die Differenz zwischen Local Mutual Information und Frequenz reduzieren. | ||
- | ===== Log-Likelihood-Maß ===== | ||
- | |||
- | Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. " | ||
- | |||
- | < | ||
- | |||
- | |||
- | Dunning kommt schließlich bei der Berechnung von **log likelihood** zu der Formel: | ||
- | |||
- | |||
- | <m>-2 log lambda = 2 [log L(p_1, | ||
- | |||
- | unter der Voraussetzung | ||
- | |||
- | < | ||
- | |||
- | Das Log-Likelihood-Maß kann demzufolge abgeleitet werden | ||
- | |||
- | < | ||
- | |||
- | |||
- | Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, | ||
- | So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, | ||
- | Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden. | ||
- | |||
- | |||
- |