Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- signifikanz [2014/05/20 09:34]
admin [Log-Likelihood-Maß]
+++ signifikanz [2018/05/15 11:30]
@@ Zeile 1: / Zeile 1: @@
-====== Signifikanzmaße bei der Beurteilung von Kookkurrenzen ======
-In der Statistik wird unter Signifikanz eine Kennzahl verstanden, welche die Wahrscheinlichkeit eines systematischen Zusammenhangs zwischen Variablen, im Falle von Textanalysen also zwischen Teiltexten (z.B. Wörtern), bezeichnet. Die Signifikanz drückt aus, ob ein scheinbarer Zusammenhang rein zufälliger Natur sein könnte oder mit hoher Wahrscheinlichkeit tatsächlich vorliegt.
-Zur Berechnung werden abhängig vom Untersuchungsgegenstand unterschiedliche Formeln herangezogen, welche in erster Linie aus der Computerlinguistik stammen. Die Signifikanzmaße sollen dabei helfen, wichtige von unwichtigen Kookkurrenzen zu trennen. Dabei werden statistische Kenngrößen, wie Korpusgröße, Häufigkeit der einzelnen Wörter oder Frequenz des gemeinsamen Auftretens, ins Verhältnis gesetzt.
-Eines der einfachsten Signifikanzmaße ist eine frequenzsortierte Kookkurrenzliste, also die Häufigkeit des gemeinsamen Auftretens zweier Worte im Gesamtkorpus. Ein Nachteil frequenzsortierter Listen ist, dass nach dem Zipf'schen Gesetz, dem Beginn der quantitativen Linguistik, sehr viele Wörter sehr selten auftreten. Demzufolge lassen sich mit einem Schwellenwert größer 1, also dem mehrmaligen gemeinsamen Auftreten eines Wortpaares, etwa zwei Drittel der Kookkurrenzen herausfiltern. Berechnet von den eAQUA-Tools sieht dies für ausgewählte Korpora wie folgt aus:
-^ Korpus ^ Anzahl Kookkurrenzen^ Kookkurrenzen freq = 1^ in Prozent ^
-|BTL ((Bibliotheca Teubneriana Latina, Online-Version, Stand vom Februar 2014)) |  137.486.214|  110,876,836| 80,65 |
-|MPL ((Patrologia Latina Database, CD-ROM Version, November 1995c)) |  580.247.568|  398.935.822| 68,75 |
-|Perseus Shakespeare ((William Shakespeare in Perseus Digital Library, Renaissance Materials, Stand vom Mai 2013)) |  6.746.602|  5.027.170| 74,51 |
-|TLG ((TLG-E, CD-ROM Version aus dem Jahre 1999)) |  355.021.014|  258.961.566| 72,94 |
-Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, sind Berechnungsmethoden erforderlich, von denen hier einige vorgestellt werden.
-===== Dice =====
-Beim Dice-Koeffizienten (auch Sørensen-Dice-Koeffizent, benannt nach den Botanikern Thorvald Sørensen und Lee Raymond Dice) wird die Ähnlichkeit zweier Terme mittels einer Zahl zwischen 0 und 1 angegeben. Berechnungsgrundlage sind sogenannte N-Gramme. Bei N-Grammen wird ein Term bzw. ein Text in gleich große Teile zerlegt. Diese Fragmente können Buchstaben, Phoneme, ganze Wörter oder ähnliches sein.
-Ermittelt wird die Anzahl der N-Gramme, die in beiden Termen vorhanden sind, um diese ins Verhältnis zur Gesamtzahl der N-Gramme zu setzen.
-Berechnet wird nach der Formel
-<m>dice_{ab} = 2 * n_{ab} / {n_a + n_b}</m>
-wobei <m>n_{ab}</m> die Schnittmenge beider Terme und <m>n_a</m> bzw. <m>n_b</m> die Anzahl der gebildeten N-Gramme pro Term angibt.
-^Beispiel 1:\\ Ausdruck a = Tür\\ Ausdruck b = Tor\\ ^ <m>dice_{ab} = 2 * n_{ab} / {n_a + n_b}</m> ^
-|Bigramm |Trigramm |
-|a = { §T, Tü, ür, r§ }\\ b = { §T, To, or, r§ }\\ <m>d_{Tür,Tor} = {2 * 2} / {4 + 4} = 4 / 8 = 0,5</m>\\ |a = { §§T, §Tü, Tür, ür§, r§§ }\\ b = { §§T, §To, Tor, or§, r§§ }\\ <m>d_{Tür,Tor} = {2 * 2} / {5 + 5} = 4 / 10 = 0,4</m>\\ |
-^Beispiel 2\\ Ausdruck a = Spiegel\\ Ausdruck b = Spargel\\ ^ <m>dice_{ab} = 2 * n_{ab} / {n_a + n_b}</m> ^
-|Bigramm |Trigramm |
-|a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = {2 * 5} / {8 + 8} = 10 / 16 = 0,625</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = {2 * 5} / {9 + 9} = 10 / 18 ≈ 0,556</m>\\ |
-Bei der Bewertung von Kokkurrenzen kann der Dice-Koeffizient genutzt werden, indem die Häufigkeiten (Frequenzen) der Wörter ins Verhältnis gesetzt werden.
-<m>n_a</m> und <m>n_b</m> sind dabei die Frequenzen der Terme, <m>n_{ab}</m> die Anzahl des gemeinsamen Auftretens.
-Aus der oben angeführten Berechnung ergeben sich relativ einfache Bewertungsmaßstäbe. Je frequenter die beiden Begriffe gemeinsam benutzt werden, um so mehr nähert sich der Wert 1. Treten beide Begriffe nur gemeinsam auf, wird die höchste Signifikanz mit 1 erreicht. Wie oft diese Kookkurrenz im Korpus zu finden ist, spielt dabei keine Rolle. Daraus ergibt sich eine wichtige Eigenschaft des Dice-Koeffizienten: Kookkurrenzen, die selten zusammen auftreten, bei denen ein Wort hoch- und das andere niedrigfrequent sind, werden als unsignifikant bewertet.
-===== Jaccard =====
-Beim Jaccard-Koeffizienten (nach dem Botaniker Paul Jaccard) wird die Ähnlichkeit zweier Terme mittels einer Zahl zwischen 0 und 1 angegeben.
-Berechnungsgrundlage bei Textmining-Verfahren sind sogenannte N-Gramme.
-Bei N-Grammen wird ein Term bzw. ein Text in gleich große Teile zerlegt. Diese Fragmente können Buchstaben, Phoneme, ganze Wörter oder ähnliches sein.
-Ermittelt wird die Anzahl der N-Gramme, die in beiden Termen vorhanden sind, um diese ins Verhältnis zur Gesamtzahl der N-Gramme zu setzen. Berechnet wird nach der Formel <m>jaccard_{ab} = n_{ab} / { n_a + n_b - n_{ab} }</m> wobei <m>n_{ab}</m> die Schnittmenge beider Terme und <m>n_a</m> bzw. <m>n_b</m> die Anzahl der gebildeten N-Gramme pro Term angibt.
-^Beispiel 1:\\ Ausdruck a = Tür\\ Ausdruck b = Tor\\  ^ <m>jaccard_{ab} = n_{ab} / { n_a + n_b - n_{ab} }</m> ^
-|Bigramm |Trigramm |
-|a = { §T, Tü, ür, r§ }\\ b = { §T, To, or, r§ }\\ <m>d_{Tür,Tor} = 2 / {4 + 4 - 2} = 2 / 6 ≈ 0,334</m>\\ |a = { §§T, §Tü, Tür, ür§, r§§ }\\ b = { §§T, §To, Tor, or§, r§§ }\\ <m>d_{Tür,Tor} = 2 / {5 + 5 - 2} = 2 / 8 = 0,25</m>\\ |
-^Beispiel 2\\ Ausdruck a = Spiegel\\ Ausdruck b = Spargel\\ ^ <m>jaccard_{ab} = n_{ab} / { n_a + n_b - n_{ab} }</m> ^
-|Bigramm |Trigramm |
-|a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ |
-Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:
-^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^
-| 100 | 100 | 1 | 0,01 | 0,005 |
-| 100 | 100 | 10 | 0,1 | 0,05 |
-| 100 | 100 | 50 | 0,5 | 0,33 |
-| 100 | 100 | 90 | 0,9 | 0,82 |
-| 100 | 100 | 100 | 1 | 1 |
-===== Poisson-Maß =====
-Ein Ansatz zur Berechnung von signifikanten Kookkurrenzen basiert auf der Poisson-Verteilung (benannt nach dem Mathematiker Siméon Denis Poisson), einer diskreten Wahrscheinlichkeitsverteilung
-<m>p(n,k) = 1/{k!} gamma^k e^{-gamma}</m>
-Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel
-<m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m>
-an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatz-Portal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.
-Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung
-<m>p = { n_{ab} * log {n_{ab} * n} / {n_a * n_b} - n_{ab} } / { log n } </m>\\ \\ \\
-Somit ließe sich das Poisson-Maß auf die Differenz zwischen Local Mutual Information und Frequenz reduzieren.
-===== Log-Likelihood-Maß =====
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert.
-<m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\
-Dunning kommt schließlich bei der Berechnung von **log likelihood** zu der Formel:
-<m>-2 log lambda = 2 [log L(p_1,k_1,n_1 ) + log L(p_2,k_2,n_2) - log L(p_1,k_1,n_1) - log L(p_2,k_2,n_2)]</m>
-unter der Voraussetzung
-<m>log L(p, n, k) = k log p + (n - k) log(1 - p)</m>
-Das Log-Likelihood-Maß kann demzufolge abgeleitet werden
-<m>lgl = 2 [ n log n - n_a log n_a - n_b log n_b + n_ab log n_ab + (n - n_a - n_b + n_ab) log (n - n_a - n_b + n_ab) + (n_a - n_ab) log (n_a - n_ab) + (n_b - n_ab) log (n_b - n_ab) - (n - n_a) log ( n - n_a ) - (n - n_b) log (n - n_b) ]</m>
-Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen.
-So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind.
-Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden.

Wissensdatenbank

Benutzer-Werkzeuge

Unterschiede

Seiten-Werkzeuge