signifikanz

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
signifikanz [2014/04/30 15:15]
admin [Mutual Information]
signifikanz [2014/05/20 09:34]
admin [Log-Likelihood-Maß]
Zeile 5: Zeile 5:
 Zur Berechnung werden abhängig vom Untersuchungsgegenstand unterschiedliche Formeln herangezogen, welche in erster Linie aus der Computerlinguistik stammen. Die Signifikanzmaße sollen dabei helfen, wichtige von unwichtigen Kookkurrenzen zu trennen. Dabei werden statistische Kenngrößen, wie Korpusgröße, Häufigkeit der einzelnen Wörter oder Frequenz des gemeinsamen Auftretens, ins Verhältnis gesetzt. Zur Berechnung werden abhängig vom Untersuchungsgegenstand unterschiedliche Formeln herangezogen, welche in erster Linie aus der Computerlinguistik stammen. Die Signifikanzmaße sollen dabei helfen, wichtige von unwichtigen Kookkurrenzen zu trennen. Dabei werden statistische Kenngrößen, wie Korpusgröße, Häufigkeit der einzelnen Wörter oder Frequenz des gemeinsamen Auftretens, ins Verhältnis gesetzt.
  
-Eine der einfachsten Signifikanzmaße ist eine frequenzsortierte Kookkurrenzliste, also die Häufigkeit des gemeinsamen Auftretens zweier Worte im Gesamtkorpus. Ein Nachteil frequenzsortierter Listen ist, dass nach dem Zipf'schen Gesetz, dem Beginn der quantitativen Linguistik, sehr viele Wörter sehr selten auftreten. Demzufolge lassen sich mit einem Schwellenwert größer 1, also dem mehrmaligen gemeinsamen Auftreten eines Wortpaares, etwa zwei Drittel der Kookkurrenzen herausfiltern. Berechnet von den eAQUA-Tools sieht dies für ausgewählte Korpora wie folgt aus:+Eines der einfachsten Signifikanzmaße ist eine frequenzsortierte Kookkurrenzliste, also die Häufigkeit des gemeinsamen Auftretens zweier Worte im Gesamtkorpus. Ein Nachteil frequenzsortierter Listen ist, dass nach dem Zipf'schen Gesetz, dem Beginn der quantitativen Linguistik, sehr viele Wörter sehr selten auftreten. Demzufolge lassen sich mit einem Schwellenwert größer 1, also dem mehrmaligen gemeinsamen Auftreten eines Wortpaares, etwa zwei Drittel der Kookkurrenzen herausfiltern. Berechnet von den eAQUA-Tools sieht dies für ausgewählte Korpora wie folgt aus:
  
 ^ Korpus ^ Anzahl Kookkurrenzen^ Kookkurrenzen freq = 1^ in Prozent ^ ^ Korpus ^ Anzahl Kookkurrenzen^ Kookkurrenzen freq = 1^ in Prozent ^
Zeile 13: Zeile 13:
 |TLG ((TLG-E, CD-ROM Version aus dem Jahre 1999)) |  355.021.014|  258.961.566| 72,94 | |TLG ((TLG-E, CD-ROM Version aus dem Jahre 1999)) |  355.021.014|  258.961.566| 72,94 |
  
-Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, braucht es andere Berechnungsmethoden, von denen hier einige vorgestellt werden.+Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, sind Berechnungsmethoden erforderlich, von denen hier einige vorgestellt werden.
 ===== Dice ===== ===== Dice =====
  
Zeile 53: Zeile 53:
 |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ | |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ |
  
-Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnlicheswie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus.+Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:
  
 ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^ ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^
Zeile 72: Zeile 72:
 Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel
 <m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m>  <m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m> 
-an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatzportal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.+an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatz-Portal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.
  
 Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung
Zeile 81: Zeile 81:
 ===== Log-Likelihood-Maß ===== ===== Log-Likelihood-Maß =====
  
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches basiert auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen. +Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert
  
 <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\ <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\
  
  
-Dunning kommt schließlich zur Berechnung von **log likelihood** zu der Formel:+Dunning kommt schließlich bei der Berechnung von **log likelihood** zu der Formel:
  
  
Zeile 102: Zeile 102:
 Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen. Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen.
 So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind. So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind.
-Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **Τὸ**, die zusammen 14311 Mal gezählt wurden. +Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden.