signifikanz

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
signifikanz [2014/05/20 09:26]
admin [Signifikanzmaße bei der Beurteilung von Kookkurrenzen]
signifikanz [2014/05/20 09:34]
admin [Log-Likelihood-Maß]
Zeile 53: Zeile 53:
 |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ | |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ |
  
-Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnlicheswie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus.+Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:
  
 ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^ ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^
Zeile 72: Zeile 72:
 Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel
 <m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m>  <m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m> 
-an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatzportal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.+an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatz-Portal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.
  
 Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung
Zeile 81: Zeile 81:
 ===== Log-Likelihood-Maß ===== ===== Log-Likelihood-Maß =====
  
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches basiert auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen. +Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert
  
 <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\ <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\
  
  
-Dunning kommt schließlich zur Berechnung von **log likelihood** zu der Formel:+Dunning kommt schließlich bei der Berechnung von **log likelihood** zu der Formel:
  
  
Zeile 102: Zeile 102:
 Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen. Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen.
 So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind. So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind.
-Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **Τὸ**, die zusammen 14311 Mal gezählt wurden. +Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden.