Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- signifikanz [2014/05/20 09:26]
admin [Signifikanzmaße bei der Beurteilung von Kookkurrenzen]
+++ signifikanz [2014/05/20 09:34]
admin [Log-Likelihood-Maß]
@@ Zeile 53: / Zeile 53: @@
 |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ |
-Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnliches, wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus.
+Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:
 ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^
@@ Zeile 72: / Zeile 72: @@
 Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel
 <m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m>
-an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatzportal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.
+an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatz-Portal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.
 Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung
@@ Zeile 81: / Zeile 81: @@
 ===== Log-Likelihood-Maß =====
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches basiert auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen.
+Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert.
 <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\
-Dunning kommt schließlich zur Berechnung von **log likelihood** zu der Formel:
+Dunning kommt schließlich bei der Berechnung von **log likelihood** zu der Formel:
@@ Zeile 102: / Zeile 102: @@
 Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen.
 So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind.
-Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **Τὸ**, die zusammen 14311 Mal gezählt wurden.
+Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden.

Wissensdatenbank

Benutzer-Werkzeuge

Unterschiede

Seiten-Werkzeuge