Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- signifikanz [2014/05/20 09:30]
admin [Jaccard]
+++ signifikanz [2014/05/20 09:34]
admin [Log-Likelihood-Maß]
@@ Zeile 72: / Zeile 72: @@
 Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel
 <m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m>
-an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatzportal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.
+an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatz-Portal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.
 Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung
@@ Zeile 81: / Zeile 81: @@
 ===== Log-Likelihood-Maß =====
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches basiert auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen.
+Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert.
 <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\
-Dunning kommt schließlich zur Berechnung von **log likelihood** zu der Formel:
+Dunning kommt schließlich bei der Berechnung von **log likelihood** zu der Formel:
@@ Zeile 102: / Zeile 102: @@
 Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen.
 So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind.
-Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **Τὸ**, die zusammen 14311 Mal gezählt wurden.
+Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden.

Wissensdatenbank

Benutzer-Werkzeuge

Unterschiede

Seiten-Werkzeuge