signifikanz

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
signifikanz [2014/05/20 09:30]
admin [Jaccard]
signifikanz [2014/05/20 09:34]
admin [Log-Likelihood-Maß]
Zeile 72: Zeile 72:
 Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel Auf der Basis der Poisson-Verteilung geben //Quasthoff / Wolff// (([Quasthoff 02]. Uwe QUASTHOFF, Christian WOLFF. The Poisson Collocation Measure and its Applications. In Second International Workshop on Computational Approaches to Collocations, 2002.)) das Poisson-Maß mit der Formel
 <m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m>  <m>p(n_a,n_b,k,n)={k * (log k - log gamma - 1) } / {log n}</m> 
-an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatzportal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.+an, welche beispielsweise für die Berechnung von Korpora im  [[http://wortschatz.uni-leipzig.de/|Wortschatz-Portal]] genutzt wurde, und in der die zwei Faktoren **n** (Anzahl der Sätze im Korpus) und **k** (Häufigkeit des gemeinsamen Auftretens, auch <m>n_{ab}</m> bezeichnet) maßgeblich sind.
  
 Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung Nach einer Umstellung und der Grundannahme <m>gamma = {n_a * n_b} / n</m> ergibt sich folgende Berechnung
Zeile 81: Zeile 81:
 ===== Log-Likelihood-Maß ===== ===== Log-Likelihood-Maß =====
  
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches basiert auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen. +Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert
  
 <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\ <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\
  
  
-Dunning kommt schließlich zur Berechnung von **log likelihood** zu der Formel:+Dunning kommt schließlich bei der Berechnung von **log likelihood** zu der Formel:
  
  
Zeile 102: Zeile 102:
 Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen. Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen.
 So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind. So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind.
-Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **Τὸ**, die zusammen 14311 Mal gezählt wurden. +Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden.