signifikanz

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
signifikanz [2014/05/20 09:31]
admin [Poisson-Maß]
signifikanz [2021/03/31 12:49] (aktuell)
Zeile 81: Zeile 81:
 ===== Log-Likelihood-Maß ===== ===== Log-Likelihood-Maß =====
  
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches basiert auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen. +Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert
  
 <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\ <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\
  
  
-Dunning kommt schließlich zur Berechnung von **log likelihood** zu der Formel:+Dunning kommt schließlich bei der Berechnung von **log likelihood** zu der Formel:
  
  
Zeile 102: Zeile 102:
 Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen. Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen.
 So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind. So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind.
-Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **Τὸ**, die zusammen 14311 Mal gezählt wurden. +Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden.