signifikanz

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
signifikanz [2014/05/20 09:31]
admin [Poisson-Maß]
signifikanz [2018/05/15 11:30] (aktuell)
Zeile 81: Zeile 81:
 ===== Log-Likelihood-Maß ===== ===== Log-Likelihood-Maß =====
  
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "​Accurate Methods for the Statistics of Surprise and Coincidenc"​. In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß,​ welches ​basiert ​auf der Binomialverteilung,​ eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen. ​+Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "​Accurate Methods for the Statistics of Surprise and Coincidenc"​. In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß,​ welches auf der Binomialverteilung,​ eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert
  
 <​m>​p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </​m>​\\ \\ \\ <​m>​p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </​m>​\\ \\ \\
  
  
-Dunning kommt schließlich ​zur Berechnung von **log likelihood** zu der Formel:+Dunning kommt schließlich ​bei der Berechnung von **log likelihood** zu der Formel:
  
  
Zeile 102: Zeile 102:
 Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß,​ die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen. Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß,​ die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen.
 So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen,​ die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind. So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen,​ die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind.
-Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **Τὸ**, die zusammen 14311 Mal gezählt wurden. ​+Einen ähnlich großen Wert von 34,553 haben zum Beispiel **καὶ** und **τὸ**, die zusammen 14311 Mal gezählt wurden. ​