start

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
start [2014/09/29 13:17]
admin
start [2015/09/24 09:14]
admin [Domänenspezifische Verarbeitung]
Zeile 23: Zeile 23:
 ^ Teilaufgabe ^ Erläuterung ^ ^ Teilaufgabe ^ Erläuterung ^
 |Eigennamenextraktion |Erkennung von spezifischen Entitäten; meist auf der Basis manuell annotierter Datensätze. Hierbei sind nur die für die Domäne (das Korpus) typischen gemeint. ((Zum Beispiel die im Bühnenstück von Shakespeare „KING HENRY the Fourth“ abgekürzten "​Speaker"​-Segmente "​North."​ und "​West."​ sind Personenbezeichner,​ keine Himmelsrichtungen.)) ​ | |Eigennamenextraktion |Erkennung von spezifischen Entitäten; meist auf der Basis manuell annotierter Datensätze. Hierbei sind nur die für die Domäne (das Korpus) typischen gemeint. ((Zum Beispiel die im Bühnenstück von Shakespeare „KING HENRY the Fourth“ abgekürzten "​Speaker"​-Segmente "​North."​ und "​West."​ sind Personenbezeichner,​ keine Himmelsrichtungen.)) ​ |
-|Stopwortliste erstellen |Eine Stopwortliste ist eine Liste mit Begriffen, die bei der späteren Verarbeitung ausgenommen werden sollen. ((Solche Listen können sowohl domänenübergreifend,​ beispielsweise typisch für eine Sprache, als auch domänenspezifisch,​ beispielsweise typisch für eine Autorenschaft,​ sein. In eAQUA werden diese Liste anhand von Wortzählungen des Gesamtkorpus erstellt.)) ​ |+|Stopwortliste erstellen |Eine Stopwortliste ist eine Liste mit Begriffen, die bei der späteren Verarbeitung ausgenommen werden sollen. ((Solche Listen können sowohl domänenübergreifend,​ beispielsweise typisch für eine Sprache, als auch domänenspezifisch,​ beispielsweise typisch für eine Autorenschaft,​ sein. In eAQUA werden diese Listen ​anhand von Wortzählungen des Gesamtkorpus erstellt.)) ​ |
 |Topic-Modellierung |Automatische Zuordnung von Begriffen zu Themen auf Basis von Worteigenschaften und Kontextinformationen. ​ | |Topic-Modellierung |Automatische Zuordnung von Begriffen zu Themen auf Basis von Worteigenschaften und Kontextinformationen. ​ |
 |Faktenextraktion ​ |Vorher definierte Arten von Informationen werden durch die Verarbeitung modelliert. Viele Verfahren nutzen dafür die Abfolge unterschiedlicher Wörter in einem Satz. ((In eAQUA ist dies beispielsweise mit der Kookkurrenzanalyse vollzogen worden.)) | |Faktenextraktion ​ |Vorher definierte Arten von Informationen werden durch die Verarbeitung modelliert. Viele Verfahren nutzen dafür die Abfolge unterschiedlicher Wörter in einem Satz. ((In eAQUA ist dies beispielsweise mit der Kookkurrenzanalyse vollzogen worden.)) |
Zeile 69: Zeile 69:
 Die Zitations-Analyse wird anhand von String-Matching-Algorithmen vorgenommen. Zeichenkettenalgorithmen suchen nach exakten Übereinstimmungen eines Musters in einem Text unter Definition von Toleranzkriterien. Diese Kriterien wurden in der Zitations-Analyse von eAQUA wie folgt festgelegt. ​ Die Zitations-Analyse wird anhand von String-Matching-Algorithmen vorgenommen. Zeichenkettenalgorithmen suchen nach exakten Übereinstimmungen eines Musters in einem Text unter Definition von Toleranzkriterien. Diese Kriterien wurden in der Zitations-Analyse von eAQUA wie folgt festgelegt. ​
  
-Reduziert um alle Satzzeichen und einer Liste der häufig benutzten Wörter ((Stoppwortliste:​ Diese Liste wird für jedes Korpus neu ermittelt, indem alle Wörter gezählt werden.)) wird das Korpus in eine Folge von fünf aufeinander folgenden Terme zerlegt und mithilfe eines sogenannten naiven Algorithmus auf exakte Übereinstimmungen (matches) im Restkorpus hin untersucht. ​Der Restkorpus ist nicht reduziert durch Berücksichtigung von Metadaten, wie beispielsweise Entstehungszeitpunkt.  +Reduziert um alle Satzzeichen und einer Liste der häufig benutzten Wörter ((Stoppwortliste:​ Diese Liste wird für jedes Korpus neu ermittelt, indem alle Wörter gezählt werden.)) wird das Korpus in eine Folge von fünf aufeinander folgenden Terme zerlegt und mithilfe eines sogenannten naiven Algorithmus auf exakte Übereinstimmungen (matches) im Restkorpus hin untersucht. ​Das Restkorpus ist nicht reduziert durch Berücksichtigung von Metadaten, wie beispielsweise ​den Entstehungszeitpunkt.  
-Eine Eigenheit dieser Vorgehensweise ist, dass bei einigen Autoren Selbstzitate gefunden werden, also Stellen, an denen sie sich offensichtlich wiederholen. Eine andere, ​das ein Zitat aus mehreren Einträgen besteht kann ((Die Suchmaske, das Muster, besteht aus nur 5 Termen. Parallelstellen mit doppelt oder mehr Termen ergeben deswegen mehr als eine Suchmaske und eine dementsprechende Anzahl Fundstellen.)) und erst über Sortierfunktion als Ganzes erkennbar wird.+Eine Eigenheit dieser Vorgehensweise ist, dass bei einigen Autoren Selbstzitate gefunden werden, also Stellen, an denen sie sich offensichtlich wiederholen. Eine andere, ​dass ein Zitat aus mehreren Einträgen besteht kann ((Die Suchmaske, das Muster, besteht aus nur 5 Termen. Parallelstellen mit doppelt oder mehr Termen ergeben deswegen mehr als eine Suchmaske und eine dementsprechende Anzahl Fundstellen.)) und erst über die Sortierfunktion als Ganzes erkennbar wird.
  
 Die Parallelstellen werden schlussendlich unter Verwendung der Editierdistanz mit einem Similaritätswert belegt, der zwischen 0 = nicht identisch und 1 = vollständig identisch liegt. Berechnet wird nach einem Algorithmus **Similar-Text**,​ der bei Oliver (([OLIVER 93].Oliver, Ian. Programming Classics: Implementing the World'​s Best Algorithms. Prentice Hall PTR New York, 1993.)) mittels eines Pseudo-Codes beschrieben ist. Die Parallelstellen werden schlussendlich unter Verwendung der Editierdistanz mit einem Similaritätswert belegt, der zwischen 0 = nicht identisch und 1 = vollständig identisch liegt. Berechnet wird nach einem Algorithmus **Similar-Text**,​ der bei Oliver (([OLIVER 93].Oliver, Ian. Programming Classics: Implementing the World'​s Best Algorithms. Prentice Hall PTR New York, 1993.)) mittels eines Pseudo-Codes beschrieben ist.
Zeile 94: Zeile 94:
  
  
-Similar-Text-Berechnungen sind nur bei kurzen ​Segmente, wie der Satz-Tokenisierung in eAQUA, sinnvoll, da die Werte mit der Länge der untersuchten Segmente tendenziell abnehmen.+Similar-Text-Berechnungen sind nur bei kurzen ​Segmenten, wie der Satz-Tokenisierung in eAQUA, sinnvoll, da die Werte mit der Länge der untersuchten Segmente tendenziell abnehmen.