Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
start [2014/09/29 13:17] admin |
start [2015/09/24 09:14] admin [Domänenspezifische Verarbeitung] |
||
---|---|---|---|
Zeile 23: | Zeile 23: | ||
^ Teilaufgabe ^ Erläuterung ^ | ^ Teilaufgabe ^ Erläuterung ^ | ||
|Eigennamenextraktion |Erkennung von spezifischen Entitäten; meist auf der Basis manuell annotierter Datensätze. Hierbei sind nur die für die Domäne (das Korpus) typischen gemeint. ((Zum Beispiel die im Bühnenstück von Shakespeare „KING HENRY the Fourth“ abgekürzten " | |Eigennamenextraktion |Erkennung von spezifischen Entitäten; meist auf der Basis manuell annotierter Datensätze. Hierbei sind nur die für die Domäne (das Korpus) typischen gemeint. ((Zum Beispiel die im Bühnenstück von Shakespeare „KING HENRY the Fourth“ abgekürzten " | ||
- | |Stopwortliste erstellen |Eine Stopwortliste ist eine Liste mit Begriffen, die bei der späteren Verarbeitung ausgenommen werden sollen. ((Solche Listen können sowohl domänenübergreifend, | + | |Stopwortliste erstellen |Eine Stopwortliste ist eine Liste mit Begriffen, die bei der späteren Verarbeitung ausgenommen werden sollen. ((Solche Listen können sowohl domänenübergreifend, |
|Topic-Modellierung |Automatische Zuordnung von Begriffen zu Themen auf Basis von Worteigenschaften und Kontextinformationen. | |Topic-Modellierung |Automatische Zuordnung von Begriffen zu Themen auf Basis von Worteigenschaften und Kontextinformationen. | ||
|Faktenextraktion | |Faktenextraktion | ||
Zeile 69: | Zeile 69: | ||
Die Zitations-Analyse wird anhand von String-Matching-Algorithmen vorgenommen. Zeichenkettenalgorithmen suchen nach exakten Übereinstimmungen eines Musters in einem Text unter Definition von Toleranzkriterien. Diese Kriterien wurden in der Zitations-Analyse von eAQUA wie folgt festgelegt. | Die Zitations-Analyse wird anhand von String-Matching-Algorithmen vorgenommen. Zeichenkettenalgorithmen suchen nach exakten Übereinstimmungen eines Musters in einem Text unter Definition von Toleranzkriterien. Diese Kriterien wurden in der Zitations-Analyse von eAQUA wie folgt festgelegt. | ||
- | Reduziert um alle Satzzeichen und einer Liste der häufig benutzten Wörter ((Stoppwortliste: | + | Reduziert um alle Satzzeichen und einer Liste der häufig benutzten Wörter ((Stoppwortliste: |
- | Eine Eigenheit dieser Vorgehensweise ist, dass bei einigen Autoren Selbstzitate gefunden werden, also Stellen, an denen sie sich offensichtlich wiederholen. Eine andere, | + | Eine Eigenheit dieser Vorgehensweise ist, dass bei einigen Autoren Selbstzitate gefunden werden, also Stellen, an denen sie sich offensichtlich wiederholen. Eine andere, |
Die Parallelstellen werden schlussendlich unter Verwendung der Editierdistanz mit einem Similaritätswert belegt, der zwischen 0 = nicht identisch und 1 = vollständig identisch liegt. Berechnet wird nach einem Algorithmus **Similar-Text**, | Die Parallelstellen werden schlussendlich unter Verwendung der Editierdistanz mit einem Similaritätswert belegt, der zwischen 0 = nicht identisch und 1 = vollständig identisch liegt. Berechnet wird nach einem Algorithmus **Similar-Text**, | ||
Zeile 94: | Zeile 94: | ||
- | Similar-Text-Berechnungen sind nur bei kurzen | + | Similar-Text-Berechnungen sind nur bei kurzen |