Benutzer-Werkzeuge


start

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
Nächste Überarbeitung Beide Seiten der Revision
start [2014/05/20 09:18]
admin [Zitations-Analyse]
start [2014/09/29 13:17]
admin
Zeile 1: Zeile 1:
-====== eAQUA ======+====== eAQUA Wissensdatenbank ======
  
 ===== Neue Methoden in den Geistenwissenschaften ===== ===== Neue Methoden in den Geistenwissenschaften =====
Zeile 6: Zeile 6:
 In diesem Zusammenhang ist häufig von **Text Mining** die Rede. Es handelt sich hierbei um einen Oberbegriff, der unterschiedliche statistische und linguistische Verfahren subsimiert. In diesem Zusammenhang ist häufig von **Text Mining** die Rede. Es handelt sich hierbei um einen Oberbegriff, der unterschiedliche statistische und linguistische Verfahren subsimiert.
  
-In eAQUA, ursprünglich ein BMBF-gefördertes Projekt im Programm "Wechselwirkungen zwischen Geistes- und Naturwissenschaften", sind einige dieser Verfahren mit Blick auf die historischen Sprachen Griechisch und Latein untersucht und weiterentwickelt worden. +In eAQUA, ursprünglich ein BMBF-gefördertes Projekt im Programm "Wechselwirkungen zwischen Geistes- und Naturwissenschaften", sind einige dieser Verfahren mit Blick auf die historischen Sprachen Griechisch und Latein untersucht und weiterentwickelt worden. Im Ergebnis präsentiert sich [[portal|eAQUA als Portal]], in dem entwickelte Tools hinsichtlich ihrer Gebrauchsfreudigkeit zu abgeschlossenen Korpora, die sich dieser historischen Sprachen bedienen, ausprobiert werden können.
-Im Ergebnis präsentiert sich [[portal|eAQUA als Portal]], in dem entwickelte Tools hinsichtlich ihrer Gebrauchsfreudigkeit zu abgeschlossenen Korpora, die sich dieser historischen Sprachen bedienen, ausprobiert werden können.+
 Zwei von diesen Tools, die sogenannten Kookkurrenz- und Zitationsanalyse, sollen nachfolgend näher erläutert werden. Zwei von diesen Tools, die sogenannten Kookkurrenz- und Zitationsanalyse, sollen nachfolgend näher erläutert werden.
  
Zeile 24: Zeile 23:
 ^ Teilaufgabe ^ Erläuterung ^ ^ Teilaufgabe ^ Erläuterung ^
 |Eigennamenextraktion |Erkennung von spezifischen Entitäten; meist auf der Basis manuell annotierter Datensätze. Hierbei sind nur die für die Domäne (das Korpus) typischen gemeint. ((Zum Beispiel die im Bühnenstück von Shakespeare „KING HENRY the Fourth“ abgekürzten "Speaker"-Segmente "North." und "West." sind Personenbezeichner, keine Himmelsrichtungen.))  | |Eigennamenextraktion |Erkennung von spezifischen Entitäten; meist auf der Basis manuell annotierter Datensätze. Hierbei sind nur die für die Domäne (das Korpus) typischen gemeint. ((Zum Beispiel die im Bühnenstück von Shakespeare „KING HENRY the Fourth“ abgekürzten "Speaker"-Segmente "North." und "West." sind Personenbezeichner, keine Himmelsrichtungen.))  |
-|Stoppwortliste erstellen |Eine Stoppwortliste ist eine Liste mit Begriffen, die bei der späteren Verarbeitung ausgenommen werden sollen. ((Solche Listen können sowohl domänenübergreifend, beispielsweise typisch für eine Sprache, als auch domänenspezifisch, beispielsweise typisch für eine Autorenschaft, sein. In eAQUA werden diese Liste anhand von Wortzählungen des Gesamtkorpus erstellt.))  |+|Stopwortliste erstellen |Eine Stopwortliste ist eine Liste mit Begriffen, die bei der späteren Verarbeitung ausgenommen werden sollen. ((Solche Listen können sowohl domänenübergreifend, beispielsweise typisch für eine Sprache, als auch domänenspezifisch, beispielsweise typisch für eine Autorenschaft, sein. In eAQUA werden diese Liste anhand von Wortzählungen des Gesamtkorpus erstellt.))  |
 |Topic-Modellierung |Automatische Zuordnung von Begriffen zu Themen auf Basis von Worteigenschaften und Kontextinformationen.  | |Topic-Modellierung |Automatische Zuordnung von Begriffen zu Themen auf Basis von Worteigenschaften und Kontextinformationen.  |
 |Faktenextraktion  |Vorher definierte Arten von Informationen werden durch die Verarbeitung modelliert. Viele Verfahren nutzen dafür die Abfolge unterschiedlicher Wörter in einem Satz. ((In eAQUA ist dies beispielsweise mit der Kookkurrenzanalyse vollzogen worden.)) | |Faktenextraktion  |Vorher definierte Arten von Informationen werden durch die Verarbeitung modelliert. Viele Verfahren nutzen dafür die Abfolge unterschiedlicher Wörter in einem Satz. ((In eAQUA ist dies beispielsweise mit der Kookkurrenzanalyse vollzogen worden.)) |