Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
start [2018/05/15 11:30] |
start [2021/03/31 12:49] (aktuell) |
||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
+ | ====== eAQUA Wissensdatenbank ====== | ||
+ | |||
+ | ===== Neue Methoden in den Geistenwissenschaften ===== | ||
+ | |||
+ | Die zunehmende Einspeisung von kompletten Textsammlungen in elektronische Systeme hat am Ende des 20. und Beginn des 21. Jahrhundert zu einer neuen Situation in den Wissenschaften geführt. | ||
+ | In diesem Zusammenhang ist häufig von **Text Mining** die Rede. Es handelt sich hierbei um einen Oberbegriff, | ||
+ | |||
+ | In eAQUA, ursprünglich ein BMBF-gefördertes Projekt im Programm " | ||
+ | Zwei von diesen Tools, die sogenannten Kookkurrenz- und Zitationsanalyse, | ||
+ | |||
+ | ==== Verarbeitung von Sprache ==== | ||
+ | |||
+ | Für die Gewinnung strukturierter Informationen aus Texten kommen, je nach Anwendungsfall, | ||
+ | |||
+ | Grundsätzlich wird innerhalb von Data-Mining bei der Verarbeitung von Sprache von drei Bereichen gesprochen: | ||
+ | * domänenspezifische Verarbeitung | ||
+ | * dokumentspezifische Verarbeitung | ||
+ | * sprachspezifische Verarbeitung | ||
+ | |||
+ | Bei dieser Aufzählung handelt es sich um eine thematische, | ||
+ | |||
+ | === Domänenspezifische Verarbeitung === | ||
+ | ^ Teilaufgabe ^ Erläuterung ^ | ||
+ | |Eigennamenextraktion |Erkennung von spezifischen Entitäten; meist auf der Basis manuell annotierter Datensätze. Hierbei sind nur die für die Domäne (das Korpus) typischen gemeint. ((Zum Beispiel die im Bühnenstück von Shakespeare „KING HENRY the Fourth“ abgekürzten " | ||
+ | |Stopwortliste erstellen |Eine Stopwortliste ist eine Liste mit Begriffen, die bei der späteren Verarbeitung ausgenommen werden sollen. ((Solche Listen können sowohl domänenübergreifend, | ||
+ | |Topic-Modellierung |Automatische Zuordnung von Begriffen zu Themen auf Basis von Worteigenschaften und Kontextinformationen. | ||
+ | |Faktenextraktion | ||
+ | |Relationsextraktion | ||
+ | |||
+ | === Dokumentspezifische Verarbeitung === | ||
+ | |||
+ | ^Teilaufgabe ^Erläuterung ^ | ||
+ | |Metadaten erfassen| Metadaten, im Falle der Korpusanalyse z.B. Enstehungsort, | ||
+ | |Bereinigung und Normalisierung |Abhängig davon, wie die Daten erfasst wurden, müssen sie vor der Analyse von allen irrelevanten Informationen, | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | === Sprachspezifische Verarbeitung === | ||
+ | |||
+ | ^ Teilaufgabe ^ Erläuterung ^ | ||
+ | |Spracherkennung |Die verwendeten Sprachen werden ermittelt. ((Wenn diese in den Metadaten nicht annotiert sind, ist dies, gerade bei multilingualen Texten, ein nichttriviales Problem, welches häufig durch sprachspezifische (Stich-)Wortlisten gelöst wird.)) | | ||
+ | |Segmentierung |Strukturiert den Text in einzelne Teile, die separat untersucht werden können. Üblich ist die Segmentierung in Sätze anhand der Satzzeichen. | ||
+ | |Tokenisierung |Segmentiert auf der Basis der Wortebene in einzelne Teile (Token), indem beispielsweise das Leerzeichen als Wortgrenze aufgefasst wird. | | ||
+ | |Wortstammreduktion |Die Wörter werden auf ihren Wortstamm zurückgeführt, | ||
+ | |Lemmatisierung |Die Grundform eines Wortes (Lemma) wird gebildet. | | ||
+ | |Part-of-Speech Tagging |Zuordnung von Wörtern und Satzzeichen in Wortarten. | | ||
+ | |Parsing | Der Text wird in eine neue syntaktische Struktur überführt. Dabei ist für den Parser ein Token die atomare Eingabeeinheit. | | ||
+ | |Koreferenz (Referenzidentität) auflösen | Eine Koreferenz liegt vor, wenn sich innerhalb einer Äußerung zwei sprachliche Ausdrücke auf das selbe linguistische Objekt beziehen, beispielsweise mittels Verwendung von Pronomen. | | ||
+ | |Eigennamenextraktion | Bei der Eigennamenerkennung, | ||
+ | |||
+ | |||
+ | ==== Kookkurrenz-Berechnung ==== | ||
+ | |||
+ | Kookkurrenz bezeichnet in der Linguistik allgemein das gemeinsame Auftreten zweier lexikalischer Einheiten innerhalb eines übergeordneten Segmentes. Treten beispielsweise zwei Terme häufig gemeinsam in einem Satz auf, besteht eine berechtigte Annahme eines Abhängigkeitsverhältnisses, | ||
+ | Über statistische Berechnungen werden Maße für die vermutete Abhängigkeit ermittelt. Dazu müssen mehrere Voraussetzungen erfüllt sein: | ||
+ | * Es muss ein Gesamtkorpus definiert sein, in dem das Auftreten von Einheiten, also z.B. Wörten, gezählt werden kann. Diese statistischen Kenngrößen bilden die Berechnungsgrundlage. | ||
+ | * Das Korpus muss segmentiert werden. Für Nicht-Nachbarschaftskookkurrenzen, | ||
+ | * Das Korpus muss sehr gross sein oder nur die häufigsten Wörter in die Berechnung einbeziehen. (([Dunning 93]. Dunning, T. „Accurate Methods for the Statistics of Surprise and Coincidenc“. In: Computational Linguistics 19, 1 (1993), 61-74.)) | ||
+ | |||
+ | In eAQUA wurden die **Nachbarschafts- und Satzkookkurrenzen** vor allem mit Wahrscheinlichkeitsfunktionen und dem [[signifikanz|Signifikanzmaß]] Log-Likelihood berechnet. Die ermittelten Werte sind lediglich in ihrer relativen Ordnung aussagekräftig, | ||
+ | |||
+ | |||
+ | |||
+ | ==== Zitations-Analyse ==== | ||
+ | |||
+ | Die Zitations-Analyse beschäftigt sich als Teilgebiet der Bibliometrie mit der qualitativen Untersuchung von zitierten und zitierenden Arbeiten. Die Ergebnisse werden in einem Zitationsgraphen visuell aufbereitet. Daran lassen sich verschiedene Regelmäßigkeiten und Strukturen eines Autors bzw. einer Autorengruppe ablesen. Falls die entsprechenden Meta-Daten vorhanden sind ((Ort / Zeit / Autor: keine Selbstverständlichkeit bei antiken Texten; einige Autorenschaften sind zum Beispiel als **(Pseudo-)** gekennzeichnet oder bei Zeitangaben wird geschätzt, da nur Zeiträume bekannt sind, oder Ortsangaben auf den Sterbeort gelegt)), können die Darstellungen durch eigene Suchfilter eingrenzt werden. | ||
+ | |||
+ | Die Zitations-Analyse wird anhand von String-Matching-Algorithmen vorgenommen. Zeichenkettenalgorithmen suchen nach exakten Übereinstimmungen eines Musters in einem Text unter Definition von Toleranzkriterien. Diese Kriterien wurden in der Zitations-Analyse von eAQUA wie folgt festgelegt. | ||
+ | |||
+ | Reduziert um alle Satzzeichen und einer Liste der häufig benutzten Wörter ((Stoppwortliste: | ||
+ | Eine Eigenheit dieser Vorgehensweise ist, dass bei einigen Autoren Selbstzitate gefunden werden, also Stellen, an denen sie sich offensichtlich wiederholen. Eine andere, dass ein Zitat aus mehreren Einträgen besteht kann ((Die Suchmaske, das Muster, besteht aus nur 5 Termen. Parallelstellen mit doppelt oder mehr Termen ergeben deswegen mehr als eine Suchmaske und eine dementsprechende Anzahl Fundstellen.)) und erst über die Sortierfunktion als Ganzes erkennbar wird. | ||
+ | |||
+ | Die Parallelstellen werden schlussendlich unter Verwendung der Editierdistanz mit einem Similaritätswert belegt, der zwischen 0 = nicht identisch und 1 = vollständig identisch liegt. Berechnet wird nach einem Algorithmus **Similar-Text**, | ||
+ | |||
+ | < | ||
+ | |||
+ | |||
+ | wobei < | ||
+ | |||
+ | < | ||
+ | |||
+ | |||
+ | |||
+ | ^Beispiel: Similar-Text\\ Zeichenkette a = Beispieltext 1 \\ Zeichenkette b = Biespeil text 2\\ ^^^^^^ | ||
+ | | < | ||
+ | | 14| 15 | 6 | 9 | <m>{9 * 2} / {14 + 15} = 18 / 29</ | ||
+ | |||
+ | Die berechneten Similaritätswerte beziehen sich immer auf die komplett tokenisierten Segmente, nicht allein nur auf die Suchmaske. Dies führt dazu, dass auch komplett identische Passagen mit einem von 1 abweichenden Wert belegt werden können, wenn sie innerhalb eines größeren Segments benutzt werden. Im nachfolgenden Beispiel ergeben sich die Abweichungen durch den Einschub quick brown. | ||
+ | |||
+ | ^Beispiel: Similar-Text\\ Zeichenkette a = The quick brown fox jumps over the lazy dog \\ Zeichenkette b = The fox jumps over the lazy dog\\ ^^^^^^ | ||
+ | | < | ||
+ | | 43| 31 | 12 | 31 | < | ||
+ | |||
+ | |||
+ | Similar-Text-Berechnungen sind nur bei kurzen Segmenten, wie der Satz-Tokenisierung in eAQUA, sinnvoll, da die Werte mit der Länge der untersuchten Segmente tendenziell abnehmen. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||