eAQUA :: Teilprojekt 4.4: Das Wissensnetz der Frühen Neuzeit
eAQUA

Sprache: EN | DE


Teilprojekt 4.4: Das Wissensnetz der Frühen Neuzeit:
Von der virtuellen Bibliothek zur virtuellen Enzyklopädie

Projektleiter: Prof. Dr. Wilhelm Kühlmann
Germanistisches Seminar, Universität Heidelberg


1.
Seit 1996 werden in der Universitätsbibliothek Mannheim Schriftwerke der Frühen Neuzeit (1450- 1750) digitalisiert und im Rahmen einer virtuellen Bibliothek angeboten (MATEO/CAMENA1). Wenn im Verlauf des nächsten Jahres diese Sammlung zu einem gewissen Abschluss gekommen sein wird, stehen den Nutzern via Internet insgesamt mehr als 200.000 digitalisierte Buchseiten zur Verfügung. Die durchschnittliche Zahl von Besuchen (Verweildauer 1-30 min) auf den Internetseiten des Projekts pro Monat liegt aktuell regelmäßig jenseits der Marke von 200.000. Zumal der THESAURUS ERU DITIONIS wird gerne besucht (siehe die Rezension von Gregor Horstkemper2). CAMENA weist eine ganze Reihe von Erschließungswerkzeugen auf, die in dieser Kombination wohl kaum in einer anderen virtuellen Bibliothek geboten werden: eine sorgfältig geplante Corpus-Architektur, ausführliche bibliographische Informationen, Verbundeditionen in Bild und Maschinentext, verlinkte Inhaltsverzeichnisse und Werkregister sowie teilweise auch mittels strukturellem und semantischem Markup verankerte Zusatzinformationen. Die in CAMENA aufgenommenen Werke sind zu über 80% in frühneuzeitlichem Latein verfasst, einem Idiom, das aufgrund seiner heutigen Randstellung bislang keine breitere linguistische, geschweige denn computerlinguistische Bearbeitung erfahren hat. Zwar ist Latein als zweitwichtigste Sprache der antiken Welt gut erforscht, als zentrale Sprache der Gebildeten des Mittelalters und der Frühen Neuzeit aber schon deutlich weniger; z.B. gibt es kein einziges mo dernes umfassendes neulateinisches Wörterbuch, keinen Konsens über den editorischen Umgang mit den beachtlichen Graphievarianzen, nur Anfänge einer Erforschung der Semantik und morphol. Sonderentwicklungen (die einzige nennenswerte Web-Veröffentlichung dazu ist die NEULATEINISCHE WORTLISTE von Johannes Ramminger). Die Entwicklung einer wünschenswert leistungsfähigen Suchmaschine und anderer Werkzeuge zur tieferen Erschließung der Textcorpora war von CAMENA selbst nicht zu leisten (siehe Thomas Stäcker, Das ist doch alles im Netz! - Angebot und Nutzen von digitalisierten Altbestandsquellen im Internet. Vortrag Düsseldorf, Bibliothekartag, 15.3.2005).3

2.
Vor allem einer solchen tieferen Erschließung widmet sich das Projekt TERMINI. Das wichtigste Teilprojekt von TERMINI ist die Sammlung für die Wissenskultur der Frühen Neuzeit relevanter Worte und Begriffe, aus denen sich das „Wissensnetz” der Frühen Neuzeit (re-)konstruieren lässt. Bei seiner Arbeit ist TERMINI bald auf den verhältnismäßig engen Aktionsradius konventioneller Erschließungsstrategien und computertechnischer Abbildungsformen aufmerksam geworden. Der Plan, von einer Reihe von Hilfskräften eine relationale Datenbank nach einem sorgfältig ausgearbeiteten Datenformular befüllen zu lassen, erwies sich als unrealistisch: wie sich rasch zeigte, fehlte dafür nicht nur ausreichend kompetentes Fachpersonal (studentische Hilfskräfte leisten hierbei allzu Ungleichmä– ßiges), auch die greifbaren computertechnischen Lösungsansätze enthielten eine Menge Unwägbarkeiten und Hemmnisse: Der Einrichtungs– und Pflegeaufwand sowie die datentechnische Rigidität machen zumal relationale Datenbanken für ein nicht auf Jahrzehnte angelegtes Forschungsprojekt jedenfalls dann unattraktiv, wenn es um die Abbildung komplexerer Wissensstrukturen geht. Die Alternative, maschinenlesbare Texte durch halb– oder vollautomatisch erstelltes semantisches Markup anzureichern, erwies sich für TERMINI jedenfalls da als ungleich erfolgreicher, wo die Texte von sich aus eine hinreichend „griffige‚ Struktur aufweisen (z.B. eine Organisation in Lemmata, wie sie in vielen Werken der Abteilung THESAURUS ERUDITIONIS gegeben ist). Sie lässt sich nämlich mit vertretbarem Aufwand für ein solches Markup ausbeuten, das dann seinerseits einer automatischen Datenextraktion zugänglich ist. Die Werkzeuge für eine solche Lemmata–Kumulation haben inzwischen bei TERMINI Einsatzreife erlangt. Eine Nutzeroberfläche wurde entwickelt, auf der eine ganze Reihe von frühneuzeitlichen lexikalischen und enzyklopädischen Werken synoptisch zu einem Ausdruck/Begriff und seinen verschiedenen lexikalischen Kontexten konsultiert werden kann. Das so kompilierte MetaWörterbuch ist nun aber an sich noch nicht mehr als eine – wenn auch bereits kritisch gesichtete und redaktionell bearbeitete – nutzerfreundliche Kumulation vorhandener, in der Frühen Neuzeit selbst lexikalisch formierter Daten. Angesichts des Mangels an modernen Lexika ist das schon eine beachtliche Hilfestellung, zumal die Frühe Neuzeit eine Fülle von Lexika und Enzyklopädien mit zum Teil ganz enormem Informationswert und Reflexionsniveau (siehe unten) hervorgebracht hat.

3.1
Die Lemmata–Kumulation könnte jedoch die Ausgangsbasis dafür abgeben, aus einer virtuellen Bibliothek frühneuzeitlicher Quellentexte eine virtuelle Enzyklopädie zu entwickeln, die nicht nur in einzelnen Bänden der Bibliothek formuliertes Wissen sichtet und bevorratet, sondern einen vieldimensionalen Wissensraum dynamisch entfaltet. Zu einer solchen tieferen Erschließung aller verfügbaren Textressourcen fehlten jedoch bislang noch wesentliche konzeptionelle und technisch–organisatorische Bausteine: Vor allem stellen die frühneuzeitlichen lexikalischen Daten nach modernem wissenschaftlichen Standard ja nicht mehr als erwägenswerte Vorurteile oder Hypothesen dar, die durch ein geeignetes Verfahren auf ihre Stichhaltigkeit zu überprüfen wären. Im Rahmen einer virtuellen Bibliothek, die eine repräsentative Sammlung frühneuzeitlichen Wissens darstellt, hätte das durch den Abgleich möglichst vieler einschlägiger Kontexte zu geschehen. Ein derartiger Abgleich verheißt dabei nicht nur die Sicherung/Rektifizierung vorhandenen Wissens, sondern auch die Entdeckung von Neuem, das das Wissen eines gut informierten Gelehrten der Frühen Neuzeit am Ende deutlich übersteigen kann.

3.2
Über den Erfolg eines solchen Verfahrens entscheidet nun wesentlich mit, ob und inwieweit maschinelle Verfahren in der Lage sind, den Menschen dabei in einem Maße zu entlasten, dass mit greifbaren Erfolgen eines solchen Abgleichs und dem Beginn seiner weiteren wissenschaftlichen Auswertung bereits im Verlauf weniger Jahre gerechnet werden könnte: Sind also technische Hilfestellungen denk– und machbar, die einem Textredakteur/Nutzer den Abgleich durch automatische Bereitstellung möglichst aller, wahrscheinlich einschlägiger Kontexte erheblich erleichtert? Kann eine Maschine den Abgleich dergestalt unterstützen, dass sie nicht nur nach irgendwelchen eher äußerlichen Kriterien (Häufigkeitsparameter, Corpuszuordnung) Kontexte auflistet, die einen Suchausdruck enthalten, sondern disambiguierend jene Kontexte privilegiert, die aufgrund von Kontextmerkmalen einer bestimmten – innerhalb des TERMINI–Meta–Lexikons greifbaren – Bedeutungszuschreibung hypothetisch zugeordnet werden können? Kann eine Maschine schließlich die für die Entdeckung neuer semantischer Sachverhalte höchst relevante Abwesenheit solcher Zuschreibungsmöglichkeiten angemessen aufdecken und verwalten, indem Kontexte gesammelt werden, die gerade keiner der bekannten Zuschreibungen hinreichend zu entsprechen scheinen? Ist es vorstellbar, dass dieser Prozess des Abgleichens auf die jeweiligen Anfragen von Nutzern einer Online–Version hin so geöffnet wird, dass diese dann nach ihren Bedürfnissen entscheiden können, welchen semantischen und sachlichen Zusammenhängen sie, unterstützt durch eine maschinelle Vorverarbeitung, genauer nachgehen? Die Metapher vom „Wissensnetz” provoziert auch die Frage nach geeigneten Formen der Darstellung semantischer Korrelationen: vermag eine Maschine auf entsprechende Darstellungswünsche flexibel zu antworten?

3.3
Die Verfügbarkeit einer solchen Maschine vorausgesetzt rückt bei Anwendung des beschriebenen Abgleichverfahrens der Aufbau einer virtuellen Enzyklopädie in Reichweite. Dabei kommen auch die spezifischen frühneuzeitlichen Strukturen und Schichtungen von Wissensordnungen sowie der Prozess ihres Wandels in den Blick. Die Frühe Neuzeit als Epoche nachhaltiger kultureller Umbrüche und beschleunigten Wissenstransfers ist wesentlich ein Prozess produktiv–eklektischer Neuformierung pagan– und christlich–antiker wie auch mittelalterlicher Wissenselemente und –ordnungen: zumal antikes Wissen wird unermüdlich zitiert, kommentiert und neu kontextualisiert. Unter anderem entstehen dabei auch Vor– und Frühformen der Altertumswissenschaft, die sich im 18. Jahrhundert auf den in Renaissance und Barock gelegten Fundamenten konstituieren wird. Eine Fülle zeitgenössischer Lexika und Enzyklopädien versuchte, diese Herausforderungen durch immer neue Ordnungsentwürfe zu bewältigen, hinreichend trag– und dehnfähige semantische Netze zu knüpfen, in denen das in beschleunigte Bewegung und Durchmischung geratene Wissensgut wieder in einen umfassenden geistigen Kosmos eingebunden wäre – eine denkerische Aufgabe von größter Komplexität. Nicht weniger komplex ist die Erschließungsaufgabe der modernen Frühneuzeitforschung. Sie darf sich nicht dabei beruhigen, die offensichtliche Komplexität ihres Feldes methodisch im Sinne von Descartes auf Einfachheiten zu reduzieren und damit am Ende das vielleicht interessanteste Phänomen zu verdrängen, das uns die Frühe Neuzeit mit der eben beschriebenen Komplexität und Dichte bietet. Sie darf ferner nicht hoffen, sich in absehbarer Zeit auf umfassende und zuverlässige moderne Lexika und Enzyklopädien stützen zu können; entsprechende Langzeitprojekte mit spezieller Ausrichtung auf die Epoche gibt es kaum und sind auch demnächst nicht zu erwarten.

3.4
Entsprechend sollte es eine weitere Aufgabenstellung sein, die Präsens antiken Wissens, dessen Wieder– und Neuentdeckung den Grundimpuls der Renaissance bildet, als Phänomen intensivster Vernetzung nicht mehr nur punktuell, sondern an einem größeren Textcorpus in umfassenderer Weise sichtbar zu machen. Die technische Basis dafür könnte ein Verfahren des Abgleichens ganzer Corpora und Textgattungen mit antiken Corpora bieten, das der Deutewillkür weitgehendst entzogenes Datenmaterial gewönne, das geeignet ist, eingespielte Sichtweise zu überprüfen und zu revidieren.

3.5
Das Projekt einer virtuellen Enzyklopädie der Frühen Neuzeit, die der Präsenz und Anverwandlung der Antike angemessene Beachtung schenkt, kann unter den gegenwärtigen Bedingungen wohl nur gedacht werden als Zusammenspiel einer kleinen Gruppe von Fach– und Computerspezialisten, die in relativ kurzer Zeit die erforderlichen Grundbausteine und technischen Einrichtungen schaffen, für eine längere Sicht das Ganze aber möglichst offen anlegen und so einen – in jüngster Zeit auch unter Geisteswissenschaftlern diskutierten – „Wikipedia–Effekt” von offenen, internetgestützten Forscherverbünden nach Kräften begünstigen, um auch in dieser Weise mit der Unabschließbarkeit des Fragens und Analysierens Ernst zu machen und die Nutzer durch die Bereitstellung einer Wissensbasis, eines flexiblen Analyseinstrumentariums und entsprechender Feedbackmechanismen nach Möglichkeit einzubeziehen. Grobübersicht zu den Arbeitsphasen:

A) Gegenwärtig laufende Arbeitsphasen bei TERMINI:
Phase 1: Sammlung von Lemmata und weiteren, nicht lemmatisierten Graphien; Bündelung unter einem referentiellen Ausdruck in Standardschreibung (z.B. MAECENAS | MOECENAS | MECOENAS unter MAECENAS); abrufbar auf eine Nutzeroberfläche. Phase 2: Anreicherung mit weiteren lexikalisch erfassten – morphologischen, syntaktischen, semantischen – Daten, soweit sie aus vorhandenen Maschinentexten frühneuzeitlicher Lexika greifbar sind;
abrufbar auf eine Nutzeroberfläche mit weiteren Suchfunktionen.

B) Darauf aufbauende Arbeitsphasen eines Enzyklopädieprojekts:
Phase 1: Die in der Lemmata–Kumulation formierten Daten werden maschinell abgeglichen mit allen verfügbaren zeitgenössischen Textcorpora durch Sammlung/Zuordnung möglicherweise einschlägiger Kontexte zu lemmatisierten Einträgen. Dabei werden der Zuordnung nicht nur die Passfähigkeit zu gespeicherten, lemmatisierten oder auch nicht lemmatisierten Graphien zugrundegelegt, sondern zu nach morphol. und semantischen Kriterien ausdifferenzierten Datenblöcken (vor allem Korrelation zu bestimmten, lexikalisch archivierten Bedeutungszuschreibungen). Eine derartige, intelligente Abgleichung ist möglich im Rahmen eines maschinellen Verfahrens nach Art des in jüngster Zeit intensiv entwickelten text mining, als deren Wortschatzbasis die kumulierten lexikalischen Daten dienen.
Das Ergebnis des maschinellen Abgleichs wird mindestens in zweierlei Weise aufbereitet:
a) als graphische Aufbereitung in Gestalt semantischer Relationsnetze zwischen den in Kontexten zusammentreffenden Ausdrücken;
b) als hypothetische Zuordnung/Auflistung von Kontexten aus allen verfügbaren zeitgenössischen Textcorpora zu lexikalisch vorstrukturierten Informationen.
Phase 2: Aufgrund dieser Vorverarbeitung kann ein Redakteur/Nutzer dann entscheiden, inwieweit maschinell–hypothetische Zuordnungen sachlich zutreffend sind. Im Rahmen einer wikipedia–artiken Arbeitsumgebung kann ein Redakteur/Nutzer erforderliche Korrekturen/Präzisierungen/Kommentare anbringen und das Arbeitsergebnis unter einem referentiellen Ausdruck (Stichwort) speichern.

C) Gegenstand einer weiteren Arbeitsphase könnte der Abgleich ganzer frühneuzeitlicher Corpora und Textgattungen mit antiken Corpora sein, um den Prozess produktiv–eklektischer Neuformierung pagan– und christlich–antiker wie auch mittelalterlicher Wissenselemente und –ordnungen nachzuzeichnen. Das Ergebnis sollte eine vieldimensionale Vernetzung der frühneuzeitlichen mit antiken Corpora sein, die sich auch in der Gestaltung und Anreicherung der virtuellen Enzyklopädie angemessen widerspiegelt.


1 www.uni-mannheim.de/mateo/camenahtdocs/camena.php
2 www.extern.historicum.net/liwi/2005/liwi2005-40.htm (3. Okt. 2005)
3 www.opus-bayern.de/bib-info/volltexte/2005/73/pdf/staecker_duedo-2005.pdf


Universität Leipzig
BMBF
end of page