Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
was [2018/05/15 11:30] |
was [2021/03/31 12:49] (aktuell) |
||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
+ | ====== Was bedeutet ... ? ====== | ||
+ | ==== Apache-Lizenz ==== | ||
+ | Die Apache-Lizenz ist eine Freie-Software-Lizenz der Apache Software Foundation, die keinen Copyleft-Vermerk besitzt. | ||
+ | |||
+ | |||
+ | |||
+ | ==== Beta-Code Altgriechisch ==== | ||
+ | Griechischer Beta Code ist die 7-Bit-sichere Kodierung mittels des US-ASCII-Zeichensatzes. Jedes diakritische Zeichen wird durch ein eigenes Zeichen dargestellt, | ||
+ | |||
+ | Siehe auch: [[betacode]]. | ||
+ | |||
+ | ἀστερίσκος in Beta-Code Altgriechisch: | ||
+ | < | ||
+ | ==== Big Data ==== | ||
+ | Analyse großer Datenmengen aus verschiedenen Quellen mit dem Ziel, wirtschaftlichen Nutzen daraus zu erzeugen. | ||
+ | |||
+ | ==== CC ==== | ||
+ | Unter dem Begriff **C**reative **C**ommons (CC) wird eine Sammlung von Lizenzen verstanden, mit denen ein Autor Nutzungsrechte für sein Werk einräumen kann. Durch die Kombination der Rechtemodule | ||
+ | |||
+ | * by (Attribution) Namensnennung | ||
+ | * nc (Non-Commercial) Nicht kommerziell | ||
+ | * nd (No Derivatives) Keine Bearbeitung | ||
+ | * sa (Share Alike) Weitergabe unter gleichen Bedingungen | ||
+ | |||
+ | kann die Freigabe nach den Wünschen des Urhebers abgestuft werden. | ||
+ | |||
+ | ==== Copyleft ==== | ||
+ | Als Copyleft wird eine Klausel in Nutzungslizenzen bezeichnet, die festlegt, dass alle Änderungen an einem Werk nur dann statthaft sind, wenn sie im Wesentlichen unter den gleichen Lizenzbedingungen verbreitet werden. | ||
+ | |||
+ | ==== CSV ==== | ||
+ | Das textbasierte Dateiformat CSV (Comma-separated values) ist eine Form von DSV (Delimiter-separated values). Die Daten sind in Tabellenform, | ||
+ | |||
+ | Parallelstellen von TATIANUS (TLG) im CSV-Format: | ||
+ | <code csv beispiel.csv> | ||
+ | Original Sentence; Reference; Original Author; Original Publication; | ||
+ | " | ||
+ | " | ||
+ | </ | ||
+ | ==== CTS ==== | ||
+ | Das Notationssystem CTS (**C**anoncial **T**ext **S**ervices) als Teil der CITE Architektur bietet einen netzbasierten Service zur Identifikation klassischer Texte basierend auf URN. CTS URNs sind in fünf Teile untergliedert, | ||
+ | |||
+ | ==== DOI ==== | ||
+ | **D**igital **O**bject **I**dentifier (DOI) werden seit 1998 durch die International DOI Foundation (IDF) koordiniert. Mit DOI können sowohl physische, digitale als auch abstrakte Objekte dauerhaft eindeutig identifiziert und lokalisiert werden. Dem Schema, welches immer mit 10 beginnt, wird zur Identifikation eine doi vorangestellt: | ||
+ | |||
+ | Ein Beispiel: | ||
+ | < | ||
+ | Ch. Schubert (Hg.): Working Papers Contested Order (NO. 10): Das Portal eAQUA – Neue Methoden in der geisteswissenschaftlichen Forschung V | ||
+ | DOI: http:// | ||
+ | </ | ||
+ | ==== Editierdistanz ==== | ||
+ | [[was# | ||
+ | |||
+ | ==== Entropie ==== | ||
+ | Entropie in der Informationstheorie gibt an, wieviel Bits im Durchschnitt benötigt werden, um einen Wert einer Zuvallsvariablen als ein Ereignis (als Teil einer Nachricht) zu codieren. Je mehr Bits benötigt werden, desto höher ist die Entropie und umso schwieriger die Vorhersagen eines Ereignisses. | ||
+ | |||
+ | ==== GPL ==== | ||
+ | Die GNU **G**eneral **P**ublic **L**icense (auch GPL oder GNU GPL) ist eine Lizenz, die es erlaubt, eine Software kostenlos zu nutzen, zu verbreiten, zu studieren oder auch zu verändern. Alle von der Software abgeleitete Programme müssen ebenfalls zu den Bedingungen der GPL lizenziert werden (Copyleft). | ||
+ | |||
+ | |||
+ | ==== HTML ==== | ||
+ | **H**yper**t**ext **M**arkup **L**anguage ist eine textbasierte Auszeichnungssprache zur strukturierten Darstellung von Inhalten in elektronischen Dokumenten. | ||
+ | |||
+ | ==== JPEG ==== | ||
+ | Verschiedene Methoden der Bildkompression, | ||
+ | |||
+ | ==== JSON ==== | ||
+ | |||
+ | **J**ava**S**cript **O**bject **N**otation ist ein kompaktes Datenformat, | ||
+ | |||
+ | Auszug von TLG-Metadaten in JSON: | ||
+ | <code json beispiel.json> | ||
+ | { | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | [ | ||
+ | {" | ||
+ | ] | ||
+ | }, | ||
+ | { | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | [ | ||
+ | {" | ||
+ | {" | ||
+ | ] | ||
+ | } | ||
+ | </ | ||
+ | |||
+ | ==== Kookkurrenz ==== | ||
+ | Das gemeinsame Auftreten zweier lexikalischer Einheiten, z.B. Wörter, innerhalb eines übergeordneten Segmentes, z.B. Satz, wird in der Allgemeinen Linguistik als Kookkurrenz bezeichnet. | ||
+ | |||
+ | ==== Lemmatisierung ==== | ||
+ | |||
+ | Reduktion auf die Grundform eines Wortes, also diejenige Form, unter der der Begriff in einem Nachschlagewerk zu finden ist. | ||
+ | |||
+ | ==== Levenshtein-Distanz ==== | ||
+ | Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, | ||
+ | |||
+ | Siehe auch: [[start# | ||
+ | |||
+ | ==== Markup ==== | ||
+ | Eine Markup language (ML) oder Auszeichnungssprache beschreibt den Inhalt eines Dokumentes oder das Verfahren, welches zur Verarbeitung der Daten notwendig ist. HTML, XML oder LaTeX sind Auszeichnungssprachen. | ||
+ | |||
+ | ==== Metadaten ==== | ||
+ | Metadaten oder auch Metainformationen sind allgemein Daten, die Informationen über Merkmale beinhalten, die nicht Bestandteil der Daten selbst sind. Bei einer Korpusanalyse werden z.B. alle bibliographischen Informationen als Metadaten behandelt. | ||
+ | |||
+ | ==== MIT-Lizenz ==== | ||
+ | Die MIT-Lizenz (auch X-Lizenz oder X11-Lizenz) ist eine aus dem Massachusetts Institute of Technology stammende Lizenz für die Software-Benutzung, | ||
+ | |||
+ | ==== N3 ==== | ||
+ | Notation 3 ist eine formale Sprache, die beispielsweis als Syntax für RDF-Daten genutzt werden kann: | ||
+ | < | ||
+ | |||
+ | ==== N-Gramm ==== | ||
+ | Zerlegung eines Textes in einzelne Fragmente der Anzahl N. Die Fragmente können Buchstaben, Phoneme oder auch Wörter sein. In der Computerlinguistik finden sich oft Bi- oder Trigramme aus Zeichen (Buchstaben und/oder Satzzeichen). | ||
+ | |||
+ | ==== NER ==== | ||
+ | **N**amed **E**ntity **R**ecognition - Eigennamenerkennung. Begriffe eines Textes werden bestimmten Klassen zugeordnet, z.B. Orte oder Personen. | ||
+ | ==== Normalisierung ==== | ||
+ | Allgemein wird darunter die Vereinheitlichung von Text verstanden. | ||
+ | |||
+ | ==== Parser ==== | ||
+ | Ein Parser ist ein Programm, welches eine Eingabe zerlegt und in ein für die Weiterverarbeitung brauchbares Format umwandelt. | ||
+ | |||
+ | ==== Persistent Identifier ==== | ||
+ | Ein künstlich zugewiesenes Merkmal zur eindeutigen, | ||
+ | |||
+ | ==== PNG ==== | ||
+ | **P**ortable **N**etwork **G**raphics ist ein Grafikformat, | ||
+ | |||
+ | ==== PoS ==== | ||
+ | **P**art-**o**f-**S**peech Tagging ordnet die Wörter eines Textes Wortarten zu. | ||
+ | |||
+ | ==== PURL ==== | ||
+ | Ein **P**ersistent **U**niform **R**esource **L**ocator verweist in Form einer URL nicht direkt auf eine Ressource, sondern auf einen Resolver, der die aktuelle Internet-URL liefert. DOI oder URN existieren alternativ dazu. | ||
+ | |||
+ | ==== Resolver ==== | ||
+ | Als Resolver wird in der Informatik allgemein eine Software zur Namensauflösung bezeichnet. Ein Linkresolver löst Metadaten z.B. in Form einer URN in lokale Bestandsdaten auf und liefert den dazu passenden Hyperlink. | ||
+ | |||
+ | ==== RDA ==== | ||
+ | **R**esource **D**escription and **A**ccess bezeichnet einen neuen Standard für die Erschließung von Ressourcen in Bibliotheken, | ||
+ | |||
+ | ==== RDF ==== | ||
+ | Das **R**esource **D**escription **F**ramework wurde vom World Wide Web Consortium (W3C) zur Beschreibung von Metadaten entwickelt. Es gilt mittlerweile als wesentlicher Bestandteil des sogenannten semantischen Webs. Aussagen im RDF-Modell werden als Tripel von Subjekt, Prädikat und Objekt gebildet, zumeist in Form von XML oder N3. | ||
+ | |||
+ | ==== Signifikanz ==== | ||
+ | In der Statistik wird unter Signifikanz eine Kennzahl verstanden, welche die Wahrscheinlichkeit eines systematischen Zusammenhangs zwischen Variablen bezeichnet. | ||
+ | ==== Similar-Text ==== | ||
+ | Ein Algorithmus, | ||
+ | |||
+ | ==== SQL ==== | ||
+ | Datenbanksprache in relationalen Datenbanken. SQL (Allgemeiner Sprachgebrauch: | ||
+ | * Data Manipulation Language (DML) - Befehle zur Datenmanipulation | ||
+ | * Data Definition Language (DDL) - Befehle zur Definition des Datenbankschemas | ||
+ | * Data Control Language (DCL) - Befehle für die Rechteverwaltung und Transaktionskontrolle. | ||
+ | |||
+ | ==== Stoppwords ==== | ||
+ | Eine Liste von Wörtern, die bei der Verarbeitung eines Textes nicht berücksichtigt werden sollen. | ||
+ | |||
+ | ==== SVG ==== | ||
+ | **S**calable **V**ector **G**raphics basiert auf XML und beschreibt zweidimensionale Vektorgrafiken. | ||
+ | |||
+ | [[was# | ||
+ | |||
+ | ==== Table has no rows ==== | ||
+ | {{:: | ||
+ | |||
+ | ==== TEI ==== | ||
+ | Das von der **T**ext **E**ncoding **I**nitiative entwickelte, | ||
+ | |||
+ | [[was# | ||
+ | |||
+ | ==== TIFF ==== | ||
+ | **T**agged **I**mage **F**ile **F**ormat ist ein Bilddateiformat, | ||
+ | |||
+ | ==== Tokenesierung ==== | ||
+ | In der Computerlinguistik wird damit die Zerlegung in Segmente auf Wortebene bezeichnet. | ||
+ | |||
+ | ==== TSV ==== | ||
+ | Das textbasierte Dateiformat TSV (**T**ab-**S**eparated **V**alues) ist eine Form von DSV (Delimiter-separated values). Die Daten sind in Tabellenform, | ||
+ | |||
+ | [[was# | ||
+ | ==== URI ==== | ||
+ | Laut RFC 1630 von T. Berners-Lee aus dem Jahr 1994 ist URI ein Akronym für Universal Resource Identifiers, | ||
+ | |||
+ | ==== URL ==== | ||
+ | **U**niform **R**esource **L**ocator identifizieren eine Ressource anhand der zu verwendenden Zugriffsmethode. Der eAQUA-Internetauftritt wird z.B. über **< | ||
+ | | ||
+ | ==== URN ==== | ||
+ | Publikationen können im Netz dauerhaft und zuverlässig zitiert werden, indem eindeutige, standortunabhängige Identifikatoren URNs (**U**niform **R**esource **N**ame) anstelle von URLs verwendet werden. URNs sind URIs mit dem Schema urn: | ||
+ | |||
+ | ==== UTF ==== | ||
+ | **U**nicode **T**ransformation **F**ormat. Zeichen werden zum Zwecke der elektronischen Verarbeitung auf eine Folge von Bytes abgebildet. Übliche Kodierungsverfahren sind | ||
+ | * UTF-8 - Zwischen 1 und 4 Byte. Die Codepoints 0 bis 127, die dem ASCII-Zeichensatz entsprechen, | ||
+ | * UTF-16 - Ein oder zwei 16-Bit-Einheiten (2 oder 4 Bytes) werden zur Kodierung eines Zeichens verwendet. | ||
+ | * UTF-32 - Kodiert immer 32 Bit (4 Byte). Durch die feste Länge am einfachsten zu handhaben, benötigt dafür mehr Speicher. | ||
+ | |||
+ | ==== Wortstammreduktion ==== | ||
+ | Auch Stemming, Stammformreduktion oder Normalformenreduktion genannt. Verschiedene morphologische Varianten eines Wortes werden auf ihren gemeinsamen Wortstamm zurückgeführt. | ||
+ | |||
+ | |||
+ | ==== XLS ==== | ||
+ | |||
+ | Binäres Dateiformat von Microsoft Excel, welches bis 2007 ausschließlich gebräuchlich war. | ||
+ | |||
+ | |||
+ | |||
+ | ==== XML ==== | ||
+ | E**x**tensible **M**arkup **L**anguage ist eine Auzeichnungssprache zur Darstellung strukturierte Daten in Textform. Sie wird vor allem als Austauschformat zwischen verschiedenen Computersystemen genutzt. | ||
+ | |||
+ | Beginn eines TEI-XML Dokuments aus der Perseus Digital Library: | ||
+ | < | ||
+ | <?xml version=" | ||
+ | < | ||
+ | PUBLIC " | ||
+ | <!ENTITY % TEI.XML " | ||
+ | <!ENTITY % PersProse PUBLIC " | ||
+ | %PersProse; | ||
+ | ]> | ||
+ | < | ||
+ | < | ||
+ | < | ||
+ | < | ||
+ | < | ||
+ | <title type=" | ||
+ | <author n=" | ||
+ | <editor role=" | ||
+ | |||
+ | </ | ||
+ | ==== W3C ==== | ||
+ | Das World Wide Web Consortium standardisiert die Techniken im World Wide Web. Es wurde 1994 am MIT gegründet. | ||
+ | |||
+ | ==== Wahrscheinlichkeitsverteilung ==== | ||
+ | Die Wahrscheinlichkeitsverteilung ist das theoretische Pendant zur empirisch ermittelbaren Häufigkeitsverteilung. Sie beschreibt, mit welchen Wahrscheinlichkeiten eine Zufallsvariable ihre möglichen Werte annimmt. | ||
+ | |||
+ | ==== Zipf' | ||
+ | |||
+ | Das Gesetz besagt, wenn man die Typen eines Textes ihrer Häufigkeit //f// nach ordnet und ihnen dabei jeweils einen Rang //r// zuweist, dann ergibt das Produkt von //f// und //r// jeweils einen konstanten Wert // |