CUTE | Proceedings | Programm | Call for Submissions | Infos zur Einreichung | Wichtige Termine | Kontakt und Organisation | Datenmaterial

Datenmaterial

Inhaltliche Beschreibung

Korpusgröße

Subkorpus Tokens Entitäten Version
Werther (1787) 41.505 331 1
Adorno 13.233 929 1
Parzival 30.491 2.001 1
Bundestagsdebatten 6.371 488 1

Datenformate

CoNLL (TSV)

Je Zeile ein Token. An Satzgrenzen eine Leerzeile. Annotationen sind tab-separiert. Mehrere Annotationen können in verschiedenen Spalten notiert werden. B-PER bezeichnet das erste Token einer Personen-Annotationen, I-PER bezeichnet folgende Tokens einer Personen-Annotation. O (der Buchstabe) bezeichnet keine Annotationen.

Update, 29.11.: Da sich die Trainingsdaten für Werther nur auf einen Teil des Textes beziehen, enthält die Datei mit der Id 3_34_12 nur noch einen Teil des Textes. Frühere Versionen der Datei enthielten aufgrund eines technischen Fehlers leider auch nicht-geprüfte Annotationen.

Beispiel

Die B-PER
geringen I-PER
Leute I-PER
des I-PER B-LOC
Orts I-PER I-LOC
kennen O
mich O
schon O
, O
und O
lieben O
mich O
, O
besonders O
die B-PER
Kinder I-PER
. O

Apache UIMA XMI

XML-basiert, für die Verarbeitung mit Apache UIMA. Das Typsystem kann hier heruntergeladen werden. Die relevanten Typen sind Untertypen von de.unistuttgart.ims.creta.api.Entity. Die Annotationskategorie ergibt sich zum einen aus dem Untertyp (z.B. de.unistuttgart.ims.creta.api.EntityPER) und zum anderen aus dem Wert von Attribut category.

Markdown

Benutzt das pandoc Markdown, vor allem zum manuellen Lesen der Annotationen. Annotationen sind mit eckigen Klammern gekennzeichnet, tiefgestellt folgt dann die Kategorie.
Das Format sollte nicht zur automatischen Verarbeitung verwendet werden.

Beispiel

[Die geringen Leute [des Orts ]~LOC~]~PER~kennen mich schon, und lieben mich, besonders [die Kinder]~PER~.

Downloads

Subkorpus CoNLL (TSV) XMI Markdown
Werther (1787) 3_34_12 3_34_12 3_34_12
Adorno Bitte dieses Formular ausfüllen. Durch den zufällig abgefragten Satz aus dem entsprechenden Abschnitt verifizieren wir, dass Sie ohnehin schon im Besitz des Textes sind.
Parzival Buch 3, Buch 4, Buch 5, Buch 6 Buch 3, Buch 4, Buch 5, Buch 6 Buch 3, Buch 4, Buch 5, Buch 6
Bundestagsdebatten 3_22_26, 3_23_26, 3_24_26, 3_25_26 3_22_26, 3_23_26, 3_24_26, 3_25_26 3_22_26, 3_23_26, 3_24_26, 3_25_26