Published February 10, 2025 | Version v1
Dataset Open

Potsdamer Zeitungskorpus - diachron

Contributors

Project leader:

  • 1. ROR icon University of Potsdam

Description

Das Potsdamer Zeitungskorpus ist eine diachrone Dependenzbaumbank, die sowohl Informationen zu den Lemmata und Wortarten als auch ausgewählte Dependenzrelationen der Universal Dependencies enthält. Das annotierte Korpus umfasst Zeitungstexte in strukturierter Auswahl, die in der Zeit von 1600 bis 1950 in unterschiedlichen Regionen Deutschlands publiziert wurden. Insgesamt hat es einen Umfang von 201.056 Wortformen, die sich auf 7.594 Sätze verteilen. Die  Annotation von Lemmata und Wortarten erfolgte semi-automatisch: Nach der manuellen Segmentierung der Ganzsätze wurde mithilfe der Stanford Natural Language Processing Software  zunächst automatisch das Lemma-Tagging und Part-of-Speech-Tagging vorgenommen. Anschließend wurden fehlerhafte Annotationen auf Wortebene manuell korrigiert. Die Annotation der Dependenzrelationen wurde im Double-Keying-Verfahren ebenfalls manuell erstellt. Der Aufbau der Baumbank wurde im Rahmen des Teilprojekts C06 im SFB 1287 Limits of Variability in Language von der Deutschen Forschungsgemeinschaft gefördert (Projektnummer 317633480).

Other (English)

Research carried out in work package C06 of the SFB 1287.

Files

PotsdamerZeitungskorpusDiachronMod.zip

Files (1.7 MB)

Name Size Download all
md5:0fcfb6fe3a7d44f301daf05d6dd900b9
10.9 kB Preview Download
md5:576b69c507ec9d72c07007b06b1ad36a
1.7 MB Preview Download

Additional details

Funding

Deutsche Forschungsgemeinschaft
Die Grenzen der Variabilität in der Sprache: Kognitive, komputationale und grammatische Aspekte 317633480

Data quality

Accuracy

Not specified.

Completeness

Not specified.

Conformity

Not specified.

Consistency

Not specified.

Credibility

Not specified.

Processability

Not specified.

Relevance

Not specified.

Timeliness

Not specified.

Understandability

Not specified.