Potsdamer Zeitungskorpus - diachron
Description
Das Potsdamer Zeitungskorpus ist eine diachrone Dependenzbaumbank, die sowohl Informationen zu den Lemmata und Wortarten als auch ausgewählte Dependenzrelationen der Universal Dependencies enthält. Das annotierte Korpus umfasst Zeitungstexte in strukturierter Auswahl, die in der Zeit von 1600 bis 1950 in unterschiedlichen Regionen Deutschlands publiziert wurden. Insgesamt hat es einen Umfang von 188.917 Wortformen, die sich auf 7.163 Sätze verteilen. Die Annotation von Lemmata und Wortarten erfolgte semi-automatisch: Nach der manuellen Segmentierung der Ganzsätze wurde mithilfe der Stanford Natural Language Processing Software zunächst automatisch das Lemma-Tagging und Part-of-Speech-Tagging vorgenommen. Anschließend wurden fehlerhafte Annotationen auf Wortebene manuell korrigiert. Die Annotation der Dependenzrelationen wurde im Double-Keying-Verfahren ebenfalls manuell erstellt. Der Aufbau der Baumbank wurde im Rahmen des Teilprojekts C06 im SFB 1287 Limits of Variability in Language von der Deutschen Forschungsgemeinschaft gefördert (Projektnummer 317633480).
Other (English)
Research carried out in work package C06 of the SFB 1287.
Files
Additional details
- Accuracy
Not specified.
- Completeness
Not specified.
- Conformity
Not specified.
- Consistency
Not specified.
- Credibility
Not specified.
- Processability
Not specified.
- Relevance
Not specified.
- Timeliness
Not specified.
- Understandability
Not specified.