@inproceedings{faass-schmid-2023-segmentierungs,
title = {Segmentierungs- und Annotationsverfahren f{\"u}r die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen},
author = "Faa{\ss}, Gertrud and
Schmid, Helmut",
editor = "Schneider, Roman and
Gertrud, Faa{\ss}",
booktitle = "Journal for Language Technology and Computational Linguistics, Vol. 36 No. 1",
month = may,
year = "2023",
address = "unknown",
publisher = "German Society for Computational Lingustics and Language Technology",
url = "https://preview.aclanthology.org/jlcl-multiple-ingestion/2023.jlcl-1.8/",
doi = "10.21248/jlcl.36.2023.241",
pages = "151--170",
abstract = {In der Computerlinguistik ist eine kaskadische Prozessierung von Texten {\"u}blich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zus{\"a}tzliche Spalten {--} also positionale Annotationen wie z.B. Wortarten und Lemmata f{\"u}r die Tokens in der ersten Spalte {--} erg{\"a}nzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gel{\"o}scht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese {\"a}u{\ss}erst ambig sein k{\"o}nnen, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengeh{\"o}ren. Dieser Beitrag fokussiert auf den Apostroph, der in vielf{\"a}ltiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten m{\"o}chten. Wir nutzen daf{\"u}r das komplette Lindenberg-Archiv des songkorpus.de-Repositoriums, kategorisieren die auftretenden Ph{\"a}nomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch - lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch f{\"u}r diese Texte angepasstes Training zu Genauigkeiten {\ensuremath{\geq}} 96{\%} f{\"u}hrt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verf{\"u}gung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verf{\"u}gbar auf github), die f{\"u}r {\"a}hnliche Texte verwendet werden kann.}
}
Markdown (Informal)
[Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen](https://preview.aclanthology.org/jlcl-multiple-ingestion/2023.jlcl-1.8/) (Faaß & Schmid, JLCL 2023)
ACL