Archimob – eine Sammlung von gesprochenem und geschriebenem Schweizerdeutsch

 

Das KorpusLab (korpuslinguistisches Laboratorium) ist Teil des universitären Forschungsschwerpunktes Sprache und Raum” und dient der Entwicklung und Adaption von Methoden und Ressourcen für die Untersuchung linguistischer Phänomene in Sprachkorpora. Sprachkorpora sind Sammlungen maschinenlesbarer Texte. Diese sind so aufbereitet, dass man mit einem Computer darauf zugreifen und sie analysieren kann. Im KorpusLab extrahieren wir Daten von Sprachkorpora automatisch anhand des sogenannten „Natural Language Processing“. Auf diese Weise können wir linguistische Phänomene im Korpus auszählen und mit statistischen Modellen die Strukturen und Regeln hinter dem beobachteten Sprachgebrauch verstehen.

 

Ein spezifisches Projekt des KorpusLab widmet sich dem Schweizerdeutschen. Im Sommer 2016 haben wir das erste Release des ArchiMob Korpus online gestellt. Dieses besteht aus Transkriptionen von Interviews mit Schweizer Bürgern, die den zweiten Weltkrieg miterlebt haben und deckt Themen wie politische Streitereien, das damalige Alltagsleben und sogar verbotene Liebschaften während des Krieges ab. Die Interviews, die zwischen ein und zwei Stunden dauern, wurden vom Verein ArchiMob in einem Oral-History-Projekt aufgenommen. Die Informanten kommen aus allen Dialektregionen der Schweiz und repräsentieren beide Geschlechter, verschiedene soziale Hintergründe und unterschiedliche politische Ansichten.

 

Im Prozess der automatischen Annotation haben wir Tools entwickelt wie zum Beispiel ein Wortartenerkennungssystem und ein Normalisierungssystem, die jetzt auch zur Verarbeitung anderer schweizerdeutscher Texte verwendet werden können. Ein spezielles Merkmal des Korpus ist die Text-zu-Ton-Alignierung von 4-8 Sekunden langen Segmenten. Diese Alignierung eignet sich nicht nur für die detaillierte Erforschung von Phänomenen gesprochener Sprache, sondern auch für das Training eines Sprache-zu-Text Konvertierungsprogramms.

 

Das Korpus ist in zwei Formen verfügbar: für online Korpus-Abfragen über eine Korpus-Suchmaschine und als herunterladbares XML-Archiv.

Links:

 

- ArchiMob-Korpus Projekt: http://www.spur.uzh.ch/en/departments/korpuslab/Research/ArchiMob.html

- KorpusLab: http://www.spur.uzh.ch/de/departments/korpuslab.html

- Universitärer Forschungsschwerpunkt Sprache und Raum: http://www.spur.uzh.ch/de.html

- Archimob: http://www.archimob.ch/