Schwiizerdütsch für compiuter

d’compiuterlinguistik beschäftigät sich mitäm überschniidigsberaich vo schprachforschig und informatik. aawendigsgebiät sind zum bischpil maschinelli übersezig, schprachgeneriärig, schpracherkennig, und so wiiter.

zum natürlichi (aso menschlichi) schprach mitämä compiuter automatisch bearbaitä brucht mer zerscht mal ressurssä wiä zum biischpil äs korpus, aso ä möglichscht groossi sammlig vo täxt, und äs paar grundlegändi tools, aso so chliini programm für die schprach.

vor äs paar joor isch im raamä vomnä seminar am inschtitut für compiuterlinguistik (http://www.cl.uzh.ch/)  ade uni züri d seminararbet „Part-of-Speech Tagging für Schweizerdeutsch” entschtandä. diä arbät isch dä aafang vomnä chlinä projekt (http://www.cl.uzh.ch/research/nlp4swissgerman.html/)  xii. noch dä abgob vodä seminararbet händ mir, aso d’nora hollenstein und d’noëmi aepli, üs wiiterhin dämit beschäftigät und zwai wüsseschaftlichi arbätä däzuä publiziärt. entschtandä isch „NOAH’s Corpus“ (http://kitt.cl.uzh.ch/kitt/noah/).

än part-of-speech-tagger isch äs compiuterprogramm wo jedem wort vomnä täxt sini wortart zuäwiist. äs isch äs basiswärkzüüg für schprochtechnologie und wird für verschideni zwäk bruucht beziäigswiis isch für vili wiiteri awendigä idä värarbaitig vo natürlicher schprach äs grundlegänds tool. für vili schprache exischtiäräd diä scho, äs git aber no vill „wenig beachtäti” schprache wos no kai resource git däfüür. das gilt au für schwizerdütsch als dialektkontinuum vo dialäkt wo sich schtarch vo schtandarddütsch unterschaidäd. troz dä grossä underschiid zwüschätäm schtandard und dä dialäkt wird dä umwäg über schtandarddütsch gwäält wenn i schprachverarbaitigssüschtem mit schwizerdütsch gschaffet wird. indem ressurssä für schwizerdütsch zämägschtellt wärdäd cha nöd nur dä umwäg vermidä wärdä sondern äs chönd au vill besseri resultät erziilt wärdä. äs korpus und äs wortartäerkennigssüschtem sind di erschtä schritt zumnä ressurssäufbau.

mir hend schwizerdütschi täxt gsammlät und manuell für jedäs wort d wortart beschtimmt. mit  dem hemmer äs schtatistischäs wortartäerkennigssüschtem träniert. das haisst das süschtem hät us üsnä manuällä wortartäzuäwisigä glärnt, so dasäs diä ufgob nocher cha übernää – und das machts jez au mitärä genauikait vo 90% (also 9 vo 10 wörter wärdäd korräkt klassifiziärt).

wills für schwizerdütsch weder ä offiziälli rächtschriibig no än schtandard git, ischäs umso schwiriger ressurssä z entwiklä zum diä dialäkt automatisch värarbaitä. das wortärkennigssüschtem söll als erschti grundlag für di automatisch schprachverarbaitig vo schwizer dialäkt diänä.

Tegscht: Noëmi Aepli, Feb. 2016