Vaje VI Izdelava korpusov izbira besedil oznaevanje instalacija
Vaje VI Izdelava korpusov: izbira besedil, označevanje, instalacija na SKE Amanda Saksida Korpusno jezikoslovje
Gradnja korpusa po korakih 1. Zbiranje besedil v različnih formatih, preoblikovanje v enotni format (txt) + enotni kodni zapis (najbolje UTF-8): n n 2. Označevanje: tokenizacija in segmentacija, oblikoskladenjsko označevanje, lematizacija n 3. lahko naredimo sami ali pa za nas naredi Boot. Cat spletni servis http: //nl. ijs. si/jos/analyse/ instalacija korpusa v konkordančnik n 29. 11. 2020 Sketch Engine Amanda Saksida Korpusno jezikoslovje 2
Web. Boot. Cat 1. Izberemo ključne besede 2. Nastavimo jezik na slovenski, mogoče spremenimo prednastavljene parametre (npr. število strani po poizvedbi, če (več ko je ključnih besed, večji bo korpus in dalj bo trajala gradnja) hočemo večji korpus, vendar potem gradnja traja dlje) 3. Pregledamo najdene domače strani 4. Boot. Cat izdela korpus 5. Ko je korpus izdelan, nas Boot. Cat o tem obvesti po emailu Ta korpus lahko neoznačen že kar uporabljamo Če pa hočemo korpus jezikoslovno označit: 6. 7. (ali pa vzamemo vse) (za slovenski jezik neoznačen) n 29. 11. 2020 najprej shranimo korpus na našem računalniku v “raw format” Amanda Saksida Korpusno jezikoslovje 3
Označevanje o o Korpus označimo preko spletnega servisa http: //nl. ijs. si/jos/analyse/ Oblikoslovne oznake so po specifikaciji JOS Podobne, vendar razne sprembe glede na oznake Fida. PLUS! Podrobnejši pregled: http: //nl. ijs. si/jos/msd/html-sl/ 29. 11. 2020 Amanda Saksida Korpusno jezikoslovje 4
Instalacija korpusa Označeni korpus naložimo na Sketch. Engine: o Izberemo Corpus. Builder, “Create new corpus: from template” o Nastavimo opcije: n n n o o Tagged WS (Uploaded files metadata: Title) Uploaded files encoding: UTF-8 Korpus spustimo skozi vse korake instalacije (merge, vert, …) Naknadno lahko dodajamo nove podkorpuse našemu korpusu 29. 11. 2020 Amanda Saksida Korpusno jezikoslovje 5
Uporaba o Uporabimo na novo instaliran korpus n n 29. 11. 2020 konkordance word-sketches (pri majhnih korpusih zmanjšamo spodnjo število najdenih primerov iz 5 na npr. 3) tezaver sketch differences Amanda Saksida Korpusno jezikoslovje 6
Problemi s avtomatskim označevanjem o Problemi z razdvoumljanjem: o o Problemi z neznanimi besedami: o o Jesti vs. biti; elativ (preostalo) Memo, lematiziran kot “meti”, tajkun, Problemi predvsem tam, kjer se tudi pri ročnem označevanju ne znamo prav dobro odločiti n 29. 11. 2020 eni/prvi – drugi, pridevniki vs. deležniki na –n, … Amanda Saksida Korpusno jezikoslovje 7
Fida+: iskanje po 2. kanalu Primeri: o Glagol brati – s katerimi predlogi se veže? o Najdite vse tožilniške predložne besedne zveze, ki sledijo glagolom “-pisati” (glagol+predlog+samostalnik v tožilniku). Prejšnji iskalni niz nadgradite z omejitvijo, da naj bodo glagoli v velelniku. Zdaj pa prejšnjemu iskalnemu nizu dodajte še pogoj, da predlog ne sme biti “na”. o Sam. im. sr. sp. mn + sam. im. ž. sp. mn. + gl. del. mn. – kateri spol? o Kakšno obliko ima množilni števnik, izpeljan iz števila 7, v dvojini? In kakšno števnik, izpeljan iz števila 8, 2, 3? Kako pogosta je raba množilnega števnika? Kateri števniki so uvrščeni med 'druge'? o Kako bi našli pojavitve glagolskega časa predpreteklik v korpusu? 29. 11. 2020 Amanda Saksida Korpusno jezikoslovje 8
SKE: iskanje s pomočjo oznak Osnove CQP skladnje (samo toliko, da boste znali poiskat v SKE tudi po oznakah): http: //www. ims. unistuttgart. de/projekte/Corpus. Workbench/CQ PSyntax. html http: //www. ims. unistuttgart. de/projekte/Corpus. Workbench/CQ PExamples. html o Primer: [lemma="zadnji. *" & tag="So. *"] o 29. 11. 2020 Amanda Saksida Korpusno jezikoslovje 9
- Slides: 9