Vaje V Sketchengine Raba Izdelava korpusov izbira besedil
Vaje V Sketchengine Raba Izdelava korpusov (izbira besedil, označevanje, instalacija na SKE)
SKE o Konkordanca: primerjava med stranjo od Fide+ in SKE: kaj se kje da/ne da narediti: o Pri Fidiplus lahko poiščemo več različnih besed levo in/ali desno od iskalnega pogoja, pri SKE samo eno. o SKE istočasno in mnogo hitreje o Primerjava med BNC in F+ (različne možnosti iskanja) o Shranjevanje podatkov o Grajenje lastnih korpusov – naslednjič. 20. 2. 2021 Amanda Saksida Korpusno jezikoslovje 2
o Word sketches: § § mrč, veleum, tajkun, jesti, driblati o Thesaurus: poišče besede, ki imajo podobno distribucijo in vezljivost kot iskana beseda o Sketch diff: pokaže razlike in podobnosti med dvema besedama § § § 20. 2. 2021 cona/območje/področje baba/mačka/bejba dojenček/dojenec/malček/otrok Amanda Saksida Korpusno jezikoslovje 3
Gradnja korpusa po korakih 1. Zbiranje besedil v različnih formatih, preoblikovanje v enotni format (txt) + enotni kodni zapis (najbolje UTF-8): n n lahko naredimo sami ali pa za nas naredi Boot. Cat 2. Označevanje: tokenizacija in segmentacija, oblikoskladenjsko označevanje, lematizacija n spletni servis http: //nl 2. ijs. si/analyze/ 3. instalacija korpusa v konkordančnik n 20. 2. 2021 Sketch Engine Amanda Saksida Korpusno jezikoslovje 4
Web. Boot. Cat 1. Izberemo ključne besede 2. Nastavimo jezik na slovenski, mogoče spremenimo prednastavljene parametre (npr. število strani po poizvedbi, če 3. 4. 5. 6. 7. (več ko je ključnih besed, večji bo korpus in dalj bo trajala gradnja) hočemo večji korpus, vendar potem gradnja traja dlje) Pregledamo najdene domače strani (ali pa vzamemo vse) Boot. Cat izdela korpus (za slovenski jezik neoznačen) Ko je korpus izdelan, nas Boot. Cat o tem obvesti po emailu Ta korpus lahko neoznačen že kar uporabljamo Če pa hočemo korpus jezikoslovno označit: n 20. 2. 2021 najprej shranimo korpus na našem računalniku v “raw format” Amanda Saksida Korpusno jezikoslovje 5
Označevanje o Korpus označimo preko spletnega servisa http: //nl 2. ijs. si/analyze/ o Oblikoslovne oznake so po specifikaciji JOS o Podobne, vendar razne spremembe glede na oznake Fida. PLUS! o Podrobnejši pregled: http: //nl. ijs. si/jos/msd/html-sl/ 20. 2. 2021 Amanda Saksida Korpusno jezikoslovje 6
Instalacija korpusa Označeni korpus naložimo na Sketch. Engine: o Izberemo Corpus. Builder, “Create new corpus: from template” o Nastavimo opcije: n Tagged WS n (Uploaded files metadata: Title) n Uploaded files encoding: UTF-8 o Korpus spustimo skozi vse korake instalacije (merge, vert, …) o Naknadno lahko dodajamo nove podkorpuse našemu korpusu 20. 2. 2021 Amanda Saksida Korpusno jezikoslovje 7
Uporaba o Uporabimo na novo instaliran korpus n konkordance n word-sketches (pri majhnih korpusih zmanjšamo spodnjo število najdenih primerov iz 5 na npr. 3) n tezaver n sketch differences 20. 2. 2021 Amanda Saksida Korpusno jezikoslovje 8
Problemi s avtomatskim označevanjem o Problemi z razdvoumljanjem: o Jesti vs. biti; elativ (preostalo) o Problemi z neznanimi besedami: o Memo, lematiziran kot “meti”, tajkun, o Problemi predvsem tam, kjer se tudi pri ročnem označevanju ne znamo prav dobro odločiti n eni/prvi – drugi, pridevniki vs. deležniki na –n, … 20. 2. 2021 Amanda Saksida Korpusno jezikoslovje 9
SKE: iskanje s pomočjo oznak o Osnove CQP skladnje: http: //www. ims. unistuttgart. de/projekte/Corpus. Workbench/CQ PSyntax. html http: //www. ims. unistuttgart. de/projekte/Corpus. Workbench/CQ PExamples. html o Primer: [lemma="zadnji. *" & tag="So. *"] 20. 2. 2021 Amanda Saksida Korpusno jezikoslovje 10
- Slides: 10