Spletni konkordannik za govorni korpus slovenskega jezika GOS

  • Slides: 24
Download presentation
Spletni konkordančnik za govorni korpus slovenskega jezika GOS DARINKA VERDONIK UNIVERZA V MARIBORU, FAKULTETA

Spletni konkordančnik za govorni korpus slovenskega jezika GOS DARINKA VERDONIK UNIVERZA V MARIBORU, FAKULTETA ZA ELEKTROTEHNIKO, RAČUNALNIŠTVO IN INFORMATIKO MINISTRSTVO ZA VISOKO ŠOLSTVO, ZNANOST IN TEHNOLOGIJO REPUBLIKA SLOVENIJA

Namen konkordančnika GOS � Omogočiti spletni dostop in iskanje po nacionalnem govornem korpusu slovenščine

Namen konkordančnika GOS � Omogočiti spletni dostop in iskanje po nacionalnem govornem korpusu slovenščine najrazličnejšim zainteresiranim uporabnikom: zbirka dostopna širši javnosti in bo omogočala sodobnikom vpogled v trenutno stanje jezikovne podobe slovenskega jezika, kakršen doslej ni bil mogoč, s skrbnim hranjenjem in dostopnostjo korpusa tudi za prihodnje generacije pa predstavlja tudi dragocen kulturni dokument za naše zanamce. � Eden od korakov v okviru dolgoročne strategije razvoja, gradnje, vzdrževanja in nenehnega posodabljanja temeljne sodobne jezikoslovne infrastrukture za slovenski jezik in nadgrajuje del rezultatov predhodno začetega projekta Sporazumevanje v slovenskem jeziku.

Uporabniki � Raziskovalci govora – omogoča številne raziskovalne možnosti za raziskovalce, ki se v

Uporabniki � Raziskovalci govora – omogoča številne raziskovalne možnosti za raziskovalce, ki se v svojih raziskavah dotikajo (tudi) človeškega govora in govorne komunikacije: vse veje jezikoslovja, razne veje sociologije, antropologije, kognitivnih in informacijskih znanosti itd. � V izobraževanju pri pouku slovenskega jezika, pri učenju slovenskega jezika za tuje govorce: vir številnih avtentičnih primerov različnih govorjenih žanrov (od zbornega do pokrajinskega in narečnega govora) in govora različnih slovenskih regij vir številnih primerov za spoznavanje oblikoslovja in skladnje govorjenega jezika vir številnih primerov za spoznavanje pragmatične narave govorjenega diskurza itd. � Nekateri poklici, ki so v stiku z govorom: razni pisci (scenaristi, pisatelji, novinarji. . . ), tolmači in prevajalci, poklicni govorci (npr. na radiu in televiziji) idr.

Cilji konkordančnika � Prost dostop do govornega korpusa GOS. � Povezanost transkribcij z zvokom

Cilji konkordančnika � Prost dostop do govornega korpusa GOS. � Povezanost transkribcij z zvokom na ravni izjav. � Izkoristiti čim več informacij iz gradiva. � Zadovoljiti različne skupine uporabnikov.

Vključitev gradiva GOS v konkordančnik za pisni korpus… … bi zgledala nekako takole (Word.

Vključitev gradiva GOS v konkordančnik za pisni korpus… … bi zgledala nekako takole (Word. Smith, del konkordančnega niza “in”): � so profesorji hudli takle je som tist volec takle sovkal in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta � dama al ne vem kaj [Af-star-05611 (hkrati): ] eee joj [Cf-otro-05613: ] in enkret bi mela poker in s nisem stavla k mi je edn eee zblefirov � kolk jih je pej še? [Cf-star-05561: ] še edn [Bf-otro-05560 (hkrati): ] in kej [ime] že ud zjutru piše nalogo? [Am-star-05559 (hkrati): ] nje � jz sem mel tud tok jz sem mel z ruzakom osemšeeset. . . no in in ta je še strastno hujša a veš in to če takle poba začne hujšat on on si

Potencial GOS-a 2 nivoja transkribcij: � Pogovorni zapis: [Cm-star-02106: ] in v tisti pal

Potencial GOS-a 2 nivoja transkribcij: � Pogovorni zapis: [Cm-star-02106: ] in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele mejze pav kvadratnega metra uba � Knjižni zapis: [Cm-star-02106: ] in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele mize pol kvadratnega metra oba

Potencial GOS-a Zvok: [Cm-star-02106: ] in v tisti pal uri v trej četart uri

Potencial GOS-a Zvok: [Cm-star-02106: ] in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele mejze pav kvadratnega metra uba

Potencial GOS-a Podatki o posnetku/diskurzu TIP DISKURZA: nejavni zasebni VRSTA SITUACIJE: osebni stik OPIS

Potencial GOS-a Podatki o posnetku/diskurzu TIP DISKURZA: nejavni zasebni VRSTA SITUACIJE: osebni stik OPIS DISKURZA: doma, druzina REGIJA: CE VIR: terenski posnetek KRAJ: Žiče CAS: 25. 08. 2009 18: 30 ST. AKTIVNIH UDELEZENCEV: 4 OPIS GOVORNEGA DOGODKA: Pogovor predvsem o temah, povezanih z življenjem na podeželju - stroji, pridelki, kuhanje …

Potencial GOS-a Podatki o govorcih SPOL: m STAROST: 35 do 59 REGIONALNA PRIPADNOST 1:

Potencial GOS-a Podatki o govorcih SPOL: m STAROST: 35 do 59 REGIONALNA PRIPADNOST 1: REGIONALNA PRIPADNOST 2: REGIONALNA PRIPADNOST 3: REGIONALNA PRIPADNOST 4: REGIONALNA PRIPADNOST 5: IZOBRAZBA: srednja sola PRVI JEZIK: slovenscina CE nedolocno

Zasnova konkordančnika GOS 1 ISKALNI TIPI 2 ISKALNE OPERACIJE 3 PRIKAZ REZULTATOV 4 UREJANJE

Zasnova konkordančnika GOS 1 ISKALNI TIPI 2 ISKALNE OPERACIJE 3 PRIKAZ REZULTATOV 4 UREJANJE REZULTATOV A OSNOVNO ISKANJE iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini … konkordančni niz, po izbiri še: -zvok -razširjeni odstavek -vir -opis govorca -opis diskurza… statistika, urejanje, sito, vzorec … B RAZŠIRJENO/ PODKORPUSNO ISKANJE enako C IZBOR IN SHRANJEVANJE TRANSKRIPCIJ - txt datoteke za shranjevanje po želji na svojem računalniku

A 1, A 2 Osnovno iskanje A 1 Privzeto po: � 2. (knjižnem) nivoju

A 1, A 2 Osnovno iskanje A 1 Privzeto po: � 2. (knjižnem) nivoju zapisa (jaz – jaz, jest, jz, jst) in po celotnem korpusu A 2 Mogoče različne iskalne operacije, podobno kot v pisnem korpusu: � iskanje besede iskanje z nadomestnimi znaki iskanje po kanalih (lema – avtomatsko označena) iskanje po frazah iskanje po bližini …

A 3 Prikaz rezultatov � � Rezultati se prikažejo po konkordancah: vejdal de so

A 3 Prikaz rezultatov � � Rezultati se prikažejo po konkordancah: vejdal de so profesorji hudli takle je som tist volec takle sovkal [smehna] | in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta � [Cf-otro][1] men se zi a dama al ne vem kaj [Bm-star][2] eee joj [Cf-otro] in enkret bi mela poker in s nisem stavla k mi je edn eee zblefirov � [Bf-otro] kolk jih pej še je? [Cf-star] še edn [premor] [Bf-otro] [1] in kej [ime] že ud zjutru piše nalogo? [Am-star] [2] nje � [Om-prij] [1] jz sem mel tud tok jz sem mel z ruzakom osemšeeset. . . no in in ta je še strastno hujša a veš in to če takle poba začne hujšat on on si

A 3 Prikaz rezultatov Na klik so na voljo dodatne informacije: � Zvok: �

A 3 Prikaz rezultatov Na klik so na voljo dodatne informacije: � Zvok: � za izjavo, v kateri je najdeni izraz Podatki o govorcu � moški, 35 do 59, celjska regija, srednja šola, slovenščina Podatki o diskurzu � nejavni zasebni, osebni stik, družina, 25. 8. 09 ob 18. 30 � Pogovor predvsem o temah, povezanih z življenjem na podeželju stroji, pridelki, kuhanje… Knjižni zapis – cel konkordančni niz ali posamezne konkordance? : � videl da so profesorji hodili takole je samo tisti volec takole sukal [smehna] | in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista Vir: � terenski posnetek

A 3 Prikaz rezultatov Razširjeni kontekst, +/- 1 segment/izjava, pogovorni zapis: � � [Cm-star-02106:

A 3 Prikaz rezultatov Razširjeni kontekst, +/- 1 segment/izjava, pogovorni zapis: � � [Cm-star-02106: ] som ku je vejdal de so profesorji hudli takle je som tist volec takle sovkal [smehna] in v tisti pal uri v trej četart uri puol sn še vejdal se sta celo dvo nejsta poštrejhala za pal tutele mejze pal kvadratnga metra ubo [[Am-soro-02104][1] + [Cm-star-02106] [2]: ] [1] ja se tav je ze vidiš tisto [2] som takle sta [smehgo] ka si nuor jz sn se tak smejal puol tam zran ko sn jih gledal � Na zahtevo – zvok: � Na zahtevo – knjižni zapis: � [Cm-star-02106: ] samo ko je videl da so profesorji hodili takole je samo tisti volec takole sukal [smehna] in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele mize pol kvadratnega metra oba [[Am-soro-02104 ][1] + [Cm-star-02106] [2]: ] [1] ja saj to je zdaj vidiš tisto [2] samo takole sta [smehgo] kaj si nor jaz sem se tako smejal pol tam zraven ko sem jih gledal �

A 4 Urejanje rezultatov � Filtriranje rezultatov: po atributih diskurzov (tip, kanal, regija …)

A 4 Urejanje rezultatov � Filtriranje rezultatov: po atributih diskurzov (tip, kanal, regija …) po atributih govorcev (spol, starost, izobrazba …) � Statistika in druga opravila iz pisnega korpusa

Zasnova konkordančnika GOS 1 ISKALNI TIPI 2 ISKALNE OPERACIJE 3 PRIKAZ REZULTATOV 4 UREJANJE

Zasnova konkordančnika GOS 1 ISKALNI TIPI 2 ISKALNE OPERACIJE 3 PRIKAZ REZULTATOV 4 UREJANJE REZULTATOV A OSNOVNO ISKANJE Iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini … Konkordančni niz, po izbiri še: -Zvok -Razširjeni odstavek -Vir -Opis govorca -Opis diskurza… Statistika, urejanje, sito, vzorec … B RAZŠIRJENO/ PODKORPUSN O ISKANJE enako C IZBOR IN SHRANJEVANJE TRANSKRIPCIJ - Txt datoteke za shranjevanje Po želji na svojem računalniku

B 1 Podkorpusno iskanje � Možnost izbire znotraj gradiva glede na: Nivo zapisa: �

B 1 Podkorpusno iskanje � Možnost izbire znotraj gradiva glede na: Nivo zapisa: � � pogovorni zapis (in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele …) knjižni zapis (in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele) Oznake diskurza: � � � tip diskurza: JI, JR, NN, NZ kanal: radio, tv, telefon, osebni stik vrsta situacije: OŠ, SŠ, predavanje, družina, prijatelji… regija: MB, LJ, MS, CE, SG, KK, PO, NM, KP, GO, Italija, Avstrija… število udeležencev tudi kraj (ob registraciji)

B 1 Podkorpusno iskanje � Možnost izbire znotraj gradiva glede na: Oznake govorcev: �

B 1 Podkorpusno iskanje � Možnost izbire znotraj gradiva glede na: Oznake govorcev: � Spol � Starost: do 10, 10 do 14, 15 do 18, 19 do 24, 25 do 34, 35 do 59, nad 60, nedolocno � Izobrazba: OS ali manj, srednja sola, visja ali visoka sola, fakulteta ali vec, nedolocno � Regija: Regija 1: MB, MS, SG, CE, LJ, KR, NM, KK, GO, PO, KP, Italija, Avstrija, Madzarska, tujina, nedolocno Regija 2: enako Regija 3: enako � Prvi jezik: slovenscina, anglescina, nemscina, italijanscina itd.

B 2, B 3, B 4 Podkorpusno iskanje 1. 2. 3. B 2 Iskalne

B 2, B 3, B 4 Podkorpusno iskanje 1. 2. 3. B 2 Iskalne operacije: enako kot osnovno iskanje B 3 Prikaz rezultatov: enako kot osnovno iskanje B 4 Urejanje rezultatov: enako kot osnovno iskanje

Zasnova konkordančnika GOS 1 ISKALNI TIPI 2 ISKALNE OPERACIJE 3 PRIKAZ REZULTATOV 4 UREJANJE

Zasnova konkordančnika GOS 1 ISKALNI TIPI 2 ISKALNE OPERACIJE 3 PRIKAZ REZULTATOV 4 UREJANJE REZULTATOV A OSNOVNO ISKANJE Iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini … Konkordančni niz, po izbiri še: -Zvok -Razširjeni odstavek -Vir -Opis govorca -Opis diskurza… Statistika, urejanje, sito, vzorec … B RAZŠIRJENO/ PODKORPUSNO ISKANJE enako C IZBOR IN SHRANJEVAN. TRANSKRIPCIJ - Txt datoteke za shranjevanje Po želji na svojem računalniku

C Izbor in shranjevanje transkripcij � C 1 Možnost izbire znotraj gradiva enako kot

C Izbor in shranjevanje transkripcij � C 1 Možnost izbire znotraj gradiva enako kot pri podkorpusnem iskanju � C 3 Uporabnik lahko shrani izbrane transkripcije kot txt datoteke na svoj računalnik Govorec 1: Cf-star-06564 Govorec 2: If-otro-06565 [Cf-star-06564: ] kakšn film s gledala? [If-otro-06565: ] čak eee čak da se spomnem [Cf-star-06564: ] kdaj pa? [If-otro-06565: ] eem ja včer sva drgač gle() aja [smehgo] ko je [ime] naštimvov [smehgo] | ja ta je dora ja [[If-otro-06565][1] + [If-otro-06565][2]: ] [1] [smehgo] sva se odločla dava film a ne g() dava gleala film [2] ja [If-otro-06565: ] sem uzela v knjižnc a ne devedeje | [neraz] [smehgo] ful smešn eem k je on ma zej a veš un ta nov eem ekran a ne za računalnik k kao loh un devede pl() plejer direkt ušteka

Predlogi, roki � Morebitne predloge za konkordančnik pošljite na: darinka. verdonik@uni-mb. si, govorni@slovenscina. eu

Predlogi, roki � Morebitne predloge za konkordančnik pošljite na: darinka. verdonik@uni-mb. si, govorni@slovenscina. eu � Rok: konkordančnik bo na spletu do 30. septembra 2010

Prihodnost GOS-a? � Želeli bi si, da bi se spletni konkordančnik za govorni korpus,

Prihodnost GOS-a? � Želeli bi si, da bi se spletni konkordančnik za govorni korpus, in seveda tudi gradivo – korpus, v prihodnosti dodatno razvijal, nadgrajeval z novimi funkcijami in novim gradivom ter nenehno posodabljal. � ČE se bodo odprle možnosti nadaljnjega financiranja, je vizija o prihodnjih posodobitvah korpusa: oblikoslovno označevanje in vključitev možnosti iskanja po oblikoslovnih oznakah v konkordančnik skladenjsko označevanje in vključitev možnosti iskanja po skladenjskih oznakah v konkordančnik širjenje gradiva na 2 mio. besed ali več …

Zahvala � Številnim ustvarjalcem GOS-a (študenti FF UL, FDV, FF MB, FERI MB in

Zahvala � Številnim ustvarjalcem GOS-a (študenti FF UL, FDV, FF MB, FERI MB in sodelavci korpusa) � Govorcem, ki so dobrohotno dovolili vstop v svojo zasebnost (sorodniki, govorci, znanci … snemalcev in sodelavcev korpusa, učitelji idr. ). � Institucijam, ki so odstopile posnetke ali dovolile snemanje pod svojim okriljem: mediji: Pop TV, RTV Slo, Radio Maribor, Radio City, Radio Center, Radio Maxi, Koroški radio, Radio Fantasy, Štajerski val, Radio Krka, Radio Alfa, Radio Kranj, Radio Belvi, Radio Slovenija, Val 202, Radio Capris) osnovne in srednje šole idr. … in vam za pozornost!