JANES metode orodja in viri za nestandardno pisno

  • Slides: 9
Download presentation
JANES: metode, orodja in viri za nestandardno pisno spletno slovenščino Raziskovanja na OP 30.

JANES: metode, orodja in viri za nestandardno pisno spletno slovenščino Raziskovanja na OP 30. 9. 2014

Projektna skupina § Filozofska fakulteta – – Darja Fišer Ana Zwitter Vitez Jaka Čibej

Projektna skupina § Filozofska fakulteta – – Darja Fišer Ana Zwitter Vitez Jaka Čibej Špela Vintar § Institut Jožef Stefan – – Tomaž Erjavec Nikola Ljubešić Senja Pollak Nada Lavrač

Motivacija § rac unalniško posredovana komunikacija (CMC) – vse pogostejši in pomembnejši vir c

Motivacija § rac unalniško posredovana komunikacija (CMC) – vse pogostejši in pomembnejši vir c loveškega znanja in mnenj (Crystal ‘ 01) § analitika šumnih besedil (noisy text analytics) – standardna vs. nestandardna angleščina: 97 % vs. 85 % (Gimpel idr. ‘ 11) § internetni jezik (netspeak) – raba nestandardnih jezikovnih razlic ic v internetni komunikaciji ≠ nepopolna/osiromašena komunikacijska zmožnost (Baron ‘ 10)

Delovni sklopi 1. Gradnja korpusa • izbor besedil • zajem in obdelava besedil •

Delovni sklopi 1. Gradnja korpusa • izbor besedil • zajem in obdelava besedil • označevanje besedil • zapis korpusa v TEI • izdelava spremljevalnega korpusa 2. Analiza korpusa • prim. s pisnim standardom • prim. z govorom • analiza kolokacij • analiza terminologije • analiza pomenskih premikov • analiza žaljivega govora • izdelava slovarja spletne slovenščine 3. Izboljšave označevanja • ročno označevanje učnega podkorpusa • ročno označevanje učnega leksikona • učenje modelov za označevanje nestandardne slovenščine

Gradnja korpusa § Sestava korpusa (20 mio pojavnic): § Označevanje besedil: – standardna orodja

Gradnja korpusa § Sestava korpusa (20 mio pojavnic): § Označevanje besedil: – standardna orodja – tviti (50 %) – blogi (30 %) – tokenizacija, tegiranje, lematizacija, imenske entitete – sporočila na forumih (10 %) § Oblikovanje korpusa: – komentarji na novice (5 %) – identifikacija in poenotenje – komentarji na Wikipediji (5 %) metapodatkov § Zajem besedil: – pretvorba v format XML po – tviti: identifikacija slovenskih priporočilih TEI P 5 tviterašev ter njihovih sledilcev § Izdelava spremljevalnega korpusa – blogi, forumi in komentarji: – za spremljanje leksikalnih nadgradnja zajema za web korpus sprememb in novosti – Wikipedija: prevzem cele baze § Čiščenje besedil: – deduplikacija in čiščenje vsebin – identifikacija jezika

Analiza korpusa § Primerjava s pisnim standardom § Terminologija – stopnja razhajanja nestandardne –

Analiza korpusa § Primerjava s pisnim standardom § Terminologija – stopnja razhajanja nestandardne – razširitev pilotne študije (Erjavec § § in Fišer ‘ 13) – posebnosti zapisa, leksikalne in § skladenjske značilnosti Primerjava z govorom – oblikoslovne, leksikalne in § skladenjske posebnosti – značilnosti avtorjev različnih profilov na podlagi metapodatkov korpusa Gos § Kolokacije – Word. Sketches in Coll. Term (Pinnis idr. ‘ 12) terminologije in dvojnice Pomenski premiki – detekcija novih pomenov glede na slo. WNet Žaljivi govor – razvoj metod za ročno in avtomatsko prepoznavanje žaljivih komentarjev Slovar spletne slovenščine

Nadgradnja orodij za procesiranje nestand. besedil § Učni korpus – 100. 000 pojavnic –

Nadgradnja orodij za procesiranje nestand. besedil § Učni korpus – 100. 000 pojavnic – pojavnica opremljena z: • • § standardno ustreznico lemo oblikoslovno oznako površinskoskladenjsko odvisnostno povezavo Učni leksikon – 1. 000 gesel in 10. 000 oblik – geslo opremljeno z: • • standardno ustreznico/gloso lemo besedno vrsto zgledi iz korpusa § Prilagajanje označevanja – nadgradnja metode za avtomatsko oznac evanje starejših besedil (Erjavec ‘ 13) – nadgradnja metode transkripcije (Scherer in Erjavec ’ 13) – razvoj metod za označevanje s strojnim učenjem

Zaključek § Rezultati projekta JANES: – korpus pisne spletne slovenščine – slovar nestandardne spletne

Zaključek § Rezultati projekta JANES: – korpus pisne spletne slovenščine – slovar nestandardne spletne slovenščine – korpusno podprt jezikovni opis pisne spletne slovenščine na ortografski, § § oblikoslovni, leksikalni, pomenski in skladenjski ravni – viri in metode za izboljšanje avtomatskega procesiranja nestandardne slovenšc ine Viri dostopni pod licenco CC BY-SA na: – http: //nl. ijs. si/janes/ – http: //clarin. eu/ Pomen: – infrastruktura za poizvedovanje po informacijah, rudarjenje po besedilih in povzemanja besedil – jezikovno neodvisna metodologija izgradnje virov in orodij, uporabne za sorodne jezike (hrvašc ina, srbšc ina in bosanšc ina)

Dobrodošli § predlogi za izboljšave metodologije § uporaba izdelanih prosto dostopnih virov v raziskavah

Dobrodošli § predlogi za izboljšave metodologije § uporaba izdelanih prosto dostopnih virov v raziskavah § magistrske in diplomske naloge – preklapljanje med jeziki in tujejezične prvine – jezik in spol, jezik mladih idr. sociolingvistične raziskave – raziskave s področja pragmatike in analize diskurza