Eestikeelsete dialoogide mrgendamisjuhendi usaldusvrsus ja vimalusi automaatseks mrgendamiseks

  • Slides: 21
Download presentation
Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja võimalusi automaatseks märgendamiseks Evely Vutt

Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja võimalusi automaatseks märgendamiseks Evely Vutt

Märgendamisjuhend ã kirjeldab süsteemi eesmärki ã kirjeldab valdkonda, milles seda süsteemi kasutatakse ã annab

Märgendamisjuhend ã kirjeldab süsteemi eesmärki ã kirjeldab valdkonda, milles seda süsteemi kasutatakse ã annab juhtnöörid ning näited dialoogiaktide märgendamiseks

Märgendamisjuhendi usaldusväärsust mõõdetakse κ – väärtusega, mille arvutamiseks kasutatakse järgnevat valemit: P(A) - tõenäosus

Märgendamisjuhendi usaldusväärsust mõõdetakse κ – väärtusega, mille arvutamiseks kasutatakse järgnevat valemit: P(A) - tõenäosus kordadest, kui märgendajad määravad akti ühtemoodi P(E) - tõenäosus kordadest, kui märgendajad määravad juhuslikult akti ühtemoodi

P(E) arvutamiseks kasutatakse järgnevat valemit: pi on märgendite esinemise tõenäosus andmetes (arvutatakse iga dialoogiakti

P(E) arvutamiseks kasutatakse järgnevat valemit: pi on märgendite esinemise tõenäosus andmetes (arvutatakse iga dialoogiakti jaoks eraldi välja)

pi arvutamiseks kasutatakse järgnevat valemit: ni on ühtemoodi märgendatud aktide arv N on ühikute

pi arvutamiseks kasutatakse järgnevat valemit: ni on ühtemoodi märgendatud aktide arv N on ühikute arv korpuses cn on märgendajate arv

Märgendamisjuhendi κ – väärtuse muutumine: november 2001 0, 4600831 detsember 2001 0, 5348573 veebruar

Märgendamisjuhendi κ – väärtuse muutumine: november 2001 0, 4600831 detsember 2001 0, 5348573 veebruar 2002 0, 5778555 MAPTASK (inglise) = 0, 83 VERBMOBIL (saksa) = 0, 84 SWBD-DAMSL (USA) 0, 8< <0, 84

Projekti eesmärk - rajada dialoogsüsteem, mis annaks infot kohaliku transpordi sõiduplaanide kohta. Korpus, koosnes

Projekti eesmärk - rajada dialoogsüsteem, mis annaks infot kohaliku transpordi sõiduplaanide kohta. Korpus, koosnes 53 dokumenteeritud suulise kõne dialoogist kliendi ja firma agendi vahel. Korpus oli transkribeeritud ja käsitsi segmentideks jaotatud ja varustatud dialoogiaktidega. Kokku oli 2241 eraldi lausungit ja 16 dialoogiakti nimetust.

Dialoogiakt Sagedus statement (avaldus) acknowledgement (kättesaamisteade) question (küsimus) answer (vastus) confirmation (kinnitus) opening (avamine)

Dialoogiakt Sagedus statement (avaldus) acknowledgement (kättesaamisteade) question (küsimus) answer (vastus) confirmation (kinnitus) opening (avamine) check (kontroll) thanking (tänamine) 527 389 237 213 162 158 123 112 % 23, 5 17, 4 10, 6 9, 5 7, 2 7, 0 5, 5 5, 0

Dialoogiakt Sagedus % repetition (kordamine) 107 4, 8 ending (lõpetamine) 100 4, 5 call_to_continue

Dialoogiakt Sagedus % repetition (kordamine) 107 4, 8 ending (lõpetamine) 100 4, 5 call_to_continue (jätkaja) wait (oota) correction (parandus) completion (täitmine) request_to_repeat (palve korrata) sign (nt. oh dear. ) 45 23 19 10 10 6 2, 0 1, 0 0, 8 0, 4 0, 2

Kõne osade kategooriate võrdlemisel kasutatakse 5 tunnusjoont: ·küsisõna olemasolu lauses ·küsimuse morfeem –ko ·tinglikud

Kõne osade kategooriate võrdlemisel kasutatakse 5 tunnusjoont: ·küsisõna olemasolu lauses ·küsimuse morfeem –ko ·tinglikud vormid ·eitavad vormid ·pööratud verbide vormid

Dialoogiaktide äratundmiseks lausungis leiduvate sõnade abil kasutati • LVQ-klassifikatsiooni • Ise-korraldavaid (organiseeruvaid) kaarte (SOM

Dialoogiaktide äratundmiseks lausungis leiduvate sõnade abil kasutati • LVQ-klassifikatsiooni • Ise-korraldavaid (organiseeruvaid) kaarte (SOM - self-organizing maps)

Ise-korraldavad kaardid (self-organizing maps SOM) • mittejuhitava tehis-närvivõrgu mudel • mudeli sisendandmed kirjeldatakse vektori

Ise-korraldavad kaardid (self-organizing maps SOM) • mittejuhitava tehis-närvivõrgu mudel • mudeli sisendandmed kirjeldatakse vektori kujul • erinevus juhitavatest õppimismeetoditest ei vaja välist õpetajat õppimisfaasis

Sõna kaal w arvutatakse järgneva valemiga: sagedus on sõna sagedus eraldiseisvas klassis N on

Sõna kaal w arvutatakse järgneva valemiga: sagedus on sõna sagedus eraldiseisvas klassis N on klasside arv, milles sõna esineb

Sõnade tasku • meetod kaalub lausungis esinevaid sõnu vastavalt nende tähtsusele iga dialoogiakti tüübi

Sõnade tasku • meetod kaalub lausungis esinevaid sõnu vastavalt nende tähtsusele iga dialoogiakti tüübi jaoks • iga sõna on seotud vektoriga, mille pikkus on 16, omades väärtusena kaalumisi iga dialoogiakti klassiga • lausungi vektor (pikkusega 16) saadakse korrutades sõnade vektoreid; dialoogiaktiks valitakse suurim väärtus lausungi vektorist

LVQ • iga sõna leksikonist seotakse juhusliku vektoriga pikkusega 90 • iga lausungit vaadeldakse

LVQ • iga sõna leksikonist seotakse juhusliku vektoriga pikkusega 90 • iga lausungit vaadeldakse kui ühte dokumenti • lausungi vektorid moodustatakse liites kõik juhuslikud sõnade vektorid, mis esinevad lausung • loodi kaks lausungi vektorite hulka: hulk 1 sisaldas sisu omavaid sõnu, hulk 2 kõiki sõnu

Tulemused sõnade tasku Dialoogiakt Täpsus% statement (avaldus) acknowledgement (kättesaamisteade) question (küsimus) answer (vastus) confirmation

Tulemused sõnade tasku Dialoogiakt Täpsus% statement (avaldus) acknowledgement (kättesaamisteade) question (küsimus) answer (vastus) confirmation (kinnitus) opening (avamine) 95, 25 83, 24 24, 61 2, 52 0, 00 76, 97

check (kontroll) 0, 77 thanking (tänamine) 97, 60 repetition (kordamine) 2, 00 ending (lõpetamine)

check (kontroll) 0, 77 thanking (tänamine) 97, 60 repetition (kordamine) 2, 00 ending (lõpetamine) call_to_continue (jätkaja) wait (oota) correction (parandus) completion (? täitmine) request_to_repeat (palve korrata) sign (nt. oh dear. ) Keskmine 94, 86 0, 00 25, 00 0, 00 50, 00 62, 00

Märgendatud Määratud Arv opening ending 27 call_to_continue acknowledgement 35 correction question wait repetition confirmation

Märgendatud Määratud Arv opening ending 27 call_to_continue acknowledgement 35 correction question wait repetition confirmation check statement answer statement acknowledgement statement 17 125 16 15 55 91 68 104

LVQ Dialoogiakt % statement (avaldus) acknowledgement (kättesaamisteade) question (küsimus) answer (vastus) confirmation (kinnitus) opening

LVQ Dialoogiakt % statement (avaldus) acknowledgement (kättesaamisteade) question (küsimus) answer (vastus) confirmation (kinnitus) opening (avamine) check (kontroll) Hulk 1 Hulk 2 Täpsus % Täpsus 95, 03 91, 89 96, 02 94, 62 83, 81 73, 48 66, 67 94, 44 73, 91 95, 73 92, 04 98, 76 98, 09 89, 28

thanking (tänamine) 95, 58 94, 55 repetition (kordamine) 67, 65 76, 71 ending (lõpetamine)

thanking (tänamine) 95, 58 94, 55 repetition (kordamine) 67, 65 76, 71 ending (lõpetamine) call_to_continue (jätkaja) wait (oota) correction (parandus) completion (täitmine) request_to_repeat (täitmine) sign (nt. oh dear. ) Keskmine 100 33, 33 91, 3 78, 57 0 93, 75 95, 45 100 16, 67 70 0 86, 55 72, 73 0 94, 23