Medjezino iskanje MI 2 Prevajanje iskalnih zahtev s

  • Slides: 36
Download presentation
Medjezično iskanje (MI) 2 Prevajanje iskalnih zahtev s slovarji, prevajanje iskalnih zahtev s korpusi,

Medjezično iskanje (MI) 2 Prevajanje iskalnih zahtev s slovarji, prevajanje iskalnih zahtev s korpusi, avtomatska gradnja jezikovnih virov. 1

MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtev s slovarji 2

MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtev s slovarji 2

Prevajanje iskalnih zahtev s slovarji v Potrebujemo dvojezični e-slovar. Različne oblike: v v od

Prevajanje iskalnih zahtev s slovarji v Potrebujemo dvojezični e-slovar. Različne oblike: v v od enostavnega glosarja z dvojezičnimi pari besed do pravega računalniškega leksikona s sintaktičnimi in semantičnimi informacijami. Za vsako besedo (razen blokiranih) iz iskalne zahteve poiščemo prevod v ciljnem jeziku. S prevedeno iskalno zahtevo opravimo enojezično iskanje dokumentov v ciljnem jeziku. 3

Prevajanje iskalnih zahtev s slovarji v V postopek že vgrajena nenatančnost, izvirajoča iz ohlapnosti

Prevajanje iskalnih zahtev s slovarji v V postopek že vgrajena nenatančnost, izvirajoča iz ohlapnosti naravnega jezika: v veliko besed nima natančnega prevoda, ali je prevodov več, z zelo različnimi pomeni. Vključevanje prevodov z napačnimi pomeni zelo zniža natančnost iskanja. 4

Izpeljava eksperimentov s prevajanjem iskalnih zahtev Klasični pristop: v Imamo iskalne zahteve v jeziku

Izpeljava eksperimentov s prevajanjem iskalnih zahtev Klasični pristop: v Imamo iskalne zahteve v jeziku b in dokumente v jeziku b; znani so relevantni dokumenti za iskalne zahteve. v Postopek: 1. 2. 3. 4. 5. enojezično iskanje v jeziku b (rezultat za primerjavo z MI), ročno prevajanje iskalnih zahtev v jezik a, avtomatsko prevajanje iskalnih zahtev v jezik b, enojezično iskanje v jeziku b z isk. zahtevami iz 3. koraka – v resnici medjezično iskanje, primerjava rezultatov 1 in 4. 5

Prevajanje iskalnih zahtev s slovarji Osrednji problemi MI: v prevajanje polisemih besed, v prevajanje

Prevajanje iskalnih zahtev s slovarji Osrednji problemi MI: v prevajanje polisemih besed, v prevajanje besednih zvez, v prevajanje strokovnih izrazov, v pomanjkanje jezikovnih virov, v neprimerljivost rezultatov, dobljenih z različnimi metodami. 6

Prevajanje iskalnih zahtev s slovarji Problem polisemije: v Beseda v izvornem jeziku ima lahko

Prevajanje iskalnih zahtev s slovarji Problem polisemije: v Beseda v izvornem jeziku ima lahko veliko različnih pomenov, prevod vsakega od pomenov ima lahko tudi v ciljnem jeziku različne pomene. v Primer: beseda “fly”. v V angleščini 8 pomenov in 13 možnih španskih prevodov; v njihovo prevajanje nazaj v angleščino da 38 različnih besed. v Posledica iskanja z enostavnim prevajanjem brez razreševanja polisemije je kombinatorična eksplozija pomenov in rezultati iskanja z zelo nizko natančnostjo. 7

Prevajanje iskalnih zahtev s slovarji v v v Uspešnost iskanja brez razreševanja dvoumnosti zaradi

Prevajanje iskalnih zahtev s slovarji v v v Uspešnost iskanja brez razreševanja dvoumnosti zaradi polisemije (vključevanje vseh možnih prevodov): 40% - 60% natančnosti enojezičnega iskanja. Vse kar je več je odlično. Izkaže se celo, da je izbira naključnega od možnih prevodov enako dobra, kot izbira vseh prevodov. 8

Prevajanje iskalnih zahtev s slovarji Razreševanje polisemije: v v iskalno zahtevo vključimo vse prevode

Prevajanje iskalnih zahtev s slovarji Razreševanje polisemije: v v iskalno zahtevo vključimo vse prevode neke besede in poskušamo zmanjšati vpliv posameznega prevoda, ali v iz porazdelitve besed v učnem korpusu poskušamo izračunati verjetnost posameznih prevodov in vključimo najverjetnejšega(e). 9

Prevajanje iskalnih zahtev s slovarji Pomen prevajanja besednih zvez v Pravilno prevajanje besednih zvez

Prevajanje iskalnih zahtev s slovarji Pomen prevajanja besednih zvez v Pravilno prevajanje besednih zvez dramatično zmanjša vpliv polisemije: v v samostojno prevajanje posameznih besed, ki sestavljajo zvezo, uvaja množico pomenov, ki so največkrat drugačni od pomena besedne zveze, besedne zveze imajo običajno en sam pomen, zato prevajanje zvez ne uvaja dvoumnosti. 10

Prevajanje iskalnih zahtev s slovarji Pomen prevajanja besednih zvez v Poskus (Hull, Grefenstette, 1996):

Prevajanje iskalnih zahtev s slovarji Pomen prevajanja besednih zvez v Poskus (Hull, Grefenstette, 1996): v v Prevajanje iskalnih zahtev iz francoščine v angleščino. Med drugim primerjala učinek (a) slovarja z enobesednimi gesli in (b) istega slovarja z dodanimi prevodi besednih zvez. Rezultati: (a) 68, 4% natančnosti enojezičnega iskanja, (b) 90, 8% natančnosti enojezičnega iskanja. 11

Prevajanje iskalnih zahtev s slovarji v v v Za prevajanje so problematične iskalne zahteve,

Prevajanje iskalnih zahtev s slovarji v v v Za prevajanje so problematične iskalne zahteve, ki sprašujejo po vsebini dokumentov. “Vsebinske” iskalne zahteve so zelo pogosto strokovne narave. Problem: v v v zelo redki računalniški dvojezični slovarji strokovnega jezika, prevajanje iskalnih zahtev strokovne narave običajno poteka s slovarji splošnega jezika. Posledica iskanja je nizek priklic. 12

Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole, 1998 v Prevajanje iz finščine v

Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole, 1998 v Prevajanje iz finščine v angleščino. v Iskanje časopisnih člankov s poljudno medicinsko tematiko. v Uporabljeni postopki za: v v v prevajanje strokovnega izrazja, prevajanje polisemih besed, prevajanje besednih zvez. 13

Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) v Uporabil splošni in strokovni

Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) v Uporabil splošni in strokovni medicinski slovar: v v v najprej prevajanje s strokovnim slovarjem, sledi prevajanje preostalih besed s splošnim slovarjem. Vključil vse možne prevode vsake besede, dvoumnost zaradi polisemije rešil z obteževanjem prevodov. 14

Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) v Pri iskanju so imeli

Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) v Pri iskanju so imeli vsi prevodi ene besede enak skupni vpliv na računanje relevantnosti dokumenta kot beseda, ki da en sam prevod. v Tako je imel posamezen (največkrat napačen) prevod poliseme besede manjši relativni vpliv kot prevod besede z enim samim pomenom. v Strokovne besede so imele največkrat en sam prevod. 15

Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) v Problem določanja in prevajanja

Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) v Problem določanja in prevajanja besednih zvez močno olajšan zaradi same narave finščine – besedne zveze so sestavljenke. v Uspeh: v v povprečna natančnost MI praktično dosegla povprečno natančnost enojezičnega iskanja. Nauk: v zelo dobre rezultate je mogoče doseči brez uporabe dragih jezikovnih virov in zapletenih metod računalniškega jezikoslovja. 16

MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtev s korpusi 17

MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtev s korpusi 17

Prevajanje iskalnih zahtev s korpusi v v Postopki so najenostavnejši, če so na razpolago

Prevajanje iskalnih zahtev s korpusi v v Postopki so najenostavnejši, če so na razpolago paralelni korpusi, poravnani na nivoju stavkov. Uporaba: v v Prevajamo iskalno zahtevo iz jezika J 1 v jezik J 2. Sistem za vsako besedo v iskalni zahtevi v jeziku J 1 poišče v korpusu v jeziku J 1 vse stavke s to besedo. V korpusu v jeziku J 2 poišče paralelne stavke, jih združi in poišče najpogostejšo besedo. To besedo vključi v prevod iskalne zahteve. 18

Prevajanje iskalnih zahtev s korpusi v v v Tak enostaven pristop je relativno uspešen,

Prevajanje iskalnih zahtev s korpusi v v v Tak enostaven pristop je relativno uspešen, če paralelni korpus sodi v isto domeno, kot iskalna zahteva. Paralelni korpusi, poravnani na nivoju stavkov, zelo redki, izdelava izjemno draga. Obstajajo le za nekatere jezikovne pare in le za nekatere domene. 19

MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtev s slovarji in korpusi 20

MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtev s slovarji in korpusi 20

Prevajanje iskalnih zahtev s slovarji in korpusi v Najboljše rezultate daje kombinacija prevajanja iskalne

Prevajanje iskalnih zahtev s slovarji in korpusi v Najboljše rezultate daje kombinacija prevajanja iskalne zahteve s slovarjem in razreševanja dvoumnosti s korpusom. v Uporabljeni korpusi: v v paralelni, poravnani na nivoju dokumentov, ali primerljivi, » poravnani « na nivoju tematike. 21

Prevajanje iskalnih zahtev s slovarji in korpusi Primer: Ballesteros, Croft; 1997 Instrumentarij: v v

Prevajanje iskalnih zahtev s slovarji in korpusi Primer: Ballesteros, Croft; 1997 Instrumentarij: v v Collinsov angleško-španski slovar. primerljivi angleški korpus. Iskalne zahteve v angleščini, iskanje po španski zbirki. Priprava iskalnih zahtev: v v označevanje besednih vrst v iskalni zahtevi, določitev besednih zvez samostalnik-samostalnik, pridevniksamostalnik, Ločeno prevajanje posameznih besed in besednih zvez. 22

Prevajanje iskalnih zahtev s slovarji in korpusi Ballesteros, Croft; 1997, (nadaljevanje): v Uporabljena dva

Prevajanje iskalnih zahtev s slovarji in korpusi Ballesteros, Croft; 1997, (nadaljevanje): v Uporabljena dva postopka, ki izvirata iz klasičnega IR: v v lokalna povratna zanka (LPZ) in lokalna kontekstna analiza (LKA). 23

Prevajanje iskalnih zahtev s slovarji in korpusi 1. začetno iskanje, povratna zanka: 2. iskalec

Prevajanje iskalnih zahtev s slovarji in korpusi 1. začetno iskanje, povratna zanka: 2. iskalec označi relevantne dokumente, 3. sistem razširi iskalno zahtevo z » najboljšimi « besedami iz njih. lokalna povratna zanka: 2. sistem privzame, da so vsi najvišje uvrščeni dokumenti relevantni in 3. razširi iskalno zahtevo z » najboljšimi « besedami iz njih. 24

Prevajanje iskalnih zahtev s slovarji in korpusi Kontekstna analiza: v širitev iskalne zahteve z

Prevajanje iskalnih zahtev s slovarji in korpusi Kontekstna analiza: v širitev iskalne zahteve z besedami ali besednimi zvezami, ki se v korpusu največkrat sopojavljajo z besedami iz iskalne zahteve. Lokalna kontekstna analiza: 1. začetno iskanje, 2. kontekstna analiza na najvišje uvrščenih dokumentih. 25

Prevajanje iskalnih zahtev s slovarji in korpusi Ballesteros, Croft; 1997, eksperimenti: 1. 2. 3.

Prevajanje iskalnih zahtev s slovarji in korpusi Ballesteros, Croft; 1997, eksperimenti: 1. 2. 3. 4. 5. 6. 7. Slovar: iskanje s slovarskim prevodom. Pred-LPZ: razširitev iskalnih zahtev z lokalno povratno zanko pred prevajanjem (angl. korpus). Po-LPZ: razširitev iskalnih zahtev z lokalno povratno zanko po prevajanju (špan. korpus). Pred-LKA: razširitev iskalnih zahtev z lokalno kontekstno analizo pred prevajanjem (angl. korpus). Po-LKA: razširitev iskalnih zahtev z lokalno kontekstno analizo po prevajanju (špan. korpus). Komb-LPZ: kombinirana razširitev iskalnih zahtev z lokalno povratno zanko pred in po prevajanju. Komb-LKA: kombinirana razširitev iskalnih zahtev z lokalno kontekstno analizo pred in po prevajanju. 26

Ponazoritev postopka Ballesteros, Croft, 1997 27

Ponazoritev postopka Ballesteros, Croft, 1997 27

Prevajanje iskalnih zahtev s slovarji in korpusi Rezultati Ballesteros, Croft; 1997: Metoda % uspešnosti

Prevajanje iskalnih zahtev s slovarji in korpusi Rezultati Ballesteros, Croft; 1997: Metoda % uspešnosti glede na enojezično iskanje Slovar 41, 2 Pred-LPZ 55, 0 Pred-LKA 57, 0 Po-LPZ 45, 8 Po-LKA 51, 1 Komb-LPZ 62, 2 Komb-LKA 68, 0 28

Prevajanje iskalnih zahtev s slovarji in korpusi Ballesteros, Croft; 1997: v Nauk - dobre

Prevajanje iskalnih zahtev s slovarji in korpusi Ballesteros, Croft; 1997: v Nauk - dobre rezultate da v kombinacija metod IR v v širjenje iskalne zahteve v izvornem in ciljnem jeziku z dodatnimi pomensko sorodnimi izrazi, in metod računalniškega jezikoslovja v v označevanje besednih vrst in identifikacija besednih zvez. 29

Avtomatska gradnja jezikovnih virov: gradnja paralelnih korpusov 30

Avtomatska gradnja jezikovnih virov: gradnja paralelnih korpusov 30

Gradnja paralelnih korpusov Nie et al. , 1999: v Odkrivanje jezikovnih parov spletnih dokumentov.

Gradnja paralelnih korpusov Nie et al. , 1999: v Odkrivanje jezikovnih parov spletnih dokumentov. v Uporabili najpogostejše lastnosti parov: v v prevodi dokumentov povezani s kazalci v obe smeri, besedilo sidra kazalca imenuje jezik dokumenta (“in English”, “English version”. . . ), pari dokumentov imajo podobna imena (“products_fre. html”, “products_eng. html”. . . ), na spletišču sta hierarhiji map za dokumente v posameznih jezikih zelo podobni ali identični. 31

Gradnja paralelnih korpusov Nie et al. , 1999 (nadaljevanje): v Brez posebnih težav sestavili

Gradnja paralelnih korpusov Nie et al. , 1999 (nadaljevanje): v Brez posebnih težav sestavili paralelni korpus, poravnan na nivoju besedil. v Nadaljevanje postopka je avtomatsko preverjanje pravilnosti izbire parov z enostavnimi hevrističnimi postopki. v Ročno preverjanje pokazalo le 2% napak. v Velikost korpusa 14. 200 parov dokumentov (250 Mbytov). 32

Avtomatska gradnja jezikovnih virov: gradnja tezavrov kolokacij 33

Avtomatska gradnja jezikovnih virov: gradnja tezavrov kolokacij 33

Gradnja tezavrov kolokacij v v Dvojezični tezavri kolokacij (similarity thesauri) so avtomatsko zgrajen približek

Gradnja tezavrov kolokacij v v Dvojezični tezavri kolokacij (similarity thesauri) so avtomatsko zgrajen približek dvojezičnim slovarjem. Enojezično okolje dokumentov: v v v Znanje o vsebinski domeni korpusa je opisano s podatki o sorodnosti izrazov v korpusu. Temelj je predpostavka, da imata besedi, ki se pogosto pojavljata v istih dokumentih, sorodno vsebino. Sorodnost dveh izrazov se meri s statistično analizo njunih kolokacij. 34

Gradnja tezavrov kolokacij v Tezavri kolokacij v enojezičnem okolju (nadaljevanje): v v v Za

Gradnja tezavrov kolokacij v Tezavri kolokacij v enojezičnem okolju (nadaljevanje): v v v Za merjenje teže neke kolokacije z besedo b je pomembna tudi vsebina dokumenta; kolokacije z besedo b, ki nastopajo v dokumentih, kjer je vsebina b zelo pomembna, imajo večjo težo, kot kolokacije z b v ostalih dokumentih. Tezaver kolokacij je seznam vseh besed v korpusu in, za vsako besedo, njej najsorodnejših besed. 35

Gradnja tezavrov kolokacij Tezavri kolokacij v dvojezičnem okolju: v Potrebujemo dvojezični korpus, vzporeden na

Gradnja tezavrov kolokacij Tezavri kolokacij v dvojezičnem okolju: v Potrebujemo dvojezični korpus, vzporeden na nivoju dokumentov. v Jezikovne pare dokumentov združimo v navidezne dokumente. v Analiza kolokacij v teh navideznih dokumentih prinese najverjetnejše prevode besed. v Tezavri kolokacij so bili uspešno uporabljeni v MI. 36