Breaking the Language Barrier Personal Translator 2008 Program
Breaking the Language Barrier Personal Translator 2008 (Program za automatsko prevođenje) - Osnove - Leksikon - Autor: Vera Aleksić 29. 03. 2008, Grac
Uvod Lingatec je jedan od vodećih proizvođača iz oblasti jezičke tehnologije: mašinsko prevođenje, prepoznavanje govora, sinteza govora Personal Translator je komercijalni program za prevođenje. Istorija razvoja: • 80 -tih godina: LMT, logic based MT (Mc. Cord, IBM) • 1996: PT en<->de (linguatec, IBM) • 1999: PT fr<->de (linguatec) • 2007: PT en<->fr, pt, es, it (linguatec, IBM)
Pregled glavnih funkcija (prevod, TM, Namer, Smart. Correct, sinteza govora)
Leksikon kao elektronski rječnik Monolingvalne informacije (izvorni i ciljni jezik): Transfer: • Vrsta riječi • Prevod(i) • Morfologija • Ograničenja/uslovi • Sintaksa • Domen/Profesija • Semantika • Primjeri
Lexikon: kodiranje novih riječi od strane korisnika
Osnove Personal Translatora • Gramatika se zasniva na modelu “proreza i ispunjivača” (slot-andfiller-grammar); napisana je u Prologu • analiza se bazira na primjeni lingvističkih pravila (od verzije PT 006 kombinovano sa statističkim metodama za rješavanje višeznačnosti u kontekstu) • analiza je “lexicon-driven”, to znači: leksikon mora da sadrži sve morfološke, sintaksičke, semantičke i pragmatičke informacije, potrebne za prevod • ne samo gramatika, nego i leksikon uključuje veliki broj akuratno uređenih pravila za analizu -> transfer -> generisanje
Šematski prikaz transfera semantička analiza transfer sintaktička analiza izvorni text sinteza ciljni text
Leksikon: informacije potrebne za analizu Leksikon je u bazi podataka DB 2 (interni naziv: Trans. Lexis) Parametri unosaka (entries): • n(NSense, Sem. Type, NSlots) • v(Verb. Sense, Sem. VType, Subj, Slots) • adj(Adj. Sense, Sem. AType, Slots) • adv(Adv. Sense, Sem. Type, Slots) • det(Det. Sense, Number, DType) • prep(Prep. Sense, Mod. Type, Obj. Type) • pron(Pron. Type, Pron. Sense, Number, Dtype) • propn(Sem. PType, Number) • subconj(Semtype) • qual(Semtype, Side, Qtype) • . . .
Leksikon: informacije potrebne za transfer i sintezu Uslovi za prevod i ograničenja: • Domen • Regionalne varijante • br/am engl; pt/br pt. . . • Osobenosti riječi u originalu • broj; upotreba (adv, pred, atr. . . ); modus; forma (pap). . . • “Prorezi i ispunjivači” • obavezni/optionalni prorezi; ispunjeni, prazni, nerealizovani; osobine ispunjivača • Test konteksta Strukturalne promjene: • dodjela argumenata ciljne riječi argumentima originala • promjena vrste riječi (adj->n; adv->vb; n->adj) • brisanje, dodavanje ili pomjeranje konstituenata (člana, objekta, refleksivne zamjenice itd. . . )
• Lemma • Homonym 1 = (POS 1) (definisan preko pos i/ili infl, gd…; obl-attr: stem, sense) • Stem / Secondary stem (obl-atr: scope ) • Inflection (obl-attr: de: gd, infl, fuge; fr, it, pt, es: gd; nu wenn plt, sgt; irr…) • Sense 1: (definisan preko syn/sem/slots; dalji attr: prio, reg, style) • (Slots: [Slot 1, Slot 2, …|Slotn]) (argumentska struktura) • Translation 1: (prevod; attr: conds, xfs, seq) • Conditions: [Adj. Constrs, Syn/Sem 1, …|Syn/Semn] (globalni: domen, reg, style; slot- realizacija; morph sl; syn: path tests) • Transformations: [Target. Slot 1, …|Target. Slotn] -> xf(Transfos) (strukturalne izmjene u ciljnom jeziku) • Translation 2: Word • Conditions: [Adj. Constrs, Syn/Sem 1, …|Syn/Semn] • Transformations: [Target. Slot 1, …|Target. Slotn] -> xf(Transfos) • Translationn. . . (default) • Concept (semantički tipovi uređeni hijerarhijski; ontologija) • Domen (tematski tipovi uređeni hijerarhijski) • Sense 2: . . . • Homonym 2
Značenja su nezavisna, ako su prorezi obligatorni: – verlassen • [subj(n), rflx 1(a)|comp 1(p([auf|acc]) '|' dass)] • [subj(n)|obj 1(n)] U suprotnom je raspored važan: – einbrechen • [subj(n), comp 1(ptcl(ein))|comp(p([in|acc]))] (1) • [subj(n), comp 1(ptcl(ein))|obj(n)] (2) – – Primjer: Er bricht in das Haus ein. (1) Er bricht die Mauer ein. (2) Er bricht ein. (1) Tehnički bi bilo moguće kombinovati gornje dvije argumentske strukture u ovakvu jednu: • [subj(n), comp 1(ptcl(ein)), obj(n)|comp(p([in|acc]))]
Problemi kod prevoda višeznačnih izraza • Morfološki • npr. razlaganje složenica (Stau-becken, Staub-ecken) • Leksički • npr. homonimija: (Mandel, Schimmel, Bank. . . ) • Sintaktički • idiomi i fraze (not at all; at all levels) • Sintaktičko-semantički • inverzija (Gras frisst die Kuh) • Referencijalni • prevod zamjenica (Das Mädchen ist traurig. Es hat seine Tasche veroloren).
- Slides: 12