Angolmagyar statisztikai gpi fordt rendszer minsgnek javtsa Ksztette

  • Slides: 14
Download presentation
Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai

Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, Morpho. Logic

Tartalom • Statisztikai gépi fordítás – – Bevezetés Szótár hozzáadása a korpuszhoz Hibridizáció Cigány-magyar

Tartalom • Statisztikai gépi fordítás – – Bevezetés Szótár hozzáadása a korpuszhoz Hibridizáció Cigány-magyar SMT

STATISZTIKAI GÉPI FORDÍTÁS

STATISZTIKAI GÉPI FORDÍTÁS

SMT formális leírása –É=argmax P(E|F) = argmax P(E)*P(F|E) –Zajos csatorna modell három komponensből áll:

SMT formális leírása –É=argmax P(E|F) = argmax P(E)*P(F|E) –Zajos csatorna modell három komponensből áll: • Nyelvi modell (folyékonyság) • Fordítási modell (tartalom-hűség) • Dekódoló –É: a legjobb fordítás –E: angol mondat (cél nyelv) –F: idegen mondat (forrás nyelv)

Felhasznált keretrendszerek • Lit. Mag (Hunglish) korpusz – 654 939 mondat • SMT keretrendszer:

Felhasznált keretrendszerek • Lit. Mag (Hunglish) korpusz – 654 939 mondat • SMT keretrendszer: – Nyelvi modell: SRILM – Fordítási modell: IBM modellek – Dekódoló: MOSES

Kiértékelés • BLEU = Bi. Lingual Evaluation Understudy • A javaslat az IBM-től származik

Kiértékelés • BLEU = Bi. Lingual Evaluation Understudy • A javaslat az IBM-től származik (Papineni és mtsai, 2002) • A fő gondolat: – – – Szavak pontos illeszkedése (PONTOSSÁG) Illeszkedés egy referenciafordításra Szópontosság-alapú „helyesség”-számítás n-gram-pontosság alapú „folyamatosság”-számítás (n=1, 2, 3, 4) Semmi fedéssel kapcsolatos szám, ui. nehéz a többszörös referenciák miatt – A fedés hiányzó szerepének ellensúlyozására bevezetik a BP-t (Brevity Penalty = rövidségi büntetés) – A végső szám az n-gram-eredmények súlyozott átlaga (a hasonló hosszúságú szerkezetek: mondatok, tagmondatok, szószerkezetek, frázisok külön-külön kiszámolt súlyozott átlaga) – Nagy teszthalmazon együttes eredmény

Szótár hozzáadása a korpuszhoz BLEU érték Rendszer • Szótár: – 344 924 mondat 1

Szótár hozzáadása a korpuszhoz BLEU érték Rendszer • Szótár: – 344 924 mondat 1 Alaprendszer fordítása: 10. 85% 2 Alap+1 xszótár rendszer fordítása: 11. 18% 3 Alap+2 xszótár rendszer fordítása: 11. 01% 4 Alap+3 xszótár rendszer fordítása: 10. 88% 5 Alap+4 xszótár rendszer fordítása: 10. 88% 6 Alap+5 xszótár rendszer fordítása: 10. 87% 1 -gram 2 -gram 3 -gram 4 -gram 5 -gram 6 -gram 7 -gram 8 -gram 9 -gram 1 47. 05 16. 29 7. 07 3. 54 1. 94 1. 14 0. 74 0. 57 0. 46 2 47. 60 16. 62 7. 35 3. 78 2. 02 1. 19 0. 75 0. 57 0. 43 3 47. 55 16. 46 7. 25 3. 75 2. 09 1. 25 0. 81 0. 60 0. 46 4 47. 32 16. 33 7. 09 3. 64 1. 94 1. 09 0. 68 0. 47 0. 33 5 47. 32 16. 33 7. 09 3. 64 1. 93 1. 09 0. 68 0. 47 0. 33 6 47. 74 16. 43 7. 19 3. 63 1. 93 1. 08 0. 68 0. 51 0. 39

Példa (angol-magyar) Angol referencia mondat: Magyar referencia mondat: " i wonder who 'll be

Példa (angol-magyar) Angol referencia mondat: Magyar referencia mondat: " i wonder who 'll be teaching us ? " said hermione as they edged into the chattering crowd. - kíváncsi vagyok , ki tartja a tanfolyamot - morfondírozott hermione , miközben barátaival befurakodtak a tömegbe. Alaprendszer fordítása: Alap+1 xszótár rendszer fordítása: - csak tudnám , ki lesz a tanítást ? - kérdezte hermione , mikor ő az. Alap+2 xszótár rendszer fordítása: - kíváncsi vagyok , aki tanított nekünk ? - szólt hermione , mikor elindult a zsibongó tömeg. Alap+3 xszótár rendszer fordítása: - kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen. Alap+4 xszótár rendszer fordítása: - kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen. Alap+5 xszótár rendszer fordítása: - kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen. - csak tudnám , ki lesz tanított nekünk ? - szólt hermione , mikor elindult a jóvoltából.

További hibridizáció • JOSHUA • Környezetfüggetlen nyelvtan [S] ||| [X, 1] ||| 0 0

További hibridizáció • JOSHUA • Környezetfüggetlen nyelvtan [S] ||| [X, 1] ||| 0 0 0 [S] ||| [S, 1] [X, 2] ||| 0. 434294482 0 0 tudta , hogy nem volna béke , ha utazásai közben állandóan az a gondolat , hogy boldogtalan volt.

JOSHUA rendszer eredményei • Az eredmény javulása az egyszerű szabályok ellenére BLEU érték Rendszer

JOSHUA rendszer eredményei • Az eredmény javulása az egyszerű szabályok ellenére BLEU érték Rendszer Alaprendszer 10. 85% Lit. Mag+JOSHUA+OOV 9. 85% Lit. Mag+JOSHUA 11. 06% Angol referenciamondat: " for a little while only , " said the voice quietly. Magyar referenciamondat: - csak egy kis ideig - mondta a hang csendesen. Alaprendszer fordítása: - egy darabig csak - mondta a hang. JOSHUA rendszer fordítása: - csak egy kis ideig nyugodtan - mondta a hang.

Cigány-magyar SMT • Hasonló morfológiai gazdagságú nyelvpárok • Korpusz: – Vesho-Farkas-féle lovári nyelvű Újszövetség

Cigány-magyar SMT • Hasonló morfológiai gazdagságú nyelvpárok • Korpusz: – Vesho-Farkas-féle lovári nyelvű Újszövetség – Káldi-féle (Neovulgáta) magyar Újszövetség Rendszer BLEU érték Cigány-magyar (MOSES) 30. 53% Cigány-magyar (JOSHUA) 29. 20% Magyar-cigány (MOSES) 30. 38% Magyar-cigány (JOSHUA) 35. 88% • Eredmény: – Sokkal magasabb BLEU – Olvashatóbb, érthetőbb fordítás

Példamondat (cigány-magyar) • Cigány referenciamondat: le but manusha pale tele sharadine penge gada po

Példamondat (cigány-magyar) • Cigány referenciamondat: le but manusha pale tele sharadine penge gada po drom , kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen. • Magyar referenciamondat: a hatalmas tömeg pedig leterítette ruháit az útra , mások meg ágakat vagdostak a fákról és az útra szórták. • MOSES fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa , és az úton rispisarnaslen. • JOSHUA fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen.

Összefoglalás • Angol-magyar SMT rendszer minőségének javítása szótár hozzáadásával • Angol-magyar SMT rendszer minőségének

Összefoglalás • Angol-magyar SMT rendszer minőségének javítása szótár hozzáadásával • Angol-magyar SMT rendszer minőségének javítása hibridizációval • Létrehoztam egy cigány-magyar statisztikai gépi fordító rendszert

Köszönöm a figyelmet! laklaja@digitus. itk. ppke. hu

Köszönöm a figyelmet! laklaja@digitus. itk. ppke. hu