Hibrdas mantulkoanas risinjuma izveide kombinjot dadu mantulkoanas sistmu
Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus Autors: Matīss Rikters Vadītāja: vad. pētn. , Dr. Dat. Inguna Skadiņa
Saturs • • • Mašīntulkošanas vēsture, pielietojums Galvenie virzieni, tulkojumu vērtēšana Hibrīdā mašīntulkošana Daudzsistēmu hibrīdā MT Daudzsistēmu hibrīdās MT eksperiments Daudzvārdu savienojumu apstrāde
Mašīntulkošana • 1947 -1954 – Informācijas teorijā bāzēti MT pamatu pētījumi – Džordžtaunas IBM eksperiments • 1954 -1966 - Lielas divvalodu vārdnīcas + likumi • 1966 -1980 - ALPAC ziņojums, pētījumi turpinājās Eiropā un Kanādā • 1980 - 1990 – Jaunas MT metodes, uz piemēriem bāzētā MT • 1990 - 2000 – Pētījumi runas tulkošanā
Mašīntulkošanas pielietojums • Tulkošanas pakalpojumi – Google Translate, Bing Translator, . . . – Apjomīgu dokumentu tulkošana • Lokalizācija – Ebay, Adobe, . . . • Terorisma apkarošana • Tulkošana no runas runā – Skype, . . .
Mašīntulkošanas pieejas • Likumos bāzēta MT (LBMT) – Pārvietojumos bāzētā MT – Uz vārdnīcām bāzētā MT – Starpvalodu MT • Datos bāzēta MT – Statistiskā MT (SMT) – Uz piemēriem bāzētā MT • Hibrīdā MT
Mašīntulkojuma vērtēšana • BLEU – Vārdu un n-grammu atbilstība • • METEOR NIST WER Daudz citu
Hibrīdā MT • Daudzsistēmu hibrīdā MT • Statistiskā likumu ģenerēšana • Daudzkārtējā apstrāde (multi-pass)
Daudzsistēmu hibrīdā MT • Labākā veselā tulkojuma izvēle • Labāko tulkojuma daļu kombinēšana • Vienu MT sistēmu darbības principu apvienošana ar citām sistēmām
Literatūras izpēte • Tika meklēti raksti par daudzsistēmu mašīntulkošanu • Pēc anotāciju izlasīšanas atstāti 14 raksti detalizētai analīzei • Raksti izanalizēti un savstarpēji Atslēgvārdi Coupling machine salīdzināti to rezultāti translation Coupling hybrid machine-translation Machine-translation System combination Multi-Engine machine translation Atrastie raksti 3 2 12 11
Literatūras izpēte • Populārākie apvienošanas paņēmieni izmanto pārpratumu tīklus (confusion network) • Pārsvarā apvienotas sistēmas, kas darbojas vienas iekārtas ietvaros • Visbiežāk tiek apvienotas SMT un LBMT • BLEU rezultāts vidēji pieaug par 5 – 10 %
Daudzsistēmu MT metodes • • • SMT + LBMT Pārpratumu tīkls (confusion network) Pārpratumu tīkls + uzlabojumi Stara meklēšana (beam search) Citas metodes
SMT + LBMT • Populārākais no sistēmu apvienošanas veidiem • BLEU pieaug par 10 -15% Analizētie raksti: • • Coupling Statistical Machine Translation with Rule-based Transfer and Generation Hybrid architectures for multi-engine machine translation Multi-engine machine translation with an open-source decoder for statistical machine translation Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
Pārpratumu tīkls • Vienkāršākais sistēmu apvienošanas veids • Iespējams apvienot jebkāda veida MT sistēmas • BLEU pieaug par 4 -10% Analizētie raksti: • Lattice-based system combination for statistical machine translation • MANY: Open source machine translation system combination
Pārpratumu tīkls + N-grammu balstītas iezīmes • Uzlabo pārpratumu tīkla darbību • BLEU pieaug par līdz pat 14% Analizētie raksti: • Using n-gram based features for machine translation system combination • Joint optimization for machine translation system combination
Stara meklēšana • Alternatīva pārpratumu tīklam • Iespējams apvienot jebkāda veida MT sistēmas • BLEU pieaug par 10 -14% Analizētie raksti: • Joint optimization for machine translation system combination • Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme
Citas MT apvienošanas metodes • SMT+EBMT+TM+ NE • Rekursīvā teikumu dekompozīcija • Heiristiskā un statistiskā atlase 1 -5% BLEU uzlabojums Analizētie raksti: • USAAR-DCU Hybrid Machine Translation System for ICON 2014 • Multi-engine machine translation guided by explicit word matching • Multi-engine machine translation by recursive sentence decomposition • First steps towards multi-engine machine translation
Daudzsistēmu hibrīdās MT eksperiments Tīmekļa MT sistēmas latviešu – angļu valodām • Google Translate • Bing Translator • Tildes Tulkotājs • Pragma 6 • Babel. XL
Daudzvārdu savienojumu apstrāde Teksta morfosintakstiskā marķēšana (Tree. Tagger, P. Paikena marķētājs) Šablonu definēšana Daudzvārdu savienojumu kandidātu izguve Kandidātu filtrēšana Kandidātu marķēšana tekstā
Daudzvārdu savienojumu apstrāde Metode BLEU Bāzlīnija 62. 23 Bāzlīnija + MWE treniņu datos 62. 10 Bāzlīnija + 2. tulkošanas tabula 62. 04 Bāzlīnija + papildus iezīme 62. 37
Līdz šim paveiktais • Izlasīta pusotra grāmata par MT • Pieveikts tiešsaistes kurss Barselonas universitātē - Approaches to Machine Translation • Veikti eksperimenti ar daudzvārdu savienojumu apstrādi mašīntulkošanas kvalitātes uzlabošanai • Veikta literatūras izpēte par mašīntulkošanu, hibrīdo MT un daudzsistēmu MT
Turpmākie tuvie plāni • Pabeigt rakstu par daudzsistēmu MT • Īstenot, aprakstīt un nopublicēt daudzsistēmu hibrīdās MT eksperimentu • Vadīt pāris kvalifikācijas darbu • Izplānot citus tālākus plānus
Izmantotie avoti • Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme. " The Prague Bulletin of Mathematical Linguistics 93 (2010): 27 -36. • Ahsan, A. , and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the Americas. " Denver, Colorado (2010). • Eisele, Andreas. "First steps towards multi-engine machine translation. " Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005. • Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation. " Proceedings of Translating and the Computer 30 (2008). • He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination. " Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3 -Volume 3. Association for Computational Linguistics, 2009. • Feng, Yang, et al. "Lattice-based system combination for statistical machine translation. " Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3. Association for Computational Linguistics, 2009. • Barrault, Loïc. "MANY: Open source machine translation system combination. " The Prague Bulletin of Mathematical Linguistics 93 (2010): 147 -155. • Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition. " (2006). • Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching. " Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics, 2005. • Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation. " Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007. • Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014. • Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system. " Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008. • Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination. " Proceedings of Human Language Technologies: The 2009 Annual Conference of the • • North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009. Xuan, H. W. , W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT). " Procedia Engineering 29 (2012): 3017 -3022. Rush, Alexander M. , Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation. " EMNLP. 2013. Confusion Networks Decoding - http: //www. statmt. org/moses/? n=Moses. Confusion. Networks Commercial MT Users - http: //www. amtaweb. org/commercial-mt-users/
Jautājumi?
- Slides: 23