Traducerea Automatizat vs Traducerea Automat Cum funcioneaz Dan

  • Slides: 19
Download presentation
“Traducerea Automatizată vs. Traducerea Automată” Cum funcționează? Dan Tufiș (ICIA) Mulțumiri: slide-uri adaptate după

“Traducerea Automatizată vs. Traducerea Automată” Cum funcționează? Dan Tufiș (ICIA) Mulțumiri: slide-uri adaptate după cele create de Josef van Genabith (DFKI) Atelierul ELRC în România, 23. 03. 16 1

Traducere Automatizată Sumar: • Traducere Automatizată ≠ Traducere Automată • Traducerea automată este complexă,

Traducere Automatizată Sumar: • Traducere Automatizată ≠ Traducere Automată • Traducerea automată este complexă, dar este doar o aproximare a traducerii umane • Cum funcționează traducerea statistică? • Totul este despre DATE! Atelierul ELRC în România, 23. 03. 16 2

Traducerea Automatizată ≠ Traducerea Automată Traducere Automatizată (TA) este un concept mai pragmatic decât

Traducerea Automatizată ≠ Traducerea Automată Traducere Automatizată (TA) este un concept mai pragmatic decât HQMT (Traducere Automată de Înaltă Calitate), dar traducerea automată rămâne esențială (MT) Traducere Automatizată (TA) = Traducere Automată (MT) + corecție umană Calitate Cu cât traducerea automată (MT) este mai corectă, cu atât mai mic este efortul depus de traducătorilor umani. Traducere Automatizată este diferită de TAC (Traducere asistată de calculator). Atelierul ELRC în România, 23. 03. 16 3

Limba/Traducerea este complexă • Traducerea nu poate fi calculată cu o formulă exactă (oricât

Limba/Traducerea este complexă • Traducerea nu poate fi calculată cu o formulă exactă (oricât de complicată ar fi ea) – – – Un cuvânt/o propoziție poate însemna mai multe lucruri Mai multe moduri de a spune același lucru Înțelesul depinde de context Limbaj literal și figurativ (metafore) Limbă și cultură (moduri diferite de a conceptualiza același lucru) Ambiguitate lexicală, sintactico-semantică, … • S-au încercat: traducere automată bazată pe teorii și gramatici formale (conținând câteva reguli în anii ’ 50 până la zeci de mii de reguli în anii ‘ 80) • Cum procedăm? • Învățare Automată (după anii ’ 90) – Învață din datele sunt esențiale – Soluție aproximativă imperfectă, necesită îmbunătățiri • Post-editare de către traducători profesioniști Atelierul ELRC în România, 23. 03. 16 4

Traducerea automată și datele • Traducerea automată statistică = date • Învață să traducă

Traducerea automată și datele • Traducerea automată statistică = date • Învață să traducă din date • Date – Traduceri (texte paralele în limba sursă țintă) – Date monolingve (în limba țintă) – Dicționare, terminologii, ontologii, entități denumite, liste de abreviații, etc. • Traducerea automată statistică este performantă pe texte din domeniul din care a învățat Atelierul ELRC în România, 23. 03. 16 5

Ce putem învăța / Învățăm din Date? • Ce propoziții din limba sursă corespund

Ce putem învăța / Învățăm din Date? • Ce propoziții din limba sursă corespund propozițiilor în limba țintă : aliniere la nivel de propoziție It was a bright cold day in April, and the clocks were striking thirteen. Winston Smith, his chin nuzzled into his breast in an effort to escape the vile wind, slipped quickly through the glass doors of Victory Mansions, though not quickly enough to prevent a swirl of gritty dust from entering along with him… Într-o zi senină și friguroasă de aprilie, pe când ceasurile băteau ora treisprezece, Winston Smith, cu bărbia înfundată în piept pentru a scăpa de vântul care-l lua pe sus, se strecură iute prin ușile de sticlă ale Blocului Victoria, deși nu destul de repede pentru a împiedica un vârtej de praf și nisip să pătrundă o dată cu el…. Atelierul ELRC în România, 23. 03. 16 6

Ce putem învăța / Învățăm din Date? • Ce propoziții din limba sursă corespund

Ce putem învăța / Învățăm din Date? • Ce propoziții din limba sursă corespund propozițiilor în limba țintă : aliniere la nivel de propoziție It was a bright cold day in April, and the clocks were striking thirteen. Winston Smith, his chin nuzzled into his breast in an effort to escape the vile wind, slipped quickly through the glass doors of Victory Mansions, though not quickly enough to prevent a swirl of gritty dust from entering along with him… Într-o zi senină și friguroasă de aprilie, pe când ceasurile băteau ora treisprezece, Winston Smith, cu bărbia înfundată în piept pentru a scăpa de vântul care-l lua pe sus, se strecură iute prin ușile de sticlă ale Blocului Victoria, deși nu destul de repede pentru a împiedica un vârtej de praf și nisip să pătrundă o dată cu el…. Atelierul ELRC în România, 23. 03. 16 7

Ce cuvinte se traduc prin ce cuvinte în limba țintă: aliniere la nivel de

Ce cuvinte se traduc prin ce cuvinte în limba țintă: aliniere la nivel de cuvânt Atelierul ELRC în România, 23. 03. 16 8

Cum funcționează Traducerea Automată modernă? • Fără ecuații matematice astăzi • Însă: • Povestea

Cum funcționează Traducerea Automată modernă? • Fără ecuații matematice astăzi • Însă: • Povestea traducerii automate în imagini • Totul depinde de Date Algoritm Decodare Model Traducere Model de Limbă Ce cuvinte din documentul sursă se traduc prin ce cuvinte în documentul în limba țintă: aliniere la nivel de cuvânt + probabilități de traducere model de traducere succesiunea naturală a cuvintelor într-o limbă + probabilități model de limbă Atelierul ELRC în România, 23. 03. 16 9

Aliniere la nivel de cuvânt Atelierul ELRC în România, 23. 03. 16 10

Aliniere la nivel de cuvânt Atelierul ELRC în România, 23. 03. 16 10

Aliniere la nivel de cuvânt Atelierul ELRC în România, 23. 03. 16 11

Aliniere la nivel de cuvânt Atelierul ELRC în România, 23. 03. 16 11

Traducere Automată Statistică Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le

Traducere Automată Statistică Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè. RO FR # eu J’ Je aiment le la garcon fille mère chiene ils parlent parle à au ** * *** ** * iubesc <null> băiatul fata mama cainele ei vorbesc cu Date aliniate Statistici Atelierul ELRC în România, 23. 03. 16 12

Traducere Automată Statistică Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le

Traducere Automată Statistică Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè. Date aliniate Eu vorbesc cu fata RO FR # eu J’ Je aiment le la garcon fille mère chiene ils parlent parle à au ** * *** ** * iubesc <null> băiatul fata mama cainele ei vorbesc cu J’ parlent à le fille Atelierul ELRC în România, 23. 03. 16 Statistici 13

Traducere Automată Statistică Modelul de limbă: Eu iubesc băiatul. J’aime le garcon. • Eu

Traducere Automată Statistică Modelul de limbă: Eu iubesc băiatul. J’aime le garcon. • Eu iubesc câinele. J’aime le chien. • Ei iubesc câinele. Ils aiment le chien. • Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè. Date aliniate • Ce înseamnă propoziții bune în limba țintă ? Ce cuvinte pot urma altor cuvinte și care nu. . (gramatică) Învățat din date … • • Je parle e corect … J’ parlent e incorect … • • la fille e corect … le fille e incorect … Je parle à la fille >> J’ parlent à le fille Atelierul ELRC în România, 23. 03. 16 14

Traducere Automată Statistică Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le

Traducere Automată Statistică Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè. Date aliniate Eu vorbesc cu fata J’ parlent 2/3 au 1/3 le fille 3/5 1/1 Je parle 1/3 la 2/5 fille 1/1 à 1/3 Modelul de limbă penalizează rezultatele conținând secvențe Incorecte (mai exact, le atribuie scoruri foarte mici)! Atelierul ELRC în România, 23. 03. 16 15

Traducerea Automată bazată pe secvențe de cuvinte • Eu iubesc băiatul. J’aime le garcon.

Traducerea Automată bazată pe secvențe de cuvinte • Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Atelierul ELRC în România, 23. 03. 16 Eu vorbesc cu mama. Je parle à la merè.

Traducerea Automată bazată pe secvențe de cuvinte • Mult mai bună ca traducerea statistică

Traducerea Automată bazată pe secvențe de cuvinte • Mult mai bună ca traducerea statistică simplă! • Tehnologie standard: Google, Microsoft, Baidu, SDL, Asia. Online etc. • Moses Open Source PB-SMT • Cel mai răspândit sistem PB-SMT • Cercetarea finanțată de Comisia Europeană • Folosită de centrul comisiei DGT MT@EC Atelierul ELRC în România, 23. 03. 16 17

Dictionare / Terminologii /Ontologii Atelierul ELRC în România, 23. 03. 16 18

Dictionare / Terminologii /Ontologii Atelierul ELRC în România, 23. 03. 16 18

CONCLUZII • Refolosirea datelor existente (traduceri umane, memorii de traducere, dicționare și terminologii multilingve,

CONCLUZII • Refolosirea datelor existente (traduceri umane, memorii de traducere, dicționare și terminologii multilingve, etc. ) este cel mai bun mijloc de a îmbunătăți calitatea traducerii automate • Nu subestimați valoarea resurselor lingvistice pe care le aveți sau le veți crea în activitatea dumneavoastră • Previzionați (dacă nu ați făcut-o deja) un plan de management al resurselor! • ELRC are nevoie de implicarea noastră pentru a face, și pentru limba română, din CEF. AT un success • Împreună vom reuși să obținem datele potrivite Atelierul ELRC în România, 23. 03. 16 21