Johanna Monti La Traduzione Automatica Johanna Monti 1

  • Slides: 62
Download presentation
Johanna Monti La Traduzione Automatica Johanna Monti 1

Johanna Monti La Traduzione Automatica Johanna Monti 1

Johanna Monti BREVE STORIA DELLA TRADUZIONE AUTOMATICA 2

Johanna Monti BREVE STORIA DELLA TRADUZIONE AUTOMATICA 2

Il passato: gli inizi Esperimento dell’università di Georgetown, 1954: primo prototipo di Traduzione Automatica

Il passato: gli inizi Esperimento dell’università di Georgetown, 1954: primo prototipo di Traduzione Automatica dal russo all’inglese sviluppato in collaborazione con IBM Rapporto del Automatic Language Processing Advisory Committee (ALPAC), 1966: nessuna utilità dallo sviluppo di sistemi di traduzione automatica Johanna Monti Memorandum sulla traduzione di W. Weaver, 1957: la traduzione viene assimilato a un problema di crittografia 3

Il passato: anni ‘ 70 e ‘ 80 Diffusione negli anni ‘ 80 di

Il passato: anni ‘ 70 e ‘ 80 Diffusione negli anni ‘ 80 di sistemi commerciali presso grandi enti internazionali (ONU, NATO, aeronautica americana, etc. ) e grosse multinazionali (IBM, XEROX, GM, etc. ) Diede impulso alla nascita della Linguistica Computazionale e allo sviluppo di sistemi di Traduzione assistita (Memorie di traduzione, postazioni di lavoro per traduttori, banche dati terminologiche Johanna Monti Ingenti finanziamenti dalla Comunità Europea: lancio del progetto EUROTRA (1978‐ 92) e acquisto del sistema Systran per servizi di traduzione interna di documenti 4

Il presente Diffusione di diverse applicazioni di traduzione basate sulla traduzione automatica per scopi

Il presente Diffusione di diverse applicazioni di traduzione basate sulla traduzione automatica per scopi diversi: Google Johanna Monti Diffusione dei sistemi di traduzione automatica online su Internet: Babel. Fish di Altavista Sopravvento dei modelli statistici su quelli linguistici e ulteriore evoluzione verso sistemi ibridi o basati su tecniche di intelligenza artificiale Integrazione tra la Traduzione Automatiche e tecnologie del parlato 5

Il mercato della Traduzione Automatica • Servizi online gratuiti ( TA, TA integrata con

Il mercato della Traduzione Automatica • Servizi online gratuiti ( TA, TA integrata con altre tecnologie per la traduzione) • Servizi in‐house (governi, enti internazionali, multinazionali • Machine Translation as a Service (MTAAS): servizi a pagamento di TA e revisione da parte di traduttori Caratteristiche : • Cloud computing e crowdsourcing • Integrazione di diverse tecnologie per la traduzione e del linguaggio (TA, Traduzione assistita, tecnologie della voce, etc. ) • Transizione della TA dalla Fully Automated High Quality Translation (FAHQT ) a strumento per la comunicazione globale Johanna Monti Servizi: Fornitori: • Ca. 70 operatori diversi • Maggiori fornitori: Google, IBM, Lionbridge, Microsoft, PROMT, SDL, Smart Communications, SYSTRAN. 6

Johanna Monti LA TRADUZIONE AUTOMATICA: MODELLI, METODI E PROBLEMI 7

Johanna Monti LA TRADUZIONE AUTOMATICA: MODELLI, METODI E PROBLEMI 7

Approcci alla Traduzione Automatica Rule‐ based MT Direct Transfer Syntactic Data‐ driven MT Interlingua

Approcci alla Traduzione Automatica Rule‐ based MT Direct Transfer Syntactic Data‐ driven MT Interlingua EBMT SMT Word‐ based Semantic TM Johanna Monti MT Phrase‐ based 8 Hybrid

Johanna Monti RBMT: il triangolo di Vaquois 9

Johanna Monti RBMT: il triangolo di Vaquois 9

Sistemi di traduzione diretta • Il sistema riduce al minimo le informazioni linguistiche da

Sistemi di traduzione diretta • Il sistema riduce al minimo le informazioni linguistiche da analizzare, prendendo in considerazione solo le caratteristiche della lingua di partenza e di quella di arrivo, necessarie per il procedimento della trasformazione.

Johanna Monti RBMT: i sistemi a transfer 11

Johanna Monti RBMT: i sistemi a transfer 11

RBMT: Vantaggi e svantaggi Svantaggi Risultati abbastanza prevedibili Sviluppo costoso Investimento modesto per hardware

RBMT: Vantaggi e svantaggi Svantaggi Risultati abbastanza prevedibili Sviluppo costoso Investimento modesto per hardware Costi elevati per sviluppo ulteriori coppie di lingue Personalizzazione linguistica (dizionari e grammatiche) Personalizzazione manuale Trattamento adeguato della maggior parte degli aspetti grammaticali (tempi e modi dei verbi, concordanze etc. Talvolta traduzioni poco fluenti Limitati casi di mancata traduzione Johanna Monti Vantaggi 12

Sistemi a interlingua

Sistemi a interlingua

SMT: l’approccio statistico DECODER Translation Model Language Model Statistical model (Lingua d’arrivo) La presente

SMT: l’approccio statistico DECODER Translation Model Language Model Statistical model (Lingua d’arrivo) La presente invenzione sarà descritta Translation Model Training Module Language Model Training Module Bilingual Data Johanna Monti (Lingua originale) The present invention will be described Target Language Data Training Text data 14

 «Statistical Machine Translation» (SMT)

«Statistical Machine Translation» (SMT)

SMT: Vantaggi e svantaggi Svantaggi Poco costoso da sviluppare Risultati meno predicibili Faciltà e

SMT: Vantaggi e svantaggi Svantaggi Poco costoso da sviluppare Risultati meno predicibili Faciltà e costi limitati per sviluppo di nuove coppie di lingue (se disponibili corpora adeguati per l’addestramento) Investimenti hardware ingenti Johanna Monti Vantaggi Personalizzazione automatica (se disponibili corpora Personalizzazione imprecisa adeguati per l’addestramento) Traduzioni talvolta più fluenti dei sistemi RBMT Presenta problemi grammaticali (tempi, modi, concordanze, etc. Problemi di mancate traduzioni 16

Johanna Monti HMT: l’approccio ibrido 17

Johanna Monti HMT: l’approccio ibrido 17

I software commerciali di traduzione

I software commerciali di traduzione

Johanna Monti La lingua tradotta: successi e insuccessi 19

Johanna Monti La lingua tradotta: successi e insuccessi 19

Johanna Monti Perché i testi specialistici sono tradotti meglio? 20

Johanna Monti Perché i testi specialistici sono tradotti meglio? 20

Johanna Monti Nodi della traduzione automatica 21

Johanna Monti Nodi della traduzione automatica 21

Perché la traduzione automatica è così difficile (per il computer)? Tre fasi: Comprendere un

Perché la traduzione automatica è così difficile (per il computer)? Tre fasi: Comprendere un testo fonte implica gli stessi problemi di qualsiasi applicazione TAL Dipende dal tipo di approccio Johanna Monti • “Comprensione ” del testo sorgente • Conversione nella lingua di arrivo • Generazione del testo di arrivo corretto Inoltre, ci sono problemi di natura contrastiva …. 22

Comprensione del testo di partenza • A livello morfologico • Le flessioni sono ambigue

Comprensione del testo di partenza • A livello morfologico • Le flessioni sono ambigue (books, loaded) • La forma derivata può essere lessicalizzata (meeting, drier) • Ambiguità della categoria grammaticale (ad es. : round) • Omonimia • Diversi significati con stessa categoria grammaticale (re) • Significati diversi con categorie grammaticali diverse (porta) Ambiguità Sintattica • (profonda) Dovuta alla combinazione di parole grammaticalmente ambigue • Time flies like an arrow, fruit flies like a banana • (superficiale) Dovuta alla possibilità di molteplici interpretazioni della struttura • The man saw the girl with a telescope Johanna Monti Ambiguità lessicali 23

Problemi di traduzione a livello lessicale • • Differenze concettuali Lacune lessicali Differenze di

Problemi di traduzione a livello lessicale • • Differenze concettuali Lacune lessicali Differenze di stile/ registro … Johanna Monti Anche se si ipotizza la disambiguazione a livello morfologico… 24

Differenze concettuali Eat (E) essen ~ fressen(D) Put (En) stellen ~ legen (D) colombo(It)

Differenze concettuali Eat (E) essen ~ fressen(D) Put (En) stellen ~ legen (D) colombo(It) Johanna Monti Wall (E) parete ~ Muro (It) pigeon ~ dove (En) 25

Lacune lessicali Come risultato di una morfologia produttiva Diverse lessicalizzazioni dei concetti • Schimmel

Lacune lessicali Come risultato di una morfologia produttiva Diverse lessicalizzazioni dei concetti • Schimmel (D) ‘cavallo bianco’ • ‘un cavallo quasi bianco’ * ein fast Schimmel • ‘cavalli neri e bianchi’ schwarze Pferde und Schimmel Johanna Monti • Kenner (D) ‘qualcuno che sa’ Traduzione mediante perifrasi conseguenti difficoltà a livello strutturale 26

Problemi di traduzione a livello strutturale • la lingua d’arrivo non usa la stessa

Problemi di traduzione a livello strutturale • la lingua d’arrivo non usa la stessa struttura • o (peggio) può ma con una diversa sfumatura di significato Johanna Monti Sempre ipotizzando la disambiguazione della lingua di partenza 21

Differenze strutturali • The horseman rode into town (E) • Il cavaliere è entrato

Differenze strutturali • The horseman rode into town (E) • Il cavaliere è entrato in città a cavallo (I) • Google Translate: *Il cavaliere a cavallo in città. Johanna Monti Verbi di movimento : 28

Le costruzioni vengono usate diversamente Molte lingue ad esempio hanno il passivo ma …

Le costruzioni vengono usate diversamente Molte lingue ad esempio hanno il passivo ma … • These cakes are sold quickly (E) • Questi dolci si vendono rapidamente (I) • Google Translate: Questi dolci sono venduti rapidamente • English is spoken here (E) • Qui si parla inglese • Google Translate: L'inglese è parlato qui Johanna Monti Vengono preferite costruzioni alternative: Il passivo non è disponibile • Mary was given a book * Maria fu dato un libro • This bed has been slept in * Questo letto è stato dormito in 29

Johanna Monti FUNZIONI E APPLICAZIONI DELLA TRADUZIONE AUTOMATICA 30

Johanna Monti FUNZIONI E APPLICAZIONI DELLA TRADUZIONE AUTOMATICA 30

La traduzione automatica è ormai una realtà ? Assimilation Tool Disseminatio n tool Johanna

La traduzione automatica è ormai una realtà ? Assimilation Tool Disseminatio n tool Johanna Monti Interchange Tool Machine Translation Information Access. Tool Learning Tool Entertainment Tool 31

Assimilation Tool • traduzione di documenti elettronici in formato solo testo e di pagine

Assimilation Tool • traduzione di documenti elettronici in formato solo testo e di pagine web per rispondere alla necessità degli utenti di comprendere in tempi rapidi qualsiasi tipo di testo durante la navigazione in Internet. • La maggior parte dei fornitori di TA online, da Babelfish a Google, offre questo tipo di servizi gratuitamente. Google Translate: applicazione TA di testi e pagine WEB Johanna Monti È il primo uso della TA che si è affermato sul WEB: 32

33 Multi‐word unit processing in Machine Translation Johanna Monti

33 Multi‐word unit processing in Machine Translation Johanna Monti

34 Multi‐word unit processing in Machine Translation Johanna Monti

34 Multi‐word unit processing in Machine Translation Johanna Monti

Johanna Monti EPO: Patent translate 35

Johanna Monti EPO: Patent translate 35

Johanna Monti European Media Monitor (EMM) 36

Johanna Monti European Media Monitor (EMM) 36

Johanna Monti FAO 37

Johanna Monti FAO 37

Johanna Monti MT@EC 38

Johanna Monti MT@EC 38

Johanna Monti Tripadvisor 39

Johanna Monti Tripadvisor 39

Information Access Tool • Applicazioni più recenti della TA riguardano la traduzione delle parole

Information Access Tool • Applicazioni più recenti della TA riguardano la traduzione delle parole chiave di una ricerca per applicazioni • Questo servizio è, ad esempio, offerto da Google per facilitare la ricerca e l’accesso alle informazioni su Internet. Google Translate: Ricerca Tradotta Johanna Monti CLIR (Cross‐language Information Retrieval). 40

Johanna Monti Europeana 41

Johanna Monti Europeana 41

Johanna Monti E-Bay 42

Johanna Monti E-Bay 42

Interchange Tool • La traduzione come strumento di rapida comunicazione nelle discussioni delle chat‐room

Interchange Tool • La traduzione come strumento di rapida comunicazione nelle discussioni delle chat‐room o sui sistemi di Instant Messaging, nonché delle e‐mail consente invece agli utenti di poter dialogare con persone che non parlano la stessa lingua, in tempo reale. • Questo tipo di applicazione della TA si è affermato rapidamente, ed è offerto, allo stato attuale, in Second Life, ma anche da Microsoft (Windows Live Messanger) e Google (Google Talk), che danno la possibilità di utilizzare la TA nei servizi di chat, grazie ai cosiddetti (ro)bot di traduzione. Google Talk e i (ro)bot di traduzione Johanna Monti CLIM (Cross‐language Instant Messaging). 43

Johanna Monti Skype Translator 44

Johanna Monti Skype Translator 44

Dissemination Tool • Uso della Traduzione Automatica nell’ambito della traduzione per la creazione e

Dissemination Tool • Uso della Traduzione Automatica nell’ambito della traduzione per la creazione e la manutenzione collaborativa di contenuti multilingue. Google ha lanciato un nuovo servizio chiamato Google Translator Toolkit in cui mette a disposizione il suo sistema di TA in un ambiente in cui è possibile: • 1 ‐ disporre di altri strumenti, come ad esempio memorie di traduzione e dizionari, • 2 ‐ condividere con altre persone la traduzione, o per collaborare o ai fini di una revisione, • 3 ‐ pubblicare la traduzione direttamente su Wikipedia o come Knol. Google Translator Toolkit: applicazione di TA integrata in ambiente di lavoro per traduttori Johanna Monti The Translator toolkit 45

Johanna Monti La TA come Dissemination Tool 46

Johanna Monti La TA come Dissemination Tool 46

Johanna Monti Google Translator toolkit 47

Johanna Monti Google Translator toolkit 47

Johanna Monti Quali testi possono essere tradotti?

Johanna Monti Quali testi possono essere tradotti?

Cosa è possibile fare Pre‐tradurre un testo mediante la TA Invitare altri utenti (tramite

Cosa è possibile fare Pre‐tradurre un testo mediante la TA Invitare altri utenti (tramite e‐mail) a modificare e visualizzare le traduzioni per collaborare o ai fini di una revisione Johanna Monti Disporre di altri strumenti, come ad esempio memorie di traduzione e dizionari Modificare i documenti online anche in modalità collaborativa insieme ad altri traduttori, per poi pubblicarli e inserirli ad esempio in un blog online. Pubblicare la traduzione direttamente su Wikipedia o come Knol (Unit of knowledge). 49

Le fasi del ciclo di traduzione automatica/assistita Segmentazione • Il testo viene suddiviso in

Le fasi del ciclo di traduzione automatica/assistita Segmentazione • Il testo viene suddiviso in segmenti: frasi, titoli, punti elenco. • Cerca nella Memoria di Traduzione, tutte le traduzioni corrispondenti disponibili per i segmenti individuati Pre-traduzione pre‐traduce il segmento , scegliendo la traduzione con il risultato di ricerca a maggior valore di frequenza Johanna Monti Memoria di traduzione Traduzione Automatica • Usa la Traduzione Automatica quando non vi sono traduzioni disponibili nella Memoria di Traduzioni Post-editing • Una volta pretradotto il testo è possibile revisionarlo mediante un editor WYSIWYG 50

Johanna Monti Il post-editing 51

Johanna Monti Il post-editing 51

Johanna Monti Il ciclo di traduzione 52

Johanna Monti Il ciclo di traduzione 52

 • Il crowdsourcing: uso di gruppi di professionisti e non‐professionisti su base volontaristica

• Il crowdsourcing: uso di gruppi di professionisti e non‐professionisti su base volontaristica o a pagamento per svolgere tipiche attività di traduzione e localizzazione. • CT 3, ovvero “community, crowdsourced, and collaborative translation”, • Processo di crowdsourcing: – i contenuti da tradurre vengono condivisi sul web. – traduttori professionisti, occasionali e non professionisti producono la traduzione che viene poi rivista; – i traduttori professionisti vengono generalmente pagati in modo convenzionale, i traduttori volontari invece, lavorando gratuitamente, vengono remunerati attraverso forme non convenzionali di gratificazione sociale Johanna Monti Crowdsourcing e cloud computing per le nuove tecnologie della traduzione 53

Crowdsourcing e cloud computing per le nuove tecnologie della traduzione • Reperimento delle risorse

Crowdsourcing e cloud computing per le nuove tecnologie della traduzione • Reperimento delle risorse linguistiche: • Sottotitolaggio: Johanna Monti • Alternativa alla traduzione automatica e ai traduttori professionisti ? • Localizzazione di siti web di social network: • Per la traduzione letteraria: • Novità! Per tradurre il web e imparare una lingua: 54

Johanna Monti Il caso Facebook: Translations e Facebook Translations team 55

Johanna Monti Il caso Facebook: Translations e Facebook Translations team 55

Johanna Monti Il caso Facebook: inline translating 56

Johanna Monti Il caso Facebook: inline translating 56

Vari tipi di crowdsourcing (Désilets 2010) • Condivisione di risorse lessicali, terminologiche e di

Vari tipi di crowdsourcing (Désilets 2010) • Condivisione di risorse lessicali, terminologiche e di memorie di traduzione: Johanna Monti • Teamware e siti specializzati per la traduzione: • per la distribuzione di parti di progetti di traduzioni: 57

Vari tipi di crowdsourcing (Désilets 2010) • per attività di traduzione o di revisione

Vari tipi di crowdsourcing (Désilets 2010) • per attività di traduzione o di revisione di traduzioni prodotte da sistemi di traduzione automatica. Johanna Monti • Siti per la ricerca di lavoro da parte di traduttori freelance: 58

Johanna Monti Una nuvola di ambienti collaborativi di traduzione assistita/automatica 59

Johanna Monti Una nuvola di ambienti collaborativi di traduzione assistita/automatica 59

Alcuni esempi d’uso Traduzione di Chat, SMS, Tweets Traduzione di contenuti di e. Commerce

Alcuni esempi d’uso Traduzione di Chat, SMS, Tweets Traduzione di contenuti di e. Commerce Traduzione sottotitoli, TV, Trasmissioni Radio Traduzioni di contenuti tecnico‐ specialistici (manualistica, guide, etc. ) Johanna Monti Pre‐Traduzione di informazioni sui prodotti (Localizzazione) Traduzione di Pagine web dinamiche Monitoraggio di informazioni da fonti straniere 60

 • Monti J. (2014) Le tecnologie per la traduzione nell’era del cloud computing:

• Monti J. (2014) Le tecnologie per la traduzione nell’era del cloud computing: stato dell’arte e prospettive future. Atti del convegno Traduzione per le aziende, il territorio, l'editoria Convegno internazionale del CLA - Università degli studi di Salerno 18‐ 20 Dicembre 2013. • Monti J. , (2013) “Crowdsourcing e Cloud‐computing: una nuova generazione di risorse e tecnologie per la traduzione” in Atti del XII Congresso dell’Associazione Italiana di Linguistica Applicata Comunicare le lingue attraverso le discipline: prospettive traduttiva, didattica e socioculturale – Macerata 23‐ 24 febbraio 2012: 85‐ 100 • Monti J. , (2012) “Translators' Knowledge in the cloud the new translation technologies” in Proceedings of the International Symposium on Language and Communication – Research, Trends and challanges ‐ ISLC 2012 ‐ Izmir (Turchia). • Monti J. (2005). “La traduzione automatica deve sempre essere trasparente? Spunti di riflessione su trasparenza e qualità nella traduzione”. In: Guarino A. , Montella C. , Silvestri D. , Vitale M. (a cura di) La Traduzione: Il paradosso della trasparenza. Napoli: Liguori Editore: 299‐ 318. • Monti J. (2002). “Traduzione automatica e assistita: stato dell’arte e prospettive future”. In: Scelfo M. G. (a cura di). Le questioni del tradurre: comunicazione, comprensione, adeguatezza traduttiva e ruolo del genere testuale. Roma: Edizioni Associate Editrice Internazionale srl, 160‐ 169. Johanna Monti Bibliografia 61

Johanna Monti Grazie per l’attenzione. Domande? 62

Johanna Monti Grazie per l’attenzione. Domande? 62