Universit degli Studi di Modena e Reggio Emilia

  • Slides: 13
Download presentation
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica EXTRA Progetto e Sviluppo di un Ambiente per Traduzioni Multilingua Assistite Riccardo Martoglia Relatore: Prof. Paolo Tiberio Controrelatore: Controrelatore Prof. Sonia Bergamaschi Correlatore: Dott. Federica Mandreoli Anno Accademico 2000/2001

Traduzione EBMT (Example-based) Translation Memory Codice Ricerca di frasi ) Frase(Pre-traduzione originaria (Lingua sorgente)

Traduzione EBMT (Example-based) Translation Memory Codice Ricerca di frasi ) Frase(Pre-traduzione originaria (Lingua sorgente) esatta Suggerimenti per la traduzione Frase tradotta (Lingua destinazione) Testo da 5673 Welcome to the world of approssimata Benvenuti nel mondo della grafica tradurre computer generated art! generata al computer! Traduttore 13543 The area to the left of the L’area a sinistra degli strumenti è professionista Translation toolbox is where you work on~ 50. 000 dovefrasi si opera sulle immagini. your pictures. Memory Testo 32567 Now press the right mouse button and draw over a figure. … … Allineamento Ora premere tradotto il pulsante destro del mouse e disegnare una figura. …

Progetto EXTRA (EXample-based TRanslation Assistant) Svolto in collaborazione con Logos S. p. A. Metrica

Progetto EXTRA (EXample-based TRanslation Assistant) Svolto in collaborazione con Logos S. p. A. Metrica di similarità tra frasi n Flessibile (stemming) n Rigorosa (edit distance) n Efficace n Indipendente dalle lingue Algoritmi di ricerca di similarità tra frasi n Completi (full-match e partial-match) n Efficienti (filtri ed indici ad hoc) n Portabili (query SQL / JDBC + stored procedure Java) Algoritmi di allineamento n Allineamento frasi e parole n Automatici n Indipendenti dalle lingue Ambiente integrato n Strumenti per gestione ed analisi Translation Memory n Interfaccia utente grafica

Metrica di similarità tra frasi Edit Distance L’edit distance ed(f 1, f 2) tra

Metrica di similarità tra frasi Edit Distance L’edit distance ed(f 1, f 2) tra due frasi f 1 e f 2 è il minimo costo della sequenza di operazioni sulle parole (inserimenti, cancellazioni, sostituzioni) che trasformano f 1 in f 2. Esempio. f 1: On completion of electrical connections, fit the cooktop in place from the top f 2: After the electrical connection, fit the hob from the top stemming complete electric connect fit cooktop place top electric connect fit hob top O O O ed(f 1, f 2) = 3 distanza tra le frasi di 3 (parole)

Ricerca di similarità tra frasi Full match Dato un insieme di frasi da pre-tradurre

Ricerca di similarità tra frasi Full match Dato un insieme di frasi da pre-tradurre Q, un insieme di frasi della Translation Memory TM, e una massima distanza relativa d, per ogni frase fq in Q di lunghezza |fq| si ricercano tutte le frasi f. TM in TM (i suggerimenti) tali che ed(fq, f. TM, round(d*|fq|))≥ 0 (ordinate sulla base del risultato dell’edit distance). INSERT INTO FULLMATCH SELECT R 2. COD AS COD 2, R 1. COD AS COD 1, R 1. TARG_SENT AS SUGG, ed (R 1. STEM_SENT, R 2. STEM_SENT, round (d*R 2. LEN)) AS DIST FROM TM R 1, Q TMq R 2 R 1 q, Q R 2, Qq R 2 q WHERE R 1. COD <filtri> = R 1 q. COD AND … R 2. COD = R 2 q. COD AND R 1 q. Qgram ed (R 1. STEM_SENT = R 2 q. Qgram , R 2. STEM_SENT, round (d*R 2. LEN)) >= 0 ORDER BY ABS AND COD 2, (R 1 q. POS DIST, COD 1 – R 2 q. POS) ≤ round (d*R 2. LEN) AND ABS (R 1. LEN – R 2. LEN) ≤ round (d*R 2. LEN) Filtri: GROUP BY R 2. COD, R 1. STEM_SENT, R 2. STEM_SENT, R 1. LEN, R 2. LEN basati sul. COUNT concetto q-gramma posizionale HAVING (*) ≥di(R 1. LEN – 1 – (round(d*R 2. LEN) – 1) *q) AND COUNT (*) ≥ (R 2. LEN – 1 – (round(d*R 2. LEN) – 1) *q) garantiscono correttezza (assenza di false esclusioni) AND ed (R 1. STEM_SENT , R 2. STEM_SENT, garantiscono efficienza (pochi falsi positivi) round (d*R 2. LEN)) >= 0 ORDER BY COD 2, DIST, COD 1 filtri di lunghezza, conteggio e posizione

Ricerca di similarità tra frasi Full match Frase Cercata: 31: On completion of electrical

Ricerca di similarità tra frasi Full match Frase Cercata: 31: On completion of electrical connections, fit the cooktop in place from the top and secure it by means of the clips as shown. (complete electric connect fit cooktop place top secure mean clip show) LEN = 11 d = 0. 3 Massima distanza ammessa = 3 parole Frasi in Translation Memory: COD SOURCE_SENT STEM_SENT LEN 3572 This is computer generated art. be compute generate art 4 4631 The cooling fan switches on only when the oven or cooktop has reached a certain temperature. cool fan switch oven cooktop have reach certain temperature 9 5848 After the electrical connection, fit the hob from the top and hook it to the support springs, according to the illustration. electric connect fit hob top hook support spring illustrate 9 complete electric connect put cooktop place fix mean clip show 7 41780 On completion of electrical connections, put the cooktop in place and fix it by means of the clips as shown. ed(31, 3572) ed(31, 4631) ed(31, 5848) ed(31, 41780) = 3

Ricerca di similarità tra frasi Partial match Estensione del concetto di Full match. Si

Ricerca di similarità tra frasi Partial match Estensione del concetto di Full match. Si ricercano match di similarità: tra qualunque sottoparte delle frasi da pretradurre (estratta automaticamente) rispetto a qualunque sottoparte delle frasi della Translation Memory non solo in modo esatto, ma anche approssimato utilizzando la stessa metrica di similarità vista per le frasi intere Translation Memory Query 1: Ricerca parole uguali Query 2: Ricerca migliori partial match I Partial match devono essere: di lunghezza superiore ad una soglia minima l. Min di distanza non maggiore a d. Sub non contenuti in altri Partial Match più ampi che soddisfano le condizioni precedenti Partial Match Nuovi filtri: conteggio (partial match) posizione (partial match) lunghezza (partial match) inclusione ridondanza

Ricerca di similarità tra frasi Esempi di suggerimenti di pre-traduzione Frase cercata: On completion

Ricerca di similarità tra frasi Esempi di suggerimenti di pre-traduzione Frase cercata: On completion of electrical connections, fit the cooktop in place from the top and secure it by means of the clips as shown. Frase con parte simile 1: After the electrical connection, fit the hob from the top and hook it to the support springs, according to the illustration. Traduzione completa 1: Dopo aver eseguito il collegamento elettrico, montare il piano cottura dall'alto e agganciarlo alle molle di supporto come da figura. Suggerimento 1 (Dist=0. 33): collegamento elettrico, montare il piano cottura dall'alto Frase con parte simile 2: Secure it by means of the clips. Traduzione suggerita 2 (Dist=0): Fissare definitivamente per mezzo dei ganci.

Allineamento parole: esempio di funzionamento. riciclaggio del simbolo dal indicato come , 100% al

Allineamento parole: esempio di funzionamento. riciclaggio del simbolo dal indicato come , 100% al riciclabile è imballo d' materiale Il The packing is 100% recyclable , as indicated by the recycling symbol. . Uguaglianza (sigle, punteggiatura, parole) Somiglianza LCS (parole)

Allineamento frasi: esempio di funzionamento Inglese Francese Match Inglese Francese According to our survey,

Allineamento frasi: esempio di funzionamento Inglese Francese Match Inglese Francese According to our survey, 1988 sales of Quant aux eaux minérales et aux 2 : 2 mineral water and soft to drinks were much limonades, elles aux rencontrent toujours et aux According our survey, 1988 sales of Quant eaux minérales higher thanmineral in 1987, plus d’adeptes. waterreflecting and soft the drinks were limonades, elles rencontrent toujours growing popularity of these products. much higher than in 1987, reflecting the notre plus sondage d’adeptes. effet, notre En effet, fait. Enressortir des sondage popularity of these products. fait ressortir des àventes nettement supérieures celles denettement Cola drink growing manufacturers in particular Cola drink manufacturers à celles achieved above-average growth rates. in particular 1987, poursupérieures les boissons à basede de 1987, cola pour les achieved above-average growth rates. boissons à base de cola notamment. The higher turnover was largely due to La progression des chiffres d’affaires 1 : 1 an increase in the sales volume. résulte en grande partie de Employment and investment levels also l’accroissement du volume des ventes. climbed. Following a two-year L’emploi et les investissements ont Employmenttransitional and investment also Foodstuffs L’emploi également et les investissements ont nouvelle 1 : 1 period, levels the new augmenté. La climbed. également augmenté. fédérale sur les denrées Ordinance for Mineral Water came into ordonnance on April 1, 1988. Specifically, it alimentaires Following aeffect two-year transitional period, La nouvelle ordonnanceconcernant fédérale surentre les autres 2 : 1 contains more stringent requirements les eaux minérales, entrée en vigueur the new Foodstuffs Ordinance for denrées alimentaires concernant entre regarding quality consistency puritylesleeaux 1 er avril 1988 après Mineral Water came into effect on April and autres minérales, entrée une en période guarantees. deuxaprès ans, exige 1, 1988. vigueur letransitoire 1 er avril de 1988 une surtout une plusdegrande constance période transitoire deux ans, exige dans la Specifically, it contains more stringent et une constance garantie dedans la pureté. surtout unequalité plus grande requirements regarding quality la qualité et une garantie de la pureté. consistency and purity guarantees. Dist 460 173 46 340

Ambiente integrato Strumenti aggiuntivi e interfaccia utente

Ambiente integrato Strumenti aggiuntivi e interfaccia utente

Prestazioni del sistema Efficacia Efficienza Tempi di pre-traduzione di 420 frasi Collezione (35000 frasi):

Prestazioni del sistema Efficacia Efficienza Tempi di pre-traduzione di 420 frasi Collezione (35000 frasi): copertura totale 99% I filtri(Translation e gli 1 indici permettono riduzione Memory di una 35000 frasi) dei tempi di circa 70% Collezione (1500 copertura totale 71% 2 Circa 1, 5 frasi): secondi per frase

EXTRA Conclusioni Obiettivi conseguiti: è stata definita una metrica di similarità tra frasi efficace

EXTRA Conclusioni Obiettivi conseguiti: è stata definita una metrica di similarità tra frasi efficace ed indipendente dai linguaggi è stato definito e affrontato il problema di ricerca di similarità tra frasi intere è stata estesa la ricerca di similarità alle parti di frasi sono stati mappati tali problemi in query SQL/JDBC portabili ed efficienti sono stati implementati in Java una serie di algoritmi di allineamento, automatici ed indipendenti dalle lingue è stato realizzato in Java un ambiente comune, che riunisce tali funzionalità sotto un’interfaccia comune e ne fornisce di aggiuntive Sviluppi futuri Proseguire il lavoro di ricerca: studiando estensioni della ricerca di similarità in ambito semantico migliorando ulteriormente le prestazioni (nuovi filtri …) studiando l’applicabilità del sistema ad altri ambiti