UNIVERSIT DEGLI STUDI DI PALERMO FACOLT DI INGEGNERIA

  • Slides: 15
Download presentation
UNIVERSITÀ DEGLI STUDI DI PALERMO FACOLTÀ DI INGEGNERIA DIPARTIMENTO DI INGEGNERIA INFORMATICA CORSO DI

UNIVERSITÀ DEGLI STUDI DI PALERMO FACOLTÀ DI INGEGNERIA DIPARTIMENTO DI INGEGNERIA INFORMATICA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Sistema di interrogazione intelligente di Documenti ufficiali del Parlamento Europeo TESI DI LAUREA DI: RELATORE: Salvatore La Bua Ch. mo Prof. Ing. Salvatore Gaglio CORRELATORI: Ing. Giovanni Pilato Dott. Giorgio Vassallo ANNO ACCADEMICO 2003 - 2004 Salvatore La Bua - http: //www. shogoki. it

Introduzione n n n L’obiettivo del lavoro svolto e´ la realizzazione di un sistema

Introduzione n n n L’obiettivo del lavoro svolto e´ la realizzazione di un sistema di recupero automatico di informazioni capace di restituire all’utente documenti del Parlamento Europeo a seguito di interrogazioni in linguaggio naturale. Sfruttare tecniche di Analisi della Semantica Latente per rappresentare le parole in uno spazio semantico. L’Analisi della Semantica Latente (LSA – Latent Semantic Analysis) permette di estrarre e rappresentare il significato delle parole tramite calcoli statistici applicati ad un vasto insieme di documenti. Salvatore La Bua - http: //www. shogoki. it

Fasi principali n n n n Raccolta dei documenti. Conversione dei documenti in puro

Fasi principali n n n n Raccolta dei documenti. Conversione dei documenti in puro testo. Elaborazione dei documenti. Realizzazione della matrice delle occorrenze. Decomposizione ai valori singolari della matrice. Codifica vettoriale. Misura della distanza. Scelta della risposta del sistema. Salvatore La Bua - http: //www. shogoki. it

Elaborazione dei documenti n Per poter utilizzare i documenti disponibili nel sito del Parlamento

Elaborazione dei documenti n Per poter utilizzare i documenti disponibili nel sito del Parlamento Europeo, e´ necessario: n n Convertirli in puro testo. Eliminare segni di punteggiatura, caratteri numerici e di formattazione del testo, lasciando soltanto quelli alfabetici. Eliminare parole che non apportano significato aggiuntivo ai documenti (stop-words). Realizzare l’elenco dei termini presenti dei documenti. Salvatore La Bua - http: //www. shogoki. it

Realizzazione della matrice n La matrice delle occorrenze mette in relazione i tutti i

Realizzazione della matrice n La matrice delle occorrenze mette in relazione i tutti i termini presenti nell’insieme dei documenti con ciascun documento. Documenti Termini n n Le righe della matrice identificano i termini. Le colonne identificano invece i documenti. Salvatore La Bua - http: //www. shogoki. it

Realizzazione della matrice n Il valore dell’elemento aij della matrice e´ caratterizzato dal numero

Realizzazione della matrice n Il valore dell’elemento aij della matrice e´ caratterizzato dal numero di occorrenza del termine i nel documento j. Documenti Termini Salvatore La Bua - http: //www. shogoki. it

Decomposizione ai valori singolari n La matrice di partenza puo´ essere scomposta in tre

Decomposizione ai valori singolari n La matrice di partenza puo´ essere scomposta in tre matrici, secondo la relazione seguente: n n S V’ U A La matrice U conterra´ le codifiche vettoriali dei termini. La matrice V conterra´ invece quelle dei documenti. Salvatore La Bua - http: //www. shogoki. it

Decomposizione ai valori singolari n E´ possibile scegliere la dimensione del troncamento in funzione

Decomposizione ai valori singolari n E´ possibile scegliere la dimensione del troncamento in funzione dei valori singolari contenuti nella matrice diagonale S: Troncamento effettuato a dimensione k = 100 n In questo caso e´ stato effettuato un troncamento a dimensione k pari a 100. Salvatore La Bua - http: //www. shogoki. it

Decomposizione ai valori singolari n Il troncamento a dimensione k permette di ottenere vettori

Decomposizione ai valori singolari n Il troncamento a dimensione k permette di ottenere vettori a k componenti per rappresentare sia i termini che i documenti. Ak = Uk · Sk · Vk ’ Salvatore La Bua - http: //www. shogoki. it

Codifica vettoriale n Un risultato immediato della scomposizione e´ la disponibilita´ delle codifiche vettoriali

Codifica vettoriale n Un risultato immediato della scomposizione e´ la disponibilita´ delle codifiche vettoriali dei documenti, contenute nelle righe della matrice Vk. n n Altre codifiche possono essere ottenute come somma dei vettori dei singoli termini componenti il documento. Per la codifica della richiesta dell’utente e´ possibile procedere come segue: Salvatore La Bua - http: //www. shogoki. it

Misura della distanza n n Ottenute le codifiche vettoriali della richiesta dell’utente e dei

Misura della distanza n n Ottenute le codifiche vettoriali della richiesta dell’utente e dei documenti e´ possibile effettuare una misura di distanza tra il vettore della domanda e quelli delle possibili risposte per poter individuare quella piu´ attinente alla domanda stessa. q seno parte ortogonale d coseno parte parallela Misura di distanza adoperata: Salvatore La Bua - http: //www. shogoki. it

Interfaccia del sistema LSA-Bot n Il sistema prevede tre modalita´ di funzionamento: n n

Interfaccia del sistema LSA-Bot n Il sistema prevede tre modalita´ di funzionamento: n n n Interazione semplice con l’utente. Incremento della base di conoscenza. Recupero di documenti. Salvatore La Bua - http: //www. shogoki. it

Funzionalita´ principali di LSA-Bot n Interazione semplice con l’utente: n n Incremento della base

Funzionalita´ principali di LSA-Bot n Interazione semplice con l’utente: n n Incremento della base di conoscenza: n n Simulazione del dialogo naturale uomo-macchina. Permette al sistema di aggiungere nuovi concetti con i quali puo´ successivamente interagire con l’utente. Recupero di documenti: n Effettua ricerche all’interno di una collezione di documenti da mostrare all’utente. Salvatore La Bua - http: //www. shogoki. it

Sviluppi futuri n E´ possibile migliorare il funzionamento del sistema tramite: n Tecniche di

Sviluppi futuri n E´ possibile migliorare il funzionamento del sistema tramite: n Tecniche di stemming (recupero della radice dei termini). n Introduzione di nuove misure di similarita´. n Analisi di un piu´ elevato numero di documenti per la realizzazione dello spazio semantico. Salvatore La Bua - http: //www. shogoki. it

FINE Salvatore La Bua - http: //www. shogoki. it

FINE Salvatore La Bua - http: //www. shogoki. it