Corso di Laurea Specialistica in Ingegneria Informatica INTEGRAZIONE

  • Slides: 18
Download presentation
Corso di Laurea Specialistica in Ingegneria Informatica INTEGRAZIONE MULTILINGUA DI SORGENTI DATI POSTGRESQL DELLA

Corso di Laurea Specialistica in Ingegneria Informatica INTEGRAZIONE MULTILINGUA DI SORGENTI DATI POSTGRESQL DELLA PUBBLICA AMMINISTRAZIONE: ACCOPPIAMENTO DEI SISTEMI MOMIS E SIAM Relatore: Chiar. mo Prof. Sonia Bergamaschi Candidato: Saponi Riccardo Correlatori: Ph. D. Ing. Mirko Orsini Ph. D. Ing Laura Po Anno Accademico 2008 - 2009

Sommario n n Obiettivo della Tesi Il Progetto MOMIS Il SIAM (Sistema Informativo AMbientale)

Sommario n n Obiettivo della Tesi Il Progetto MOMIS Il SIAM (Sistema Informativo AMbientale) Integrazione MOMIS - SIAM q q q n Wrapper JDBC / Postgre. SQL Sviluppo di un database multilingua per l’utilizzo in MOMIS Materializzazione dello Schema Globale Test, conclusioni e sviluppi futuri

Obiettivo MOMIS Data. River n n 1. 2. 3. SIAM Ipotesi : poter disporre

Obiettivo MOMIS Data. River n n 1. 2. 3. SIAM Ipotesi : poter disporre di una vista integrata dei dati presenti negli Uffici del settore Ambiente di diverse province, attraverso l’ accoppiamento del progetto MOMIS “Data. River” e del programma SIAM. Sono state eseguite 3 fasi: Creazione di un Wrapper sorgenti Postgre. SQL; Analisi e integrazione del database lessicale multilingua Multi. Word. Net; Implementazione di funzioni per la materializzazione dello Schema Virtuale Globale(GS) all’interno della versione Data. River di MOMIS;

MOMIS (Mediator envir. Onment for Multiple Information Sources) n n n MOMIS e' un

MOMIS (Mediator envir. Onment for Multiple Information Sources) n n n MOMIS e' un sistema per l'integrazione intelligente di informazioni per sorgenti dati strutturate e semi - strutturate nato fra una collaborazione dell’Università degli Studi di Modena e Reggio Emilia (Db. Group) e l’Università di Milano. OBIETTIVO: Integrare le informazioni ricavate da sorgenti eterogenee costruendo uno Schema Globale Virtuale che consenta all’utente di sottomettere delle query e che conservi i dati nelle sorgenti locali. Approccio opposto rispetto quello di un Data Warehouse, dove invece i dati sono duplicati su un database interrogabile dall’utente.

MOMIS (Mediator envir. Onment for Multiple Information Sources)

MOMIS (Mediator envir. Onment for Multiple Information Sources)

SIAM (Sistema Informativo AMbientale) Prodotto web-based sviluppato da QUIX s. r. l. che si

SIAM (Sistema Informativo AMbientale) Prodotto web-based sviluppato da QUIX s. r. l. che si occupa di gestire il flusso completo di tutte le pratiche elaborate dall’Ufficio Ambiente delle Province. • Si pone come strumento di integrazione e collaborazione fra i vari soggetti coinvolti nei processi amministrativi che regolano la gestione dell’ambiente (Operatori, Imprese, Assessori). • Piena compatibilità e possibilità di scambio di informazioni con altri strumenti informatici presenti nell’Ente(software di protocollazione; GIS; sportello SUAP. . ).

Wrapper JDBC / Postgre. SQL Un Wrapper è un modulo che si occupa di

Wrapper JDBC / Postgre. SQL Un Wrapper è un modulo che si occupa di rendere le diverse sorgenti di informazione conformi ad uno standard interno o esterno. In particolar modo si occupa di : n n n Tradurre la descrizione della sorgente nel linguaggio del mediatore; Tradurre l’interrogazione ricevuta dal mediatore in una query in linguaggio locale ( ODLI 3 ) Trasferire i risultati parziali al mediatore

Wrapper JDBC / Postgre. SQL n n n Postgre. SQL è un object –

Wrapper JDBC / Postgre. SQL n n n Postgre. SQL è un object – relational database management system (ORDBMS) open source, seguito del progetto Ingres. E’ un sistema per la gestione di database relazionali che assume caratteristiche tipiche dei Linguaggi Orientati agli Oggetti q Definizione di Oggetti e Classi; q Ereditarietà; Consente di implementare funzioni e procedure tramite il linguaggio nativo PL / pg. SQL e i linguaggi di programmazione più comuni: C++, Ruby, Perl, Python. n Tipi di dato JDBC compatibili. n Open source, multipiattaforma e ampia community di sviluppo.

Wrapper JDBC / Postgre. SQL n Creazione della classe n estensione delle interfacce Java

Wrapper JDBC / Postgre. SQL n Creazione della classe n estensione delle interfacce Java già presenti. Interfaccia grafica per l’inserimento dei parametri per la connessione JDBC: Wrapper. Jdbc. Core_Postgre. SQL, q q q n n Domain; Port; User; Password; Scelta del database; Generazione automatica della stringa di connessione JDBC; Scelta dei database presenti sul server mediante il reperimento delle informazioni dalla tabella di sistema PG_CATALOG

Sviluppo di un database multilingua per l’utilizzo in MOMIS Stato dell’ arte: Word. Net

Sviluppo di un database multilingua per l’utilizzo in MOMIS Stato dell’ arte: Word. Net : n Database lessicale di riferimento in lingua inglese che definisce i concetti della conoscenza e le relazioni che intercorrono fra di essi. Caratteristiche: n Categoria Sintattica: categorie in cui sono suddivisi i termini (nomi, aggettivi, verbi, avverbi) n Lemma: parola e/o termine a cui vengono associati uno o più significati n Synset: insieme di termini associati ad un medesimo significato ed appartenenti alla stessa categoria sintattica n Glossa: descrizione a parole di un significato preciso. Associata a ciascun synset n Relazione Semantica: relazione che lega due synset appartenenti alla stessa categoria sintattica n Relazione Lessicale: relazione tra due lemmi appartenenti a synset distinti

Sviluppo di un database multilingua per l’utilizzo in MOMIS n Word. Net concorre alla

Sviluppo di un database multilingua per l’utilizzo in MOMIS n Word. Net concorre alla generazione del Common Thesaurus durante il Processo di Integrazione, contribuendo alla definizione di relazioni terminologiche attraverso il processo di annotazione. n n Book SYN Volume Book BT Catalog

Sviluppo di un database multilingua per l’utilizzo in MOMIS Per una maggior compatibilità con

Sviluppo di un database multilingua per l’utilizzo in MOMIS Per una maggior compatibilità con la versione di Word. Net presente in MOMIS è stato analizzato e scelto Multi. Word. Net come database lessicale multilingua. Multi. Word. Net mira a creare un database lessicale strettamente legato a Princeton Word. Net che consenta un facile inserimento di nuove lingue. • Relazioni semantiche : invariate rispetto WN. Si procede con degli add on; • Relazioni lessicali : re – mapping dei lemmi basato sulla lingua; Si compone di una parte comune (relazioni semantiche) e di parti specifiche a ciascuna lingua (relazioni lessicali)

Sviluppo di un database multilingua per l’utilizzo in MOMIS Allineamento di Multi. Word. Net

Sviluppo di un database multilingua per l’utilizzo in MOMIS Allineamento di Multi. Word. Net 1. 6 a Word. Net 2. 0: n Aggiornamento coerente dei record (Thanks to Rada Mihalcea, University of Texas) Integrazione di Multi. Word. Net e Word. Net 2. 0: n n Inserimento di nuovi tipi di Relazione e di Extender Procedura di integrazione basata sulla lingua del record. Modifiche al software: n n n Nuovi parametri di configurazione per Torque; Enum Annotation. Language; Gestione lingua lato Backend: synset e lemma recuperati mediante la lingua di Annotazione; Gestione lingua lato Frontend: menù di scelta per la lingua in fase di inserimento e ricerca del record; Modifiche agli algoritmi WNFS e WND per la gestione della lingua di Annotazione. Implementazione di uno Stemmer Algorithm per la lingua italiana e refactoring delle classi di Stemming

Materializzazione dello Schema Globale MOMIS Versione “Data. River” Progetto Open Source che si prefigge

Materializzazione dello Schema Globale MOMIS Versione “Data. River” Progetto Open Source che si prefigge di “prodottizzare” MOMIS. n Sviluppato da “Datariver S. r. l. ”, una spin-off nata per iniziativa di professori e ricercatori del Db. Group del Dipartimento di Ingegneria dell’Informazione di Modena e della ditta QUIX S. r. l. Caratteristiche: n GUI sviluppate mediante Eclipse – RCP n Gestione di Word. Net tramite file originali o JPA (Java Persistence API) n Data. Base HSQLDB per supporto a Query Manager n Gestione del progetto mediante il tool MAVEN n …MA… STESSO PROCESSO DI INTEGRAZIONE DI MOMIS! Interrogazione di uno Schema Globale generato con MOMIS

Materializzazione dello Schema Globale n Creazione del modulo QUERY MANAGER EXPORT DATA; n Tramite

Materializzazione dello Schema Globale n Creazione del modulo QUERY MANAGER EXPORT DATA; n Tramite il modulo QUERYMANAGER si invocano le interfacce per la gestione della connessione ad un target database; n Inserimento dei parametri “Wrapper – like” per la connessione JDBC al target database; n Chiamata alla classe Query. Manager. Export. Data per la gestione delle funzioni di materializzazione a partire dallo Schema Globale; n Esecuzione di script SQL creati runtime per la creazione di tabelle e l’inserimento dei dati sulla base delle Classi Globali ricavate dallo schema e salvataggio sul target database

Test e analisi dei risultati n n n Test effettuati su schemi di prova

Test e analisi dei risultati n n n Test effettuati su schemi di prova e sul database di produzione del SIAM della Provincia di Ancona (90 tabelle, 1711 attributi) Wrapper : importate con successo sorgenti relazionali site su server locali o remoti. Integrazione database lessicale Multilingua: annotazione eseguita in base alla scelta della Annotation. Language. Combinando le diverse tecniche di annotazione automatica si arriva ad avere il 62 % dei termini presenti annotati(1069 su 1711). Stemmer: Problemi con la gestione delle forme flesse della lingua italiana. Materializzazione dello Schema Globale: test eseguito con successo su una sorgente locale, fallito con più sorgenti. Diversi scenari di sviluppo

Conclusioni e sviluppi futuri Concludendo: n n n Wrapper sorgenti Postgre. SQL sviluppato e

Conclusioni e sviluppi futuri Concludendo: n n n Wrapper sorgenti Postgre. SQL sviluppato e testato con successo; Integrazione di un database lessicale multilingua sviluppata e testata con successo. Alcuni miglioramenti riguardo lo stemmer italiano Materializzazione dello Schema Globale non completato sebbene testato con successo su una sorgente; Sviluppi futuri n n Rifinitura delle funzioni e della logica di gestione di lingue differenti Completamento delle funzioni di materializzazione dello Schema Globale q Prevedere l’integrazione di diversi schemi q Prevedere dei controlli sulla creazione e sull’aggiornamento temporale dei dati

Grazie per l’attenzione

Grazie per l’attenzione