Intro Text Mining STALKEROML Analisi dati Analisi risultati

  • Slides: 27
Download presentation
Intro Text Mining STALKER/OML Analisi dati Analisi risultati Information Overload Migliaia di documenti vengono

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Information Overload Migliaia di documenti vengono prodotti ogni giorno: 80% testuali 20% numerici neri@synthema. it 2

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Information Overload Internet/Intranet, DB, . .

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Information Overload Internet/Intranet, DB, . . . HTML, XML, PDF, Word, TXT, … Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo… neri@synthema. it 3

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Information Overload Brevetti, Pubblicazioni scientifiche E-mail

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Information Overload Brevetti, Pubblicazioni scientifiche E-mail WEB Telefonate Stampa Percezione e Conoscenza della realtà che ci circonda neri@synthema. it 4

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Che cosa è il Text Mining

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Che cosa è il Text Mining Insieme di tecniche linguistico-matematiche per l Analizzare fonti testuali Strutturare e classificare automaticamente il contenuto l l Trovare l’informazione nascosta Supporto nel Processo Decisionale neri@synthema. it 5

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Che cosa non è il Text

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Che cosa non è il Text Mining l l Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un insieme esteso di testi. Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a priori. Non è routing dell’informazione. neri@synthema. it 6

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Informazione come Supporto nel Processo Decisionale

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Informazione come Supporto nel Processo Decisionale Text Mining per Ottenere una visione di insieme degli argomenti l l l Accedere all’informazione su base tematica Trovare l’informazione nascosta Trovare l’informazione d’interesse neri@synthema. it 7

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Come gestire migliaia di documenti? Banche

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Come gestire migliaia di documenti? Banche dati Database Internet neri@synthema. it 8

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Come gestire migliaia di documenti? Innovazione

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Come gestire migliaia di documenti? Innovazione online Back-end Banche dati Modelli Dizionari Grammatiche SEARCHBOX+TWIDEXPERT (Analisi linguistica, statistica) STALKER/OML server Front-end Ufficio 1 Internet Search engine Banca dati Intranet Ufficio 3 Clustering engine Ufficio 2 neri@synthema. it 9

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Architettura (STALKER) Banche dati Search. Box

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Architettura (STALKER) Banche dati Search. Box Crawler Lexical plugin TWID plugin Modelli Dizionari Grammatiche TWIDExpert Internet Stalker server Reverse indexes Search engine Banca dati neri@synthema. it Clustering engine 10

Intro Text Mining STALKER/OM L Analisi dati Analisi risultati Il processo produttivo Back-end l

Intro Text Mining STALKER/OM L Analisi dati Analisi risultati Il processo produttivo Back-end l Scelta e preparazione dei dati l Analisi dei dati e storage Front-end l Ricerca e Analisi dei risultati Monitoraggio, consultazione e approfondimento neri@synthema. it 11

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scelta e Preparazione dati (Back. End)

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scelta e Preparazione dati (Back. End) l Scelta: l Preparazione: neri@synthema. it 12

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (brevetti,

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (brevetti, pubblicazioni, e-mail, …) Analisi Lessicale per Distinguere “ciò che è detto” da “come viene detto” trovare convergenze nel significato cogliere l’informazione da classificare neri@synthema. it 13

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi lessicale) Analisi Morfo-sintattica e/o Terminologica rimuovere Ambiguità Analisi Logica Analisi Semantica trovare Sinonimi espandere Acronimi raggruppare Varianti Grafiche estrarre Espressioni Composte neri@synthema. it Identicazione automatica dei descrittori per ciascun documento 14

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi lessicale - Morfo-sintattica) DETTI DETTO: nome, masc. plur DETTARE: verbo, ind. pres. 2 a pers. sing. DARE: verbo, ind. pass. rem. 1 a pers. sing. DIRE: verbo, part. pass. masc. plur. TRATTO, TRATTARE Analisi Grammaticale riduce le ambiguità Lemma invio, inviati, inviare [verb] capi stazione capo stazione [noun ] 15 neri@synthema. it

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi lessicale - Morfo-sintattica) neri@synthema. it 16

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi lessicale - Semantica) trovare Sinonimi ( $, dollaro, biglietto verde, … ) espandere Acronimi ( ANP Autorità Nazionale Palestinese ) ( visto, veduto ) raggruppare Varianti Grafiche estrarre Espressioni Composte ( carta di credito, Ministro degli Esteri ) trovare convergenza nel significato neri@synthema. it 17

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) Identificazione

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) Identificazione della lingua Parsing, lemmatizzazione Lemmatizer/ Teminology detector Estrazione terminologica Mono-lingual Dictionaries, Grammars Multilingual Teminology Allineamento multilingua matcher Multi-lingual Dictionaries Indicizzazione terminologica Ricerca e clustering Indexer Documents DB non solo lemmi, ma soprattutto neri@synthema. itterminologie 18

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) (Analisi lessicale - Morfo-statistica) Analisi Morfologica + pattern matching (n+base(n) credit card, fuel cell, … ) ( base(n)+prep+n arma di distruzione di massa, . . . ) Analisi Statistica • Soglia di Frequenza • Soglia di Significatività (n > 1, 1 = f(SW-MW, n. Tot, …) ) ( log( ( 1/n) * (n. Tot/n. Doc) * f(POS)*. . . ) > 2 ) Trovare l’informazione rilevante neri@synthema. it 19

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) guanto[NOUN]

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (Back. End) guanto[NOUN] paraffina [NOUN] guanto di paraffina [NOUN] rilevare [VERB] traccia[NOUN] polvere da sparo[NOUN] non solo lemmi, ma terminologie neri@synthema. it 20

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica Identificazione della lingua Parsing,

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica Identificazione della lingua Parsing, lemmatizzazione Lemmatizer/ Teminology detector Estrazione terminologica Mono-lingual Dictionaries, Grammars Multilingual Teminology Allineamento multilingua matcher Multi-lingual Dictionaries Indicizzazione terminologica Ricerca e clustering Indexer Documents DB neri@synthema. it 21

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica neri@synthema. it 22

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica neri@synthema. it 22

Intro Text Mining STALKER/O ML Analisi dati Analisi risultati Ricerca e Classificazione Ricerca per

Intro Text Mining STALKER/O ML Analisi dati Analisi risultati Ricerca e Classificazione Ricerca per chiavi ed accesso puntuale Raggruppamento in classi affini per contenuto Concatenazione fra classi correlate neri@synthema. it 23

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi dei risultati Mappe Liste ordinate

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi dei risultati Mappe Liste ordinate neri@synthema. it 24

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scoperta di risultati inaspettati Consultare documenti

Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scoperta di risultati inaspettati Consultare documenti per tema Trovare relazioni nascoste neri@synthema. it 25

Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: motore di ricerca in

Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: motore di ricerca in linguaggio naturale multilingua neri@synthema. it 26

Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: document analyser neri@synthema. it

Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: document analyser neri@synthema. it 27

Intro Text Mining STALKER/OML Analisi dati Info Indirizzi utili Trovare l’informazione neri@synthema. it http:

Intro Text Mining STALKER/OML Analisi dati Info Indirizzi utili Trovare l’informazione neri@synthema. it http: //www. synthema. it/textmining http: // www. spi-rit. net neri@synthema. it 28