Sistemi per il recupero delle informazioni SISTEMI PER

INTRODUZIONE Un concetto che può essere confuso con le basi di dati è quello

PRINCIPALI DIFFERENZE Nelle banche dati: q fra loro, ma sono rappresentate come insiemi di

PRINCIPALI DIFFERENZE BANCA DATI ile t U per effettuare ricerche di pubblicazioni su alcuni

PRELIMINARI La necessità di gestire automaticamente grandi quantità di informazioni memorizzate in forma di

IL DOCUMENTO Un documento è un’entità che possiede una parte strutturata, chiamata profilo, e

RECUPERO DEI DOCUMENTI I documenti, una volta archiviati, possono venir recuperati q in base

GESTIRE I TESTI n Il problema della gestione di testi per consentire il recupero

Information retrieval n Data una collezione di documenti e un bisogno informativo dell’utente, obiettivo

Information retrieval n Il settore dell’Information Retrieval è stato studiato fin dagli anni `70.

RILEVANZA DEI DOCUMENTI Quando una persona desidera trovare i documenti di una raccolta che

ESEMPIO DI RILEVANZA Si supponga di avere un insieme Impiegati di dati strutturati, con

ESEMPIO DI RILEVANZA Si supponga invece di avere un insieme di documenti; per recuperare

Information Retrieval vs Data Retrieval n n Un sistema di Data Retrieval (ad esempio

DIFFERENZE CON I SGBD n Documenti con molto testo piuttosto che dati strutturati. n

Domanda tipica a un SGBD SELECT Nome, Ufficio FROM Impiegati WHERE Anno. Assunzione >

Domanda tipica a un SRI FIND architett* AND (cad OR (progetto AND calcolatore)) n

COSA AFFRONTEREMO… q Il modo in cui si rappresenta il contenuto dei documenti criterio

IL PROBLEMA INFORMATIVO Il problema informativo corrisponde ad un particolare bisogno di informazione dell’utente.

IL PROBLEMA INFORMATIVO n I metodi di rappresentazione dei documenti si possono separare in

IL PROBLEMA INFORMATIVO n n Possiamo pensare ad un SRI come ad un sistema

IL PROBLEMA INFORMATIVO n n Si definisce tecnica di recupero (retrieval technique) di un

DBMS vs IRS n Riprendendo il confronto con i DBMS riassumiamo le principali caratteristiche

DBMS vs IRS n n Tecnica di recupero: come il sistema, in fase di

EFFETTO RUMORE E SILENZIO Si tratta di due effetti negativi che caratterizzano un sistema

EFFICACIA DEL SISTEMA n n Come è possibile rispondere alla domanda “quale di questi

EFFICACIA DEL SISTEMA Per misurare l’efficacia di un sistema per il recupero dell’informazione si

Richiamo e Precisione n Parametri da valutare sempre contemporaneamente n Indicizzazione esaustiva + linguaggio

Modelli di SRI n Un modello cerca di astrarre le caratteristiche salienti che stanno

Modelli di SRI n n Modello booleano ¨ un modello a corrispondenza esatta Modello

Modello booleano n n n Rappresentazione dei documenti ¨ I documenti vengono rappresentati come

Esempio n n (film AND amore) ¨ documenti che contengono “film” e “amore” (dramma

Modello vettoriale: documenti n Rappresentazione dei documenti ¨ una sequenza di numeri lunga quanto

Il modello vettoriale: interrogazione n Interrogazione: un insieme di termini n Rappresentazione dell’interrogazione: ¨

Il modello vettoriale: confronto n Una misura di similitudine tra documenti e richiesta. n

Esempio n Due documenti che trattano di Papa, Roma e Vaticano … Vettori: D

… n Passiamo ora ad esaminare i principali aspetti che distinguono i sistemi per

RAPPRESENTAZIONE DEI DOCUMENTI I metodi di rappresentazione dei documenti si possono separare in due

RAPPRESENTAZIONE DEL CONTENUTO DEI DOCUMENTI: DIRETTA E INDIRETTA Con la rappresentazione diretta, un testo

RAPPRESENTAZIONE DEL CONTENUTO DEI DOCUMENTI: DIRETTA E INDIRETTA Con la rappresentazione indiretta, ai fini

Sistemi per il recupero delle informazioni INDICIZZAZIONE 44

INDICIZZAZIONE n Il problema fondamentale: identificare i contenuti dei documenti n Indicizzazione: processo di

INDICIZZAZIONE n Tipicamente l’indicizzazione genera un insieme di termini indice (possibilmente pesati) come elementi

INDICIZZAZIONE n Nell’IR testuale gli indici possono essere: ¨ parole automaticamente estratte dal documento;

Linguaggio di indicizzazione n Linguaggio di indicizzazione: insieme dei termini scelti per descrivere una

Gli strumenti per l’indicizzazione n n n Vocabolari controllati Anelli di sinonimi Termini preferiti

Vocabolari controllati n Nella sua forma più semplice un vocabolario controllato è un sottoinsieme

Vocabolari controllati: anelli di sinonimi n Un primo arricchimento del vocabolario controllato è costituito

Vocabolari controllati: schemi di classificazione n Un vocabolario controllato diventa uno schema di classificazione,

Thesaurus n Un thesaurus è un insieme di termini, e di relazioni fra di

Thesaurus: tipi di relazioni Le relazioni di preferenza si usano per rimandi da termini

Thesaurus: tipi di relazioni Le relazioni di affinità semantica si usano per collegare termini

Processo di indicizzazione n Manuale: è una persona che sceglie quali termini meglio caratterizzano

Qualità dell’indicizzazione n Finalità: rappresentare il contenuto semantico di un documento con due obbiettivi:

INDICIZZAZIONE MANUALE L’indicizzazione manuale può essere fatta usando parole estratte dal testo o termini

INDICIZZAZIONE MANUALE VANTAGGI E SVANTAGGI Vantaggio: permette una rappresentazione indiretta del contenuto dei documenti

INDICIZZAZIONE AUTOMATICA n L’indicizzazione automatica (automatic indexing) di un documento testuale è il processo

Schema del processo di indicizzazione automatica di documenti testuali 62

INDICIZZAZIONE AUTOMATICA L’indicizzazione automatica si basa su tecniche statistiche, partendo dal presupposto che la

Considerazioni sulla frequenza dei termini n Termini funzionali ¨ avverbi, articoli, preposizioni ecc. n

Analisi lessicale e selezione delle parole n E’ il processo di trasformazione di un

Esempio Eliminazione delle parole comuni n Stralcio di una lista di esclusione per la

Esempio n Riduzione delle parole alla radice n Si utilizzano liste di suffissi: n

Termini pesati n L’efficacia dell’indicizzazione aumenta se ai termini che caratterizzano un documento si

Termini pesati n n Fra le funzioni proposte per il calcolo del peso di

Termini pesati I pesi w possono essere binari o valori reali o interi positivi:

Indicizzazione automatica: un algoritmo 78

Indicizzazione automatica: i problemi n Identificare le soglie di frequenza minima e massima ¨

OSSERVAZIONI n Sono stati effettuati numerosi esperimenti per valutare le prestazioni dei sistemi che

Slides: 80

Download presentation

Sistemi per il recupero delle informazioni SISTEMI PER IL RECUPERO DELL’INFORMAZIONE 1

INTRODUZIONE Un concetto che può essere confuso con le basi di dati è quello delle banche di dati (o banca dati). Esistono fra di loro delle differenze sostanziali. Sempre più spesso i documenti nascono direttamente in forma elettronica dando vita a enormi banche dati che contengono oltre ad una sintetica descrizione dei documenti anche il testo in forma integrale. Esistono numerose raccolte di articoli apparsi in riviste specializzate e gestite da organismi internazionali (riviste scientifiche, banche di dati giuridici gestite dalla Cassazione, quelle sui brevetti, quelle della polizia ecc. ). Queste raccolte sono consultabili interattivamente, anche con Internet, per fare ricerche in base al nome di un autore oppure in base al contenuto del riassunto. 2

PRINCIPALI DIFFERENZE Nelle banche dati: q fra loro, ma sono rappresentate come insiemi di testi q non sono modificabili in linea q non sono utilizzabili gestione la persistema del informativo di un’organizzazione q possono solo raccogliere informazioni in forma testuale. 3

PRINCIPALI DIFFERENZE BANCA DATI ile t U per effettuare ricerche di pubblicazioni su alcuni argomenti Inu tile per la gestione di una biblioteca, dove invece interessa una base di dati aggiornabile per trattare mediante transazioni l’acquisto dei libri, gli abbonamenti delle riviste, i prestiti ecc Per banca di dati intenderemo una raccolta di informazioni rappresentate in forma testuale e messe a disposizione di un gran pubblico di utenti per essere reperite specificando in modo parziale il loro contenuto. 4

PRELIMINARI La necessità di gestire automaticamente grandi quantità di informazioni memorizzate in forma di testo ha giustificato un vasto lavoro di ricerca motivato q giornali e riviste) e di sommari di pubblicazioni scientifiche q relazioni), dove, secondo recenti stime, soltanto un terzo delle informazioni eterogenee trattate sono dati strutturati, mentre il resto è costituito da testi, immagini, voce. 5

IL DOCUMENTO Un documento è un’entità che possiede una parte strutturata, chiamata profilo, e una parte di testo. Il profilo contiene informazioni strutturate. Ad esempio: q nel caso di un libro Ø il nome dell’autore Ø il titolo Ø l’editore Ø la data e il luogo di pubblicazione q nel caso di un rapporto Ø autore Ø data q nel caso di una lettera Ø mittente e destinatario Ø data Ø oggetto 6

RECUPERO DEI DOCUMENTI I documenti, una volta archiviati, possono venir recuperati q in base alle informazioni presenti nel profilo q in base al contenuto del testo Nel primo caso si utilizzano le tradizionali tecniche sviluppate per i sistemi di gestione di basi di dati. Nel secondo caso si usano tecniche sviluppate espressamente per la gestione di testi. 7

GESTIRE I TESTI n Il problema della gestione di testi per consentire il recupero di quelli che contengono alcune informazioni, è stato affrontato nel settore disciplinare noto attualmente con il nome di “recupero dell’informazione” (information retrieval) e sono stati sviluppati sistemi adatti a tale scopo. n L’Information Retrieval (IR) si occupa della rappresentazione, memorizzazione e organizzazione dell’informazione, al fine di rendere agevole all’utente il soddisfacimento dei propri bisogni informativi. 8

Information retrieval n Data una collezione di documenti e un bisogno informativo dell’utente, obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti rilevanti per un particolare utente con una particolare richiesta informativa ¨ sistemi specializzati nella gestione di documenti di testo e nel recupero in base al loro contenuto ¨ Rilevanza è un concetto chiave dell’IR, su cui torneremo ¨ grossa collezione di documenti n Collezioni fulltext n Digital libraries n Pagine Web (motori di ricerca – search engines) n Rispetto alla teoria classica delle basi di dati, l’enfasi non è sulla ricerca di dati ma sulla ricerca di informazioni. 9

Information retrieval n Il settore dell’Information Retrieval è stato studiato fin dagli anni `70. ¨ l’espressione “information retrieval” è coniata da C. Mooers nel 1952 ¨ Il primo computer studiato per l’irs è del 1957 n n Negli anni `90, l’esplosione del Web ha moltiplicato l’interesse per IR. Il Web infatti non è altro che un’enorme collezione di documenti, sui quali gli utenti vogliono fare ricerche informazionali. n per quanto riguarda le risorse informative di tipo elettronico reperibili in www, uno studio compiuto dall’On Line Catalogue della Library of Congress Office of Research (OCLC) parla di 3. 080. 000 risorse per il solo web pubblico (corrispondente a circa il 35% del web totale) (O’Neill 2003). Per la ricerca di informazioni disponibili su calcolatori di tutto il mondo collegati in rete Internet è disponibile il sistema Google. Altra possibilità per il futuro è la disponibilità di banche dati multimediali, ad esempio di immagini, sulle quali si possono fare ricerche per contenuto con una filosofia analoga a quella usata per i testi. ¨ n 10

RILEVANZA DEI DOCUMENTI Quando una persona desidera trovare i documenti di una raccolta che contengono alcune informazioni, formula una richiesta e di solito ottiene in risposta sia documenti effettivamente utili, o rilevanti, che documenti inutili. La rilevanza di un documento non può essere garantita dal sistema per il recupero dell’informazione, ma solo da chi ha formulato la richiesta. Pertanto può accadere che documenti che l’utente considererebbe rilevanti non facciano parte dei documenti recuperati dal sistema, e viceversa. Un sistema per il recupero dell’informazione cerca di limitare questi due inconvenienti che, in generale, non possono essere eliminati. DEFINIZIONE Un documento è rilevante se soddisfa il bisogno d’informazione che l’utente ha espresso con la sua richiesta. 11

ESEMPIO DI RILEVANZA Si supponga di avere un insieme Impiegati di dati strutturati, con attributi Nome, Indirizzo, Codice, Anno. Assunzione, e Stipendio; per conoscere il nome e l’indirizzo degli impiegati assunti dopo il 1970 che guadagnano più di 2000€ al mese, una possibile formulazione della richiesta è la seguente: SQL> SELECT Nome, Indirizzo FROM Impiegati WHERE Anno. Assunzione >= 1970 AND Stipendio > 2000 In risposta si ottengono i dati che soddisfano esattamente la condizione specificata e quindi certamente rilevanti. 12

ESEMPIO DI RILEVANZA Si supponga invece di avere un insieme di documenti; per recuperare i documenti relativi all’uso dei calcolatori per lo sviluppo di progetti architettonici, sapendo che il termine CAD è sinonimo di progetto assistito dal calcolatore, una possibile formulazione della richiesta è la seguente: SEARCH ‘architett%’ AND (CAD OR (‘progetto’ AND ‘calcolatore’)) FROM SENTENCE In risposta si ottengono documenti in cui le parole della richiesta assumono anche un significato differente da quello ad essi attribuito. Ad esempio, fra i documenti recuperati potrebbe esserci quello contenente la seguente frase “… l’impiego del calcolatore per lo sviluppo di progetti architettonici riguarda il campo di applicazione dell’informatica conosciuto con il nome di CAD (Computer Aided Design), …” ma anche quello contenente la frase “… nell’affrontare il progetto dell’architettura di un calcolatore bisogna tener conto del settore di applicazione in cui verrà utilizzato …” D’altra parte, documenti concettualmente pertinenti potrebbero essere ignorati. Fra i documenti non recuperati potrebbe esserci quello contenente la seguente frase “… l’uso di computer nel disegno di componenti VLSI è una delle aree di sicuro interesse per la 13 progettazione assistita dal calcolatore …”

Information Retrieval vs Data Retrieval n n Un sistema di Data Retrieval (ad esempio un DBMS) gestisce dati che hanno una struttura ed una semantica ben definita. Un sistema di Information Retrieval gestisce testi scritti in linguaggio naturale, spesso non ben strutturati e semanticamente ambigui. Un linguaggio per Data Retrieval permette di trovare tutti gli oggetti che soddisfano esattamente le condizioni definite. Tali linguaggi (algebra relazionale, SQL) garantiscono una risposta corretta e completa. Un sistema di Information Retrieval, invece, potrebbe restituire, tra gli altri, oggetti non esatti; piccoli errori sono accettabili e probabilmente non verranno notati dall’utente. 14

DIFFERENZE CON I SGBD n Documenti con molto testo piuttosto che dati strutturati. n Le richieste sono espressioni imprecise del bisogno informativo n Le risposte sono riferimenti a documenti “che potrebbero contenere le risposte” piuttosto che direttamente le risposte 15

Domanda tipica a un SGBD SELECT Nome, Ufficio FROM Impiegati WHERE Anno. Assunzione > 1970 AND Stipendio > 3000 16

Domanda tipica a un SRI FIND architett* AND (cad OR (progetto AND calcolatore)) n “… l’impiego del calcolatore per lo sviluppo di progetti architettonici riguarda il campo di applicazioni dell’informatica conosciuto con il nome di CAD, ovvero progetto assistito da calcolatore…” n “… nell’affrontare il progetto dell’architettura di un calcolatore bisogna tener conto del settore di applicazione in cui verrà utilizzato …” 17

Sintesi delle differenze 18

COSA AFFRONTEREMO… q Il modo in cui si rappresenta il contenuto dei documenti criterio stabilire adottato documenti quali per qilrecuperare per soddisfare una richiesta. 19

Il nucleo di un SRI 20

IL PROBLEMA INFORMATIVO Il problema informativo corrisponde ad un particolare bisogno di informazione dell’utente. Tramite un processo di rappresentazione, il problema informativo viene tradotto in una richiesta espressa nel linguaggio di interrogazione dell’IRS. Analogamente, dai documenti, tramite un altro processo di rappresentazione, spesso chiamato di classificazione o indicizzazione, si passa al surrogato dei documenti, cioè alla loro rappresentazione nell’IRS. Sia nella classificazione di un documento da parte di un esperto che nella formulazione della richiesta da parte di un utente può essere usato un 21 vocabolario controllato organizzato in un thesaurus.

IL PROBLEMA INFORMATIVO n I metodi di rappresentazione dei documenti si possono separare in due categorie: quelli che danno una rappresentazione diretta del contenuto dei documenti e quelli che ne danno una rappresentazione indiretta. Nel primo caso il documento è rappresentato dalle parole in esso contenute mentre nel secondo il documento è rappresentato da termini di indicizzazione derivati manualmente o automaticamente e che ne descrivono in modo sintetico e completo il contenuto n Rappresentazione dei documenti in forma sintetica: ¨ indicizzazione: l’idea è quella di associare a ciascun documento un insieme di termini significativi che saranno utilizzati per selezionare il documento. 22

IL PROBLEMA INFORMATIVO n n Possiamo pensare ad un SRI come ad un sistema in cui da un lato entrano documenti che vengono sottoposti ad un processo di indicizzazione, per ottenerne una rappresentazione sintetica, dall’altro entrano le richieste dell’utente che devono essere codificate in modo analogo, cioè come un insieme di termini. In fase di recupero: ¨ Formalizzazione delle richieste ¨ Contronto tra richieste e rappresentazione di documenti 23

IL PROBLEMA INFORMATIVO n n Si definisce tecnica di recupero (retrieval technique) di un IRS la tecnica adottata dal sistema per confrontare l’interrogazione utente con il surrogato dei documenti. La tecnica di recupero adottata da un IRS, è il meccanismo interno del sistema che lo guida nel giudicare come rilevanti o non rilevanti i documenti di una raccolta, in rapporto ad una specifica interrogazione. Le tecniche di recupero sono di due tipi: ¨ per corrispondenza esatta (exact match) ¨ per similitudine o corrispondenza parziale (partial match) Risultato ¨ Binario (si/no) – il risultato soddisfa o non soddisfa la richiesta (corrispondenza esatta) ¨ Probabilistico – il risultato soddisfa la richiesta in una qualche misura (corrispondenza parziale) 24

DBMS vs IRS n Riprendendo il confronto con i DBMS riassumiamo le principali caratteristiche dei due sistemi ¨ Modello dei dati: come si rappresentano le informazioni. Nei DBMS le informazioni si rappresentano come insieme di dati strutturati e relazioni fra insiemi. Negli IRS le informazioni si rappresentano come insieme di testi. ¨ Richiesta: come si specifica ciò che si cerca. Nei DBMS l’utente descrive in modo completo e preciso ciò di cui ha bisogno; negli IRS non si specifica completamente il valore del testo di un documento ma se ne specifica il contenuto mediante una descrizione abbreviata e pertanto soggettiva e incompleta 25

DBMS vs IRS n n Tecnica di recupero: come il sistema, in fase di ricerca, decide se un documento soddidfa la richiesta. Nei DBMS la scelta delle registrazioni da recuperare si basa sula corrispondenza esatta fra quanto specificato nella richiesta e quanto in esse contenuto; negli IRS questa corrispondenza è in generale parziale perché basata su un criterio di similitudine che dipende da come si rappresenta il contenuto del documento Risultato: cosa fornisce il sistema come risposta ad una richiesta. Nei DBMS vengono fornite solo le registrazioni che soddisfano la condizione di ricerca; negli IRS vengono forniti documenti probabilmente rilevanti: è compito dell’utente stablire quali di essi siano davvero tali, sapendo che il sistema non garantisce che fra i documenti non recuperati non ne esistano di rilevanti 26

EFFETTO RUMORE E SILENZIO Si tratta di due effetti negativi che caratterizzano un sistema per il recupero dell’informazione: • l’effetto rumore è la presenza di documenti non rilevanti fra quelli recuperati • l’effetto silenzio è il mancato recupero di documenti rilevanti Dato un insieme di documenti e una richiesta, è possibile individuare quattro sottoinsiemi: q rilevanti per la richiesta (A), menti dei l’inseme q recuperati (B) q rilevanti (C) q l’insieme dei documenti non recuperati anche se rilevanti (D) 27

SCHEMATIZZANDO 28

EFFICACIA DEL SISTEMA n n Come è possibile rispondere alla domanda “quale di questi due sistemi di IR funziona meglio”? Un sistema tradizionale di Data Retrieval può essere valutato oggettivamente, sulla base delle performance (velocità di indicizzazione, ricerca ecc. ). In un sistema di IR tali valutazioni delle performance sono possibili, ma, a causa della soggettività delle risposte alle query, le cose si complicano… Quello che si vorrebbe in qualche modo misurare è la soddisfazione dell’utente. 29

EFFICACIA DEL SISTEMA Per misurare l’efficacia di un sistema per il recupero dell’informazione si usano due parametri, chiamati richiamo (recall) e precisione (precision). Il richiamo R è il rapporto fra il numero di documenti rilevanti recuperati (A) e il totale dei documenti rilevanti archiviati (A + D). La precisione P è il rapporto fra il numero di documenti rilevanti recuperati (A) e il totale dei documenti recuperati (A + B). Il massimo valore sia per il richiamo che per la precisione è 1. Il richiamo misura la capacità del sistema di recuperare tutti i documenti rilevanti, mentre la precisione misura la capacità del sistema di recuperare solo documenti rilevanti. Un sistema con precisione P < 1 ammette nelle risposte documenti non rilevanti. Un sistema con richiamo R < 1 ammette che documenti rilevanti non siano reperiti. 30

Richiamo e Precisione n Parametri da valutare sempre contemporaneamente n Indicizzazione esaustiva + linguaggio specifico = alto RICHIAMO e alta PRECISIONE 31

Modelli di SRI n Un modello cerca di astrarre le caratteristiche salienti che stanno alla base di una classe di sistemi. n Nel caso degli SRI un modello riguarda: ¨ lo stile di rappresentazione dei documenti; ¨ lo stile di rappresentazione delle richieste; ¨ la modalità del confronto tra rappresentazioni di documenti e richieste. 32

Modelli di SRI n n Modello booleano ¨ un modello a corrispondenza esatta Modello vettoriale ¨ un modello a corrispondenza parziale Ne esistono molti altri intermedi: il modello fuzzy, probabilistico … L’indicizzazione si occupa di come si ottiene la rappresentazione dei documenti (dopo) 33

Modello booleano n n n Rappresentazione dei documenti ¨ I documenti vengono rappresentati come insiemi di termini che ne rappresentano il contenuto (scelti durante l’indicizzazione) Interrogazioni ¨ Le query vengono specificate come espressioni booleane, cioè come un elenco di termini connessi dagli operatori booleani AND, OR e NOT. Criterio di corrispondenza ¨ La strategia di ricerca è basata su un criterio di decisione binario, senza alcuna nozione di grado di rilevanza: un documento viene considerato rilevante o non rilevante. n AND: i termini sono entrambi presenti n OR: almeno uno dei due termini è presente n NOT: il termine non è presente 34

Esempio n n (film AND amore) ¨ documenti che contengono “film” e “amore” (dramma OR drammatico) ¨ documenti che contengono “dramma” o “drammatico” NOT (dramma OR drammatico) ¨ … che non contengono “dramma” o “drammatico” ((film AND amore) AND NOT (dramma OR drammatico)) 35

Modello vettoriale: documenti n Rappresentazione dei documenti ¨ una sequenza di numeri lunga quanto il numero di tutti i termini utilizzati per rappresentare i documenti nella collezione, un vettore appunto. ¨ D = (t 1, t 2, …, tn) n numero di termini ¨ tk=0 se il termine non è presente altrimenti tk è il peso del termine kesimo nel documento, una misura di importanza 36

Il modello vettoriale: interrogazione n Interrogazione: un insieme di termini n Rappresentazione dell’interrogazione: ¨ un vettore, simile ai documenti ¨ (con moltissimi 0 e qualche 1 in corrispondenza dei termini specificati dall’utente) ¨ Q(t 1, t 2, … tn) 37

Il modello vettoriale: confronto n Una misura di similitudine tra documenti e richiesta. n Esempio ¨ Di(ti 1, ti 2, ti 3, …, tin) ¨ Q(q 1, q 2, q 3, …, qn) ¨ S(Q, Di) = q 1*ti 1 + q 2*ti 2 +. . . + qn*tin = Σj qj * tij con 0<j <=n 38

Esempio n Due documenti che trattano di Papa, Roma e Vaticano … Vettori: D 1 = [… 0. 1, …, 0. 1, … , 0. 2, …] D 2 = [… 0. 1, …, 0. 9, …] n Interrogazione Q=[… 1, …, 1, …] n Similitudine Sim(D 1, Q)=0, 1+0, 2=0, 4 Sim(D 2, Q)=0, 1+0, 9=1, 9 39

… n Passiamo ora ad esaminare i principali aspetti che distinguono i sistemi per il recupero delle informazioni ¨ Il modo in cui si rappresenta il contenuto dei documenti ¨ Il criterio adottato per stabilire quali documenti recuperare per soddisfare una richiesta 40

RAPPRESENTAZIONE DEI DOCUMENTI I metodi di rappresentazione dei documenti si possono separare in due categorie in base alla rappresentazione che danno: q 41

RAPPRESENTAZIONE DEL CONTENUTO DEI DOCUMENTI: DIRETTA E INDIRETTA Con la rappresentazione diretta, un testo è rappresentato nella sua forma originaria come una sequenza di parole. Ai fini della ricerca, vengono trascurate le parole contenute in una lista di parole da ignorare (lista di esclusione o stop list) — come articoli, preposizioni, congiunzioni, avverbi ecc. — ritenute poco rappresentative del contenuto di un documento. La sequenza di parole di un testo, però, non sempre è una rappresentazione adeguata perché essa consente solo il recupero di testi con richieste che specificano una condizione sulle parole in essi presenti. Ad esempio con la richiesta “trovare i documenti che trattano il problema dell’emigrazione”, si vorrebbe avere fra i documenti rilevanti anche quello con titolo “Gli albanesi in Italia nel 1996”, anche se ci sono poche parole in comune con quanto richiesto. Pertanto la rappresentazione diretta del contenuto di un documento non è in 42 generale adeguata.

RAPPRESENTAZIONE DEL CONTENUTO DEI DOCUMENTI: DIRETTA E INDIRETTA Con la rappresentazione indiretta, ai fini delle ricerche, ad un testo è associato un insieme di parole chiave (keywords), semplici o composte, che ne descrivono in modo sintetico il contenuto. Ad esempio, a questa sezione potrebbero essere associate le seguenti parole chiavi: recupero dell’informazione e indicizzazione. L’operazione di attribuzione delle parole chiave ad un testo, denominata classificazione o indicizzazione (indexing), è di solito fatta manualmente da esperti, ma sono state studiate anche tecniche automatiche basate su metodi statistici. 43

Sistemi per il recupero delle informazioni INDICIZZAZIONE 44

INDICIZZAZIONE n Il problema fondamentale: identificare i contenuti dei documenti n Indicizzazione: processo di rappresentazione dei documenti mediante una descrizione sintetica (es: catalogazione per soggetto in ambito bibliotecario) ¨ La caratterizzazione del documento consiste nell’ assegnazione a ciascun documento un insieme di termini, detti parole chiave o parole indice ¨ Serve per costruire indici su collezioni di documenti n organizzazione indicizzata degli archivi n Un indice è costituito da: ¨ una lista di termini pesati 45

INDICIZZAZIONE n Tipicamente l’indicizzazione genera un insieme di termini indice (possibilmente pesati) come elementi base della rappresentazione formale di un documento n I termini indice sono utilizzati come surrogati per la rappresentazione del documento originale e, quindi, possono essere utilizzati al suo posto durante la fase di recupero. L’uso degli indici semplifica e accelera il recupero (esempio: indice analitico di un libro). n 46

INDICIZZAZIONE n Nell’IR testuale gli indici possono essere: ¨ parole automaticamente estratte dal documento; ¨ radici di parole (per esempio class-) automaticamente estratte dal documento. Questa opzione è la più frequente; ¨ frasi (ad esempio “classificazione di processi industriali”) automaticamente estratte dal documento. Questo tipo di indici non hanno dato risultati migliori di 1 e 2; ¨ parole (o frasi) estratte da un vocabolario controllato; ¨ (in modo addizionale) metadati (ad esempio titolo, autori, data di creazione ecc. ) 47

Linguaggio di indicizzazione n Linguaggio di indicizzazione: insieme dei termini scelti per descrivere una collezione di documenti. E’ definito su un insieme di simboli (Vocabolario) n Come sono scelte le parole del linguaggio di indicizzazione? ¨ Linguaggio controllato: limitato ad un vocabolario predefinito n identificazione manuale dei termini significativi n introduce meno errori, ma comporta costi aggiuntivi ¨ Linguaggio libero: termini estratti liberamente dal testo del documento e non definiti a priori 48

Gli strumenti per l’indicizzazione n n n Vocabolari controllati Anelli di sinonimi Termini preferiti (Authority file) Tassonomie e schemi organizzativi (gerarchie tra termini di un vocabolario) Thesauri: Vocabolari controllati con relazioni tra termini 49

Vocabolari controllati n Nella sua forma più semplice un vocabolario controllato è un sottoinsieme di un linguaggio che rappresenta un sapere specialistico, per esempio un elenco (indice) dei termini specifici di una disciplina (arte, medicina, economia, ecc. ) n Un vocabolario controllato di questo tipo può essere: ¨ deciso da uno o più esperti ¨ costruito automaticamente scartando dai testi del settore le parole cosiddette “non-stop” (articoli, preposizioni, pronomi, ecc. ) 50

Vocabolari controllati: anelli di sinonimi n Un primo arricchimento del vocabolario controllato è costituito dalla introduzione dei sinonimi, o meglio di termini considerati equivalenti secondo certi criteri, nella stessa lingua o in lingue diverse, comprendendo anche errori ortografici comuni. n Poiché nessuno dei termini equivalenti è considerato preferito, si parla di anelli di sinonimi n Pro e contro: maggiore quantità di risultati (richiamo o recall), minore rilevanza (precisione o precision). 51

Vocabolari controllati: schemi di classificazione n Un vocabolario controllato diventa uno schema di classificazione, (schema organizzativo) o tassonomia, quando i termini vengono organizzati in una gerarchia. n Uno schema di classificazione svolge un triplice ruolo: ¨ per l’architetto dell’informazione, come strumento di organizzazione e etichettatura dei documenti ¨ per l’utente, come ausilio alla navigazione (se, come in Yahoo!, è resa visibile come parte integrante dell’interfaccia) n home>science>computer science>artificial-intelligence ¨ per l’utente, nella ricerca, quando gli vengono mostrate le categorie in cui è stato trovato il termine dell’interrogazione n shopping>animali>cani familiarizzandolo con lo schema di classificazione del sistema 52

Thesaurus n Un thesaurus è un insieme di termini, e di relazioni fra di essi, che costituiscono il lessico specialistico da usare per descrivere il contenuto dei documenti pubblicati in un ambito disciplinare. n Il thesaurus ha quindi un ruolo analogo a quello di un vocabolario di una lingua con la differenza che per i termini, oltre alla eventuale definizione, vengono indicate le relazioni che esistono fra di essi. n Le relazioni possono essere di tre tipi: n preferenza n gerarchia n affinità semantica 53

Thesaurus: tipi di relazioni Le relazioni di preferenza si usano per rimandi da termini non accettati a termini accettati e viceversa. Esse sono USA o VEDI e USATO PER. Ad esempio: Elaboratore VEDI Calcolatore; Calcolatore USATO PER Elaboratore, Calcolatrice, Stazione di lavoro. Le relazioni di gerarchia mettono in evidenza il rapporto specificitàgeneralità tra due termini; esse sono: termine più generale (broader term - BT) e termine più specifico (narrower term - NT). Ad esempio: Felini NT Gatti Leoni Tigri; Gatti BT Felini. 54

Thesaurus: tipi di relazioni Le relazioni di affinità semantica si usano per collegare termini con significato affine o che esprimono concetti correlati; esse sono: termine correlato (related term (RT)) e sinonimi (synonymous term (ST)). Ad esempio, In corrispondenza del termine “geometria” si potrebbe trovare: BT matematica, NT geometria piana, geometria solida, geometria analitica, RT algebra lineare 55

Esempio 56

Processo di indicizzazione n Manuale: è una persona che sceglie quali termini meglio caratterizzano il contenuto di un documento ¨ Più “semantico” e quindi migliore ¨ Soggettivo, costoso ¨ Linguaggio controllato n Automatico: fatto da un programma ¨ Più sintattico, su base statistica e quindi “peggiore” ¨ Economico, scalabile ¨ Linguaggio libero 57

Qualità dell’indicizzazione n Finalità: rappresentare il contenuto semantico di un documento con due obbiettivi: ¨ Esaustività: assegnare un grande numero di termini indice ¨ Specificità: il grado di specificità del linguaggio utilizzato n termini generici: non sono adatti a distinguere i documenti rilevanti da quelli irrilevanti n termini specifici: permettono di reperire pochi documenti, ma la maggior parte di questi è rilevante n Modalità: ¨ estrazione diretta dal documento intero (full text) o mediante l’utilizzo di fonti esterne (es: dizionari controllati) ¨ tecniche associative (tesauri, pseudo-tesauri, clustering) 58

INDICIZZAZIONE MANUALE L’indicizzazione manuale può essere fatta usando parole estratte dal testo o termini controllati, o descrittori, estratti da un thesaurus preesistente. In generale viene utilizzato un linguaggio controllato; questa scelta presenta diversi vantaggi: ¨Semplificazione del processo di indicizzazione ¨Indipendenza, o minor dipendenza, dal soggetto che effettua l’indicizzazione ¨Semplificazione dell’ uso da parte degli utenti ( se conoscono il linguaggio di indicizzazione) n 59

INDICIZZAZIONE MANUALE VANTAGGI E SVANTAGGI Vantaggio: permette una rappresentazione indiretta del contenuto dei documenti con termini che evidenziano i concetti in essi trattati, Svantaggio: può portare a rappresentazioni non accurate né consistenti se non è fatta da persone con una buona conoscenza dell’argomento trattato nel documento. Una rappresentazione è accurata quando viene fatta usando un numero adeguato di termini; contrariamente si pregiudica il richiamo del sistema. Una rappresentazione è consistente se documenti che trattano lo stesso argomento vengono rappresentati, anche da persone diverse, con gli stessi termini; contrariamente si pregiudica la precisione del sistema. In generale, comunque, con l’indicizzazione manuale è difficile garantire rappresentazioni accurate e consistenti. 60

INDICIZZAZIONE AUTOMATICA n L’indicizzazione automatica (automatic indexing) di un documento testuale è il processo che esamina automaticamente gli oggetti informativi che compongono il documento e, utilizzando degli algoritmi appositi, produce una lista di termini indici (index terms). n Questa lista può essere utilizzata per una rappresentazione più compatta del contenuto informativo del documento di partenza. Tipicamente: indicizzazione full-text. n L’uso del thesaurus è previsto anche per l’indicizzazione automatica per sostituire termini estratti automaticamente con termini più specifici o più generali. 61

Schema del processo di indicizzazione automatica di documenti testuali 62

INDICIZZAZIONE AUTOMATICA L’indicizzazione automatica si basa su tecniche statistiche, partendo dal presupposto che la frequenza di occorrenza delle parole in un testo in linguaggio naturale sia correlata con l’importanza di queste parole nel rappresentare il suo contenuto. Se invece che un singolo documento si considera una raccolta di documenti, per stabilire quali parole chiave scegliere nell’indicizzazione, si tiene conto anche di come esse siano distribuite nella raccolta: se una parola appare con una frequenza alta in tutti i documenti, allora diminuisce la sua importanza. Si pensi alla parola “calcolatore” in una raccolta di testi di informatica. 63

Considerazioni sulla frequenza dei termini n Termini funzionali ¨ avverbi, articoli, preposizioni ecc. n es. , "and", "or", "of", "but", … ¨ la frequenza di questi termini è alta in tutti i documenti ¨ le parole in assoluto più frequenti sono anche poco significative ¨ le 250 parole più comuni coprono in media il 40 - 50% di un testo n Quello che conta non è la frequenza assoluta ma la frequenza relativa n Termini indicatori del contenuto ¨ parole che identificano i contenuti del documento n hanno frequenza variabile da un documento all’altro della collezione n la loro frequenza è indicativa dell’importanza nel rappresentare il contenuto del documento 64

Analisi lessicale e selezione delle parole n E’ il processo di trasformazione di un flusso di caratteri di input (il testo originario del documento) in un flusso di parole (o tokens ), ovvero in una sequenza di caratteri portatore di uno specifico significato. n Nel testo le parole possono essere facilmente identificate grazie alla presenza di spazi, a capo, segni di interruzione, ecc… 66

Esempio Eliminazione delle parole comuni n Stralcio di una lista di esclusione per la lingua inglese: A ABOUT ACROSS AFTERWORDS AGAINST ALL ALMOST ALONE ALONG ALREADY ALSO ALTHOUGH ALWAYS AMONGST AN AND ANOTHER ANYHOW ANYONE ANYTHING ANYWHERE AROUND AS AT BE BECAME BECAUSE 69

Esempio n Riduzione delle parole alla radice n Si utilizzano liste di suffissi: n Es. calcol[are] calcol[atore] calcol[atrice] calcol[abilità] calcol[o] 71

Termini pesati n L’efficacia dell’indicizzazione aumenta se ai termini che caratterizzano un documento si assegna un peso che rifletta l’importanza del termine per il documento. n Se n sono i termini usati per l’indicizzazione, il documento D della raccolta viene rappresentato dal vettore D = (T 1, …, Tn), dove ogni Ti è il peso del termine nel documento. n Una raccolta di documenti si riduce cosi ad una matrice di termini con tante righe quanto sono i documenti e tante colonne quanti sono i termini usati per l’indicizzazione. 75

Termini pesati n n Fra le funzioni proposte per il calcolo del peso di un termine la più usata tiene conto sia della sua rappresentatività considerando la frequenza di occorrenza in un documento sia della capacità del termine di discriminare un documento dagli altri Se ad es il linguaggio di indicizzazione è: {Arbusto, Architettura, botanica, coltivazione, colonna, pianta, Rinascimento, Roma, . . }, il vettore rappresenta un documento in cui ‘arbusto’ ha peso 0, ‘architettura’ ha peso 4, ‘botanica’ ha peso 0, . . 76

Termini pesati I pesi w possono essere binari o valori reali o interi positivi: sono calcolati in fase di indicizzazione 77

Indicizzazione automatica: un algoritmo 78

Indicizzazione automatica: i problemi n Identificare le soglie di frequenza minima e massima ¨ eliminare i termini molto frequenti abbassa il Richiamo ¨ eliminare i termini poco frequenti abbassa la Precisione n Un buon termine indice: ¨ deve rendere reperibile il documento (Richiamo) ¨ deve essere in grado di distinguere il documento all’ interno dell’ intera collezione (Precisione) ¨ non può essere un termine presente in tutti i documenti ¨ è molto frequente in alcuni documenti (ipotesi del minimo sforzo) ¨ non è molto frequente nell’ intera collezione di documenti 79

OSSERVAZIONI n Sono stati effettuati numerosi esperimenti per valutare le prestazioni dei sistemi che adottano l’indicizzazione automatica. n Esperimenti eseguiti su piccole collezioni (meno di 1. 000 documenti) hanno mostrato che non sempre l’indicizzazione manuale porta a risultati migliori dell’indicizzazione automatica, totale o incompleta. n L’approccio manuale, anche se qualitativamente superiore, non è scalabile In certi domini (es. Web) l’indicizzazione automatica è l’unica possibile n 80