Le nuove frontiere nella gestione della conoscenza sul

  • Slides: 35
Download presentation
Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti

Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti

La gestione della conoscenza sul Web Una delle conseguenze più rilevanti della diffusione del

La gestione della conoscenza sul Web Una delle conseguenze più rilevanti della diffusione del Web è il problema dell'information overload I motori di ricerca full-text generalisti hanno successo perchè Richiedono un minimo sforzo dell’utente (inserire keyword in una semplice form ed eventualmente raffinare la richiesta aggiungendo/cambiando parole) Forniscono risultati rilevanti, numerosi e “pronti per l’uso” Ma la ricerca è un’attività costosa e

La gestione della conoscenza sul Web Un'altra conseguenze della diffusione del Web è il

La gestione della conoscenza sul Web Un'altra conseguenze della diffusione del Web è il passaggio dai sistemi informativi monade ai sistemi aperti e interoperabili Nei ‘primordi’ del Web la semplicità dell’architettura (basata su HTTP/URL/HTML in modalità client side) forniva sufficienti garanzie per far interagire senza limiti gli agenti presenti nel sistema L’introduzione dell’elaborazione server

La gestione della conoscenza sul Web Al fine di garantire l’interoperabilità possono adottare due

La gestione della conoscenza sul Web Al fine di garantire l’interoperabilità possono adottare due strategie: standardizzazione a priori di architetture e linguaggi (omogeneità dei sistemi) definizione di protocolli di interoperabilità tra sistemi eterogenei

La gestione della conoscenza sul Web Un ruolo centrale in entrambi i casi è

La gestione della conoscenza sul Web Un ruolo centrale in entrambi i casi è svolto dall’introduzione di XML è un formalismo per la modellizzazione di documenti digitali da pubblicare sul Web sottoforma di alberi etichettati In virtù della sua flessibilità sintattica XML è stato ampiamente adottato come formato di serializzazione (cioè rappresentazione in forma di stringa lineare di caratteri codificati) per modelli di dati non intrinsecamente gerarchici (reti, grafi, tabelle, strutture relazionali)

La gestione della conoscenza sul Web I vantaggi di XML in questo campo sono

La gestione della conoscenza sul Web I vantaggi di XML in questo campo sono numerosi standard aperto specifiche chiare, complete e abbastanza semplici da implementare alto livello di portabilità possibilità di definire il proprio linguaggio di rappresentazione formale dei dati possibilità controllo sintattico/strutturale rigoroso dei dati codificati

La gestione della conoscenza sul Web XML infatti si basa sulla associazione di etichette

La gestione della conoscenza sul Web XML infatti si basa sulla associazione di etichette descrittive ai dati Etichette e dati sono memorizzati in formato testuale (stringhe di caratteri codificati in Unicode) Sia il vocabolario delle etichette utilizzabili sia la struttura sintattica che ne regola l’uso possono essere stabilite a priori mediante la definizione di uno schema I dati possono essere validati automaticamente rispetto allo schema mediante un processo di parsing

La gestione della conoscenza sul Web Queste caratteristiche hanno fatto si che XML assumesse

La gestione della conoscenza sul Web Queste caratteristiche hanno fatto si che XML assumesse un ruolo centrale nella costruzione di linguaggi standard per la rappresentazione di dati e metadati, divenendo una sorta di esperanto sintattico Il problema è che XML di per sé non può giocare nessun ruolo nel garantire il trattamento semantico (automatica) dei dati, sebbene spesso si senta affermare il contrario

La gestione della conoscenza sul Web “XML is a poor language for data modelling

La gestione della conoscenza sul Web “XML is a poor language for data modelling if the goal is to represent information objects in the problem domain such that they correspond transparently ("one-to-one") to the user's conceptual model of objects in this domain. ” XML permette esclusivamente di esprimere semplici relazioni strutturali: Robin Cover, XML and Semantic Transparency gerarchia (A contiene B) adiacenza (A seguito da B) co-occorrenza (se A allora [anche/non] B) Con l’introduzione degli schema language si è aggiunta la possibilità di tipazione dei valori di elementi e attributi eguagliando la espressività semantica dei DBMS

La gestione della conoscenza sul Web XML non aggiunge senso ai dati, almeno non

La gestione della conoscenza sul Web XML non aggiunge senso ai dati, almeno non lo aggiunge in modo computazionalmente accessibile/trattabile L’errore deriva da una sorta di fallacia interpretazionale dovuta al fatto che le etichette XML sono leggibili e comprensibili da un utente umano, di norma il vocabolario utilizzato nei linguaggi XML usa termini sensati tratti da una lingua naturale Ma la semantica del vocabolario XML è del tutto inaccessibile a un elaboratore XML

La gestione della conoscenza sul Web Per un parser <title>Il fu Mattia Pascal</title> <blob>Il

La gestione della conoscenza sul Web Per un parser <title>Il fu Mattia Pascal</title> <blob>Il fu Mattia Pascal</blob> sono entrambi frammenti perfettamente accettabili È la mente dell’agente umano che legge il documento XML a fornire una semantica al markup… … eventualmente associandovi una apposita documentazione in lingua naturale (come il manuale EAD, TEI, METS, MODS etc…)

La gestione della conoscenza sul Web Si noti che anche i successivi livelli di

La gestione della conoscenza sul Web Si noti che anche i successivi livelli di elaborazione di un sistema basato su XML non risolvono il problema Ad esempio una trasformazione XSLT è in grado di prendere in input un albero XML A e trasformarlo nell’albero B, ma di nuovo tutto avviene sulla base esclusiva di vincoli sintattici e strutturali Nessuna trasformazione XSLT può introdurre complessità semantica ad esempio prendere i nomi unitari in un set di metadati DC e dividerli in componenti come previsto da MODS… …a meno di complessi insiemi di regole ad hoc o dell’uso di vocabolari controllati preesistenti

La gestione della conoscenza sul Web Perché questo è un problema? Torniamo a considerare

La gestione della conoscenza sul Web Perché questo è un problema? Torniamo a considerare il discorso iniziale sulla centralità dell’interoperabilità e sulle strategie per conseguirla Se si sceglie di percorrere la strada della standardizzazione a priori l’indifferenza semantica di XML (e di qualsiasi altro metalinguaggio di modellizzazione dati) non sarebbe un problema rilevante In questo caso infatti una comunità di utenti decide di adottare un vocabolario condiviso definito a priori con una semantica chiara e prefissata Chiunque può sviluppare delle applicazione di elaborazione e scambio dei dati consistenti a tale standard Si tratta di una pratica ben nota nel mondo delle biblioteche e degli archivi che sin dai primordi dell’automazione hanno avvertito l’esigenza di definire modelli di descrizione (oggi le chiameremmo ontologie), formati, vocabolari controllati per la descrizione semantica tendenzialmente condivisi: da MARC a Dublin Core, da ISBD a ISAD a FRBR, dal soggettario LC ai vari thesaura settoriali…. .

La gestione della conoscenza sul Web Tuttavia questa strategia è adottabile solo in ambienti

La gestione della conoscenza sul Web Tuttavia questa strategia è adottabile solo in ambienti chiusi e omogenei o in domini ristretti Non appena il dominio applicativo si estende o l’ambiente si estende e diviene eterogeneo (come nel Web) l’uniformità a priori dei linguaggi descrittivi non è praticabile sia perché esistono numerosi standard diversi che insistono sul medesimo dominio sia perché ci sono profili di adozione e applicazione diversi del medesimo standard

La gestione della conoscenza sul Web Si pone dunque l’esigenza di individuare dei sistemi

La gestione della conoscenza sul Web Si pone dunque l’esigenza di individuare dei sistemi di interoperabilità semantica che consentano l’integrazione di sistemi eterogenei l’erogazione servizi avanzati di descrizione ed elaborazione semantica. In questa direzione si muovono le sperimentazioni che complessivamente ricadono nell’area del Semantic Web

La gestione della conoscenza sul Web Il termine ‘Semantic Web’ è stato coniato nel

La gestione della conoscenza sul Web Il termine ‘Semantic Web’ è stato coniato nel 2001 da Tim Berners Lee Obiettivo: aumentare l’efficacia del World Wide Web come luogo di elaborazione e scambio di conoscenza attribuendo ad agenti software la capacità di analizzare il significato dei documenti in esso presenti, di selezionarli o confrontarli in modo semanticamente rilevante di inferirne conseguenze non esplicitate. Questo obiettivo visto nella sua generalità richiede numerose e rilevanti innovazioni sia dal punto di vista tecnico, con la convergenza tra alcune tecnologie sviluppate nell’ambito della rappresentazione e gestione della conoscenza in Intelligenza Artificiale e quelle create per implementare l’architettura del Web sia da quello dei comportamenti sociali degli utenti, poiché il progetto richiederà il contributo diffuso dell’intera comunità della rete.

La gestione della conoscenza sul Web L’idea alla base del Web Semantico consiste nell’associare

La gestione della conoscenza sul Web L’idea alla base del Web Semantico consiste nell’associare alle risorse informative disponibili in varie forme sul Web una descrizione formale del loro significato Tale descrizione può essere elaborata autonomamente da un agente software in modo significativo (cioè tenendo conto di che cosa essa significhi), così da dedurne conseguenze implicite e generare automaticamente nuova informazione Le ricadute applicative di questo progetto sono numerose: creazione di sistemi di ricerca dell’informazione guidati dalla semantica interazione multilinguistica uomo-macchina e macchina-macchina creazione di applicazioni di e-commerce intelligenti sviluppo di agenti software autonomi …

La gestione della conoscenza sul Web Nell’architettura disegnata da Berners-Lee e dai suoi collaboratori

La gestione della conoscenza sul Web Nell’architettura disegnata da Berners-Lee e dai suoi collaboratori presso il W 3 C Consortium, le componenti tecnologiche dovranno contribuire alla costruzione del Web Semantico sono le seguenti URI RDF ontologie formali (e relativi linguaggi) motori inferenziali

La gestione della conoscenza sul Web Le URI, sono i formalismi che consentono di

La gestione della conoscenza sul Web Le URI, sono i formalismi che consentono di identificare le risorse sulla rete. Una volta che una risorsa sia identificata in modo univoco è possibile esprimere su di essa asserzioni che Ogni risorsa – dal singolo documento, a sue parti, a oggetti ed entità in essi menzionate, a collezioni di documenti – deve avere un suo identificativo URI, affinché possa essere univocamente individuata nello spazio informativo costituito dal Web. ne descrivono il contenuto o esprimono ciò che un utente pensa su tale contenuto in generale ne specificano proprietà da vari punti di vista Queste asserzioni sono informazioni che si riferiscono ad altre informazioni, ovvero metadati semantici

La gestione della conoscenza sul Web Naturalmente, affinché i metadati semantici siano utilizzabili non

La gestione della conoscenza sul Web Naturalmente, affinché i metadati semantici siano utilizzabili non solo dagli esseri umani ma anche dai computer, è necessario che vengano espressi in un linguaggio che sia computazionalmente trattabile sia dal punto di vista sintattico sia da quello semantico È questo il fine del Resource Description Framework (RDF) Si tratta di un metalinguaggio dichiarativo per la formalizzare di asserti (predicati) che esprimono proprietà di e relazioni tra risorse

La gestione della conoscenza sul Web L’architettura di RDF è basata su tre concetti:

La gestione della conoscenza sul Web L’architettura di RDF è basata su tre concetti: Risorse: tutto ciò che viene descritto. Ogni risorsa è identificata da un URI (può essere anche un oggetto non accessibile dal Web) Proprietà: una coppia attributo-valore associata alla risorsa. Ogni proprietà ha un significato specifico una serie di valori leciti è associabile ad uno o più tipi di risorsa Proprietà e i valori possono essere espresse da URI ma anche da valori letterali Asserzioni (statement): l’associazione di una proprietà a una risorsa Ogni asserzione ha una struttura “soggetto” - “predicato” “oggetto” In RDF sono consentite solo relazioni binarie

La gestione della conoscenza sul Web Fabio Ciotti è l’autore di “http: //www. laterza.

La gestione della conoscenza sul Web Fabio Ciotti è l’autore di “http: //www. laterza. it/internet/leggi/internet 2004/index. htm”: «La proprietà “Autore” della risorsa “http: //www. laterza. it/internet/leggi/internet 2004/index. htm” vale “Fabio Ciotti”» http: //www. laterza. it/internet/leggi/internet 2004/index. htm Risorsa Autore Fabio Ciotti Proprietà Letterale

La gestione della conoscenza sul Web L’architettura prevista da RDF si divide in due

La gestione della conoscenza sul Web L’architettura prevista da RDF si divide in due parti: Resource Description Framework (RDF) Model and Syntax Specification – le cui specifiche sono state rilasciate come raccomandazioni definitive nel febbraio 1999 – definisce il modello dei dati la sintassi di RDF, basato su XML (ma è stata sviluppata una notazione più compatte per esprimere asserzioni RDF, Notation 3) RDF di per sé non fa alcuna assunzione circa il vocabolario specifico o la tipologia delle proprietà che si possono attribuire e delle relazioni tra tali proprietà A tale fine occorre definire un RDF Schema, la seconda parte dell’architettura RDF (RDF Vocabulary Description Language 1. 0: RDF Schema) Una volta che uno schema è stato definito formalmente e pubblicato, chiunque può adottarlo e utilizzarlo per costruire descrizioni RDF dei propri documenti

La gestione della conoscenza sul Web Potranno esistere numerosi schemi, basati su diverse concettualizzazioni

La gestione della conoscenza sul Web Potranno esistere numerosi schemi, basati su diverse concettualizzazioni di particolari domini, su diverse nomenclature e su diverse lingue Occorre un sistema per specificare le relazioni logico-semantiche (equivalenza, specificazione, generalizzazione, istanziazione, cardinalità etc. ) tra oggetti e proprietà di un medesimo schema e di schemi diversi Ad esempio, in un schema la relazione di ‘autorialità’ potrà essere indicata con il termine ‘author’ – che fa parte della classe ‘creator’ – in funzione di soggetto, il cui oggetto è una certa risorsa In un altro potremmo avere che il soggetto è il documento di cui si predica la proprietà ‘essere scritto da’ un esponente della classe ‘responsabili intellettuali’ caratterizzato dalla proprietà ‘primario’ Evidentemente si sta parlando dello stesso insieme di individui e relazioni (un dominio), ma in modo diverso

La gestione della conoscenza sul Web Le ontologie formali sono un sistema ideato per

La gestione della conoscenza sul Web Le ontologie formali sono un sistema ideato per definire formalmente domini concettuali e indicare in che modo essi sono espressi da schemi logici e nomenclature differenti Esistono numerosi linguaggi formali per specificare ontologie. In particolare nel contesto del progetto Web Semantico è stato sviluppato il Web Ontology Language (OWL), derivato dal DARPA Agent Markup Language (DAML+OIL)

La gestione della conoscenza sul Web OWL si divide in tre livelli a seconda

La gestione della conoscenza sul Web OWL si divide in tre livelli a seconda della capacità espressiva OWL Lite principalmente rivolto alla formalizzazione di tassonomie gerarchiche e thesaura permette di esprimere solo cardinalità zero o uno esclude alcuni costrutti che esprimono relazioni tra classi (disgiunzione, unione, istanziazione…) facilmente implementabile in sistemi inferenziali OWL Description Logic basato sul modello delle description logic (una formalizzazione logica decidibile e computabile del concetto informale di rete semantica e frame dotata di una semantica formale completa) include tutti i costrutti di OWL, ma fornisce alcuni vincoli sul loro uso. • una classe può essere sottoclasse di una classe, ma non istanza di una classe; non si possono esprimere restrizioni di cardinalità per proprietà transitive notevole espressività mantenendo la completezza computazionale e la trattabilità OWL Full serve per quegli usi in cui è necessaria la massima espressività e la libertà sintattica di RDF senza nessuna garanzia computazionale. in OWL Full i livelli si mescolano, ed è lecito trattare una classe simultaneamente come una collezione di individui e come un individuo a sé stante. attraverso OWL Full un’ontologia può arricchire il modello semantico predefinito dai vocabolari di RDF e OWL. non è decidibile (equivalente a logica dei predicati) e dunque difficilmente implementabile

La gestione della conoscenza sul Web Una architettura alternativa a RDF/SOWL, ma dotata di

La gestione della conoscenza sul Web Una architettura alternativa a RDF/SOWL, ma dotata di funzioni e scopi simili, è quella delle Topic Map è uno standard definito dalla ISO (ISO 13250) Nasce come meccanismo per la rappresentazione di tassonomie e reti concettuali cui associare come istanze risorse informative sia off-line sia on-line

La gestione della conoscenza sul Web Una topic map è costituita da un insieme

La gestione della conoscenza sul Web Una topic map è costituita da un insieme di soggetti (i concetti astratti) che vengono rappresentati sottoforma di topic (i concetti oggettivati o reificati) Ogni topic ha uno o più nomi ma esprime uno e un solo soggetto (cui può essere formalmente collegato) Ogni topic può essere istanziato da una o più risorse informative (occorrenze) Ogni topic può essere inserito in diverse relazioni (associazioni) con altri topic

La gestione della conoscenza sul Web A differenza di RDF in TM le associazioni

La gestione della conoscenza sul Web A differenza di RDF in TM le associazioni (relazioni) possono essere n-arie ci sono delle relazioni predefinite in TM che consentono di esprimere rapporti classe/sottoclasse rapporti tipo/istanza ci sono costrutti per esprimere direttamente il tipo di una topic o il ruolo che svolge in una associazione

La gestione della conoscenza sul Web Una TM costituisce dunque la formalizzazione di una

La gestione della conoscenza sul Web Una TM costituisce dunque la formalizzazione di una rete concettuale collegata all’insieme delle risorse informative che veicolano tali concetti. Anche le TM hanno una sintassi di serializzazione XML (XTM) e una non XML (Linear Topic Map) È in corso di sviluppo un linguaggio per le espressione di restrizioni ontologiche su topic e associazioni (TMCL) e uno per l’interrogazioni di Topic Map (TMQL)

La gestione della conoscenza sul Web Molti esperti nutrono non pochi dubbi sul fatto

La gestione della conoscenza sul Web Molti esperti nutrono non pochi dubbi sul fatto che l’architettura del Web Semantico, almeno nella sua versione più ambiziosa e universale, potrà mai trasformarsi da sogno a realtà Diverso il discorso relativo all’applicazione di tecnologie di Semantic Web a domini circoscritti e limitati, che già iniziano a essere sperimentate e implementate Tra queste applicazioni locali di particolare interesse possono essere quelle nel dominio della biblioteche e degli archivi digitali

La gestione della conoscenza sul Web sistemi di organizzazione e reperimento su collezioni locali

La gestione della conoscenza sul Web sistemi di organizzazione e reperimento su collezioni locali o distribuite basati sulla semantica si veda Aust. Lit http: //www. austlit. edu. au/ il progetto di una ontologia della letteratura Italiana di Bibit per generi, temi, cronologia integrazione di metadati da fonti informative distribuite che adottano schemi descrittivi o semantici diversi (OAI + semantic web) estensione della funzione dell’authority control authority file come rete semantica

La gestione della conoscenza sul Web Problemi aperti 1) esistono possibilità di interoperabilità tra

La gestione della conoscenza sul Web Problemi aperti 1) esistono possibilità di interoperabilità tra i due paradigmi RDF/OWL e TM? 2) come popolare una rete concettuale/ontologia di vaste dimensioni?

La gestione della conoscenza sul Web L’interoperabilità tra TM e RDF è oggetto di

La gestione della conoscenza sul Web L’interoperabilità tra TM e RDF è oggetto di numerose proposte teoriche e tecniche La risposta in generale è…. “Si anche se la cosa non è così semplice!!!” Si veda il rapporto A Survey of RDF/Topic Maps Interoperability Proposals, http: //www. w 3. org/TR/rdftm-survey/

La gestione della conoscenza sul Web Sviluppare e popolare ontologie è faticoso e costoso,

La gestione della conoscenza sul Web Sviluppare e popolare ontologie è faticoso e costoso, ma…. …se lo sviluppo del livello ontologico vero e proprio richiede necessariamente un intervento umano di concettualizzazione e formalizzazione…. . la costituzione di relazioni di istanziazione tra risorse e concetti può essere parzialmente automatizzata 1) adozione di tecnologie di data mining, clustering e knowledge discovery su vaste masse documentali (si veda il progetto NORA Webbased Text-Mining and Visualization for Humanities Digital Libraries della University of Illinois diretta da John Unsworth http: //www. noraproject. org/) 2) definizione di un vocabolario controllato di parole chiavi da adottare come descrittori semantici tradizionali che poi vengono collegati a una rete concettuale o a una ontologia formale in grado di fungere da base per processi inferenziali 3) integrazione di sistemi basati su schemi formali con Folksonomies. . . una strada la cui fattibilità tecnica resta da esplorare che presenta in particolare la criticità della gestione di inconsistenze su vasta scala