Analisi dei documenti n n TW Classificazione dei

Perché convengono i linguaggi di markup? TW ile ici dif f eè ion nv

Classificazione dei componenti n n n TW La parte più importante del lavoro di

Classificazione basata sul contenuto TW Si identificano i componenti per il significato che essi

Classificazione basata sulla struttura TW Si identificano i componenti per il loro ruolo all’interno

Classificazione basata sulla presentazione TW Si identificano i componenti per le variazioni nel modo

Caratteristiche delle classificazioni TW Questi tre modi di classificare i componenti di un documento

Classificazione basata sul contenuto TW È la classificazione più complessa da realizzare, ma la

Classificazione basata sulla struttura TW La classificazione strutturale identifica l’organizzazione di un documento in

Classificazione basata sulla presentazione TW In generale, ci sono più classi di contenuto che

Regole guida per la classificazione TW Identificare il più possibile i componenti per il

Altri suggerimenti (1) TW Scartare elementi puramente presentazionali: numero di pagina, elementi che si

Altri suggerimenti (2) TW Identificare informazioni ripetute in varie parti del documento. Alcune informazioni

Tre grandi dubbi TW Attributi o elementi? u Nei documenti di testo, la distinzione

Slides: 14

Download presentation

Analisi dei documenti n n TW Classificazione dei componenti Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi di dati Identificazione delle connessioni Verifica e miglioramento iterativo delle specifiche

Perché convengono i linguaggi di markup? TW ile ici dif f eè ion nv ers fac co eè ion ers nv co La La le Energia / Informazione

Classificazione dei componenti n n n TW La parte più importante del lavoro di progettazione di un’applicazione SGML è l’identificazione delle strutture e del significato delle parti dei documenti e delle loro relazioni. L’identificazione semantica dei componenti avviene quando si evidenzia l’esigenza di distinguere tra un tipo di dati ed un altro. Se due pezzi diversi di un documento contengono lo stesso tipo di informazione, li si deve considerare appartenenti alla stesso componente semantico, anche se sono separati tra loro. Viceversa, se due pezzi contengono due tipi diversi di informazione, o è necessario distinguerli in qualche maniera per i fini dell’applicazione, allora debbono essere distinti in due componenti semantici separati. Possiamo distinguere tra tre tipi di classificazione dei componenti di un documento: contenuto, struttura e presentazione.

Classificazione basata sul contenuto TW Si identificano i componenti per il significato che essi hanno, indipendentemente dalla loro posizione nel documento o dal loro aspetto grafico. Ad esempio: u indirizzi, città, codici postali; u ricette, ingredienti, tempi di preparazione; u termini, sviluppo grammaticale, significato.

Classificazione basata sulla struttura TW Si identificano i componenti per il loro ruolo all’interno del documento, per il senso che hanno in quella posizione e in quella forma Ad esempio: u sezioni, capitoli, liste, paragrafi, titoli

Classificazione basata sulla presentazione TW Si identificano i componenti per le variazioni nel modo in cui debbono apparire graficamente, senza implicazioni sul loro “vero significato”. Ad esempio: u Frasi con un determinato font o dimensione u Blocchi da mantenere sulla stessa pagina u Posti dove spezzare una pagina

Caratteristiche delle classificazioni TW Questi tre modi di classificare i componenti di un documento sono presenti contemporaneamente bell’analisi di un documento. Persone diverse, sugli stessi documenti, possono identificare questa o quella classe a seconda di professione, forma mentis, esigenze. I tre tipi di classificazione hanno anche caratteristiche diverse di identificabilità, flessibilità e durata.

Classificazione basata sul contenuto TW È la classificazione più complessa da realizzare, ma la più flessibile, identificabile, flessibile e duratura. Poiché identifico i componenti basati sul loro significato, è immediato identificare il senso di un componente. La classificazione è indipendente dalla struttura del documento e dall’aspetto grafico, così posso cambiare idea su queste decisioni in qualunque momento, e anche fornire soluzioni diverse sugli stessi componenti. Poiché un componente avrà sempre quel significato in qualunque contesto, anche cambiamenti di stile, organizzazione del documento ecc. non impediranno a questa classificazione di sopravvivere.

Classificazione basata sulla struttura TW La classificazione strutturale identifica l’organizzazione di un documento in maniera sufficientemente generale, ma rozza per quel che riguarda il senso del documento. È possibile in qualunque momento modificare la resa grafica degli elementi, ma non il loro ruolo nella struttura globale del documento. Cambiamenti stilistici non preoccupano (il font, la larghezza di un paragrafo, l’esistenza o meno di un bordo in una tabella), cambiamenti strutturali importanti invece sì (ad esempio, passare da una forma a lista ad una a tabella, ecc. ).

Classificazione basata sulla presentazione TW In generale, ci sono più classi di contenuto che classi di presentazione. Per uniformità grafica e facilità di lettura molti componenti aventi significato diverso vengono resi graficamente nello stesso modo. L’identificazione delle sole classi grafiche fa sparire immediatamente l’identificabilità di elementi di significato diverso ma resa grafica uguale. Decisione successive di cambiamenti grafici di solo alcuni componenti, e non altri, saranno impossibili. Utilizzi del documento per scopi diversi dalla presentazione (ad esempio, la creazione di un indice, l’inserimento in un motore di ricerca, ecc. ), saranno impossibili.

Regole guida per la classificazione TW Identificare il più possibile i componenti per il loro significato e contenuto. Richiede più lavoro ma ne vale la pena. È necessario, ovviamente, fermarsi ad un livello ragionevole di specificità. Attribuire a questi componenti significati strutturali (tabelle, liste, paragrafi, organizzazioni gerarchiche tipo sezioni, sotto-sezioni, ecc. ). Specificare la resa grafica dei componenti. Quest’ultima specificazione tipicamente avviene al di fuori del contesto di SGML, con appositi strumenti e linguaggi di stylesheet.

Altri suggerimenti (1) TW Scartare elementi puramente presentazionali: numero di pagina, elementi che si ripetono pagina dopo pagina (un logo, una decorazione, il nome di un capitolo) possono tipicamente essere aggiunti automaticamente dal formattatore e non è necessario considerarli come componenti del documento. Identificare classi generali di informazioni. Anche se presenti in varie parti del documento, alcune informazioni possono avere lo stesso significato e lo stesso ruolo, e quindi debbono essere identificati nella stessa maniera.

Altri suggerimenti (2) TW Identificare informazioni ripetute in varie parti del documento. Alcune informazioni (nomi propri o di organizzazioni, riferimenti ad immagini, date importanti, elementi ripetuti di una struttura, ecc. ) debbono essere presenti in varie parti del testo in maniera identica, e debbono cambiare in maniera coerente. È utile avere un componente unico che registri una sola volta l’informazione da stampare, e venga usato ovunque necessario. Identificare i componenti che provengono da sistemi informativi esistenti. Tipicamente un database ha già distinzioni di elementi basate sul contenuto. Se alcune informazioni provengono da un database è comodo e si risparmia tempo usare o basarsi sulla strutturazione dei dati già esistenti nel sistema informativo.

Tre grandi dubbi TW Attributi o elementi? u Nei documenti di testo, la distinzione è spesso chiara: elementi per contenuto, attributi per meta-informazioni. Nell'interscambio di dati è meno chiara: la destinazione di un URL è informazione o metainformazione? Vincoli stretti o laschi? u La tentazione esiste sempre di imporre tutto quello che si può imporre. Tuttavia in XML due possono essere gli obiettivi: F Identificare semanticamente gli elementi (tutti i titoli si chiamano TITOLO) F Uniformare la struttura (tutti gli INDIRIZZO hanno una VIA, un CAP, una CITTA, una PROV). Più è restrittiva la regola, più uniforme è il risultato. u Qual è il vero obiettivo? Descrivere o regolare? Content model misti: sì o no? u u I content model misti sono più difficili da trattare, descrivere, regolare. Tuttavia rappresentano una libertà di movimento che è importante lasciare agli autori. Un elemento fatto per essere letto (ad es. DESCRIZIONE) deve aver content model misto: enfasi, link ipertestuali, elementi semantici individuali, ecc.