Linguistica computazionale treebank e altre risorse Cristina Bosco

Linguistica computazionale, treebank e altre risorse Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2016 -2017

Di cosa parleremo • Task di LC • Risorse linguistiche (diverse dai corpora) • Corpora annotati e Treebank • Il Progetto Turin University Treebank e Parallel Turin University Treebank • Il progetto Universal Dependency

Task di LC I sistemi di LC svolgono vari tipi di analisi del testo, singolarmente o in abbinamento. Il tipo di task determina: - come è fatto l’input - come è fatto l’output - quali passi intermedi di analisi devono essere svolti - quali risorse sono necessarie

Task di LC Tutti i sistemi attuali di LC utilizzano risorse linguistiche per passare dall’input all’output. input output risorsa 1 risorsa 2

Gerarchia di Task di LC I task tradizionali possono essere pensati in una gerarchia che ne evidenzia la crescente difficoltà: Tokenizzazione Part of Speech Tagging = analisi morfologica Parsing = analisi sintattica Analisi semantica Altri task “nuovi” si basano su di essi.

Tokenizzazione Consiste nel distinguere nel testo le unità minime morfologiche (detti token). L’input è il testo in forma di frase o intero testo. Es: “Il gatto dorme sul terrazzo” L’output è il testo suddiviso in token. Es: tok 1=Il tok 2=gatto tok 3=dorme tok 4=su tok 5=il tok 6=terrazzo

Part of Speech (Po. S) tagging Consiste nell’associare ad ogni token una descrizione della sua morfologia. L’input è il singolo token. Es: Il L’output è il token con associate le relative informazioni morfologiche Es: Il ARTICOLO DETERMINATIVO SINGOLARE MASCHILE

Part of Speech tagging La descrizione della morfologia di una parola (il Po. S tagging) può includere anche la lemmatizzazione. Essa è di fatto necessaria per identificare la categoria grammaticale della parola e può essere resa esplicita nell’output del Po. S tagging. Es: Il IL ARTICOLO DETERMINATIVO SINGOLARE MASCHILE

Part of Speech tagging e risorse Quali risorse si utilizzano per fare il Po. S tagging? Collezioni di lemmi Collezioni di forme (MORPH-IT) Dizionari con informazioni morfologiche Corpora con già applicato il Po. S tagging (per fare apprendimento) (POSTWITA)

Morph-It (Zanchetta, Baroni) È una risorsa lessicale basata su forme che contiene: - per ogni forma il lemma, la categoria grammaticale e caratteristiche morfologiche - serve il Part of Speech tagging e la lemmatizzazione

Morph-It (Zanchetta, Baroni) Contiene 505, 074 voci che corrispondono a 35, 056 lemmi. È stata costruita partendo da un corpus di 380 milioni di token (articoli di La Repubblica dal 1985 al 2000) annotato con lemmi e parte della morfologia, poi arricchito con le forme mancanti e la morfologia mancante. http: //sslmitdevonline. sslmit. unibo. it/linguistics/morph-it. php

Po. STWITA (Bosco, Tamburini, Mazzei, Bolioli) Contiene 301 tweet annotati dal punto di vista morfologico. L’annotazione è stata fatta automaticamente e corretta a mano. Rappresenta la lingua italiana dei social media.

Parsing Consiste nell’associare ad ogni frase una descrizione della sua sintassi. L’input è la frase tokenizzata e analizzata morfologicamente (dal Po. S tagging).

Parsing: input 1 Il ART DEF MAS SING 2 gatto NOM COM MAS SING 3 dorme VERB IND PRES 3 SING 4 su PREP 5 il ART DEF MAS SING 6 terrazzo NOM COM MAS SING

Parsing: output 1 Il ART DEF MAS SING Soggetto di 3 2 gatto NOM COM MAS SING Argomento di 1 3 dorme VERB IND PRES 3 SING Radice 4 su PREP Modificatore di 3 5 il ART DEF MAS SING Argomento di 4 6 terrazzo NOM COM MAS SING Argomento di 5

Parsing: output dorme VERB IND PRES 3 SING Soggetto Il ART DEF MAS SING Argomento gatto NOM COM MAS SING Modificatore su PREP Argomento il ART DEF MAS SING Argomento terrazzo NOM COM MAS SING

Parsing e risorse Quali risorse si utilizzano per fare il parsing? I treebank, ampie collezioni di frasi annotate dal punto di vista morfologico e sintattico. In linea di principio servirebbe solo l’annotazione sintattica, ma dato che quella morfologica ne è un prerequisito, si mette anche quella negli stessi dati. Dei treebank parleremo in dettaglio più avanti.

Analisi semantica Consiste nell’associare ad ogni frase una descrizione della sua semantica. L’input è la frase tokenizzata, analizzata morfologicamente (dal Po. S tagging) e sintatticamente (dal parsing).

Analisi semantica È il tipo di analisi più difficile per la quale esistono solo alcuni sub-task sviluppati. Tra di essi citiamo il word sense disambiguation per il quale esistono risorse linguistiche molto importanti: Babel. Net http: //babelnet. org/ Multi. Word. Net http: //multiwordnet. fbk. eu/english/home. ph

Gerarchia di Task di LC I task “nuovi” si basano su quelli tradizionali, ad esempio la Sentiment analysis sovente utilizza forme di (parziale) analisi morfologica e sintattica.

Sentiment analysis Consiste nell’associare ad ogni porzione data di testo un valore di polarità o una classificazione. L’input è il testo, eventualmente analizzato morfologicamente e/o sintatticamente. L’output è il testo classificato secondo la polarità o altra classe definita.

Sentiment analysis e risorse - Lessici per la sentiment analysis: contengono parole con associata una polarità (AFINN) - Quando un sistema di sentiment analysis deve rilevare la polarità di un testo cerca le parole del testo nel lessico, se le trova prende la loro polarità e sommando tutte le polarità delle parole calcola quella della frase.

Esempi di risorse linguistiche “Mario Monti: Berlusconi risparmi all'Italia il biasimo per aver causato un disastro #mariomontipremier “ > Polarità Negativa “Mario #Monti Senatore a vita è una splendida notizia per tutti gli italiani, è l'emblema di quei cittadini meritevoli che onorano la Patria. ” > Polarità Positiva

Le risorse linguistiche La quantità e la varietà di risorse linguistiche dimostra la loro centralità per la LC. Una parte consistente della comunità della LC lavora solo per costruire risorse. Esistono molte risorse per l’inglese, ma anche per altre lingue (a volte costruite a partire dalle prime).

Le risorse linguistiche - Con il termine risorse linguistiche si indicano i corpora e tutte le altre - Sono delle raccolte di informazioni a cui i sistemi di LC accedono durante lo svolgimento del loro compito - Esse rappresentano il versante prettamente linguistico della LC

CORPORA e TREEBANK A partire dalla fine degli anni ’ 90 si applicano nella LC approcci basati su corpora. Inizialmente si tratta di corpora molto grandi non annotati (approcci non supervisionati). In seguito si tratta di corpora meno grandi ma annotati (approcci supervisionati).

Annotazione e corpora Come annotare i dati ? Le informazioni annotate variano parecchio a seconda dello scopo per cui si costruisce il corpus, perché le informazioni che i sistemi devono apprendere sono strettamente correlate al compito che il sistema deve svolgere.

Annotazione e corpora Come annotare i dati ? - Corpora per sentiment analysis: polarità, stance, ironia, target. . . - Corpora per named entity recognition: persone, luoghi, aziende, date. . . - Corpora per Part of Speech tagging: lemmi, categorie grammaticali, . . .

Annotazione e treebank Come annotare i dati ? Per ogni livello di annotazione vengono fatte delle scelte sia sulla teoria linguistica da prendere come riferimento sia sul modo in cui fisicamente mostrare i dati.

Annotazione e treebank Quali dati annotare ? Occorre scegliere i testi da introdurre nel corpus in modo che siano rappresentativi del linguaggio che si vuole trattare.

Annotazione e treebank Quali dati annotare ? un corpus é un campione significativo e rappresentativo di un linguaggio SE: • contiene frasi non ristrette • è “bilanciato” rispetto al genere, alla collocazione geografica e sociale, al tempo • MA non rappresenta mai TUTTO il linguaggio nel suo complesso