Sintaxis Introduccin Gramticas formales Gramticas para PLN sintaxis

  • Slides: 37
Download presentation
Sintaxis • • • Introducción Gramáticas formales Gramáticas para PLN sintaxis 1

Sintaxis • • • Introducción Gramáticas formales Gramáticas para PLN sintaxis 1

La descripción sintáctica 1 • • La Sintaxis describe la regularidad y productividad de

La descripción sintáctica 1 • • La Sintaxis describe la regularidad y productividad de la lengua explicitando la estructura de las oraciones. Objetivo del análisis sintáctico: • Detectar la corrección de una frase • Proporcionar una estructura de la frase que refleje sus relaciones sintácticas y pueda ser utilizada como base para los tratamientos posteriores PLN sintaxis 2

Formas de definir la corrección • Gramática • G L(G) • w 1 n

Formas de definir la corrección • Gramática • G L(G) • w 1 n L(G) ? • Modelo del lenguaje • P(w 1 n) • si P(w 1 n) > 0 w 1 n L • Corpus (oraciones, patrones) que definen las oraciones correctas • diccionario sintáctico • reglas de composición • Reglas de buena formación • filtros, gramáticas negativas, . . . PLN sintaxis 3

La descripción sintáctica 3 • Formas de expresar la estructura sintáctica: • • PLN

La descripción sintáctica 3 • Formas de expresar la estructura sintáctica: • • PLN sintaxis Estructura de constituyentes Estructura de dependencias Modelo de actantes Forma lógica 4

La descripción sintáctica 4 Arbol de derivación (árbol de análisis) PLN sintaxis 5

La descripción sintáctica 4 Arbol de derivación (árbol de análisis) PLN sintaxis 5

La descripción sintáctica 5 Estructura de dependencias PLN sintaxis 6

La descripción sintáctica 5 Estructura de dependencias PLN sintaxis 6

La descripción sintáctica 6 Modelo de actantes (1) PLN sintaxis 7

La descripción sintáctica 6 Modelo de actantes (1) PLN sintaxis 7

La descripción sintáctica 7 Modelo de actantes (2) PLN sintaxis 8

La descripción sintáctica 7 Modelo de actantes (2) PLN sintaxis 8

La descripción sintáctica 8 Forma logica X y(gato (X ( Y y(pescado (Y) comer(X,

La descripción sintáctica 8 Forma logica X y(gato (X ( Y y(pescado (Y) comer(X, Y))))) PLN sintaxis 9

Gramática 1 • Gramáticas de constituyentes • Arboles de derivación • Gramáticas de dependencias

Gramática 1 • Gramáticas de constituyentes • Arboles de derivación • Gramáticas de dependencias • Esquemas de dependencia • Gramáticas de casos • Modelos de actantes => Redes semánticas • • Gramáticas Transformacionales Gramáticas sistémicas PLN sintaxis 10

Lenguajes formales Alfabeto (vocabulario) • Operación de concatenación * cadenas sobre (monoide libre) •

Lenguajes formales Alfabeto (vocabulario) • Operación de concatenación * cadenas sobre (monoide libre) • lenguaje L * • lenguajes y gramáticas • jerarquía de Chomsky • PLN sintaxis 11

Gramáticas de Estructura Sintagmática <V, , P, S> Vocabulario No Terminal (conjunto de variables)

Gramáticas de Estructura Sintagmática <V, , P, S> Vocabulario No Terminal (conjunto de variables) Variable inicial Conjunto de producciones Vocabulario Terminal (alfabeto) V=Ø V = Vocabulario S V PLN sintaxis 12

Jerarquía de Chomsky 1 • Gramáticas Generales (Tipo 0) • Reconocidas por máquinas de

Jerarquía de Chomsky 1 • Gramáticas Generales (Tipo 0) • Reconocidas por máquinas de Turing • Gramáticas Sensitivas (Tipo 1) • Linear Bounded Automata • Pspace-complete • Gramáticas Incontextuales (Tipo 2) • Autómatas a pila • O(n 3) • Gramáticas Regulares (Tipo 3) • Autómatas de estados finitos • O(n) PLN sintaxis 13

Jerarquía de Chomsky 2 Tipo 0 Gramáticas sin restricciones u w, u (V )*

Jerarquía de Chomsky 2 Tipo 0 Gramáticas sin restricciones u w, u (V )* Tipo 1 Gramáticas sensitivas (Context-sensitive Grammars) u w, PLN sintaxis w, u (V )* i |u| |v| 14

Jerarquía de Chomsky 3 Tipo 2 Gramáticas incontextuals (Context-free Grammars, CFG) A w, A

Jerarquía de Chomsky 3 Tipo 2 Gramáticas incontextuals (Context-free Grammars, CFG) A w, A V, w (V )* Tipo 3 Gramáticas regulars (Regular Grammars, RG) A a A a. B, A, B V, a PLN sintaxis 15

Condición de gramaticalidad Una frase w (una palabra de *) pertenece al lenguaje generado

Condición de gramaticalidad Una frase w (una palabra de *) pertenece al lenguaje generado por la gramática: Podemos decir que la gramática G puede derivar la palabra w utilitzando las producciones a partir de S. PLN sintaxis 16

Propiedades formales del analizador • Solidez (sound) • Todo resultado (p. ej. árbol de

Propiedades formales del analizador • Solidez (sound) • Todo resultado (p. ej. árbol de derivación) es correcto (gramatical) • Terminación • Todo proceso de análisis acaba • Completitud • Un analizador es completo si dada una gramática y una oración es sólido, produce todos los análisis correctos y acaba PLN sintaxis 17

Jerarquía de Chomsky 4 Gramática Reconocedor Tipo 0 Turing Lenguaje Máquinas de lenguajes enumerables

Jerarquía de Chomsky 4 Gramática Reconocedor Tipo 0 Turing Lenguaje Máquinas de lenguajes enumerables recursivamente Tipo 1 linear-bounded contextuales automata (LBA) lenguajes Tipo 2 autómatas a pila incontextuales no deterministas (NPDA) lenguajes Tipo 3 lenguajes regulares PLN sintaxis autómatas finitos 18

Expresividad de la gramática • Mínimo: Gramáticas incontextuales (CFG) • excepto aplicaciones concretas, aproximaciones

Expresividad de la gramática • Mínimo: Gramáticas incontextuales (CFG) • excepto aplicaciones concretas, aproximaciones regulares • • • ¿Es el LN incontextual? ¿Suficiente? NO (normalmente) Solución PLN sintaxis 19

Ejemplo gramática incontextual 1 G 1= <N 1, T 1, P 1, FRASE> N

Ejemplo gramática incontextual 1 G 1= <N 1, T 1, P 1, FRASE> N 1 = {ORACION, GN, FV, RGN, GP} T 1 = {det, n, np, adj, vi, vt, prep} P 1 = { 1 FRASE --> GN FV. 2 GN --> det n RGN. 3 GN --> n RGN. 4 GN --> np RGN. 5 RGN --> . 6 RGN --> GP RGN. 7 RGN --> adj RGN. 8 FV --> vi. 9 FV --> vt GN. 10 GP --> prep GN. } PLN sintaxis 20

Ejemplo gramática incontextual 2 grup-nom==> n, grup-adj ==> adv, a. n ==> ncms 000.

Ejemplo gramática incontextual 2 grup-nom==> n, grup-adj ==> adv, a. n ==> ncms 000. n ==> ncmp 000. n ==> ncfs 000. n ==> ncfp 000. n ==> nccs 000. n ==> nccp 000. n ==> ncmn 000. n ==> ncfn 000. n ==> ncms 00 a. a ==> aq 0 cp 00. a ==> aq 0 cs 00. a ==> aq 0 fp 00. a ==> aq 0 fs 00. a ==> aq 0 mp 00. a ==> aq 0 ms 00. PLN sintaxis %chicos %chicas %mar, oyente %mares, oyentes %pantalones %tijeras %chiquito %alegres %alegre %bonitas %bonita %bonitos %bonito 21

Ejemplo gramática incontextual 3 grup-nom grup-adj-ms grup-adj-mp grup-adj-ms ncmp ncfs ncfp PLN sintaxis ==>

Ejemplo gramática incontextual 3 grup-nom grup-adj-ms grup-adj-mp grup-adj-ms ncmp ncfs ncfp PLN sintaxis ==> ncms, grup-adj-ms. ==> ncfs, grup-adj-fs. ==> ncmp, grup-adj-mp. ==> ncfp, grup-adj-fp. ==> aq 0 ms 00, grup-adj-ms. ==> aq 0 mp 00, grup-adj-mp. ==> aq 0 ms 00, grup-adj-cs. ==> ncms 000. %chico ==> ncmp 000. %chicos ==> ncfs 000. %chica ==> ncfp 000. %chicas 22

Ejemplo gramática incontextual ampliada 4 grup-nom n(ms) n(mp) n(fs) n(fp) a(cs) a(fp) a(fs) PLN

Ejemplo gramática incontextual ampliada 4 grup-nom n(ms) n(mp) n(fs) n(fp) a(cs) a(fp) a(fs) PLN sintaxis ==> n(Rasgos 1), grup-adj(Rasgos 2), {concordancia Rasgos 1 Rasgos 2} ==> ncms 000. %chico ==> ncmp 000. %chicos ==> ncfs 000. %chica ==> ncfp 000. %chicas ==> aq 0 cp 00. %alegres ==> aq 0 cs 00. %alegre ==> aq 0 fp 00. %bonitas ==> aq 0 fs 00. %bonita 23

CFG + {adición procedimental del contexto} PLN sintaxis 24

CFG + {adición procedimental del contexto} PLN sintaxis 24

Ejemplo LSP (Sager) *BNF <SENTENCE> <ENUNCIACION> <SUJETO> <LNR> <LN> <RN> <VERBO> <OD> %%= %%=

Ejemplo LSP (Sager) *BNF <SENTENCE> <ENUNCIACION> <SUJETO> <LNR> <LN> <RN> <VERBO> <OD> %%= %%= <ENUNCIACION> '. '. <SUJETO><VERBO><OD>. <LNR> /<*NULL>. <LN><*N><RN> / <*NULL>. <*ART> / <*NULL>. <*TV>. <LNR>. *RESTR WCONC 1= IN LNR % BOTH $SING AND $PLUR. $SING = IF CORE OF LNR HAS ATTRIBUTE SG THEN CORE OF LN DOES NOT HAVE ATTRIBUTE PL. $PLUR = IF CORE OF LNR HAS ATTRIBUTE PL THEN CORE OF LN DOES NOT HAVE ATTRIBUTE SG. PLN sintaxis 25

Gramáticas incontextuales con rasgos 1 • Head Features • Rasgos que los constituyentes no

Gramáticas incontextuales con rasgos 1 • Head Features • Rasgos que los constituyentes no terminales adquieren a partir de sus núcleos (heads) • Algunos se filtran directamente • Otros requieren cierto proceso • AGR (agreement) • gen, num, persona, caso, . . . • VFORM (subcategorización verbal) • problemática con los auxiliares, modales, locuciones verbales, . . . PLN sintaxis 26

Gramáticas incontextuales con rasgos 2 • • PLN sintaxis np {np agr AGR}, det,

Gramáticas incontextuales con rasgos 2 • • PLN sintaxis np {np agr AGR}, det, {det agr AGR}, n, {n agr AGR}. vp v, {v subcat _np}, np. vp v, {v subcat _np _pp: loc}, np, pp, {pp pform loc}. vp {vp agr A, vp vform V}, v, {v subcat _vp: inf, v agr A, v vform V}, vp, {vp vform inf}. 27

Obtención de la gramática • • • Definición del vocabulario terminal (tagset, ) Definición

Obtención de la gramática • • • Definición del vocabulario terminal (tagset, ) Definición del vocabulario no terminal (V) Reglas de la gramática (P) • construcción manual • construcción automática • inferencia (inducción) gramatical • construcción semiautomática PLN sintaxis 28

La selección de las categorías • • • Vocabulario terminal Categorías atómicas vs complejas

La selección de las categorías • • • Vocabulario terminal Categorías atómicas vs complejas El tagset La utilización de rasgos Vocabulario no terminal • Motivación lingüística • Teoría • Categorías barradas (slashed categories) • dependencias a larga distancia PLN sintaxis 29

Categorías Parole 1 <fs. Decl type=ITEM> <f. Decl name= cat> <fdescr> categorias posibles: adj=

Categorías Parole 1 <fs. Decl type=ITEM> <f. Decl name= cat> <fdescr> categorias posibles: adj= adjetivo, adv= adverbio, art= artículo, con= conjunción det= determinante, nom=nombre, np= nombre propio, prep = preposición, pron= pronombre, verb=verbo, intj=interjección, res=residuales, spun = signo puntuación, abr = abreviatura cifra = z, fecha = w </fdescr> PLN sintaxis <v. Range> <v. Alt> <sym value=adj> <sym value=adv> <sym value=art> <sym value=con> <sym value=det> <sym value=nom> <sym value=np> <sym value=prep> <sym value=pron> <sym value=verb> <sym value=intj> <sym value=res> <sym value=spun> <sym value=abr> <sym value=w> <sym value=z> </v. Alt> </v. Range> </f. Decl> 30

Categorías Parole 2 <f. Decl name= gen> <fdescr> géneros posibles: ambi=ambiguo, fem= femenino, masc=

Categorías Parole 2 <f. Decl name= gen> <fdescr> géneros posibles: ambi=ambiguo, fem= femenino, masc= masculino, n=neutro , i=indiscriminado </fdescr> <v. Range> <v. Alt> <sym value=ambi> <sym value=fem> <sym value=masc> <sym value=n> <sym value=i> </v. Alt> </v. Range> </f. Decl> PLN sintaxis 31

Categorías Parole 3 Verbo 1 2 3 4 5 6 7 categoría tipo modo

Categorías Parole 3 Verbo 1 2 3 4 5 6 7 categoría tipo modo tiempo persona número género PLN sintaxis <fs id= 'VMIP 1 S 0'> <!-- *como, amo* --> <f name=cat> <sym value=verb> </f> <f name=modo> <sym value=ind> </f> <f name=temp> <sym value=pres> </f> <f name=tverb> <sym value=m> </f> <f name=agreement> <fs> <f name=pers> <nbr value=1> </f> <f name= num> <sym value=sg> </f> </fs> 32

Penn treebank Tagset 1 CC CD DT EX FW IN JJ JJR JJS LS

Penn treebank Tagset 1 CC CD DT EX FW IN JJ JJR JJS LS MD NN NNP NNS NNPS PDT POS PRP PP PLN sintaxis Coordinating conjunction Cardinal number Determiner Existential there Foreign word Preposition Adjective, comparative Adjective, superlative List item marker Modal Noun, singular Proper noun, singular Noun, plural Proper noun, plural Predeterminer Posessive ending Personal pronoun Possessive pronoun RB RBR RBS RP SYM TO UH VB VBD VBG VBN VBP VBZ WDT WP WP WRB Adverb, comparative Adverb, superlative Particle Symbol to Interjection Verb, base form Verb, past tense Verb, gerund Verb, past participle Verb, non-3 rd ps. sing. present Verb, 3 rd ps. sing. present wh-determiner wh-pronoun Possessive wh-pronoun wh-adverb 33

Penn treebank Tagset 2 # $. , : ( ) " ` `` '

Penn treebank Tagset 2 # $. , : ( ) " ` `` ' '' PLN sintaxis Pound sign Dollar sign Sentence-final punctuation Comma Colon, semi-colon Left bracket character Right bracket character Straight double quote Left open single quote Left open double quote Right close single quote Right close double quote 34

Modificaciones de las gramáticas • Transformaciones de las gramáticas para obtener gramáticas equivalentes: •

Modificaciones de las gramáticas • Transformaciones de las gramáticas para obtener gramáticas equivalentes: • Eliminación de símbolos y producciones no alcanzables • Eliminación de producciones unarias • Eliminación de producciones • Formas normales • Chomsky • Greibach • Aproximaciones de CFG por RG PLN sintaxis 35

Forma Normal de Chomsky • Una gramática incontextual está en CNF si sólo tiene

Forma Normal de Chomsky • Una gramática incontextual está en CNF si sólo tiene producciones: • unarias de tipo A a • binarias de tipo A BC • con a y A, B, C V • El paso de cualquier CFG a CNF es trivial PLN sintaxis 36

Forma Normal de Greibach • Una gramática incontextual está en GNF si sólo tiene

Forma Normal de Greibach • Una gramática incontextual está en GNF si sólo tiene producciones: • A a • con a y V* • El paso de cualquier CFG a GNF es trivial PLN sintaxis 37