Diccionario o Base de datos lxicos Margarita Alonso
Diccionario o Base de datos léxicos Margarita Alonso Ramos Master LUP 2012
Organización de la exposición Qué léxico computacional 1. 1. Qué eses un un léxico computacional • Qué elementos son una unidad léxica Qué información contiene 2. • Cómo representar launa información entrada lexicográfica léxica 3. Aplicaciones de la Lex. Comp 4. Proyectos de Lex. Comp
1. ¿Qué es un léxico computacional? No es solo un diccionario en soporte informático http: //elies. rediris. es/elies 24/pampillon. htm Los diccionarios en línea o en CD pueden ser una buena herramienta pero el usuario es un humano, no un sistema http: //www. diccionarios. com/consultas. php# http: //www. ideasafines. com. ar/buscador-ideas-relacionadas. php VOLGA: http: //www. realacademiagalega. org/volga/index. jsp DRAE: www. rae. es Dico. Portugués: http: //www. priberam. pt/dlpo. aspx Word. Reference: http: //www. wordreference. com/es/ Bilingüe inglés: http: //www. babylon. com/definition/give/Spanish Cambridge: http: //dictionary. cambridge. org Merrian-Webster: www. m-w. com/cgi-bin/dictionary? book=Dictionary&va=purchase&x=0&y= htttp: //oesi. cervantes. es/TLTODOS/recursos_linguisticos_1. htm
1. ¿Qué es un léxico computacional? Un “almacén” de información léxica accesible por medios manuales o automáticos para sistemas de PLN
1. 1. ¿Qué se entiende por unidad léxica? Unidades léxicas (UL): sentidos o acepciones Actuar 1 intr. Ejercer una persona o cosa actos propios de su naturaleza 2 Ejercer las funciones propias de un oficio: ~ de secretario. 3 Representar en el teatro o en el cine. 4 Trabajar en un espectáculo público. 5 Defender, en las universidades, conclusiones públicas o practicar ejercicios de oposición. 6 DER. Realizar actuaciones Concepto de acepción (polisemia): Difícil delimitación Diferente según el objetivo aplicativo
¿Qué se entiende por unidad léxica? (2) Granularidad en la diferenciación de sentidos (diccionarios) libro cerdo monosémico monolingües: animal, carne, piel, . . bilingües (desajustes: pig, pork) El tipo semántico no implica que haya una o más acepciones. diferentes sentidos matices de un mismo sentido ¿?
1. 2. ¿Qué información contienen ? Dependiendo de los objetivos del léxico: ü La trascripción fonética ü La categoría gramatical y paradigma morfológico dar {vdtr}, 1ªconj. ü La estructura argumental, patrón sintáctico-semántico básico SYNSEM | LOC HEAD | MAJOR V | SUBCAT = <SN [1], SN[2], SP [3]> SEM [dar agente [1], tema [2], beneficiario [3]]
¿Qué información contienen ? ü Información semántica: tipo semántico definido en una ontología. chico [HUMANO] ordenador [ARTEFACTO] ü Restricciones selectivas ü Relaciones léxicas: üParadigmáticas: sinonimia, antonimia, hiponimia üSintagmáticas: colocaciones üLas equivalencias con otras lenguas, . . .
Organización de la exposición 1. Qué es un léxico computacional 2. Cómo representar la información léxica 3. Aplicaciones de la Lex. Comp 4. Proyectos de Lex. Comp
2. ¿Cómo representar la información? § Bases de datos § Modelos textuales § Bases de conocimiento léxico § Ontologías
Modelos de representación computacionales Bases de datos relacionales las entradas se representan en tablas Ø cada tabla consta de diversos rasgos que toman valores ØCat = N ØGen = Fem ventajas u software convencional de gestión de base de datos (Access de Microsoft) Ømantenimiento, eficiencia y facilidad de interrogación Ø gran capacidad expresiva limitaciones: - falta de estructura jerárquica – excesiva uniformidad – poco apropiadas para los rasgos de tipo textual
Modelos de representación computacionales Modelos textuales Corpus en bruto: ØFrecuencias léxicas Ø Coapariciones de dos o más palabras Corpus etiquetados: Ø morfológicamente Ø sintácticamente Ø semánticamente Ø identificación de colocaciones
Modelos de representación computacionales Representaciones orientadas a objetos NOMBRE-F-REG cat= n tipo = común género= femenino morfología= NFAAS CLASE EJEMPLARES casas casa es-un: NOMBRE-F-REG número= singular es-un: NOMBRE-F-REG número= plural
Modelos de representación computacionales Ontologías semántica basada en una ontología lengua cada sentido se diferencia por uno o más rasgos + lengua semítica + lengua + semítica árabe + lengua + semítica
semántica basada en una ontología lenguaje programación indoeuropea hebreo lengua semítica árabe. . . + lengua + semítica + árabe
Modelos de representación computacionales Ontologías Word. Net - Red de conocimiento léxico-semántica - Relaciones semánticas: sinonimia, hiperonimia, hiponimia, meronimia. . . - Unidad de descripción: synset
Modelos de representación computacionales vehículo Redes semánticas es-un automóvil 1 ; coche 2 ; carro 2 es-un se-compone-de ambulancia ranchera; furgón es-un taxi motor rueda volante
Modelos de representación computacionales Problemas incompleto: dominios poco o nada representados sentidos básicos que no aparecen Granularidad excesiva: Hombre= el que sirve en el ejército (10) opuesto a hembra opuesto a esposa carácter de hombre. . . Criterio poco claro de sinonimia hiperonimia/hiponimia
Organización de la exposición 1. Qué es un léxico computacional 2. Cómo representar la información 3. Aplicaciones de la Lex. Comp
Aplicaciones Técnicas que incorporan conocimiento lingüístico Sistemas de tratamiento de la información Extracción de información Recuperación de información TA Aplicaciones: usuario final Lexicografía Autoaprendizaje, Buscadores, etc. Recursos (léxicos)
Aplicaciones (1) Clasificación
Aplicaciones (2) Clasificación semántica
Aplicaciones (3) Traducción Automática Diccionario monolingüe ("llegir" VST ALO [raíz] "lleg" ARGS ((($SUBJ N 1 (TYPE P 1)) OPT ($DOBJ N 1 (TYPE P 0) N 0 (FCP 0) (MD-0 IND)))) CL [modelo de flexion] (IR-E) CMT [prototipo flexivo] "Model: servir" ON CO PLC (NF) TAL [admite -eix-] -EIX AUTHOR "elisabel" DATE "1 -Mar-99" SITE "FB 52")
Aplicaciones (5) Traducción Automática Diccionario Bilingüe Incita/Sail. Labs "fer" VST --> "retroceder" VST = Tests (XFR-VST-CTEST : MW T : FIXEXPR T : EXPR "enrere") Comment "no ens farem enrere =no retrocederemos" << Fb 52 FB 52 Elisabel 23 -Mar-99 >> "fer" VST --> "llegar" VST = Tests(XFR-VST-CTEST : MW T : FIXEXPR T : EXPR "tard") Comment "fer tard =llegar tarde" << Fb 52 FB 52 Elisabel 24 -Mar-99 >> "fer" VST --> "pesar" VST = << Fb 52 FB 52 Elisabel 23 -Mar-99 >>
Organización de la exposición 1. Qué es un léxico computacional 2. Cómo representar la información 3. Aplicaciones de la Lexicografía computacional 4. Proyectos
4. Proyectos lexicográficos üDi. CE (Diccionario de colocaciones del español) http: //www. dicesp. es ü Di. Co. Info (Dicctionario de informática) http: //olst. ling. umontreal. ca/cgi-bin/dicoinfo/search. cgi? ui=es üEuro. Word. Net http: //adimen. si. ehu. es/cgi-bin/wei/public/wei. consult. perl üFrame. Net http: //framenet. icsi. berkeley. edu ü Spanish Frame. Net http: //sato. fm. senshu-u. ac. jp/sfn 20/notes/index 2. html
- Slides: 27