Priberam Alameda D Afonso Henriques 41 2 Esq
Priberam Alameda D. Afonso Henriques, 41 - 2. º Esq. 1000 -123 Lisboa, Portugal Tel. : +351 21 781 72 60 / Fax: +351 21 781 72 79 www. flip. pt www. priberam. pt Adaptação do sistema de REM da Priberam ao HAREM Carlos Amaral, Helena Figueira, Afonso Mendes, Pedro Mendes, Cláudia Pinto, Tiago Veiga {cma, hgf, amm, prm, cp, tlv}@priberam. pt Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
SUMÁRIO 1. Importância do REM 2. Descrição do sistema – Adaptação do sistema para o HAREM 3. Análise dos resultados da participação no segundo HAREM – Resultados no HAREM Clássico – Resultados na pista TEMPO 4. Conclusões e trabalho futuro Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
IMPORT NCIA DO REM • Importância do REM para a Priberam: – Correcção sintáctica (FLi. P) • Detecção de sequências de palavras como unidades morfossintácticas – Sistemas automáticos de resposta a perguntas • Indexação de textos • Categorização da pergunta • Extracção das respostas – Incogni. X (ferramenta para substituição de entidades nos acórdãos do STJ) – Motores de pesquisa (ex. : JN, TSF) Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
EXEMPLO DE USO DO SISTEMA EM MOTORES DE PESQUISA Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
DESCRIÇÃO DO SISTEMA • Léxico com classificação morfossintáctica e semântica ex. : árvore s 1 [planta lenhosa] N (SING|, FEM|, CART|, DATAN|, VEGETAL|) s 2 [estrutura de representação] N(SING|, FEM|, CART|, DATAN|, ABSTR|CONCR) s 3 [eixo, veio] N(SING|, FEM|, CART|, DATAN|, CONCR|, Pde|) • Regras contextuais, que permitem: – Atribuição de valores morfológicos e semânticos a sequências de tokens ex. : Pal(secretaria) Pal(de) Pal(estado) = N Pal(às) Pal(primeiras) Pal(horas) Pal(de) Cat(N(DIASEMANA)) = ADV Cat(Vg)? Cat(ADV) Cat(Vg)? Cat(CARD) = CARD – Classificação contextual de EM, que ultrapassa a simples herança dos valores dos nomes próprios classificados no léxico Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
DESCRIÇÃO DO SISTEMA • • Primeira fase de classificação: herança dos valores atribuídos ao léxico Segunda fase de classificação: análise contextual Constantes: usadas na identificação e classificação de EM ex. : Constante Extensaodeagua = Pals(mar, oceano, rio, lago) Extensaodeagua Pal(de) Cat(Nprop) = EM Constante Listadeorganizacoes = Pals(instituto, instituição, organização, associação) Cat(NPROP(PESSOA)) Preposicao. De Cat(NPROP) = ENT(ORGANIZACAO) If before $$ Is Listadeorganizacoes Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
ADAPTAÇÃO DO SISTEMA AO HAREM • Categorias já reconhecidas pelo sistema antes da participação no segundo HAREM: PESSOA, LOCAL, ORGANIZACAO, VALOR, TEMPO • Categorias criadas para o HAREM (para EM que já eram identificadas mas não classificadas): ABSTRACCAO, ACONTECIMENTO, COISA, OBRA • Tipos criados para o HAREM: LOCAL(AGUACURSO, AGUAMASSA, RELEVO, ILHA), PESSOA(GRUPOMEMBRO) Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
ADAPTAÇÃO DO SISTEMA AO HAREM • Filtro em XML para conversão das categorias: <TIPO NOME="EM> <TRACO NOME="Tipo. EM" <VALORES>ANTROP_IND</VALORES> </TRACO> </TIPO> <SUBSTRING> <EM ID="{0}" CATEG="PESSOA" TIPO="INDIVIDUAL">{1}</EM> </SUBSTRING> Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
ANÁLISE DOS RESULTADOS: HAREM CLÁSSICO Resultados absolutos no cenário TOTAL: • 72, 29% de EM correctamente identificadas • 51, 45% de EM correctamente classificadas Avaliação entre todos os participantes: • 1. ª posição na Medida-F, em classificação e em identificação, no cenário TOTAL • 1. ª posição na Medida-F, em classificação e identificação, nos cenários selectivos 3 e 4 • 1. º posição em 13 dos 28 cenários de avaliação Avaliação por categoria: • 1. ª posição nas categorias ABSTRACCAO e COISA • 1. º posição, em classificação e abrangência, na categoria PESSOA • Resultados mais baixos nas categorias LOCAL, TEMPO e VALOR Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
ANÁLISE DOS RESULTADOS: PISTA TEMPO Avaliação na mini. CD: • 2. ª posição na classificação de EM • 1. ª posição na identificação de EM Avaliação na pista TEMPO: • 1. ª posição, em identificação, no cenário TOTAL e nos cenários selectivos 4 e 6 • Melhores resultados, tal como no HAREM Clássico, na identificação de EM do que na sua classificação Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
ANÁLISE DOS RESULTADOS: PISTA TEMPO Principais razões para os resultados na pista TEMPO: – Critérios anteriormente estabelecidos para o sistema divergentes em relação aos do HAREM – Exclusão de iniciadores de expressões temporais como as preposições e contracções: Ex. : em 1996 (CD do HAREM) 1996 (Priberam) do século 21 (CD do HAREM) século 21 (Priberam) Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
CONCLUSÕES E TRABALHO FUTURO • Melhoramento da classificação de EM (diferenças entre os valores da identificação e da classificação no HAREM) • Classificação de EM ainda não reconhecidas pelo sistema (ABSTRACCAO|IDEIA, ACONTECIMENTO|EVENTO, COISA|CLASSE, COISA|MEMBROCLASSE, COISA|OBJECTO, COISA|SUBSTANCIA, PESSOA|GRUPOCARGO, PESSOA|GRUPOIND, PESSOA|MEMBRO, PESSOA|POVO) • Reconhecimento de nomes próprios ambíguos com nomes comuns em início de frase ou após travessão Ex. : STN – Sistema de Transmissão do Nordeste • Tratamento da metonímia: – Restrições de selecção dos verbos – Marcação de regências nominais Ex. : O Palácio de Belém pronunciou-se [sujeito humano/grupo humano] Palácio de Belém satisfeito [qualificador de nome humano] pronunciou- se • Uso da ontologia na classificação contextual das EM Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
Priberam Alameda D. Afonso Henriques, 41 - 2. º Esq. 1000 -123 Lisboa, Portugal Tel. : +351 21 781 72 60 / Fax: +351 21 781 72 79 www. priberam. pt Encontro do Segundo HAREM: Aveiro, 07. 09. 2008
- Slides: 13