Extrao de Informao Equipe Domingos Svio Raoni Franco

  • Slides: 58
Download presentation
Extração de Informação Equipe: Domingos Sávio Raoni Franco Roberto Costa Ronaldo Marques Revisada por

Extração de Informação Equipe: Domingos Sávio Raoni Franco Roberto Costa Ronaldo Marques Revisada por Flavia Barros Jul/2007

Roteiro l Motivação l História l Processo de Extração l Wrappers l Aplicações l

Roteiro l Motivação l História l Processo de Extração l Wrappers l Aplicações l Referências

Problemas l Internet l l Maior parte da informação está em forma de texto

Problemas l Internet l l Maior parte da informação está em forma de texto livre l l Crescimento exponencial Documentos não estruturados ou semiestruturados Migração de dados entre diferentes interfaces

Algumas questões l Como localizar informação relevante? l Como extrair a informação relevante? l

Algumas questões l Como localizar informação relevante? l Como extrair a informação relevante? l Como gerar BDs ou bases de conhecimento automaticamente? l Extração de Informação pode ajudar. . . l Trata o problema da extração de dados relevantes a partir de uma coleção de documentos [Mus 99] l Blah blah trecho relevante blah

Extração de Informação (EI) l Os dados a serem extraídos são previamente definidos em

Extração de Informação (EI) l Os dados a serem extraídos são previamente definidos em um template (formulário) l Os dados extraídos podem l l ser diretamente apresentados na tela ser usados para preencher um BD ou uma BC Template Sistema p/ EI Item 1: Item 2: Item 3: Item 4: Item 5: BD BC

Extração de Informação l A base estruturada resultante pode ser usada para: l l

Extração de Informação l A base estruturada resultante pode ser usada para: l l l Procurar ou analisar dados utilizando linguagens de queries de BDs Mineração de Dados Geração de sumários l l possivelmente em outra língua Construção de índices para a coleção de documentos fonte

Extração de Informação l Domínio específico l l ex: Domínio de Businness O significado

Extração de Informação l Domínio específico l l ex: Domínio de Businness O significado do que é “relevante” é pré-definido l ex: ciclo de vida de companhias: § § § l Ações: juntar, separar, comprar Companhias envolvidas e seus papéis Capital envolvido Dados obscuros e objetivos do escritor não são considerados

Processo de Extração l Técnica pode ser aplicada a diferentes tipos de textos: l

Processo de Extração l Técnica pode ser aplicada a diferentes tipos de textos: l l l Artigos de Jornais Web pages Artigos Científicos Mensagens de Newsgroup Classified ads Anotações Médicas

Exemplo: Ataque Terrorista

Exemplo: Ataque Terrorista

Exemplo: Ataque Terrorista

Exemplo: Ataque Terrorista

Exemplo: Ataque Terrorista

Exemplo: Ataque Terrorista

História da EI l Início (fim da década de 80) l MUC-Message Understanding Conference

História da EI l Início (fim da década de 80) l MUC-Message Understanding Conference l l Processamento de Linguagem Natural Década de 90… l Internet l Wrappers (extratores)

EI versus outras áreas relacionadas l EI vs. Recuperação de Informação l EI vs.

EI versus outras áreas relacionadas l EI vs. Recuperação de Informação l EI vs. Compreensão Completa do Texto

EI vs. Recuperação de Informação l RI: l l l Dada uma consulta do

EI vs. Recuperação de Informação l RI: l l l Dada uma consulta do usuário, um sistema de RI seleciona um subconjunto de documentos relevantes de um conjunto maior Depois, o usuário procura as informações que ele necessita no subconjunto selecionado EI extrai informações relevantes de documentos RI e EI são tecnologias complementares

EI vs. Recuperação de Informação l Recuperação de Informação: l l Entrega documentos para

EI vs. Recuperação de Informação l Recuperação de Informação: l l Entrega documentos para o usuário Extração de Informação: l Entrega fatos para o usuário/aplicacões

EI vs. Compreensão Completa do Texto • CCT • entendimento do texto inteiro •

EI vs. Compreensão Completa do Texto • CCT • entendimento do texto inteiro • respresentação alvo deve acomodar a complexidade da língua • necessita reconhecer aspectos estilísticos • EI • somente uma parte do texto é relevante • representação alvo rígida • estilo e cor do texto é irrelevante

Por que EI é difícil? l Língua Natural é difícil de tratar automaticamnete l

Por que EI é difícil? l Língua Natural é difícil de tratar automaticamnete l l é muito flexível várias formas para expressar uma única informação l l l … Frodo Baggins succeeds Bilbo Baggins as chairperson of Bank of America named Frodo Baggins as its new chair-person after Bilbo Baggins was succeeded by Frodo Baggins as chair-person of Bank of America.

Por que EI é difícil? l Língua natural é ambígua l mesma sentença podendo

Por que EI é difícil? l Língua natural é ambígua l mesma sentença podendo ter significados diferentes l l Sam, Frodo’s partner, a CMU student, … Língua natural é dinâmica l l New words are constantly introduced into the language: ecotourist, lol Established words gain new senses: to google, to message

Sample Job Posting Subject: US-TN-SOFTWARE PROGRAMMER Date: 17 Nov 1996 17: 37: 29 GMT

Sample Job Posting Subject: US-TN-SOFTWARE PROGRAMMER Date: 17 Nov 1996 17: 37: 29 GMT Organization: Reference. Com Posting Service Message-ID: <56 nigp$mrs@bilbo. reference. com> SOFTWARE PROGRAMMER Position available for Software Programmer experienced in generating software for PC-Based Voice Mail systems. Experienced in C Programming. Must be familiar with communicating with and controlling voice cards; preferable Dialogic, however, experience with others such as Rhetorix and Natural Microsystems is okay. Prefer 5 years or more experience with PC Based Voice Mail, but will consider as little as 2 years. Need to find a Senior level person who can come on board and pick up code with very little training. Present Operating System is DOS. May go to OS-2 or UNIX in future. Please reply to: Kim Anderson Ad. NET (901) 458 -2888 fax kimander@memphisonline. com 19

Extracted Job Template computer_science_job id: 56 nigp$mrs@bilbo. reference. com title: SOFTWARE PROGRAMMER salary: company:

Extracted Job Template computer_science_job id: 56 nigp$mrs@bilbo. reference. com title: SOFTWARE PROGRAMMER salary: company: recruiter: state: TN city: country: US language: C platform: PC DOS OS-2 UNIX application: area: Voice Mail req_years_experience: 2 desired_years_experience: 5 req_degree: desired_degree: post_date: 17 Nov 1996 20

Amazon Book Description …. </td></tr> </table> <b class="sans">The Age of Spiritual Machines : When

Amazon Book Description …. </td></tr> </table> <b class="sans">The Age of Spiritual Machines : When Computers Exceed Human Intelligence</b> <font face=verdana, arial, helvetica size=-1> by <a href="/exec/obidos/search-handle-url/index=books&field-author= Kurzweil%2 C%20 Ray/002 -6235079 -4593641"> Ray Kurzweil</a> </font> <a href="http: //images. amazon. com/images/P/0140282025. 01. LZZZZZZZ. jpg"> <img src="http: //images. amazon. com/images/P/0140282025. 01. MZZZZZZZ. gif" width=90 height=140 align=left border=0></a> <font face=verdana, arial, helvetica size=-1> <span class="small"> <b>List Price: </b> <span class=listprice>$14. 95</span> <b>Our Price: <font color=#990000>$11. 96</font></b> <b>You Save: </b> <font color=#990000><b>$2. 99 </b> (20%)</font> </span> 21 <p> …

Extracted Book Template Title: The Age of Spiritual Machines : When Computers Exceed Human

Extracted Book Template Title: The Age of Spiritual Machines : When Computers Exceed Human Intelligence Author: Ray Kurzweil List-Price: $14. 95 Price: $11. 96 : : 22

Tipos de texto l Estruturado l l Não-Estruturado l l l Formato pre-definido e

Tipos de texto l Estruturado l l Não-Estruturado l l l Formato pre-definido e rígido Livre Sentenças em alguma linguagem natural Semi-estruturado l l Formatação não segue regras rígidas Algum grau de estruturação l campos ausentes l variações na ordem dos dados

Tipos de texto l Estruturado l Não-Estruturado l Semi-estruturado <HTML><TITLE>Some Country Codes</TITLE><BODY> • Uno

Tipos de texto l Estruturado l Não-Estruturado l Semi-estruturado <HTML><TITLE>Some Country Codes</TITLE><BODY> • Uno 97, 4 p. , <I>242</I><BR> Ar, Dir, VE, Som, Prata <B>Congo</B> Estudantes caras-pintadas protestaram, ontem, no <B>Egypt</B> <I>20</I><BR> • Gol 16 V, Paulo ano 94, Ar, 2 portas, Al. Centro de São exigindo o impeachment do prefeito Celso 92, Pitta, acusado. Alarme, de corrupção <B>Spain</B> • Corsa c/<I>34</I><BR> 2 portas, Rodas por sua ex -mulher. <B>Belize</B> <I>501</I><BR> <HR></BODY></HTML>

Tipos de Sistemas para EI l Baseados em PLN l l l Extrair informações

Tipos de Sistemas para EI l Baseados em PLN l l l Extrair informações de textos em linguagem natural (livre) Padrões lingüísticos Wrappers l l l Principalmente para textos estruturados e semi -estruturados Formatação do texto, marcadores, freqüência estatística das palavras Construção l Manual X Aprendizagem

Construção manual de Wrappers l Baseada em engenharia do conhecimento l l l Vantagem

Construção manual de Wrappers l Baseada em engenharia do conhecimento l l l Vantagem l l Construção manual de regras de extração Padrões de extração são descobertos por especialistas após examinarem o corpus de treinamento Boa performance dos Sistemas Desvantagens l l l Processo de desenvolvimento trabalhoso Escalabilidade Especialista pode não estar disponível

Construção Automática de Wrappers l Aprendizagem de máquina l l Vantagens l l Aprender

Construção Automática de Wrappers l Aprendizagem de máquina l l Vantagens l l Aprender sistemas de EI a partir de um conjunto de treinamento Mais fácil marcar um corpus do que criar regras de extração Menor esforço do especialista Escalabilidade Desvantagens l Esforço de marcação do corpus de treinamento

Natural Language Processing l Capazes de lidar com as irregularidades das línguas naturais l

Natural Language Processing l Capazes de lidar com as irregularidades das línguas naturais l Técnicas. l Part-of-speech (POS) tagging l l Syntactic parsing l l Mark each word as a noun, verb, preposition, etc. Identify phrases: NP, VP, PP Semantic word categories l KILL: kill, murder, assassinate, strangle, suffocate

Wrappers - Técnicas de Extração l Definem como o sistema realiza o processo de

Wrappers - Técnicas de Extração l Definem como o sistema realiza o processo de extração da informação l Técnicas l l Autômatos Finitos Casamento de Padrões Classificação de Textos Modelos de Markov Escondidos

Wrappers – Autômatos Finitos l Regras de extração na forma de autômatos finitos l

Wrappers – Autômatos Finitos l Regras de extração na forma de autômatos finitos l Definidos por: l l (1) estados que “aceitam” os símbolos do texto que preenchem algum campo do formulário de saída, (2) os estados que apenas consomem os símbolos irrelevantes encontrados no texto, e (3) os símbolos que provocam as transições de estado Textos estruturados e semi-estruturados l Delimitadores, ordem dos elementos

Wrappers – Autômatos finitos l Exemplo

Wrappers – Autômatos finitos l Exemplo

Wrappers - Casamento de Padrões l Aprendem regras na forma de expressões regulares. l

Wrappers - Casamento de Padrões l Aprendem regras na forma de expressões regulares. l Expressões regulares que “casam” com o texto para extrair as informações l Textos livres, estruturados e semi-estruturados l Delimitadores, padrões regulares (Ex. data, CEP)

Wrappers - Casamento de Padrões Padrão : : * (Digit) ‘ BR’ * ‘$’

Wrappers - Casamento de Padrões Padrão : : * (Digit) ‘ BR’ * ‘$’ (Number) Formulário: : Aluguel {Quartos $1} {Preço $2} Capitol Hill – 1 br twnhme. fplc D/W W/D. Undrgrnd pkg incl $675. 3 BR, upper flr of turn of ctry HOME. incl gar, grt N. Hill loc $995. (206) 999 -9999 <i> <font size=-2>(This ad last ran on 08/03/97. ) </font> </i> <hr>

Wrappers - Classificação de textos l Dividem o texto de entrada em fragmentos candidatos

Wrappers - Classificação de textos l Dividem o texto de entrada em fragmentos candidatos a preencher algum campo do formulário de saída. l Classificam os fragmentos com base em suas características l l posição número de palavras presença de palavras específicas letras capitalizadas

Wrappers - Classificação de textos l Desvantagem l l Classificação local independente para cada

Wrappers - Classificação de textos l Desvantagem l l Classificação local independente para cada fragmento (desvantagem) Textos semi-estruturados

Classificação de Textos l Classificam fragmentos do documento para determinar que campo do formulário

Classificação de Textos l Classificam fragmentos do documento para determinar que campo do formulário eles devem preencher Classificador outros empresa outros nome cargo endereco telefone

Wrappers - Modelos de Markov Escondidos (HMM) l Um HMM é um autômato finito

Wrappers - Modelos de Markov Escondidos (HMM) l Um HMM é um autômato finito probabilístico que consiste em: l l l (1) Um conjunto de estados ocultos S; (2) Uma probabilidade de transição Pr[s’/s] entre os estados ocultos s E S e s’ E S; (3) Um conjunto de símbolos T emitidos pelos estados ocultos; (4) Uma distribuição de probabilidade Pr[t/s] de emissão de cada símbolo t E T para cada estado escondido s E S. Processo de classificação l Retorna a seqüência de estados ocultos com maior probabilidade de ter emitido cada seqüência de símbolos de entrada.

Wrappers - Modelos de Markov Escondidos (HMM) l Vantagem l l Realizar uma classificação

Wrappers - Modelos de Markov Escondidos (HMM) l Vantagem l l Realizar uma classificação ótima para a seqüência completa de entrada. Desvantagem l Não é capaz de fazer uso de múltiplas características dos Tokens (por exemplo, formatação, tamanho e posição),

Desenvolvimento Teórico l Um “modelo” HMM é definido por: a 33 w O número

Desenvolvimento Teórico l Um “modelo” HMM é definido por: a 33 w O número de estados não-visíveis. w A matriz de transição de estados. a w O número de observações ou a 11 estados visíveis. y 1 y 2 y 3 y 4 b 31 b 32 b 33 b 34 3 31 a 13 a 12 a 23 a 22 1 w A matriz de probabilidade 2 de emissão de estados visíveis. b 11 a 21 b 12 b 13 b 14 b 21 b 22 b 23 b 24 y 1 y 2 y 3 y 4

Exemplo Ilustrativo Lago L 1 Lago L 2 1 2 3 P 1 L

Exemplo Ilustrativo Lago L 1 Lago L 2 1 2 3 P 1 L 1, L 2, L 1, L 2, L 2 P 2 L 2, L 1, L 2, L 1, L 2 P 3 L 1, L 2, L 1, L 2, L 2 Deseja-se identificar este pato!! PX L 1, L 2, L 1, L 2, L 1

Exemplo Ilustrativo P 1 L 1, L 2, L 1, L 2, L 2

Exemplo Ilustrativo P 1 L 1, L 2, L 1, L 2, L 2 4 transições que saem de L 1 A 1 Saída Chegada L 1 L 2 L 1 0. 5 L 2 2 transições vão para L 1 2 transições vão para L 2 Assume-se que a probabilidade de se visitar um lago depende de que lago foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

Exemplo Ilustrativo P 1 L 1, L 2, L 1, L 2, L 2

Exemplo Ilustrativo P 1 L 1, L 2, L 1, L 2, L 2 5 transições que saem de L 2 A 1 Chegada Saída L 1 L 2 0. 5 1 transição vai para L 1 4 transições vão para L 2 Assume-se que a probabilidade de se visitar um lago depende de que lago foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

Exemplo Ilustrativo P 1 L 1, L 2, L 1, L 2, L 2

Exemplo Ilustrativo P 1 L 1, L 2, L 1, L 2, L 2 5 transições que saem de L 2 A 1 Chegada Saída L 1 L 2 L 1 0. 5 L 2 0. 8 1 transição vai para L 1 4 transições vão para L 2 Assume-se que a probabilidade de se visitar um lago depende de que lago foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

Exemplo Ilustrativo A 1 Chegada L 2 L 1 0. 5 L 2 0.

Exemplo Ilustrativo A 1 Chegada L 2 L 1 0. 5 L 2 0. 8 A 3 Saída L 1 A 2 Chegada Saída L 1 L 2 L 1 0. 4 0. 6 L 2 0. 5 Chegada L 1 L 2 L 1 0. 4 0. 6 L 2 0. 7

Exemplo Ilustrativo l Conclusões: l Probabilidade de PX ter sido gerado pelo Pato 1:

Exemplo Ilustrativo l Conclusões: l Probabilidade de PX ter sido gerado pelo Pato 1: PX L 1, L 2, L 1, L 2, L 1 0. 5 x 0. 8 x 0. 2 x 0. 5 x 0. 2 = 0. 00032 A 1 Chegada Saída L 1 L 2 L 1 0. 5 L 2 0. 8

Exemplo Ilustrativo l Conclusões: l Probabilidade de PX ter sido gerado pelo Pato 2:

Exemplo Ilustrativo l Conclusões: l Probabilidade de PX ter sido gerado pelo Pato 2: PX L 1, L 2, L 1, L 2, L 1 0. 6 x 0. 75 x 0. 25 x 0. 6 x 0. 25 x 0. 4 x 0. 6 x 0. 25 = 0. 000759375 A 2 Chegada Saída L 1 L 2 L 1 0. 4 0. 6 L 2 0. 25 0. 75

Exemplo Ilustrativo l Conclusões: l Probabilidade de PX ter sido gerado pelo Pato 3:

Exemplo Ilustrativo l Conclusões: l Probabilidade de PX ter sido gerado pelo Pato 3: PX L 1, L 2, L 1, L 2, L 1 0. 5 x 0. 6 x 0. 4 x 0. 5 x 0. 6 = 0. 0027 A 3 Chegada Saída L 1 L 2 L 1 0. 4 0. 6 L 2 0. 5 Comparando as probabilidades, conclui-se que o mais provável é que o pato desconhecido seja o Pato 3!

Aplicações

Aplicações

Aplicações l Extração de Informação em Documentos l Conteúdo l Análise Estrutural l Análise

Aplicações l Extração de Informação em Documentos l Conteúdo l Análise Estrutural l Análise Semântica Empresa portuguesa responsável por 3, 4% do PIB de Portugal.

Aplicações l Extração de Informação em Documentos l Análise do Código Fonte de Aplicações

Aplicações l Extração de Informação em Documentos l Análise do Código Fonte de Aplicações l Uso de Padrões l Qualidade do Código Empresa de Curitiba, oferece sistemas de análise do código fonte em diversas linguagens.

Aplicações l Extração de Informação na WEB l Filtragem de Fóruns l l Controle

Aplicações l Extração de Informação na WEB l Filtragem de Fóruns l l Controle do Conteúdo Assunto dos Diálogos Empresa de São Paulo com mais de 20 anos de mercado. Oferece soluções para e-learning.

Aplicações l Extração de Informação na WEB l Monitoramento da WEB l Busca por

Aplicações l Extração de Informação na WEB l Monitoramento da WEB l Busca por Hackers l Busca por Terroristas Empresa mundialmente reconhecida, presente no Brasil há 10 anos, oferecendo soluções nas áreas de segurança web e redes.

Aplicações l Extração de Informação na WEB l Monitoramento de opiniões espontâneas da WEB

Aplicações l Extração de Informação na WEB l Monitoramento de opiniões espontâneas da WEB l Análises qualitativas e quantitativas dos dados recolhidos l Informação estruturada de cada post, a partir de cada serviço cadastrado. Empresa brasileira com 3 anos de mercado. l

Aplicações l Extração de Informações Estratégicas l Business Intelligence l Análise de Mercado l

Aplicações l Extração de Informações Estratégicas l Business Intelligence l Análise de Mercado l Melhoria de Processos Empresa brasileira que oferece soluções na área de BI.

Aplicações l Extração de Informações Estratégicas l Análises Biológicas de Dados l Regiões Codificantes

Aplicações l Extração de Informações Estratégicas l Análises Biológicas de Dados l Regiões Codificantes (DNA) l Regiões Ativas (Proteínas) National Center for Biotechnology Information, criado em 1988, localizado nos Estados Unidos. É a principal fonte de informações sobre Genômica na Internet.

Aplicações l Extração de Informações Estratégicas l Análises de Arquivos de LOG l Logs

Aplicações l Extração de Informações Estratégicas l Análises de Arquivos de LOG l Logs de Erro l Logs de Acesso Empresa mundialmente reconhecida, com mais de 25 anos, oferece soluções para a análise de logs de erro e acesso a bancos de dados.

Aplicações de RI l Extração de Informações Estratégicas l Análises de Imagens l Geologia

Aplicações de RI l Extração de Informações Estratégicas l Análises de Imagens l Geologia l Climatologia l Astrologia Empresa brasileira com 10 anos de mercado, oferece soluções para análise e classificação de imagens.

Referências l Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados.

Referências l Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados. Eduardo F. A. Silva, Flávia A. Barros & Ricardo B. C. Prudêncio l http: //gate. ac. uk/ie/index. html l Negócios Integrados - http: //www. ni. com. br/ l PT Sistemas de informação - http: //www. ptsi. pt/PTSI l ATSolutions - http: //www. atsolutions. com. br/ l Techne - http: //www. techne. com. br/ l Datacraft - http: //www. datacraft. com. br/ l NBCI - http: //www. ncbi. nlm. nih. gov/ l Semiotic Systems - http: //www. semiotic. com. br/ l E. life - http: //www. elife. com. br/