Ontologias e Web Semantica aplicada a Integrao de
Ontologias e Web Semantica aplicada a Integração de Dados Ana Paula Cavalcanti apcc 2@cin. ufpe. br 9/30/2020 1
O que vamos ver? n n n Introdução Ontologias Web-Semântica Aplicação no contexto de Integração de Dados Estudo de casos Considerações Finais 9/30/2020 2
Introdução n n n o aumento exponencial dos dados disponíveis estudos relacionados à importância das técnicas de estruturação de informação, focando a melhor definição de conceitos para uma computação de informações eficiente melhorias no tratamento de dados, atuando na seleção, processamento, recuperação e disseminação. 9/30/2020 3
Mercado. . . n n [EVERETT, 2002] XEROX Resolução de redundância entre documentos Dicas para consertos de fotocopiadoras “Our goal is to build a system that can identify such conceptually similar documents, regardless of how they are written; identify the parts of two documents that overlap; and identify parts of the documents that stand in some relation to each other. . . ” 9/30/2020 4
Mercado. . . [EVERETT, 2002] For example, we can define a single Damage concept that has four roles: Extent, Material, End. State, and Means. 9/30/2020 5
Mercado. . . n n [EDGINGTON, 2004] Ontologia para facilitar gestão do conhecimento Desenvolvimento de ontologia de domínio para a Intel Corporation “The project arose out of a need to better utilize past information in performing failure analysis and failure identification (FA/FI) on integrated chips at a large semiconductor manufacturing firm. ” “The initial goal of the project was to make better use of the existing knowledge base on failure causes and analysis tasks to increase throughput. The ontology development was based on workflow reports, which were considered first, and then further refined by archival documents. ” 9/30/2020 6
Mercado. . . [EDGINGTON, 2004] • Processo aplicado: • Facilitar a descoberta de Conhecimento • Compartilhamento de conhecimento • Metadados • Taxonomia 9/30/2020 7
Mercado. . . n [EDGINGTON, 2004] “Knowledge management requires a continuous system of interaction and iteration with the knowledge owners to validate existing knowledge. Such iteration also allows for additional knowledge to be contributed as the knowledge lens becomes more apparent to all participants. The resulting ontology becomes useful as a foundation for interorganizational communication and ontology expansion, and also for training and intraorganizational value. ” 9/30/2020 8
Introdução “Ontologies help us represent information in different ways, but we need to look much deeper for a sharper picture. ” [CASTEL, 2002] n n Ontologias maneira de dividir a realidade com objetivo de melhor compreender e processá-la Web-Semântica expandir a aplicação dessa modelagem de conhecimento no domínio Web 9/30/2020 9
Ontologias {Conceitos} n n “a especificação explícita de uma conceitualização” [GUARINO, 1998] “uma ontologia é o produto de uma tentativa de formular esquemas conceituais exaustiva e rigorosamente sobre um determinado domínio. É tipicamente uma estrutura de dados hierárquica contendo todas as entidades relevantes, seus relacionamentos e regras de um determinado domínio”. [WIKIPEDIA] 9/30/2020 10
Ontologias {Conceitos} n n avalia-se o vocabulário do projeto uniformização da unidade de informação presente 9/30/2020 11
Ontologias {E outras áreas de domínio } [GRUNINGER, 2002] o uso das ontologias em diversas áreas de conhecimento Reuso e Integração de Dados 9/30/2020 12
Ontologias {Classificação} [GUARINO, 1998], n n n uma maneira de compreender seu estado de definição para poder formalizar uma integração de informações. Implicação do nível na integração de dados Ontologias genéricas: {tempo, espaço, matéria, objeto, evento, ação} Ontologias de Domínio: {medicina, direito, eletrônica} Ontologias de Tarefa: {diagnose} Ontologias de Aplicação: {atividade específica} 9/30/2020 13
Engenharia da Ontologia n n Conjunto de atividades focalizando definição do conceito, modelagem, implementação e implantação para um determinado domínio pode ser vista como um processo auxiliar para ser aplicado em contextos específicos 9/30/2020 14
Processo de Criação de Ontologias No escopo do processo de criação, uma a ontologia não é meramente um vocabulário ou uma taxonomia, ela é caracterizada por mecanismos e conteúdo, podendo incluir hierarquias conceituais e modelagem de conhecimento como sub-produtos especificados no processo de definição da mesma. [EDGINGTON, 2004] 9/30/2020 15
Ontologias n n n n {correlação com outras disciplinas } Arquitetura de Software Linguagens de programação Compiladores Engenharia de Software Tradicionais Analise e projeto orientado a objetos Padrões de projeto e Desenvolvimento baseado em componentes 9/30/2020 16
Ontologias {Linguagens} [ALMEIDA, 2003] Linguagens Descrição Cyc. L Linguagem formal que expressa conhecimento por meio de um vocabulário de termos (constantes semânticas, variáveis, números, seqüências de caracteres, etc. ) os quais são combinados em expressões, sentenças e finalmente bases de conhecimento. Flogic Integra frames e lógica de primeira ordem. Trata de uma forma declarativa os aspectos estruturais das linguagens baseadas em frames e orientadas a objeto (identificação de objetos, herança, tipos polimórficos, métodos de consulta, encapsulamento etc. ). Permite a representação de conceitos, taxonomias, relações binárias, funções, instâncias, axiomas e regras. CARIN LOOM Descendente da família KL-ONE (Kbowledge Language One), é baseada em lógica descritiva e regras de produção. Permite a representação de conceitos, taxonomias, relações n-árias, funções, axiomas e regras de produção. CARIN Trata-se de uma combinação da Datalog (linguagem baseada em regras) e lógica descritiva ALN. Uma ontologia CARIN é construída por dois componentes terminológicos: um conjunto de conceitos com declarações de inclusão e um conjunto de regras que usam os conceitos. 9/30/2020 17
Ontologias {Linguagens} [ALMEIDA, 2003] Linguagens Descrição GRAIL É uma linguagem que especifica uma ontologia do domínio médico. É uma linguagem baseada em lógica descritiva, terminologicamente limitada, que permite a construção de hierarquias de primitivas e axiomas de inclusão de conceitos. Ontolíngua Combina paradigmas das linguagens baseadas em frames e lógica de primeira ordem. Permite a representação de conceitos, taxonomias de conceitos, relações n-árias, funções, axiomas, instâncias e procedimentos. Sua alta expressividade causa problemas na construção de mecanismos de inferência. OCML Permite a especificação de funções, relações e classes, instâncias e regras. Utilizada em aplicações de gerenciamento do conhecimento, desenvolvimento de ontologias, comércio eletrônico e sistemas baseados em conhecimento. Aplicada em medicina, ciências sócias, memória corporativa, engenharia, portais da Web etc. OML Linguagem baseada em lógica descritiva e grafos conceituais que permite a representação de connceitos organizados em taxonomias, relações e axiomas. 9/30/2020 18
Ontologias {Linguagens} [ALMEIDA, 2003] Linguagens Descrição RDF Desenvolvido pelo W 3 Consortium, têm por objetivo a representação de conhecimento por meio da idéia de redes semânticas. São linguagens que permitem a representação de conceitos, taxonomias de conceitos e relações binárias NKRL Linguagem de representação baseada em frames especialmente desenvolvida para descrever modelos semânticos de documentos multimídia SHOE Utiliza extensões ao HTML, adicionando marcações para inserir metadados em paginas Web. As marcações podem ser utilizadas para construção de ontologias e para anotações em documentos da Web XOL É uma linguagem que pode especificar conceitos, taxonomias e relações binárias. Não possui mecanismos de inferência e foi projetada para a intercâmbio de ontologias no domínio da biomédica 9/30/2020 19
Ontologias {Linguagens} [ALMEIDA, 2003] Linguagens Descrição OIL Precursor do DAML+OIL e base para uma linguagem para a Web Semâtnica. Combina primitivas de modelagem das linguagens baseadas em frames com a semântica formação e serviços de inferência da lógica descritiva. Pode verificar classificação e taxonomias de conceitos. DAML+OIL é uma linguagem de marcação semântica para a web que apresenta extensões a linguagens como o DAML, RDF e RDFS, por meio de primitivas de modelagem baseadas em linguagens lógicas. FOML Trata-se de uma linguagem de marcação, baseada em XML, que conecta documentos da Web com ontologias formais. O objetivo é a aquisição automática de conhecimento de domínios específicos. 9/30/2020 20
Web-Semântica • significado aos conteúdos das paginas Web • ambiente onde agentes de software possam vasculhar os conteúdos de cada página para mostrar dados relevantes para o usuário final 9/30/2020 21
Web-Semântica {Conceitos} n n [HENDLER, 2001], a Web Semântica pode ser considerada como a composição de um grande número de pequenos componentes ontológicos que apontam entre si. computadores necessitam ter acesso a coleções estruturadas de informações (dados e metadados) e de um conjunto de regras de inferência que ajudem no processo de dedução automática 9/30/2020 22
Web-Semântica {Tecnologias} n n XML – Extensible Markup Language RDF: mecanismo para prover facilidade de descrição de forma genérica. Fornece uma tecnologia para expressar o significado de termos e conceitos de uma maneira que um computador possa ler e processar. RDF Utiliza a sintaxe XML. [DECKER, 2000] apresenta uma descrição detalhada dessa tecnologia, assim como descrição de ferramentas de suporte e implantação da tecnologia. 9/30/2020 23
Web-Semântica {Tecnologias} Typically, a Semantic Web language for describing ontologies and instance data contains a hierarchical description of important concepts in a domain. [NOY, 2001] 9/30/2020 24
Integração de Dados n n o valor prometido pelo uso de uma ontologia é que novas fontes de dados possam ser integradas às bases de informações sem ser preciso alterar a estrutura existente. A interoperabilidade tem que ser fornecida em um nível técnico e informacional, de modo que o compartilhamento não apenas necessite fornecer o acesso completo aos dados, mas também que os mesmos possam ser processados e interpretados por diversos sistemas heterogêneos. 9/30/2020 25
Integração de Dados n n modelagem de domínio para permitir que o modelo de organização dos dados seja visualizado de forma transparente Linguagem comum de compreensão por todos os sistemas integrados. 9/30/2020 26
Projetos. . . [ALMEIDA, 2003] Projeto Descrição Onto. Seek Recupera informações de catálogos de produtos on-line utilizando um sistema de agentes inteligentes, um mecanismo de casamento de padrão baseado em ontologias para tratar o conteúdo e um formalismo para representação. Web. KB-2 Permite que usuários da Web recuperem e adicionem em uma base compartilhada; permite a publicação de informações automaticamente recuperáveis e comparáveis com as de outro usuários. C-Web-Community Web Formaliza o conhecimento comum utilizado por comunidades da Web; a limitação é conseguir um ponto de acesso único para as várias fontes de informação das comunidades. Seal (Semantic Portal) Possibilita o desenvolvimento de portais semânticas a partir de abordagem baseada em ontologias; explora o aspecto semântico por meio do fornecimento e acesso a informações em um portal. 9/30/2020 27
Estudo de Caso CORPORUM [FENSEL, 2002] The On-to-Knowledge Project is exploiting ontologies to develop a methodology and tools for automatically acquiring, maintaining, and accessing weakly structured data sources. em um nível mais baixo: Queries de linguagem natural para extrair metadados Nível médio: repositório de dados que fornece acesso automático aos metadadtos Nível superior: Clientes e fornecedores aplicam técnicas de explorar e modificar os domínios 9/30/2020 28
Estudo de Caso CORPORUM [FENSEL, 2002] • Resource Description Framework to represent metadata • OIL. The Ontology Inference Layer, described in the “Grades of OIL” sidebar, provides precise, machine-accessible semantics for describing term meanings as well as implied information. • Sesame: Corporum exports the metadata it has extracted from Web pages in RDF format to Sesame, a repository and querying facility designed to offer scalability, portability, and extensibility. 9/30/2020 29
Estudo de Caso CORPORUM [FENSEL, 2002] • Ontology middleware module. The open architecture’s key integration component works with a number of protocols and technologies. • Advanced reasoning engine. This system provides additional services to extend Sesame’s functionality. Most of the classical reasoning tasks for description logics are available, including realization and retrieval. 9/30/2020 30
Estudo de Caso n n n [MISSIKOFF, 2002] Desenvolvido a partir da Onto. Learn tool Pode construir e acessar uma ontologia de domínio para integração inteligente de informação em uma comunidade de usuários virtual. Explora documentos disponíveis na e sites Web relacionados Aprende conceitos de domínio e detecta taxonomias relacionadas entre eles Floresta de domínio 9/30/2020 31
Estudo de Caso • 1. 2. 3. [MISSIKOFF, 2002] Auto aprendizado Sym. Onto. X para atualizar e corrigir o domínio aprendido Usuários de domínio e especialistas usam o Con. Sys para validadr Sugestões são passadas par um Syn. Onto. X 9/30/2020 32
Estudo de Caso [MISSIKOFF, 2002] 3 fases: • Extração e filtragem de terminologia • Interpretação semântica, • Geração da floresta 9/30/2020 33
Estudo de Caso [MISSIKOFF, 2002] 9/30/2020 34
Estudo de Caso [NOY, 2001] Criação de Web-Semântica com a Protégé 9/30/2020 35
Estudo de Caso [NOY, 2001] 9/30/2020 36
Estudo de Caso [BELIAN, 2004] – Integra • O Integra é um sistema para integração de informações distribuídas em fontes de dados na WEB • arquitetura baseada em mediação que adota a abordagem GAV (Global as View) 9/30/2020 37
Estudo de Caso [BELIAN, 2004] – Integra • O Integra é um sistema para integração de informações distribuídas em fontes de dados na WEB • arquitetura baseada em mediação que adota a abordagem GAV (Global as View) • utiliza XML como modelo comum para intercâmbio de dados • SML Schema representação padrão para o esquema de mediação e esquemas das fontes de dados Agrupamento de conceitos semanticamente similares: esta tarefa unifica os conceitos semanticamente similares produzindo um conjunto de clusters 9/30/2020 38
Estudo de Caso [Mc. BRIDE, 2002] – Jena • HP Labs desenvolve Jena toolkit • Facilitar o desenvolvimento de aplicações que utiliza o websemântica • Interface Java Open Source • API RDF – que suporta diferentes tecnologias de armazenamento • Plug-in interfaces para dar suporte a leituras e escritas automáticas para diferentes linguagens que possam ser representadas com RDF 9/30/2020 39
Estudo de Caso [Mc. BRIDE, 2002] – Jena 9/30/2020 40
Estudo de Caso [Mc. BRIDE, 2002] – Jena 9/30/2020 41
Estudo de Caso (Desenvolvimento Baseado em Componentes) [OLIVEIRA, 2004] GOS Goa Ontology Services Busca de componentes para domínio agropecuário Modelo de Ontologia de um ou mais domínio Mecanismo de inferência para tratar a busca de componente Arquitetura Baseada em mediadores Arquitetura Com. Publish 9/30/2020 42
Estudo de Caso (Desenvolvimento Baseado em Componentes) [OLIVEIRA, 2004] Responsável por realizar ligações ontológicas intra e enterdomínios Integração de ontologias: casamento de características constantes em cada modelo MODULOS: Gerente de Consultas (GC): Gerente de Relacionamentos Interontológicos (GRI) Gerente de metadados (GM) Máquina de Inferência (MI) 9/30/2020 43
Considerações Finais n n A integração de dados tem se tornado um requisito necessário quando se avalia o estado atual das aplicações e disseminação de informações. [GRUNINGER, 2002], embora as ontologias tenham sido originalmente motivadas pela necessidade de bases de conhecimento compartilháveis e reusáveis, o reuso e compartilhamento das ontologias ainda é limitado porque seus usuários nem sempre compartilham as mesmas suposições dos modeladores iniciais. 9/30/2020 44
Considerações Finais n n No contexto Web, a preocupação é ainda maior devido a existência de um alto volume de dados. A acessibilidade dessas informações é de forma direta, no entanto, o volume e não classificação da mesma faz com que o uso do conhecimento não seja da melhor forma aproveitado. 9/30/2020 45
Bibliografia n n n [ALMEIDA, 2003] ALMEIDA, Mauricio B. , BAX, Marcello P. Uma visão geral sobre ontologias: pesquisa sobre definições, tipos, aplicações, métodos de avaliação e de construção. Ci. Inf. v. 32, n. 3, p. 7 -20. dezembro 2003 [BELIAN, 2004] BELIAN, Rossali Barreto, SALGADO, Ana Carolina. Aspectos Semânticos em um sistema de integração de informações na Web. I Worshop de Web Semântica. Outubro de 2004 [BERNERS-LEE, 2002] BERNERS-LEE, Tim, HENDLER, James, LASSILA, Ora. The Semantic Web. Scientific American Special Online Issue. April 2002 [CASTEL, 2002] CASTEL, Felipe. Ontological Computing. Communications fo the ACM. Vol 45, Num 2. Febuary 2002. [DECKER, 2000] DECKER, Stefan, MITRA, Prasenjit, MELNICK, Sergey. Framework for teh Semantic Web: An RDF Tutorial. IEEE Internet Computing. December 2000 [DEVEDZIC, 2002] DEVEDZIC, Vladan. Understanding Ontological Engineering. Communications of the ACM, Vol 45, Issue 4. April, 2002 9/30/2020 46
Bibliografia n n n n [DUMBILL, 2001] DUMBILL, Edd. Building the Semantic Web. March 07, 2001 http: //www. xml. com/pub/a/2001/03/07/buildingsw. html [EDGINGTON, 2004] EDGINGTON, Theresa, CHOI, Beomjin, HENSON, Katherine, RAGHU, T. S. , VINZE, Ajay. Adopting Ontology to Facilitate Knowledge Sharing. Communications of the ACM. Vol 47, Num 11. November 2004. [EVERETT, 2002] EVERETT, John O. , BORROW, Daniel G. , STOLLE, Reinhard, GROUCH, Richard, PAIVA, Valeria, CONDORAVDI, Cleo, BERG, Martin Van Den, POLANYI, Livia. Making Ontologies Work for Resolving Redundancies Across Documents. Communications fo the ACM. Vol 45, Num 2. Febuary 2002. [FENSEL, 2002] FENSEL, Dieter. Ontology-Based Knowledge Management. IEEE Computer. November, 2002. [GRUNINGER, 2002] GRUNINGER, Michael. LEE, Jintae. Ontology Applications and Design. Communications of the ACM. Vol 45, Num 2. Febuary 2002. [GUARINO, 2002] GUARINO, Nicola, WELTY, Christopher. Evaluating Ontological Decisions With ONTOCLEAN. Communications fo the ACM. Vol 45, Num 2. Febuary 2002. 9/30/2020 47
Bibliografia n n n n [GUARINO, 1998] GUARINO, Nicola. Formal Ontology and Information Systems. Proceedings of FOIS'98. Trento/Italy, June 1998. [HENDLER, 2001] HENDLER, J. Agents and the semantic web. IEEE Intelligent Systems, mar. /abr. 2001. [KIM, 2002] KIM, Henry. Predicting HOw Ontologies for the Semantic Web Will Evolve. [MARSHALL, 2003] MARSHALL, Catherine C. , SHIPMAN, Frank M. Which Semantic Web? Conference on Hypertext and Hypermedia archive. Proceedings of the fourteenth ACM conference on Hypertext and hypermedia. 2003. [Mc. BRIDE, 2002] Mc. BRIDE, Brian. Jena: A Semantic Web Toolkit. IEEE Internet Computing. December 2002 [NOY, 2001] NOY, natalya F. , SINTEK, Michael, CRUBÉZY, Monica, GERGERSON, Ray W, MUSEN, Mark, A. Creating Semantic Web Contents with Protégé-2000. IEEE Internet Computing. 2001. [MISSIKOFF, 2002] MISSIKOFF, Michele. NAVIGLI, Roberto. VELARDI, Paola. Integrated Approach to Web Ontology Learning and Engineering. IEEE Computer. November, 2002. 9/30/2020 48
Bibliografia n n n [NOY, 2001] NOY, natalya F. , SINTEK, Michael, CRUBÉZY, Monica, GERGERSON, Ray W, MUSEN, Mark, A. Creating Semantic Web Contents with Protégé-2000. IEEE Internet Computing. 2001. [MISSIKOFF, 2002] MISSIKOFF, Michele. NAVIGLI, Roberto. VELARDI, Paola. Integrated Approach to Web Ontology Learning and Engineering. IEEE Computer. November, 2002. [OLIVEIRA, 2004] OLIVEIRA, Alessandreia, BRAGA, Regina M. M. , CAMPOS, Fernanda. MATTOSO, Marta. GOS. Especificação de um mecanismo de busca e recuperação de componentes. Workshop Iberoamericano de Ingeniería de Requisitos y Ambientes Software (IDEAS 2004) [WACHE, 2001] WACHE, H. , V¨OGELE, T. , VISSER, U. , STUCKENSCHMIDT, H. SCHUSTER, NEUMANN, G. e H¨UBNER, S. Ontology-Based Integration of Information — A Survey of Existing Approaches. Intelligent Systems Group, University of Bremen, Germany, 2001. [WIKI] http: //en. wikipedia. org/wiki/Ontology_(computer_science) em 22/06/2005 [W 3 C] World Wide Web Consortium. http: //www. w 3 c. org 9/30/2020 49
- Slides: 49