Tpicos em Bancos de Dados Gerncia de Dados
Tópicos em Bancos de Dados: Gerência de Dados da Web Plano de Aulas 2 o. Semestre de 2004
Semana 1 23 -25 Agosto • Caracterização dos da Web • Modelagem de dados semi-estruturados • Leitura obrigatória: – D. Florescu, A. Levy, and A. Mendelzon. Database Techniques for the World-Wide Web: a Survey. SIGMOD Record, 27(3): 59 -74, 1998. – S. Abiteboul, P. Buneman, and D. Suciu. Data on the Web: From Relations to Semistructured Data and XML. Morgan Kaufmann, San Francisco, California, 2000 (Cap. 2).
Semana 2 30 Agosto - 01 Setembro • Introdução a XML – Sintaxe básica – Modelagem de dados semi-estruturados usando XML • Leitura obrigatória: – S. Abiteboul, P. Buneman, and D. Suciu. Data on the Web: From Relations to Semistructured Data and XML. Morgan Kaufmann, San Francisco, California, 2000 (Cap. 3).
Semana 3 6 -8 Setembro • Linguagens de consulta para a Web: – Web. SQL [Me. MM 1997] , W 3 QL [Ko. Sh 1998] • Liguagens de consulta para dados semi-estruturados: – Lorel [Abi+1997], Stru. QL [FFLS 1998] • Leitura obrigatória: – A. Mendelzon, G. Mihaila and T. Milo. Querying the World Wide Web. International Journal on Digital Libraries, 1(1): 54 -67, 1997. – S. Abiteboul, P. Buneman, and D. Suciu. Data on the Web: From Relations to Semistructured Data and XML. Morgan Kaufmann, San Francisco, California, 2000 (Cap. 4).
Semana 4 13 -15 Setembro • Linguagens de consulta para dados XML: – XML-QL [Deu+1999], XQL [Ro. LS 1998], XQuery [Cham 2002] • Leitura obrigatória: – A. Bonifati and Stefano Ceri: Comparative Analysis of Five XML Query Languages. SIGMOD Record, 29(1): 68 -79, 2000. – S. Abiteboul, P. Buneman, and D. Suciu. Data on the Web: From Relations to Semistructured Data and XML. Morgan Kaufmann, San Francisco, California, 2000 (Cap. 5).
Semana 5 20 -22 Setembro • Gerência de dados XML – – Armazenamento nativo Armazenamento em bancos de dados relacionais Publicação de dados relacionais através de XML Compressão de documentos XML • Leitura obrigatória: – D. Suciu. On Database Theory and XML. SIGMOD Record, 30(3): 39 -45, 2001.
Semana 5 (cont. ) 20 -22 Setembro • Seminários: – H. V. Jagadish et al. TIMBER: A Native XML Database. The VLDB Journal, 11(4): 274 -291, 2002. – D. Lee and W. W. Chu. CPI: Constraints-Preserving Inlining algorithm for mapping XML DTD to relational schema. Data & Knowledge Engineering, 39(1): 3 -25 2001. – J. Shanmugasundaram, E. J. Shekita, R. Barr, M. J. Carey, B. G. Lindsay, H. Pirahesh, and B. Reinwald: Efficiently publishing relational data as XML documents. The VLDB Journal 10(2 -3): 133 -154, 2001. – J. Cheng and W. Ng. XQzip: Querying Compressed XML Using Structural Indexing. In Proceedings of the 9 th International Conference on Extending Database Technology, Heraklion, Crete, Greece, 2004, pp. 219 -236.
Semana 6 27 -29 Setembro • Acessórios para gerência de dados XML (XPath, DOM, XSLT, XML Schema) • Apresentações: – XPath – Acessórios XML
Semana 7 4 -6 Outubro • Extração de dados: visão geral • Ferramentas: Wien, DEBy. E, XWRAP, Road. Runner, Lixto • Leitura obrigatória: – A. H. F. Laender, B. Ribeiro-Neto, A. S. da Silva, and J. S. Teixeira. A Brief Survey of Web Data Extraction Tools. SIGMOD Record, 31(2): 84 -93, 2002. • Apresentações: – DEBy. E: Data Extraction By Example – Extração de Dados da Web usando Distância de Edição em Árvores
Semana 8 11 -13 Outubro • Seminário temático 1: Ferramentas de Extração – N. Kushmerick, D. S. Weld, and R. Doorenbos. Wrapper Induction for Information Extraction. In Proceedings of the 15 th International Joint Conference on Artificial Intelligence, Osaka, Japan, 1997, pp. 729 -737. – V. Crescenzi, G. Mecca, and P. Merialdo. Road. Runner: Towards Automatic Data Extraction from Large Web Sites. In Proceedings of 27 th International Conference on Very Large Data Bases, Rome, Italy, 2001, pp. 109 -118 – D. W. Embley, D. M. Campbell, Y. S. Jiang, S. W. Liddle, D. W. Lonsdale, Y. -K. Ng, D. Quass, and R. D. Smith. Conceptual Model Based Data Extraction From Multiple-Record Web Pages. Data & Knowledge Engineering, 31(3): 227 -251, 1999.
Semana 8 (cont. ) 11 -13 Outubro • Seminário temático 2: Avaliação da Qualidade de Dados Extraídos da Web – N. Kushmerick. Wrapper verification. World Wide Web, 3(2): 7994, 2000. – O. R. F. de Oliveira and A. S. da Silva. Verificação Automática da Qualidade de Dados Extraídos da Web. Anais do XVIII Simpósio Brasileiro de Bancos de Dados, Manaus, AM, 2003, pp. 56 -71.
Semana 9 18 Outubro • Exploração da Hidden Web • Seminário temático 3: Coleta de Páginas Dinâmicas – J. P. Lage, A. S. da Silva, P. B. Golgher, and A. H. F. Laender. Automatic generation of agents for collecting hidden Web pages for data extraction. Data Knowl. Eng. , 49(2): 177 -196, 2004. – S. W. Liddle, D. W. Embley, D. T. Scott, S. H. Yau. Extracting Data behind Web Forms. In Proceedings of ER 2000 Workshops, Tampere, Finland, 2002, pp. 402 -413. – S. Raghavan and H. Garcia-Molina: Crawling the Hidden Web. In Proceedings of 27 th International Conference on Very Large Data Bases, Roma, Italy, 2001, pp. 129 -138.
Semana 10 25 -27 Outubro • Ambientes para gerência de dados da Web: visão geral – Strudel [Fer+1998], Araneus [Mec+1998], DEBy. E [Lae+2002], Xyleme • Seminário temático 4: Integração de Dados na Web – P. Atzeni, G. Mecca, and P. Merialdo. Managing Web-Based Data: Database Models and Transformations. IEEE Internet Computing, 6(4): 33 -37, 2002. – P. Calado et al. The Web-DL Environment for Building Digital Libraries from the Web. In Proceedings of the Third ACM/IEEE Joint Conference on Digital Libraries, Houston, TX, 2003, pp. 346 -357. – H. Garcia-Molina et al. Integrating and Accessing Heterogeneous Information Sources in TSIMMIS. In Proceedings of the AAAI Symposium on Information Gathering, Stanford, CA, 1995, pp. 61 -64.
Semana 11 3 Novembro • Web semântica – Caracterização – Padrões relacionados (RDF, DAML/OIL, OWL, etc. ) – Aplicações e serviços • Leitura obrigatória: – T. Berners-Lee, J. Hendler, and O. Lassila The Semantic Web Scientific American, 284(5): 34 -43, May 2001. – http: //www. w 3. org/2001/sw/ • Seminário temático 5: Aplicações na Web Semântica – Proceedings of the International World Wide Web Conference – Proceedings of the International Workshop on Web Semantics
Semanas 12 e 13 17 -24 Novembro • Introdução a bibliotecas digitais – – Conceituação Arquiteturas Padrões: The Open Archives Initiative Estudos de caso: NDLTD, ETANA-DL, BDBComp
- Slides: 15