Arquitetura orientada a dados para Big Data Eduardo
Arquitetura orientada a dados para Big Data Eduardo Oliveira – ehro@cin. ufpe. br S
Roteiro S Motivação S Objetivos S Conceitos S Modelo de arquitetura S Exemplos de aplicação S Referências
Big data A quantidade de informação gerada no primeiro dia de vida de um bebê é equivalente a 70 vezes a quantidade de informação contida na biblioteca do congresso americano.
Qual o tamanho da web?
Big data
Qual o tamanho da web? (Fonte: www. worldwidewebsize. com)
Muita informação x pouca atenção S Abundância de fontes de informação S Empresas tem mais dados do que podem gerenciar S Pobreza de atenção: Para onde olhar? ! S Como focar a atenção de forma eficiente? S Tomar decisões com base na informação certa S Gerenciamento correto das informações S Obtenção, processamento, armazenamento e distribuição S Sistemas legados
O que significa "orientado a dados" ? S Dados = ativos valiosos S Gerar ações e decisões S Big Data S Big Money? S Big Mess? S Dados no centro das arquiteturas de sistemas S Auxiliar a tomada de deciso es S Facilitar o aprendizado (novos conhecimentos) S Qualidade x quantidade (mais não significa melhor)
O que as empresas buscam com Big Data? S Usar dados para tomar decisões (objetivo principal) S S “Self-service” dos dados para atingir esse objetivo S S Usuário define qual dado é relevante Dados “frescos” são tão importantes quanto o volume. S S S Dados -> Informações -> Conhecimento -> Decisões Dados em tempo real 90% dos dados são antigos e com pouco valor Dados personalizados S S Dados genéricos -> facilmente copiados Sistemas de recomendação
Desafios com Big data S Como se manter competitivo? S Como manter sistemas legados? S Como integrar sistemas? S Como gerenciar tantos dados?
Quais os objetivos? S Quais as fontes de dados existentes e quais sistemas podem ser plugados a uma arquitetura integrada para big data? S Como os problemas de negócios e operações da organização se enquadram nas estratégias para big data? S Que objetivos da empresa se esperam ser concretizados utilizando-se big data? S Como levar em consideração novos conjuntos e novas fontes de dados (por exemplo, internet das coisas)? S Como uma arquitetura big data pode trazer o pensamento orientado a dados e análises para o centro do negócio? S Quais são os componentes necessários para concretizar e operacionalizar soluções big data e de análise além de protótipo?
Arquitetura orientada a Big Data S
Arquitetura orientada a big data S Modelo / Plano S Deve contemplar: S Gerenciamento dos dados S Integração entre aplicações (APIs, protocolos) S Segurança da informação S Governança dos dados
Fontes de dados big data S Formatos: S Estruturadas (BD relacionais) S Semi-estruturados (JSON, XML, …) S Não-estruturados (e-mails, mensagens, PDFs. …) S Dados ambíguos S Tipos, nomes, precisão, sistema métrico, . . . S Camadas de hierarquia S Falta de metadados
Entender os dados… S Dados importantes (core) S Dados comuns (compartilhado entre sistemas) S Segurança de acesso S Grupos de usuários S Aplicações S Regras e processos
… e os metadados! S Metadados mudam ao longo do tempo! S Fusões / aquisições S Novos sistemas S Integração de sistemas legados S Recuperar backup S BD arquivado S Metadados são tão importantes quanto dados S Manter rastreamento S Informações históricas de tipos, tamanhos, restrições…
Metadados - Quanto custa? S Custo de comissionamento de novas aplicações; S Curva de aprendizagem para novos empregados; S Solução de problemas nas aplicações; S Criação de novas aplicações de BI (business intelligence) e analyses; S Auditoria de dados; S Auditoria de conformidade (compliance).
Processar Big Data - Etapas S S Obter: S Processar S Fontes de dados internas e externas S Padronizar dados S Em tempo real ou em lote S Metadados S Semântica Analisar S classificar, rotular e categorizar S Distribuir S Disponibilizar dados para consumo (aplicações analísticas e relatórios)
Conhecimento S O desenvolvimento do conhecimento ocorre em etapas:
Modelo de arquitetura
Modelo de arquitetura Data-as-a-Service (Daa. S): • componentes de carregamento e ingestão de dados • repositório de dados e serviços de dados
Modelo de arquitetura Information-as-a-Service (Iaa. S): • componentes de processamento em lote e em tempo real • repositório de conhecimento e serviços de informação • manter e disponibilizar a informação atualizada para os usuários
Modelo de arquitetura Knowledge-as-a-Service (Kaa. S): • serviços de conhecimento dando suporte as atividades organizacionais tais como: • descoberta de conhecimento • colaboração • aprendizagem • tomada de decisão • serviços de controle • conhecimento gerado é então salvo no repositório de conhecimento
Modelo de arquitetura Business Process-as-a-Service layer (BPaa. S): • entrega os serviços para as aplicações, combinando-as com processos de conhecimento intensivo do negócio
Modelo de arquitetura
Quais ferramentas usar? S Não existe uma ferramenta única capaz de dar todas as respostas!
Ecossistema Hadoop
Modelo de arquitetura Ferramentas
Modelo Tradicional S A natureza off-line impõe latência no sistema (em horas ou dias) antes que relatórios ou painéis possam ser visualizados com os dados mais recentes (? !).
Netflix S 500 bilhões de eventos/dia S Pico: 8 milhões de eventos/s S 1. 3 petabyte dados/dia (1. 000 GB) S Pico: 24 GB/s S Uso intenso de aprendizagem de máquina (todas as camadas)
Twitter S ~320 milhões de usuários S 100 milhões ativos/dia S 500 milhões de tweets/dia S 6 mil/s S Pico: 618. 725 em 60 segundos (após final da copa 2014) S Brasil x Alemanha: 35. 6 milhões de tweets (pula essa…)
Entrada Requisiçõe s Input Tweets
A menor vantagem pode fazer a maior diferença S No mundo dos negócios, vantagens competitivas são dificéis de se sustentar por muito tempo.
Dúvidas?
Referências S http: //www. enterpriseappstoday. com/business-intelligence/3 -rules-for-data-driven-architecture. html S http: //www. mckinsey. com/business-functions/digital-mckinsey/our-insights/three-keys-to-building-a-data-drivenstrategy S http: //www. mckinsey. com/business-functions/digital-mckinsey/our-insights/making-data-analytics-work-for-youinstead-of-the-other-way-around S http: //www. infoworld. com/article/3055714/analytics/5 -steps-to-a-modern-data-architecture. html S http: //www. cisco. com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-whitepaper-c 11 -481360. html S http: //www. zoomdata. com/blog/big-data-driven-organization/ S http: //www. business 2 community. com/big-data/become-data-driven-business-01626595#d. Ud. Jzu 2 PXEz. MJoag. 97 S https: //www. linkedin. com/pulse/your-enterprise-data-platform-ready-dive-digital-chatterjee
- Slides: 38