Pentaho Data Integration Cea Moraes Novembro2018 Pentaho Data
Pentaho Data Integration Ceça Moraes Novembro/2018
Pentaho Data Integration (PDI) • PDI ou Kettle • https: //community. hitachivantara. com/communi ty/products-and-solutions/pentaho – Fazer download do Data Integration – Atualmente versão 7. 1 • Componente da suite do Pentaho responsável pelos processos de ETL – Extraction, Transformation and Load • Descompactar numa pasta – Jogar o driver JDBC do My. SQL na pasta lib (arquivo mysql-connector-java-5. 1. 36 -bin. jar)
Outra Aplicações do PDI • Migração de dados entre aplicações/banco de dados • Exportar dados de banco de dados para outros formatos • Limpeza de dados
Componentes PDI • Spoon – Criação de transformações e jobs • Pan – Execução de transformações com agendamento em intervalos • Kitchen – Execução de jobs com agendamento em intervalos • Carte – web server para execução remota de transformações e jobs
Kettle ou PDI • Inicia-se o spoon. bat ou spoon. sh
Kettle ou PDI
Transformação • Conjunto de passos interligados ou não • Contém fontes e saídas dos dados • Conceito de stream (fluxo de dados) = entrada e saída de um passo • Uma transformação para cada dimensão • Arquivos *. KTR criados pelo Spoon
Passos (Steps) • Unidade mínima da transformação • Grande variedade de tipos – Input, Output, Joins, . . . • Tipos básicos: entrada, transformação, saída
Passos (Steps)
Hops • Links entre os steps • Indicam fluxo dos dados (streams) – Origem e destino
Jobs • Conjunto para execução de várias transformações • Arquivos *. KJB do Spoon
Tcharan. . .
ETLS NO PENTAHO DATA INTEGRATION (KETTLE)
Base Operacional: base_vendas
Data Warehouse: dw_vendas
Conexões
Conexões
Dimensão: Produto
Dimensão Produto
Tipo de Steps • Tipos de steps utilizados – Table Input (da aba “Input”) – Dimension lookup/update (da aba “Data Warehouse” – Execute SQL Script (da aba “Scripting”)
Dimensão Produto
Dimensão Produto IMPORTANTE!!!!!!! O “Get Fields” só funciona se o step de origem (Input Table) estiver conectado ao Dimension Lookup por um Hop Para criar o hop: 1. Clica no step de origem 2. Segurando a tecla <shift>, arrasta o mouse até o step de destino 3. Clica no step destino
Dimensão Produto
Dimensão Produto
ATENÇÃO!!! • Executar todas as ETLs das dimensões ANTES de executar a ETL do Fato • A carga da tabela da dimensão tempo também deve ser feita ANTES da do fato • Para executar uma transformação: APERTA NO PLAY!!!!!!
Fato Vendas
Fato Vendas
Tipo de Steps • Tipos de steps utilizados – Table Input (da aba “Input”) – Database lookup (da aba “Lookup” – Select Values (da aba “Transform”)
Tipo de Steps • Tipos de steps utilizados – Memory Group By (da aba “Statistics”) – Table Output (da aba “Output”
Fato Vendas
Fato Vendas PK dimensão FK fato
Fato Vendas
Fato Vendas • Fazer um Database Lookup para cada dimensão e sequenciá-los
Fato Vendas
Fato Vendas
Fato Vendas
Fato Vendas
Fato Vendas
Mãos à obra e divirtam-se!!!
- Slides: 40