Big Data con Hadoop en SQL Server SSIS
Big Data con Hadoop en SQL Server SSIS 2016 Ángel M. Rayo ##SQLSat. Madrid
¿Quién soy? § § § Ángel M. Rayo twitter. com/oyara Technology Lead Expert en Netmind Más de 9. 000 horas de experiencia formativa Microsoft Certified Trainer desde 2005 § MCDBA SQL 2000 – MCSA SQL 2014 ##SQLSat. Madrid
Agenda § § Hadoop HDInsight SQL Server SSIS 2016 Referencias ##SQLSat. Madrid
Big Data con Hadoop en SQL Server SSIS 2016 HADOOP ##SQLSat. Madrid
Hadoop Apache™ Hadoop® ##SQLSat. Madrid Procesado distribuido Grandes conjuntos de datos Clústeres de ordenadores Modelos de programación sencillos
Hadoop • 2003 – Google File System • 2004 – Map. Reduce • 2006 – Hadoop 0. 1. 0 • 2011 – Hadoop 1. 0 • 2015 – Hadoop 1. 7 • 25 de agosto de 2016 – Hadoop 2. 7. 3 ##SQLSat. Madrid
Hadoop – Componentes Apache™ Hadoop® ##SQLSat. Madrid Hadoop Common Hadoop Distributed File System (HDFS™) Hadoop YARN Hadoop Map. Reduce
Hadoop – Otros componentes ##SQLSat. Madrid
Hadoop ##SQLSat. Madrid
Big Data con Hadoop en SQL Server SSIS 2016 HDINSIGHT ##SQLSat. Madrid
HDInsight • Servicio Hadoop alojado en Microsoft Azure • Gestión de clústeres • Framework diseñado para: • Gestión • Análisis • Reporting • Utiliza la distribución Hortonworks Data Platform (HDP) ##SQLSat. Madrid
HDInsight ##SQLSat. Madrid
HDInsight – Uso • Hadoop as a Service (Haa. S) • Crear soluciones y servicios Big Data • Administrar y monitorizar clústeres Hadoop • Analizar y generar estadísticas de: • Disponibilidad • Utilización ##SQLSat. Madrid
HDInsight – Creación ##SQLSat. Madrid
Big Data con Hadoop en SQL Server SSIS 2016 SQL SERVER SSIS 2016 ##SQLSat. Madrid
SQL Server • ¿Hace falta decir qué es? ; -) • Sistema gestor de bases de datos relacionales Microsoft • 1989 – SQL Server 1. 0 • 1 de junio de 2016 – SQL Server 2016 (14. 0) ##SQLSat. Madrid
SQL Server 2016 – Servicios y herramientas Service Broker Replication Services Analysis Services Reporting Services Notification Services Integration Services Full Text Search Service SQLCMD Visual Studio SQL Server Management Studio Business Intelligence Dev Studio ##SQLSat. Madrid
SQL Server 2016 SSIS • Plataforma de integración datos y aplicaciones de flujos de trabajo • Herramienta Data Warehouse rápida y flexible • ETL • Extraction • Transformation • Loading ##SQLSat. Madrid
SQL Server 2016 SSIS Data Transformation Services (DTS) Disponible desde SQL Server 6. 5 a SQL Server 2000 SQL Server Integration Services (SSIS) Disponible desde SQL Server 2005. NET como base de ejecución Control Flow Data Flow Event Handlers Package Explorer ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Situación hasta SQL Server 2014 • Podemos utilizar Hadoop mediante conexión ODBC • Acceso a recursos con scripts Power. Shell Situación desde SQL Server 2016 • Se incluye Hadoop como fuente de datos • SSIS 2016 se integra con soluciones Big Data ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Gestor de conexiones • Web. HCat – API REST Apache™ Hive • Web. HDFS – API REST HDFS ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Tareas de flujo de control (Control Flow) Hadoop File System Task ##SQLSat. Madrid Hadoop Hive Task Hadoop Pig Task
SQL Server 2016 SSIS + Hadoop File System Task Funcionamiento • Obtiene, copia o mueve ficheros • Utiliza la API REST del clúster • El acceso es directo al almacén HDFS ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop File System Task ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Hive Task Funcionamiento • Envía consultas Hive. QL • Utiliza la API REST Web. HCat (aka Templeton) • Funcionamiento mediante sistema de colas ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Hive Task ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Pig Task Funcionamiento • Envía scripts Pig • Pig Latin + API REST de Web. HCat (aka Templeton) • Funcionamiento mediante sistema de colas ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Pig Task ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Tareas de flujo de datos (Control Flow) HDFS File Source ##SQLSat. Madrid HDFS File Destination
SQL Server 2016 SSIS + Hadoop HDFS File Source ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop HDFS File Destination ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Otros componentes • Azure Feature Pack for Integration Services (SSIS) • Componentes: • Gestores de conexiones Azure • Tareas • Componentes de flujo de datos (Data Flow) • Azure Blob Enumerator • https: //www. microsoft. com/en-us/download/details. aspx? id=49492 ##SQLSat. Madrid
SQL Server 2016 SSIS + Hadoop Gestores de conexiones Azure Storage Connection Manager ##SQLSat. Madrid Azure Subscription Connection Manager
SQL Server 2016 SSIS + Hadoop Tareas Azure HDInsight Hive Task ##SQLSat. Madrid Azure HDInsight Pig Task Azure HDInsight Create Cluster Task Azure Blob Upload Task Azure Blob Download Task Azure HDInsight Delete Cluster Task
SQL Server 2016 SSIS + Hadoop Componentes Data Flow Azure Blob Source ##SQLSat. Madrid Azure Blob Destionation
SQL Server 2016 SSIS + Hadoop Azure Blob Enumerator ##SQLSat. Madrid
Referencias Hadoop • http: //hadoop. apache. org/ HDInsight • https: //azure. microsoft. com/es-es/services/hdinsight/ SQL Server 2016 • http: //www. microsoft. com/es-es/server-cloud/products/sql-server/default. aspx ##SQLSat. Madrid
Gracias ¡GRACIAS! @oyara @netmind. IT ##SQLSat. Madrid
BIG Thanks to SQLSat. Madrid Sponsors ##SQLSat. Madrid
4 Sponsor Sessions at 11: 40 Don’t miss them, they might be getting distributing some awesome prizes! § § HPE Solid. Q KABEL TSD Consulting Also BIG Raffle prizes at the end of the event provided by: Plainconcepts, Solid. Q, Kabel, TSD Consulting, Pyramid Analytics & sqlpass. es ##SQLSat. Madrid
- Slides: 40