Hadoop distributions Hadoop est un framework Java libre
Hadoop distributions Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et scalables. Le HDFS est un système de fichiers distribué, extensible et portable développé par Hadoop. Écrit en Java, il a été conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés. Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : • Name. Node (nœud de noms) : ce composant gère l'espace de noms, l'arborescence du système de fichiers et les métadonnées des fichiers et des répertoires. • Data. Node (nœud de données) : ce composant stocke et restitue les blocs de données. https: //fr. wikipedia. org/wiki/Hadoop
Hadoop est en aucun cas une solution out-of -the-box. Afin de construire une entreprise véritablement infos entraînée , où les décisions Hadoop distributions Pourquoi une distribution? Hadoop est en aucun cas une solution de type ‘box’, l’intervention de multiples composants issus du monde open source rend son installation et son exploitation délicates. Les entreprises ont besoin d'une solution de gestion de données qui soit robuste, mais facile à intégrer avec l'infrastructure existante. L' architecture flexible et modulaire de haddoop permet d'ajouter de nouvelles fonctionnalités pour l'accomplissement de tâches diverses. Des distributeurs ont peaufiné le code afin de modifier ou d'améliorer les fonctionnalités. Certains ont été en mesure de résoudre des inconvénients inhérents de Hadoop est notamment distribuée par quatre acteurs qui packagent la solution, proposent des services de formation et un support commercial, mais également des fonctions supplémentaires. Ces distributeurs ainsi ont une réelle plus-value à apporter à leurs clients. Ces distributeurs sont : • Cloudera, la première distribution historique d'Hadoop qui intègre les packages classiques et certains développements propriétaires comme Impala. • Hortonworks • Map. R Technologies - Map. R a développé un système de fichier pour Hadoop palliant les limites du HDFS • IBM Big. Insights for Hadoop, 100% open source Apache Hadoop, propose des extensions analytiques et d'intégration dans le SI(IBM) d'entreprise. https: //fr. wikipedia. org/wiki/Hadoop
Hadoop distributions Cloudera distribution Points clefs: • Portail d’administration Cloudera Manager (Propriétaire) • Couche unifiée d’accès aux données Impala (Open Source) Les entreprise voulaient une gestion et outil de surveillance pour Hadoop , Cloudera créa 'Cloudera Manager'. Les entreprise voulaient un moteur SQL plus rapide pour Hadoop , Cloudera créa 'Impala'. Cloudera a plus de 200 des clients grands comptes, dont des déploiements de plus de mille nœuds soutenant plus d'un pétaoctet de données. http: //fr. cloudera. com/content/cloudera/en/products-and-services/cloudera-enterprise. html https: //youtu. be/US_y 0 Wuv. Db. Y
Hadoop distributions Hortonworks distribution Points clefs: • Fort partenariat avec les gros du métier (Google) • Investissements massifs sur le gestionnaire de ressources YARN • 100% de leurs développement est Open Source YARN = Yet Another Resource Negocitator. Hortonworks distribue Hcatalog, contenant un meta-dictionnaire des objets disponibles sur Hadoop. Tous les outils sont toujours intégrés dans leurs versions les plus récentes. Les tests sont faits directement sur les machines de Google. Participent au projet Ambari, visant a simplifier l’administration des serverus Hadoop. http: //fr. hortonworks. com/hdp/ https: //youtu. be/pa. AYem 07 Ny. A
Hadoop distributions Map. R distribution Points clefs : • Base NOSQL Map. R-DB (Propriétaire) • Utilisation de la technologie NFS (Propriétaire) et non HDFS • Integration des outils gravitant autour de Hadoop Map. R est la seule distribution à installer en natif Apache Spark. Map. R est impliqué dans l’élaboration de la base AADHAAR, plus grosse base d’identification biométrique au monde (1, 2 Miliard d’identités, base utilisée pour les transactions banquaire en inde, interrogée en temps réel). https: //www. mapr. com/products/mapr-distribution-including-apache-hadoop https: //youtu. be/Gk. Qp. UZNa. YT 8
Hadoop distributions Distribution comparison http: //www. experfy. com/blog/cloudera-vs-hortonworks-comparing-hadoop-distributions/
- Slides: 6