Fakultet za informatiku i raunarstvo Univerzitet Singidunum Implementacija

  • Slides: 16
Download presentation
Fakultet za informatiku i računarstvo Univerzitet Singidunum Implementacija Big Data analitičkih sistema upotrebom Hadoop

Fakultet za informatiku i računarstvo Univerzitet Singidunum Implementacija Big Data analitičkih sistema upotrebom Hadoop tehnologije - Seminarski rad iz predmeta Informacioni sistemi- Profesor: Prof. dr Angelina Njeguš Student: Milanović Miloš 2012/200487 Beograd, 2015.

Sadržaj • • • Big data Hadoop Kako Hadoop funkcioniše? Implementacija Potrebna infrastruktura Benchmarking

Sadržaj • • • Big data Hadoop Kako Hadoop funkcioniše? Implementacija Potrebna infrastruktura Benchmarking 2

Big data • Pojam koji se koristi da opiše količinu podataka toliko veliku, da

Big data • Pojam koji se koristi da opiše količinu podataka toliko veliku, da bi pokušaj njihove obrade na tradicionalan način bio neadekvatan (https: //www. wikipedia. org/) • Pod obradom se podrazumeva analiza, prikupljanje, pretraga, deljenje, skladištenje, prenos, vizualizacija, privatnost. . . • Termin se ipak najčešće odnosi na analizu 3

Big data – UPS primer • Najveća shipping kompanija na svetu (1907) • 16

Big data – UPS primer • Najveća shipping kompanija na svetu (1907) • 16 PB (1015) podataka • ORION projekat – sposoban da dostavi 10 k optimizacija ruta saobraćaja u minutu – baziran na real-time informacijama – efikasniji vozači – 1 milja dnevno = 1. 5 miliona galona godišnje = 50 mil. USD 4

Hadoop • Apache Open source • Google Map. Reduce • Podržava distribuirano programiranje i

Hadoop • Apache Open source • Google Map. Reduce • Podržava distribuirano programiranje i upravljanje sa velikim količinama podataka • A 9 (Amazon), e. Bay, Facebook, Google, Twitter, Yahoo. . . 5

Hadoop • Kada je Hadoop potreban? – za ogromne količine podataka (> 10 TB)

Hadoop • Kada je Hadoop potreban? – za ogromne količine podataka (> 10 TB) – kompleksne statističke simulacije 6

Kako Hadoop funkcioniše? • • • Write Once Read Many koristi No. SQL Hadoop

Kako Hadoop funkcioniše? • • • Write Once Read Many koristi No. SQL Hadoop Distributed File System – HDFS Map. Reduce HBase, Ambari, RHadoop, Hive. . . 7

Kako Hadoop funkcioniše? 8

Kako Hadoop funkcioniše? 8

Implementacija • Dva pristupa implementaciji: – Hadoop-only deployment – Hadoop integracija sa tradicionalnim BP

Implementacija • Dva pristupa implementaciji: – Hadoop-only deployment – Hadoop integracija sa tradicionalnim BP • Hadoop deployments – http: //hadoop. apache. org/ – idealne za analizu nestruktuiranih podataka • Integracija sa tradicionalnim BP – pogodne i za struktuirane i nestruktuirane podatke 9

Implementacija • Podaci se uglavnom čuvaju i obrađuju na cluster serverima • Svaki server

Implementacija • Podaci se uglavnom čuvaju i obrađuju na cluster serverima • Svaki server ima jedan master i više slave čvorova • Klijent se obraća master čvoru, master čvor komunicira sa slave čvorovima • Podaci se repliciraju na više čvorova zbog veće pouzdanosti • U slučaju da se javilo do greške, podaci se ponovo obrađuju na svakom čvoru pojedinačno – ovo štedi bandwidth što održava performanse i dostupnost visokim 10

Implementacija 11

Implementacija 11

Klijent-server model komunikacije 12

Klijent-server model komunikacije 12

Potrebna infrastruktura Performance Server Networking Storage Good Intel® Xeon® Processor E 5 Family 10

Potrebna infrastruktura Performance Server Networking Storage Good Intel® Xeon® Processor E 5 Family 10 Gb. E HD Better Intel® Xeon® Processor E 5 Family 10 Gb. E HD or SSD with tiered storage capabilities Best Intel® Xeon® Processor E 5 Family 10 Gb. E SSD 13

Potrebna infrastruktura • Cent. OS – GNU/Linux – verzija 7 • Java – verzija

Potrebna infrastruktura • Cent. OS – GNU/Linux – verzija 7 • Java – verzija 8 – JDK • Hadoop – Cloudera – CDH verzija 5. 4. 2 14

Benchmarking • Tehnika komparativne analize kojom se traga za najboljom praksom koja će voditi

Benchmarking • Tehnika komparativne analize kojom se traga za najboljom praksom koja će voditi ka superiornim performansama • Hi. Bench – https: //github. com/hibench/Hi. Bench-2. 1 – Sort, Word. Count, Page Rank, Bayesian Classification itd. 15

Literatura • Intel® Education Content Access Point – getting-started-with-hadoop-planning-guide – 10 gbe-10 gbase-t-hadoop-clusters-paper •

Literatura • Intel® Education Content Access Point – getting-started-with-hadoop-planning-guide – 10 gbe-10 gbase-t-hadoop-clusters-paper • http: //www. oracle. com/technetwork/articles/serve rs-storage-admin/implementing-bigdata 1502704. html • https: //www. youtube. com/watch? v=_m. GIAOIg. D 6 I 16