Zavod za telekomunikacije SEMINARSKI RAD PRIMJENA PARALELNE OBRADE
Zavod za telekomunikacije SEMINARSKI RAD PRIMJENA PARALELNE OBRADE U ANALIZI DRUŠTVENIH MREŽA Ivan Validžić Zagreb, svibanj 2015.
Sadržaj Zavod za telekomunikacije ¨ ¨ ¨ Analiza podataka Primjena analize podataka Analiza podataka na društvenim mrežama Dubinska analiza podataka Raspodijeljeni datotečni sustav Paradigma Map. Reduce Sustav Hadoop Softver Cloudera Studijski primjer: brojanje riječi Usporedba paralelne i sljedne obrade podataka Zaključak Zagreb, svibanj 2015. 2 od 14
Analiza podataka Zavod za telekomunikacije ¨ ¨ Jedan od pionira u proučavanju analize podataka u medijima je Earl Babbie Učenje o zabilježenim ljudskim komunikacijama Ole Holsti definira analizu kao bilo koji način za izradu zaključaka tako da se objektivno i sustavno identificiraju određena obilježja poruke Neizostavan element medijske procjene ili analize Zagreb, svibanj 2015. 3 od 14
Primjena analize podataka Zavod za telekomunikacije ¨ ¨ Rade se zaključci o prethodnicima komunikacije Opisuju se i rade zaključci o karakteristikama komunikacije Donose se zaključci o učincima komunikacije Šest osnovnih pitanja: < Koji podaci su analizirani? < Kako su definirani? < Koji je uzorak populacije iz koje su oni izvučeni? < U kojem kontekstu su analizirani podaci? < Koje su granice analize? < Koji je cilj zaključaka? Zagreb, svibanj 2015. 4 od 14
Analiza podataka na društvenim mrežama Zavod za telekomunikacije ¨ ¨ Mjerenje uspješnosti marketinga i promocije Društveni utjecaj Analiza mreže prema teoriji grafova Temeljne činjenice analize: < Aktori i njihove akcije su međusobno ovisne < Linkovi između aktora su kanali za prijenos resursa < Modeli mreža daju pogled individualcu na strukturalni pogled na mrežu kao okolinu koja mu daje mogućnosti za djelovanje, ali i ukazuje na moguća ograničenja Zagreb, svibanj 2015. 5 od 14
Dubinska analiza podataka Zavod za telekomunikacije ¨ ¨ Proces traženja i analiziranja podataka u svrhu pronalaženja implicitne, ali korisne informacije Nužni preduvjeti: < Proces koji se analizira je malen, ograničen i točno određen dio svijeta < Cilj analize je jasan < Dostupni podaci su dovoljno kvalitetni za opis procesa < Podaci su prikazani u obliku tablice varijabli i objekata Zagreb, svibanj 2015. 6 od 14
Raspodijeljeni datotečni sustav Zavod za telekomunikacije ¨ ¨ DFS (engl. Distributed Filesystem) je raspodijeljeni datotečni sustav za spremanje i slijedno čitanje vrlo velikih datoteka u spletu računala Oblikovan je za brzo slijedno čitanje Osigurava ispravan rad sustava bez obzira na prisutnost kvarova ili grešaka u komunikaciji DFS sprema datoteke u raspodijeljeno spremište koristeći apstrakciju blokova Zagreb, svibanj 2015. 7 od 14
Paradigma Map. Reduce Zavod za telekomunikacije ¨ ¨ Model za raspodijeljenu obradu podataka sa svojstvom linearnog razmjernog rasta Princip rada: < Podjela ulaznih podataka na manje dijelove < Obrada dijelova tako da se dobije međurezultat < Kombinacija međurezultata kako bi se dobili krajnji rezultati obrade Zagreb, svibanj 2015. 8 od 14
Sustav Hadoop Zavod za telekomunikacije ¨ ¨ Za paralelnu obradu nestrukturiranih podataka se koristi programski model Map. Reduce i HDFS Izvođenje zadataka: < Job. Tracker prvo bira kojem poslu pripadaju zadaci < Job. Tracker dodjeljuje zadatke slobodnim radnicima < Radnik(Task. Tracker) periodički javlja svoje stanje glavnom čvoru < Stanje uključuje informaciju o slobodnim „utičnicama“ (engl. slots) za Map i Reduce zadatke Zagreb, svibanj 2015. 9 od 14
Softver Cloudera Zavod za telekomunikacije ¨ ¨ Pojavio se tek 2009. godine Koristi servise sustava Hadoop Cloudera Quick. Start VM 4. 7 Cloudera Manager: < HBase < HDFS < Hive < Hue < Map. Reduce < Zoo. Keeper Zagreb, srpanj 2014. 10 od 14
Studijski primjer Zavod za telekomunikacije Zagreb, svibanj 2015. 11 od 14
Studijski primjer: obrada podataka Zavod za telekomunikacije Zagreb, svibanj 2015. 12 od 14
Usporedba paralelne i slijedne obrade podataka Zavod za telekomunikacije Zagreb, svibanj 2015. 13 od 14
Zaključak Zavod za telekomunikacije ¨ ¨ ¨ Glavno mjerilo za usporedbu je vrijeme izvođenja Paralelna obrada ima mnogobrojne prednosti Korisno za ulazne podatke velikog sadržaja Prednost paralelne obrade za velike baze podataka (npr. one koje se nalaze na društvenim mrežama) Nije najbolji izbor za mali broj manjih datoteka Zagreb, srpanj 2014. 14 od 14
Zavod za telekomunikacije Hvala na pozornosti! Zagreb, svibanj 2015.
- Slides: 15