Big Data Sidl Csaba Benczr Andrs MTA Szmtstechnikai
Big Data Sidló Csaba / Benczúr András MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport / Adatbányászat és Keresés Csoport sidlo@sztaki. mta. hu http: //dms. sztaki. hu 2013. június 4.
SZTAKI ILAB és Big Data http: //dms. sztaki. hu • Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok o Benczúr András, 2012 „Big Data” MTA Lendület Fiatal Kutatói Díj o kutatás – fejlesztés, teljes innovációs lánc o kb. 30 -40 tag, kutatók, fejlesztők, hallgatók o 60+ gép, 170+ mag, 600+ TB tároló • Big Data Üzleti Intelligencia Csoport o partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János • projektek valódi „big data” feladatokkal o logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés o smart city, mobilitás, „internet of things” http: //bigdatabi. sztaki. hu
„Big Data” velocity variety • adatok és kapcsolódó feladatok big data • adatok 3 (vagy 4, 5) V-je: volume o volume (mennyiség – sok), o velocity (sebesség – gyorsan jön és megy), o variety (változatosság – sokféle forrás, típus) o + veracity (megbízhatóság – változó adatminőség), + value (érték – feldolgozással értéknövekedés), + variability (változékonyság – változó tartalom) • “big data is when the size of the data itself becomes part of the problem” • “big data is data that becomes large enough that it cannot be processed using conventional methods”
business email each year (giga tera peta exa zetta) Google index Youtube upload each year Wired magazin, 2013 május: • 2012 -ben 2. 8 Zetta. Byte információ keletkezett (vagy duplikálódott) • sok százezer Peta. Byte méretű adatbázis Facebook upload each year forrás: http: //www. wired. com/magazine/2013/04/bigdata/
• rétegek: adatelérés, analitika, alkalmazások • nagy a tülekedés, sok szereplő • SQL vs. No. SQL vs. New. SQL • kötegelt vs. streaming (real time) feldolgozás • … • szolgáltatások, eszközök, eszközkombinációk, full stack-ek, Sa. S, open source stb. : minden megkapható, mindent megígérnek forrás, 2013. 02: 2012. 06: http: //www. slideshare. net/mjft 01/big-data-big-deal-a-big-data-101 -presentation http: //www. forbes. com/sites/davefeinleib/2012/06/19/the-big-data-landscape/
Néhány kiemelt kutatási téma • új elméleti és számítási modellek: o mi jön a bevált Hadoop / Map. Reduce után? o egyszerűség, gyorsaság vs. komplex műveletek • skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S 3 -on • keresés és adatbányászat o Internet of Things, mobilitás adatok
Néhány kiemelt kutatási téma 2. • big data vizualizáció
Tranzakciós, log adat feldolgozás • log, Internet of Things: o sok helyen előforduló probléma biztonság / feladat optimalizáció o gyűjteni: viszonylag könnyű feldolgozni: nehéz • analitika: o egyes területeken sok kiforrott megoldás (pl. webanalitika) o de sok speciális igény, feladat kép: http: //www. google. com/analytics/ adatintenzív feladatok
Media stream, szociális hálók, azonosságok kép szegmentáció (képkereséshez) számításintenzív feladatok entity resolution azonosságfeloldás
Mobilitás, telekom, szélerőmű szenzor • telekom adatok: CDR, OSS (operational support system) analitika: mozgás előrejelzés • „smart city”: intelligens parkolás, forgalomirányítás stb. • „internet of things” • szélerőművek: szenzor adatfolyam http: //www. d 4 d. orange. com számítás és adatintenzív feladatok
Virtual Web Observatory: FIRE testbed • Hanzo Archives (UK): számítás és adatintenzív feladatok o Amazon EC 2 cloud + S 3 • Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása • SZTAKI Web adat, pl. http: //kopi. sztaki. hu plágiumkereső o saját kódok – open source eszközök még nem elég kiforrottak o 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3 TB tömörített adathoz o hardware kb. $15, 000; Amazon ár kb. $1000 lenne o Web osztályozás: spam oldalak; verseny: Clue. Web, 25 TB, 0. 5 milliárd oldal – kis rész
Webes trendek kinyerése / „opinion mining” • magyar blogok; gyorsan reagálnak • igény: valósidejű; deep Web? • előfordulási gyakoriságok (pl. Google Trends) témák fontos kifejezések szófelhője 2011. 12. 30. 2012. 02. 28.
http: //dms. sztaki. hu
Big data trendek – szubjektív válogatás • innovációs görbe: o early adopters / post-innovators: Web 2. 0 (pl. Google, Facebook, Twitter, Linked. In) o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb. ) • real time, streaming (adatfolyam) feldolgozás: hatalmas igény • flash memória, SSD vs. hagyományos tároló-tömbök • in memory vs. batch processing o pl. SAP Hana és Oracle Exadata X 3 vs. Hadoop • statisztika + informatika + üzlet „data science” (“the sexiest job in the 21 st century”, Harward Business Review) kép: http: //en. wikipedia. org/wiki/Diffusion_of_innovations
- Slides: 14