Big Data nagyvllalati krnyezetben Papp Attila zleti intelligencia
Big Data nagyvállalati környezetben Papp Attila üzleti intelligencia szakértő § BDD 2013@WIGNER
T-Systems Magyarország – publikus – 10/29/2020 2
Mi Big Data és mi nem az? Tényleg a méret a lényeg? – strictly confidential, internal, public – 10/29/2020 3
A 3+1 ‘V’ Volume Velocity Variety Variability – publikus – 10/29/2020 4
Big Data megoldásra van szükséged, ha … • … az adataid (relációs értelemben) nem strukturáltak, vagy ha nem tudod előre megmondani, hogy mire és milyen formában fogod használni azokat. • … az algoritmusaid komoly számítási, feldolgozási kapacitást igényelnek, de jól párhuzamosíthatóak. variety variability velocity volume velocity • … az adatvolumen elvben korlátok nélkül nőhet, illetve nehéz előre tervezni a szükséges kapacitást. velocity volume • … az adattárolási képesség nehezen tart lépést az adatok keletkezésének sebességével. velocity volume variety • … az adatok lekérdezésének, – publikus – 10/29/2020 5
A ‘másság’ az üzleti megoldások minden szintjére vonatkozik Döntéstámogatás és automatizálás Elemzések és kiaknázás Adatszervezés és kezelés Infrastruktúra – publikus – 10/29/2020 6
Más megközelítéshez új képességek szükségesek Data Scientist Döntéstámogatás és automatizál ás Elemzések és kiaknázás Adatszervezés és kezelés Infrastruktúra 55% Az üzleti területek döntéshozóival való együttműködés érdekében az üzleti fogalmak és összefüggések pontos ismerete elengedhetetlen. Az adatok közötti kapcsolatok, minták felfedezéséhez elemzői, döntés-modellezői készségekre van szükség. Az elemzésekhez szükséges adathalmazok létrehozásához megfelelő modellező és adatmenedzsment képességek kellenek. A lineárisan skálázható és gazdaságilag fenntartható szoftver és hardverinfrastruktúra tervezéséhez, installálásához és működtetéséhez megfelelő műszaki kompetenciákra van szükség. – publikus – 10/29/2020 7
Big Data– adatbányászat – adattárház Mi a kapcsolat? – strictly confidential, internal, public – 10/29/2020 8
Nézzük a definíciót… Adattárház: Többnyire relációs modellre épülő, kifejezetten analitikus célokat szolgáló, kiforrott technológia. Adatbányászat: Az adatok közötti rejtett összefüggések feltárására, elemzésére szolgáló eszközök és módszerek halmaza. Big Data: Az adatok kezelésére, (logikai és fizikai) modellezésére vonatkozó új technológia. … majd néhány példát Adattárház: Az egy előfizetőre eső havi Mo. U trendje földrajzi és nem szerinti bontásban az elmúlt 5 évben. Adatbányászat: Mi a lemorzsolódni készülő ügyfelek jellemző karakterisztikája? Big Data: Kérem azon telefonszámok listáját, amelyekhez tartozó előfizetők mozogtak az elmúlt 2 órában, de az elmúlt fél órában mozdulatlanok a Közép-Dunántúlon. Küldjünk nekik, illetve a Facebook-on fellelhető barátaiknak, ismerőseiknek egy SMS-t, hogy látogassanak el honlapunkra, ahol friss és fontos információkat, tudnivalókat közlünk a hóviharral – publikus – 10/29/2020 kapcsolatban. 9
Data Warehouse vs Big Data – publikus – 10/29/2020 10
Data Warehouse vs Big Data DW alapú elemzések Big Data elemzések ismert, transzformált, konzisztens adatok az entitások közötti kapcsolatok, összefüggések a modell részét képezik alapvetően kötegelt feldolgozású, nagy átfutási idővel Költségesen skálázható, párhuzamosítható prekoncepció nélküli, tisztítatlan adatok lazább összefüggések a sokrétű tartalom között inkább (közel) valós idejű, illetve rövid átfutási idők A párhuzamosítás és az egyszerű skálázhatóság a modell része – publikus – 10/29/2020 11
Vállalati információs infrastruktúra • operatív rendszerek <-> analitikus rendszerek • nem csak egy adattárház alapú információ-szolgáltató rendszer van • saját absztrakciós modell, saját meta-adatok • operatív rendszerek egy része felhőben • megjelennek a Big Data megoldások • részben operatív, részben analitikus („common logical model for OLTP&OLAP”) § műszaki és üzleti meta-adatok és törzsadatok kiemelése és központi kezelése § § „hagyományos” ETL az operatív rendszerek és a DW-k között „konnektorok” a Big Data megoldások és a DW-k között a Big Data rendszer egyfajta „inkubátor” a DW számára § sokféle „kiaknázó” eszköz § § DW alapú a statisztikai döntésekhez § Big Data alapú a (közel) valós idejű döntésekhez – publikus – 01/04/2012 12
Gyakori hibák, tévutak • Adatok gyűjtése üzleti cél nélkül • „Csak gyűjtsük, majd később kitaláljuk mire lesz jó!” • Képességek hiánya • „Hol vannak a data scientist-ek? ” • Adatok szervezetlensége • „Csak adatok és adatok mindenütt!” • Szervezeti konfrontáció • „Kié legyen a Big Data? ” • Túl magas elvárások • „Ki sokat markol, keveset fog. ” – publikus – 10/29/2020 13
Köszönöm a figyelmet! Papp. Attila@pp. t-systems. hu § BDD 2013@WIGNER
- Slides: 14