Statisztikai programcsomagok Csicsman Jzsef BME Matematikai intzet Sztochasztika
Statisztikai programcsomagok Csicsman József BME Matematikai intézet, Sztochasztika Tanszék Külső oktató csicsman@calculus. hu Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 1
Az előadás témái § § § § § Egy tegnapi e-mai üzenet A Statisztikai szoftverek Adat előkészítő és adatelemző szoftverek a KSH-ban SAS az adófeldolgozásban Vállalati Információs Rendszerek döntések támogatására, a hagyományos elemzési módszertanoktól a mobilos Dashboard-ig Pénzintézeti és Telekommunikációs alkalmazások Adatelemzés és adattárház építés az egészségügyben A Big Data és a Hadoop technológiák A Magyarországon is megvalósult BD projektek Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 2
Egy mai hír a Linked-ről, Hétköznapok az adatiparban: adatelőkészítés Adatelemzőnek lenni menő dolog. Egy rövid bemutatkozásból persze nem derül ki, hogy ebben az első hallásra is vonzónak tűnő munkakörben a feladatok jelentős részét „favágó munka”, az adatok előkészítése teszi ki. Márton Zimmer Ahogy egy, a Forbes-ban megjelent felmérés is mutatja, a „data scientist”-ek 76%-a legkevésbé ezeket a feladatokat szeretik a munkájukban, mégis idejük a 80%-át töltik ezzel. Érdekes, hogy ez az arány tíz éve is hasonló volt, ahogy például ezt egy akkoriban megjelent könyvünkben is írtuk. Creating Value from Data @ Hiflylabs Különös, egyedi kifejezéseket fejlesztettünk ki erre, ha már ennyit foglalkozunk vele: adatot túrunk, masszírozunk, gyurmázunk, kopasztunk… Mégis kevés olyan "pályaelhagyót" ismerek, aki emiatt megunta vagy megutálta volna az adatokkal való foglalkozást. Szeretünk főzni, és ha az kell hozzá, hát elvégezzük a zöldségpucolást is. Ráadásul nem mindegy hogy az adatelőkészítést milyen minőségben végezzük el. Sokszor itt dől el, hogy milyen minőségű lesz a végeredmény – a fonnyadt részeket ki kell vágni, de az ízes falatokat fel kell dolgozni. Az adatelemzési technológia persze mindeközben szédítő ütemben fejlődik. Sok olyan fejlesztés van, ami éppen az adatelőkészítés megkönnyítését célozza meg azt ígérve, hogy a szakértők végre az idejük nagyobb részét tölthetik igazi elemzéssel. Ömlik a kockázati tőke a Big Data feldolgozását megkönnyítő startupokba és persze az adatipar szoftveróriásai is fejlesztik a saját megoldásaikat. 2016. ősz Kovács Erzsébet - Csicsman József 3
Zimmer Márton: Hétköznapok az adatiparban: adatelőkészítés Akkor reménykedhetünk benne, hogy a múlté lesz a „ 80% adatelőkészítés – 20 % elemzés, modellezés” munkaidő arány" szabálya? Ebben nem számítok a következő években nagy változásra. Az egyre fejlettebb eszközök ugyan valóban egyre ügyesebben fogják támogatni ezt a tevékenységet. De ennek inkább lesz az az eredménye, hogy olyan adatforrásokat is szeretnénk majd kiaknázni, amiről ma eszünkbe se jut, hogy hozzányúlhatunk. A gyorsabb közlekedési eszközök sem eredményezték azt, hogy az emberek kevesebbet töltenek utazással. Inkább az lett az eredmény, hogy messzebbi úti célokat is elérhetőnek tartunk. Van még egy terület, amelytől sokan az adatelőkészítési munka elvégzését várják: léteznek mesterséges intelligencia alapú kezdeményezések is az adatok értelmezésére. A mesterséges intelligencia persze egyre több helyre „beteszi a lábát”, így például néhány évtized múlva valószínűleg sokkal kevesebb sofőrre lesz szükség. Séfek azonban akkor is lesznek, legfeljebb olyan szerencsések lesznek, hogy a zöldségtisztítást gép segíti. Ahogy lesz adatelemző is, akinek a munkáját is jóval több hasznos eszköz könnyíti majd. 2015. ősz Kovács Erzsébet - Csicsman József 4
Szokásos napi e-mai üzenet l l l l There are several postdoctoral and Ph. D positions open at the University of Edinburgh in the “Big Data Optimization" Lab of Peter Richtarik: http: //www. maths. ed. ac. uk/~prichtar/ The positions start in Fall 2016. 1) Postdoctoral Research Associate position in Big Data Optimization Duration: 3 years More information and online application form: https: //www. vacancies. ed. ac. uk/pls/corehrrecruit/erq_jobspec_version_4. jobspec? p_id=034907 Funded through EPSRC grant: "Randomized Algorithms for Extreme Convex Optimization”. … 3) Ph. D position in Big Data Optimization Duration: 3. 5 years Apply here: http: //www. maths. ed. ac. uk/studying-here/pgr/phd-application/apply (Choose "OR and Optimization") Funded by the School of Mathematics, University of Edinburgh. The post is associated with the EPSRC grant: "Randomized Algorithms for Extreme Convex Optimization”. 4) Ten Ph. D positions in Data Science http: //datascience. inf. ed. ac. uk/apply/ Duration: 4 years We have funding for 10 Ph. D students in virtually all areas of Data Science, including optimization. I’ll be happy to supervise successful applicants wishing to work in areas such as big data optimization, randomized algorithms for numerical linear algebra or optimization, and scalable machine learning. Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 5
Ki az a Data Scientist? Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 6
A Data Scientist pozíciója Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 7
Elvárások a DS-től Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 8
Van ilyen ember? Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 9
A DS hagyományos szoftvereszközei Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 10
A DS napi munkájának eszközei Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 11
A mátrix alakú adatszerkezet az adatelemzésben objektumok Var 1 Var 2 Vark O 1 O 2 O n Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 12
A statisztikai szoftverek történeti áttekintése P-STAT, SPSS, BMDP, OSIRIS, S-PLUS termékek, SAS, … Az 1970 -s évek végen egyetemi környezetben induló termékek Nagy rendszereket kiegészítő szoftverek, pl. ORACLE Financial, Adatbáziskezelőkhöz, ügyviteli rendszerekhez tartozó lekérdező rendszerek MINITAB, SYSSTAT, MATLAB, STATA, , … Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 13
Magyarországon elérhető lehetőségek SAS Institute (magyarországi képviselet: SAS Institute Kft. ) www. sas. com Statistica Stat. Soft Inc. (magyarországi képviselet: Stat. Soft Hungary) www. statsoft. com SPSS Inc. (magyarországi képviselet: IBM Hungary) www. spss. com Eviews IHS EViews Team (magyarországi képviselet: Új Calculus Bt. ) www. eviews. com R Az S szoftver továbbfejlesztése, szabadon elérhető www. rstudio. com, www. r-project. org WEKA, Pyton, … Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 14
Adatbányászati szoftverek 1995 -től l l l Intelligent Miner DBMiner Mine. Set Clementine Enterprise Miner Statistica Data–mining Adatelemző-> Adatbányász-> Data Scientist Kapcsolat az adatelemző szoftverekkel l programozó ( SAS BASE, SPSS syntax, Matlab, R, . . . ) alkalmazásfejlesztő (SAS App Dev Stúdió, Webes dashboardok, …) Felhasználó 1. (alkalmazások üzemeltetői, alkalmazásgazdák) l Felhasználó 2. (Aktuáriusok, befektetés-, kockázatelemzők, . . . ) l l Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 15
Az adatbányászati szoftverek összehasonlítása l l l l Milyen számítógép architektúrákon fut? A szoftver biztosítja-e az összes adatbányászati módszertant? Ha nem, hogyan bővíthető? A bővíthető-e a saját programozási nyelvén? , Milyen adat-vizualizációs lehetőségekkel rendelkezik? Milyen outputformákkal rendelkezik és azok másolhatóke szövegszerkesztőkbe? Jól kezeli-e a nagy adatállományokat? Elterjedt-e használata, könnyen megoszthatók-e az adatokat és programok? Megfizethető-e a termék a felhasználó számára? Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 16
A Statisztikai szoftverek használata a tudományos célú felhasználásoknál Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 17
Adat előkészítő és adatelemző szoftverek a KSH-ban l l l l Kérdőív szerkesztés (Word, Excel) Nyomtatás, megszemélyesítés (Openpage) Adateditáló rendszerek: BLAISE, Oracle és SAS Adattárolás eszköze az Oracle A nyomdakész „táblagyártás” a TPL-lel Az adatelemzés eszközei nagygépes környezetben (BMDP, SPSS, SAS) Napjaink adatelőkészítő és elemző rendszerei (ORACLE, SAS és az SPSS) Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 18
Az SPSS-szel támogatott adatelemzések a KSH-ban l l l Elsősorban a társadalomstatisztikai adatgyűjtések Egészségügyi felmérések teljeskörűsítése, hibaszámítása és publikálása Oktatásstatisztika Időmérleg Demográfiai elemzések Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 19
SAS alkalmazások a KSH-ban l l l l AKM modellek A migráció eszköze a SAS Fogyasztói árstatisztika Háztartásstatisztika, és a Munkaerőfelvétel A Mikrocenzus, a Próbanépszámlálás és a Népszámlálás Mikroszimulációs szolgáltató rendszer A HKF adatfelvétel korrekciója mikroszimulációs eszközökkel Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 20
SAS az adófeldolgozásban l l VIR Társasági adó becslése l A Monitorozó rendszer 1996 -ban A korrigált becslési algoritmus 1997 -ben Az eredmények és a hibák, a jó becslés feltételrendszere l Központi bevallásfeldolgozás l l META Futtatórendszer Lekérdező l Adat és alkalmazásvédelem Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 21
22 Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés
Hogyan védjük meg alkalmazásainkat az illetéktelen használattól, a véletlen és a szándékos károkozástól • Az adatvédelem és a jogosultságkezelés • • problémái Feladatok a fejlesztés időszakában A már kész alkalmazások jogosultságvédelme és követése Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 23
Vállalati Információs Rendszerek döntések támogatására Technológia Munkatársak ADAT Üzleti célok Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés Üzleti információk 24
A vállalati információ- (tudás) kinyerés folyamata Tranzakciós A D A T O K Minőség Kockázat RDBMS Fogyasztó “Régi” Adatkezelés Szervezés Kiaknázás Termék SAS Piac Jövő Külső Információ-tárház Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 25 I N F O R M Á C I Ó
Információ tárház (Data Warehouse) “Témaorientált, integrált, nem változó, idővariáns adatoknak olyan szervezett gyűjteménye, amely a vezetés igényeit támogatja” (William H. Inmon definíciója) l l tárgyorientált integrált időtengelye van csak bővíteni lehet Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 26
A vállalati döntéshozók információ igénye l l Aktuális, pontos és teljes információk Az üzleti változásokat figyelembe vevő adatok Új üzleti lehetőségekbe betekintés lehetősége a vállalati stratégiákhoz történő alakíthatóság A vállalati információs rendszerek piramis ábrája l VIR Adatbányászati eszközök Statisztikai szoftverek Metainformációs rendszerek, Adattárházak Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés Tranzakciós rendszerek 27
Vezetői Információs Rendszerek (VIR-MIS) Követelmények l l l vállalati szintű adatelérés és kezelés alkalmazások sokfélesége különböző felhasználói igények hardver független architektúra alkalmazás fejlesztés a hagyományos GUI rendszerektől a webes alkalmazásokig Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 28
Calc. Q Mobil és a Dashboard Az ERP rendszerekben tárolt adatok elérése mobil eszközökkel l l A vállalati ügyviteli rendszerek zártak A döntés előkészítés rugalmas támogatása a Calculus Q&A rendszerével Előre definiált lekérdezések elérése és adatmódosítási lehetőségek mobil eszközökön Az adat és alkalmazás védelem problémája a mobilos operációs rendszereken (adatvédelmi alkalmazás a felhasználók azonosítására és a használható funkcióira) Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 29
Pénzintézeti megoldások specialitásai l l l l Hiányzó adatok pótlása Adattisztítási feladatok az elemzés előtt Alaprendszerekre épülő adattárház megoldások Felhasználó igényeit kiszolgáló adatpiacok Üzleti termékek eredményének előrejelzése A Credit Scoring elemzések és csalásfelderítés támogatása A stressz teszt vizsgálatok elkészítése (árfolyamváltozás, munkanélküliség növekedés, …) Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 30
Adatelemzési alkalmazások a telefóniában l l l Ügyfélszegmentáció Ügyfélértékek kiszámítása Hiányzó demográfiai adatok pótlása statistical matchinggel Marketing felmérések adatainak korrigálása A lemorzsolódások elkerülésére kidolgozandó marketingstratégiák hatásának előrejelzése A csalók felderítésének támogatása Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 31
Adatelemzés és adattárház építés az egészségügyben Fizioszenzoros mintaalkalmazás Vezeték nélküli kommunikáció HTTPS Viselhető szenzorok bluetooth kommunikációval Adatgyűjtő és továbbító egység (mobil) TCP/IP Központi feldolgozó, vezérlő szerver –háttérben adatbázis, megjelenítés terminálon Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés Adatelemzést végző SAS szerver 32
Adatfeldolgozás DB/2 és SAS között Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 33
Az eredmények prezentálása az orvosok számára l graph_emg. sas l graph_intergralt_amplitudo. sas l graph_atlag_amplitudo. sas l graph_integralt_amp_egysegenkent. sas Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 34
A Big Data és a Hadoop technológiák Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 35
Mi az a Big DATA ; Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 36
Mikor is Big a Data? Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 37
A nagy méretű adaok kezelésének problémái Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 38
A világ digitalizált, mit tegyünk vele? Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 39
A V-k a Big Data világából (a marketinges szemével) Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 40
A technológia üzleti pozíciói Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 41
A Big Data szoftver komponensei Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 42
Kinek készülnek a Big Data alkalmazások? Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 43
Big Data és a Data Sciense Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 44
Mivel kezelhetőek a BD-k? Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 45
Valós alkalmazás a dmlab-tól Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 46
A Magyarországon is megvalósult BD projektek l l l A gazdálkodó szervek kiválasztása az adóellenőrzésre Biztosítási ajánlatok a roaming területre való belépéskor Hirdetési csalók felderítése Web használat elemzése az egér mozgásának elemzésével Sportanalitikai elemzések (mozgás, egészségügyi állapot, … Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 47
Big Data, Hadoop, Data Science összefoglalás Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 48
Köszönöm a figyelmet! Csicsman@calculus. hu Többváltozós Statisztikai Modellezés Csicsman J. : Adattárházak-adatelemzés 49
- Slides: 49