Intelligens rendszerfelgyelet VIMIA 370 IT adatok vizulis elemzse

  • Slides: 66
Download presentation
Intelligens rendszerfelügyelet (VIMIA 370) IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Budapesti Műszaki

Intelligens rendszerfelügyelet (VIMIA 370) IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Mire lesz ez az egész jó nekünk? Orchestration („intelligencia”) skálázás, hibakezelés, autonóm rendszer… Központi

Mire lesz ez az egész jó nekünk? Orchestration („intelligencia”) skálázás, hibakezelés, autonóm rendszer… Központi felügyelet Konfig. kezelés Monitorozás IT szolgáltatások LDAP Fürt Log … Eseménykezelés App OS Virtualizáció / Cloud réteg HW HW HW Deployment, detektálás, bevatkozás… Címtár, hibatűrés, mentés, naplók… platform szintű szolgáltatások erőforrások elfedése és igénylése, …

Mire lesz ez az egész jó nekünk? Beavatkozás Megjelenítés ((( ))) Pillanatnyi Adatgyűjtés („folyamatos”)

Mire lesz ez az egész jó nekünk? Beavatkozás Megjelenítés ((( ))) Pillanatnyi Adatgyűjtés („folyamatos”) állapot tárolása Historikus adattárolás Riasztás

Mit kezdünk az adatokkal? Következő hónapban kétszer akkora terhelésre számítunk Erre előre fel kell

Mit kezdünk az adatokkal? Következő hónapban kétszer akkora terhelésre számítunk Erre előre fel kell készülnünk Megnézem… Milyen erőforrásból nincs elég?

Lehetséges használati esetek Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés Adatelemzés (szakértői)

Lehetséges használati esetek Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés Adatelemzés (szakértői)

Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

Esettanulmány: cloud benchmarking Response Time Ábra forrása: [8] Round Trip Time Request Processing Time

Esettanulmány: cloud benchmarking Response Time Ábra forrása: [8] Round Trip Time Request Processing Time

Esettanulmány: cloud benchmarking 44 608 rekord manuálisan?

Esettanulmány: cloud benchmarking 44 608 rekord manuálisan?

Lehetséges elemzési megközelítések 1. Leíró statisztika

Lehetséges elemzési megközelítések 1. Leíró statisztika

Lehetséges elemzési megközelítések 1. Leíró statisztika 2. Exploratory Data Analysis (EDA) o statisztikai tradíció,

Lehetséges elemzési megközelítések 1. Leíró statisztika 2. Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

Exploratory Data Analysis § Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc § Fő

Exploratory Data Analysis § Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc § Fő eszköz: adatok „bejárása” grafikus reprezentációkkal § Hipotézisteszteléssel: iteratív folyamat

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

Miről nem lesz szó? § Adatbányászat § Hipotézistesztelés § Kísérlettervezés o Pl. Rendszermodellezés tárgyunk

Miről nem lesz szó? § Adatbányászat § Hipotézistesztelés § Kísérlettervezés o Pl. Rendszermodellezés tárgyunk § Számítógépes grafika § Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy

Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy közönség § Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter § Pl. Mondrian, iplots (R) § ggplot 2 csomag (R) Many Eyes, Tableau Adobe Illustrator, Inkscape

Prezentáció vs. felderítés

Prezentáció vs. felderítés

Adatmennyiség? §

Adatmennyiség? §

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

Rekordok és változók Rekord/megfigyelés Változók/Attribútumok • • Start. time Country Location IP Client. type

Rekordok és változók Rekord/megfigyelés Változók/Attribútumok • • Start. time Country Location IP Client. type DC RT, RPT, RTT

Hogyan érdemes az adatokat szervezni? Tidy data § Minden változó egy-egy oszlop § Minden

Hogyan érdemes az adatokat szervezni? Tidy data § Minden változó egy-egy oszlop § Minden megfigyelés egy-egy sor § Minden megfigyelési egység egy-egy tábla „Messy” data Wickham, Hadley. "Tidy Data" Journal of Statistical Software, Volume 59, Issue 10 (2014) URL: https: //www. jstatsoft. org/article/view/v 059 i 10

Változók: kontextus és viselkedési § Kontextus o a mérési konfigurációt jellemzi § Viselkedési o

Változók: kontextus és viselkedési § Kontextus o a mérési konfigurációt jellemzi § Viselkedési o maga a mért érték Esettanulmány: változók fajtái • • Start. time Country Location IP Client. type DC RT, RPT, RTT Kontextus Viselkedési

Numerikus és kategorikus változók § Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o

Numerikus és kategorikus változók § Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor Numerikus § Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Kategorikus

Numerikus változók § Folytonos o Mért – tetszőleges értéket felvehet Változók • adott tartományon

Numerikus változók § Folytonos o Mért – tetszőleges értéket felvehet Változók • adott tartományon belül • adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga § Diszkrét Folytonos Numerikus Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Kategorikus

Kategorikus változók § Nominális (nem értelmezhető a rendezés) Változók § Ordinális (rendezett) o szintek

Kategorikus változók § Nominális (nem értelmezhető a rendezés) Változók § Ordinális (rendezett) o szintek között hierarchia Numerikus Kategorikus Ordinális Nominális

Esettanulmány: változók típusai • • Start. time Country Location IP Client. type DC RT,

Esettanulmány: változók típusai • • Start. time Country Location IP Client. type DC RT, RPT, RTT – numerikus, folytonos – kategorikus, nominális – kategorikus, nominális – numerikus, folytonos

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

1 változó Változók Numerikus {RPT: 609, 613, 913, …} Kategorikus {location: Peyton, Durham, …}

1 változó Változók Numerikus {RPT: 609, 613, 913, …} Kategorikus {location: Peyton, Durham, …}

Oszlopdiagram (bar chart) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Kategorikus változó

Oszlopdiagram (bar chart) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Kategorikus változó egyes értékeinek abszolút gyakorisága • Adategység: • Oszlop – magassága: adott érték gyakorisága • Tervezői döntés: • Értékkészlet darabolása?

Hisztogram • Megjelenített dimenziók száma: 1 • Értékkészlet intervallumokra bontása (bin) • Ábrázolt összefüggés:

Hisztogram • Megjelenített dimenziók száma: 1 • Értékkészlet intervallumokra bontása (bin) • Ábrázolt összefüggés: • Folytonos változó intervallumainak számossága • Adategység: • Oszlop – magassága: intervallum számossága • Tervezői döntés: • Oszlopszélesség/kezdőpont?

Hisztogram: Oszlopszélesség hatása Oszlopszélesség: 0, 1 Oszlopszélesség: 0, 005

Hisztogram: Oszlopszélesség hatása Oszlopszélesség: 0, 1 Oszlopszélesség: 0, 005

Hisztogram: Kezdőpont hatása § {1, 2, 3} ábrázolása 1, 5 oszlopszélességgel 2 2 1

Hisztogram: Kezdőpont hatása § {1, 2, 3} ábrázolása 1, 5 oszlopszélességgel 2 2 1 1 0 1 2 Kezdőpont: 0 3 0 1 2 Kezdőpont: 1 3

Hisztogramról leolvasható információ § Néha elég tudni, o Hol van az adatok „közepe”? o

Hisztogramról leolvasható információ § Néha elég tudni, o Hol van az adatok „közepe”? o Mennyire „szórtak” az adatok? o Vannak-e kilógó értékek?

Egyszerű statisztikai jellemzés § Hol van az adatok „közepe”?

Egyszerű statisztikai jellemzés § Hol van az adatok „közepe”?

Egyszerű statisztikai jellemzés § Mennyire „szórtak” az adatok?

Egyszerű statisztikai jellemzés § Mennyire „szórtak” az adatok?

Egyszerű statisztikai jellemzés § Vannak-e kilógóak?

Egyszerű statisztikai jellemzés § Vannak-e kilógóak?

Kitérő: Egy kis leíró statisztika… § A „központ” jellemzése o Átlag, medián, módusz o

Kitérő: Egy kis leíró statisztika… § A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} • Átlag: ~ 7. 125 • Medián: 5 • Módusz: 4 és 5 módusz medián átlag 3 4 5 6 10 20

Kitérő: Robusztus mérőszámok § Példa: alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás

Kitérő: Robusztus mérőszámok § Példa: alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás • átlag = medián = 3 ms 3 ms ± 2 ms +1 pont: 20 s (= 20 000 ms) Új medián: 3. 02 ms median Robusztus mean Nem rob. Új átlag: 22. 9 ms!

Kitérő: Egy kis leíró statisztika… § A „központ” jellemzése o Átlag, medián, módusz o

Kitérő: Egy kis leíró statisztika… § A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} • Átlag: ~ 7. 125 • Medián: 5 • Módusz: 4 és 5 § A „terjedelem” jellemzése? módusz medián átlag 3 4 5 6 10 20

Kitérő: Egy kis leíró statisztika §

Kitérő: Egy kis leíró statisztika §

Doboz diagram (boxplot) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Folytonos változó

Doboz diagram (boxplot) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Folytonos változó fontos percentilisei • 5 fontos érték + kilógók • Adategység: • Doboz o Tervezői döntés: • Outlierek? Max. Q 3 + 1. 5 IQR Q 3 Medián Q 1 – 1. 5 IQR Min.

Doboz diagram: fontos percentilisek? Min. Q 1 Medián Q 3 Max.

Doboz diagram: fontos percentilisek? Min. Q 1 Medián Q 3 Max.

2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus 1 numerikus, 1 kategorikus 2 kategorikus

2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus 1 numerikus, 1 kategorikus 2 kategorikus

Numerikus kategóriánként

Numerikus kategóriánként

2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus

2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus 2 kategorikus

Pont – pont diagram (scatterplot)

Pont – pont diagram (scatterplot)

Overplotting megoldások 1: jitter

Overplotting megoldások 1: jitter

Overplotting megoldások 1: jitter

Overplotting megoldások 1: jitter

Overplotting megoldások 2: átlátszóság

Overplotting megoldások 2: átlátszóság

2 változó kapcsolata Változók Numerikus 2 numerikus Változók Kategorikus Numerikus 1 numerikus, 1 kategorikus

2 változó kapcsolata Változók Numerikus 2 numerikus Változók Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus 2 kategorikus

Mozaik diagram (mosaic plot) § A túlsúlyosak nagy része férfi!

Mozaik diagram (mosaic plot) § A túlsúlyosak nagy része férfi!

 Egyenes arányosság az RT és az RTT között Ábra forrása: [4], [5]

Egyenes arányosság az RT és az RTT között Ábra forrása: [4], [5]

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

Adatkötés

Adatkötés

Lekérdezések

Lekérdezések

Színezés/átlátszóság

Színezés/átlátszóság

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

Mit látunk az adatokból?

Mit látunk az adatokból?

Cloud benchmarking § Alapvető RT-RTT összefüggések § Kísérlettervezési hiányosságok § Konfiguráció hibák § Térbeli/időbeli/kliensbeli

Cloud benchmarking § Alapvető RT-RTT összefüggések § Kísérlettervezési hiányosságok § Konfiguráció hibák § Térbeli/időbeli/kliensbeli függőségek

Oszlopdiagram (bar chart) § Bemenő változó: kliens típus § Kérdés: melyik klienssel mennyit mértünk?

Oszlopdiagram (bar chart) § Bemenő változó: kliens típus § Kérdés: melyik klienssel mennyit mértünk?

Oszlopdiagram (bar chart) § Bemenő változó: mérési helyek § Kérdés: milyen helyekről mértünk? Mennyit?

Oszlopdiagram (bar chart) § Bemenő változó: mérési helyek § Kérdés: milyen helyekről mértünk? Mennyit?

Hisztogram

Hisztogram

Doboz diagram (boxplot)

Doboz diagram (boxplot)

Mozaik diagram (mosaic plot)

Mozaik diagram (mosaic plot)

Összefoglalás § Miért jó? o Összehasonlítás o Tetszőleges mélység § Mire jó? EDA Kapacitástervezés

Összefoglalás § Miért jó? o Összehasonlítás o Tetszőleges mélység § Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

További információ § I. Kocsis, „Vizuális analízis”. Intelligens adatelemzés, Typotex, 2014. http: //docs. inf.

További információ § I. Kocsis, „Vizuális analízis”. Intelligens adatelemzés, Typotex, 2014. http: //docs. inf. mit. bme. hu/remo-jegyzet/felderito -adatelemzes-konyvfejezet. pdf § H. Hartmann, „Statistics for Engineers”, acm queue, 14: 1, 2006. http: //queue. acm. org/detail. cfm? id=2903468

Hivatkozások [1] Behrens, J. T. : Principles and procedures of exploratory data analysis. Psychological

Hivatkozások [1] Behrens, J. T. : Principles and procedures of exploratory data analysis. Psychological Methods 2, 131– 160 (1997) [2] Tukey, J. : We need both exploratory and confirmatory. The American Statistician 34, 23– 25 (1980) [3] Yau, Nathan. Visualize this: the Flowing. Data guide to design, visualization, and statistics. John Wiley & Sons, 2011. [4] Inselberg, A. : Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M. , Urbanek, S. : Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A. , Kharchenko, V. , Mamutov, S. , Tarasyuk, O. , Romanovsky, A. : Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185 – 190. IEEE (2012) [7] Pataricza, András, et al. : Empirical Assessment of Resilience. Software Engineering for Resilient Systems. 1 -16. (2013) [8] Funk, Kaiser: Junk Charts blog, URL: http: //junkcharts. typepad. com/ [9] Yau, Nathan: Flowing. Data blog, URL: http: //flowingdata. com/