Intelligens rendszerfelgyelet VIMIA 370 IT adatok vizulis elemzse
- Slides: 66
Intelligens rendszerfelügyelet (VIMIA 370) IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
Mire lesz ez az egész jó nekünk? Orchestration („intelligencia”) skálázás, hibakezelés, autonóm rendszer… Központi felügyelet Konfig. kezelés Monitorozás IT szolgáltatások LDAP Fürt Log … Eseménykezelés App OS Virtualizáció / Cloud réteg HW HW HW Deployment, detektálás, bevatkozás… Címtár, hibatűrés, mentés, naplók… platform szintű szolgáltatások erőforrások elfedése és igénylése, …
Mire lesz ez az egész jó nekünk? Beavatkozás Megjelenítés ((( ))) Pillanatnyi Adatgyűjtés („folyamatos”) állapot tárolása Historikus adattárolás Riasztás
Mit kezdünk az adatokkal? Következő hónapban kétszer akkora terhelésre számítunk Erre előre fel kell készülnünk Megnézem… Milyen erőforrásból nincs elég?
Lehetséges használati esetek Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés Adatelemzés (szakértői)
Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]
Esettanulmány: cloud benchmarking Response Time Ábra forrása: [8] Round Trip Time Request Processing Time
Esettanulmány: cloud benchmarking 44 608 rekord manuálisan?
Lehetséges elemzési megközelítések 1. Leíró statisztika
Lehetséges elemzési megközelítések 1. Leíró statisztika 2. Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján
Exploratory Data Analysis § Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc § Fő eszköz: adatok „bejárása” grafikus reprezentációkkal § Hipotézisteszteléssel: iteratív folyamat
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
Miről nem lesz szó? § Adatbányászat § Hipotézistesztelés § Kísérlettervezés o Pl. Rendszermodellezés tárgyunk § Számítógépes grafika § Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]
Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy közönség § Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter § Pl. Mondrian, iplots (R) § ggplot 2 csomag (R) Many Eyes, Tableau Adobe Illustrator, Inkscape
Prezentáció vs. felderítés
Adatmennyiség? §
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
Rekordok és változók Rekord/megfigyelés Változók/Attribútumok • • Start. time Country Location IP Client. type DC RT, RPT, RTT
Hogyan érdemes az adatokat szervezni? Tidy data § Minden változó egy-egy oszlop § Minden megfigyelés egy-egy sor § Minden megfigyelési egység egy-egy tábla „Messy” data Wickham, Hadley. "Tidy Data" Journal of Statistical Software, Volume 59, Issue 10 (2014) URL: https: //www. jstatsoft. org/article/view/v 059 i 10
Változók: kontextus és viselkedési § Kontextus o a mérési konfigurációt jellemzi § Viselkedési o maga a mért érték Esettanulmány: változók fajtái • • Start. time Country Location IP Client. type DC RT, RPT, RTT Kontextus Viselkedési
Numerikus és kategorikus változók § Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor Numerikus § Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Kategorikus
Numerikus változók § Folytonos o Mért – tetszőleges értéket felvehet Változók • adott tartományon belül • adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga § Diszkrét Folytonos Numerikus Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Kategorikus
Kategorikus változók § Nominális (nem értelmezhető a rendezés) Változók § Ordinális (rendezett) o szintek között hierarchia Numerikus Kategorikus Ordinális Nominális
Esettanulmány: változók típusai • • Start. time Country Location IP Client. type DC RT, RPT, RTT – numerikus, folytonos – kategorikus, nominális – kategorikus, nominális – numerikus, folytonos
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
1 változó Változók Numerikus {RPT: 609, 613, 913, …} Kategorikus {location: Peyton, Durham, …}
Oszlopdiagram (bar chart) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Kategorikus változó egyes értékeinek abszolút gyakorisága • Adategység: • Oszlop – magassága: adott érték gyakorisága • Tervezői döntés: • Értékkészlet darabolása?
Hisztogram • Megjelenített dimenziók száma: 1 • Értékkészlet intervallumokra bontása (bin) • Ábrázolt összefüggés: • Folytonos változó intervallumainak számossága • Adategység: • Oszlop – magassága: intervallum számossága • Tervezői döntés: • Oszlopszélesség/kezdőpont?
Hisztogram: Oszlopszélesség hatása Oszlopszélesség: 0, 1 Oszlopszélesség: 0, 005
Hisztogram: Kezdőpont hatása § {1, 2, 3} ábrázolása 1, 5 oszlopszélességgel 2 2 1 1 0 1 2 Kezdőpont: 0 3 0 1 2 Kezdőpont: 1 3
Hisztogramról leolvasható információ § Néha elég tudni, o Hol van az adatok „közepe”? o Mennyire „szórtak” az adatok? o Vannak-e kilógó értékek?
Egyszerű statisztikai jellemzés § Hol van az adatok „közepe”?
Egyszerű statisztikai jellemzés § Mennyire „szórtak” az adatok?
Egyszerű statisztikai jellemzés § Vannak-e kilógóak?
Kitérő: Egy kis leíró statisztika… § A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} • Átlag: ~ 7. 125 • Medián: 5 • Módusz: 4 és 5 módusz medián átlag 3 4 5 6 10 20
Kitérő: Robusztus mérőszámok § Példa: alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás • átlag = medián = 3 ms 3 ms ± 2 ms +1 pont: 20 s (= 20 000 ms) Új medián: 3. 02 ms median Robusztus mean Nem rob. Új átlag: 22. 9 ms!
Kitérő: Egy kis leíró statisztika… § A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} • Átlag: ~ 7. 125 • Medián: 5 • Módusz: 4 és 5 § A „terjedelem” jellemzése? módusz medián átlag 3 4 5 6 10 20
Kitérő: Egy kis leíró statisztika §
Doboz diagram (boxplot) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Folytonos változó fontos percentilisei • 5 fontos érték + kilógók • Adategység: • Doboz o Tervezői döntés: • Outlierek? Max. Q 3 + 1. 5 IQR Q 3 Medián Q 1 – 1. 5 IQR Min.
Doboz diagram: fontos percentilisek? Min. Q 1 Medián Q 3 Max.
2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus 1 numerikus, 1 kategorikus 2 kategorikus
Numerikus kategóriánként
2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus 2 kategorikus
Pont – pont diagram (scatterplot)
Overplotting megoldások 1: jitter
Overplotting megoldások 1: jitter
Overplotting megoldások 2: átlátszóság
2 változó kapcsolata Változók Numerikus 2 numerikus Változók Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus 2 kategorikus
Mozaik diagram (mosaic plot) § A túlsúlyosak nagy része férfi!
Egyenes arányosság az RT és az RTT között Ábra forrása: [4], [5]
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
Adatkötés
Lekérdezések
Színezés/átlátszóság
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
Mit látunk az adatokból?
Cloud benchmarking § Alapvető RT-RTT összefüggések § Kísérlettervezési hiányosságok § Konfiguráció hibák § Térbeli/időbeli/kliensbeli függőségek
Oszlopdiagram (bar chart) § Bemenő változó: kliens típus § Kérdés: melyik klienssel mennyit mértünk?
Oszlopdiagram (bar chart) § Bemenő változó: mérési helyek § Kérdés: milyen helyekről mértünk? Mennyit?
Hisztogram
Doboz diagram (boxplot)
Mozaik diagram (mosaic plot)
Összefoglalás § Miért jó? o Összehasonlítás o Tetszőleges mélység § Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés
További információ § I. Kocsis, „Vizuális analízis”. Intelligens adatelemzés, Typotex, 2014. http: //docs. inf. mit. bme. hu/remo-jegyzet/felderito -adatelemzes-konyvfejezet. pdf § H. Hartmann, „Statistics for Engineers”, acm queue, 14: 1, 2006. http: //queue. acm. org/detail. cfm? id=2903468
Hivatkozások [1] Behrens, J. T. : Principles and procedures of exploratory data analysis. Psychological Methods 2, 131– 160 (1997) [2] Tukey, J. : We need both exploratory and confirmatory. The American Statistician 34, 23– 25 (1980) [3] Yau, Nathan. Visualize this: the Flowing. Data guide to design, visualization, and statistics. John Wiley & Sons, 2011. [4] Inselberg, A. : Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M. , Urbanek, S. : Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A. , Kharchenko, V. , Mamutov, S. , Tarasyuk, O. , Romanovsky, A. : Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185 – 190. IEEE (2012) [7] Pataricza, András, et al. : Empirical Assessment of Resilience. Software Engineering for Resilient Systems. 1 -16. (2013) [8] Funk, Kaiser: Junk Charts blog, URL: http: //junkcharts. typepad. com/ [9] Yau, Nathan: Flowing. Data blog, URL: http: //flowingdata. com/
- Tack för att ni lyssnade bild
- Kulturel intelligens
- What is intrapersonal intelligence
- Filemoo
- Lapozófájl windows 10
- Vimia
- Fa hajkolása
- Egyenest meghatározó adatok
- Eecs 496
- Eecs 370 curve
- Eecs370
- Cmpt 370
- Ese 370
- Xkcd scantron
- Csc 370
- Ese 370
- Ese 370
- Data formats of ibm 360
- Isy 370
- Csc 370
- Ese 370
- Eecs 370 project 4
- Acq 370
- Eecs 370 project 2
- Infinisource fsa
- Www.xkcd.com
- Ese 370
- Architektura cpu
- Csc 370
- Eecs 370
- Acq 370
- 120 en yakın yüzlüğe yuvarlama
- Democritus theory of the universe
- Eecs 370 curve
- Gate ese
- Ibm 370 series
- Vds vgs
- Ese 370