Intelligens rendszerfelgyelet VIMIA 370 IT adatok vizulis elemzse

  • Slides: 69
Download presentation
Intelligens rendszerfelügyelet (VIMIA 370) IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Budapesti Műszaki

Intelligens rendszerfelügyelet (VIMIA 370) IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

Esettanulmány: cloud benchmarking Web Service Dependability Assessment Tool Response Time Ábra forrása: [8] Round

Esettanulmány: cloud benchmarking Web Service Dependability Assessment Tool Response Time Ábra forrása: [8] Round Trip Time Request Processing Time

Elemzési megközelítés 1: leíró statisztika

Elemzési megközelítés 1: leíró statisztika

Elemzési megközelítés 2: felderítő adatanalízis § Exploratory Data Analysis (EDA) o statisztikai tradíció, o

Elemzési megközelítés 2: felderítő adatanalízis § Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

Exploratory Data Analysis § Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc § Fő

Exploratory Data Analysis § Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc § Fő eszköz: adatok „bejárása” grafikus reprezentációkkal § Hipotézisteszteléssel: iteratív folyamat

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

Miről nem lesz szó? § Adatbányászat § Hipotézistesztelés § Kísérlettervezés o Pl. Rendszermodellezés tárgyunk

Miről nem lesz szó? § Adatbányászat § Hipotézistesztelés § Kísérlettervezés o Pl. Rendszermodellezés tárgyunk § Számítógépes grafika § Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy

Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy közönség § Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter § ~ matematikatörténet § ~ bizonyítás § Pl. Mondrian, iplots (R) § ggplot 2 csomag (R) Many Eyes, Tableau Adobe Illustrator, Inkscape

Prezentáció vs. felderítés

Prezentáció vs. felderítés

Adatmennyiség? §

Adatmennyiség? §

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

ALAPFOGALMAK

ALAPFOGALMAK

Adatelemzés Modell Adatelemzés Adat Többletinformáció

Adatelemzés Modell Adatelemzés Adat Többletinformáció

Modell § Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o…

Modell § Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o…

Modell § Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o…

Modell § Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o…

Adatelemzés Modell Adatelemzés Adat Többletinformáció

Adatelemzés Modell Adatelemzés Adat Többletinformáció

Adat § Nemstrukturált § o Nincs előre rögzített tárolási/értelmezési modell Széles Hosszú

Adat § Nemstrukturált § o Nincs előre rögzített tárolási/értelmezési modell Széles Hosszú

Adat § Nemstrukturált § o Nincs előre rögzített tárolási/értelmezési modell o Csak metaadat o

Adat § Nemstrukturált § o Nincs előre rögzített tárolási/értelmezési modell o Csak metaadat o Pl. e-mail, audio anyagok o Transzformáció strukturáltba?

Rekordok és változók Rekord/megfigyelés Változók/Attribútumok • • Start. time Country Location IP Client. type

Rekordok és változók Rekord/megfigyelés Változók/Attribútumok • • Start. time Country Location IP Client. type DC RT, RPT, RTT

Változók: kontextus és viselkedési § Kontextus o a mérési konfigurációt jellemzi § Viselkedési o

Változók: kontextus és viselkedési § Kontextus o a mérési konfigurációt jellemzi § Viselkedési o maga a mért érték • • Start. time Country Location IP Client. type DC RT, RPT, RTT Változók/Attribútumok Kontextus Viselkedési

Numerikus és kategorikus változók § Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o

Numerikus és kategorikus változók § Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor Numerikus § Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Kategorikus

Numerikus változók § Folytonos o Mért – tetszőleges értéket felvehet Változók • adott tartományon

Numerikus változók § Folytonos o Mért – tetszőleges értéket felvehet Változók • adott tartományon belül • adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga § Diszkrét Folytonos Numerikus Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Kategorikus

Kategorikus változók § Szokásos kategorikus (regular) Változók § Rendezett o szintek között hierarchia Numerikus

Kategorikus változók § Szokásos kategorikus (regular) Változók § Rendezett o szintek között hierarchia Numerikus Rendezett Kategorikus Szokásos kategorikus

Típusok • • Start. time – numerikus, folytonos Country – szokásos kategorikus Location –

Típusok • • Start. time – numerikus, folytonos Country – szokásos kategorikus Location – szokásos kategorikus IP – szokásos kategorikus Client. type – szokásos kategorikus DC – szokásos kategorikus RT, RPT, RTT– numerikus, folytonos

Adatelemzés Modell Adatelemzés Adat Többletinformáció

Adatelemzés Modell Adatelemzés Adat Többletinformáció

Többletinformáció §

Többletinformáció §

Adatelemzés Adat Tisztítás Modell Felderítő Többletinformáció Megerősítő

Adatelemzés Adat Tisztítás Modell Felderítő Többletinformáció Megerősítő

Adatelemzés Felderítő analízis Megerősítő analízis • Cél: hipotézisek megfogalmazása • Cél: hipotézisek tesztelése •

Adatelemzés Felderítő analízis Megerősítő analízis • Cél: hipotézisek megfogalmazása • Cél: hipotézisek tesztelése • Ismerkedés az adatokkal/doménnel • Erősen ad-hoc • Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció • Előre megsejtett összefüggések ellenőrzése • Fő eszköz: statisztikai tesztek + következtető módszerek

Adatelemzés § Pl. eloszláselemzés

Adatelemzés § Pl. eloszláselemzés

Adatelemzés § Pl. lineáris regresszió

Adatelemzés § Pl. lineáris regresszió

Adatelemzés Adat Tisztítás Modell Felderítő Többletinformáció Megerősítő

Adatelemzés Adat Tisztítás Modell Felderítő Többletinformáció Megerősítő

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

ALAPVETŐ DIAGRAMTÍPUSOK

ALAPVETŐ DIAGRAMTÍPUSOK

1 változó Változók Numerikus {RPT: 609, 613, 913, …} Kategorikus {location: Peyton, Durham, …}

1 változó Változók Numerikus {RPT: 609, 613, 913, …} Kategorikus {location: Peyton, Durham, …}

Oszlopdiagram (bar chart) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Kategorikus változó

Oszlopdiagram (bar chart) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Kategorikus változó egyes értékeinek abszolút gyakorisága • Adategység: • Oszlop – magassága: adott érték gyakorisága • Tervezői döntés: • Értékkészlet darabolása?

Hisztogram • Megjelenített dimenziók száma: 1 Fontos percentilisek? • Ábrázolt összefüggés: • Folytonos változó

Hisztogram • Megjelenített dimenziók száma: 1 Fontos percentilisek? • Ábrázolt összefüggés: • Folytonos változó egyes értékeinek abszolút gyakorisága • Adategység: • Oszlop – magassága: adott érték gyakorisága • Tervezői döntés: • Oszlopszélesség/kezdőpont?

Egy kis leíró statisztika… §

Egy kis leíró statisztika… §

Doboz diagram (boxplot) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Folytonos változó

Doboz diagram (boxplot) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Folytonos változó fontos percentilisei • Általában 5 fontos érték • Adategység: • Doboz o Tervezői döntés: • Outlierek? Max. Q 3 + 1. 5 IQR Q 3 Medián Q 1 – 1. 5 IQR Min.

Hisztogram: fontos percentilisek? Min. Q 1 Medián Q 3 Max.

Hisztogram: fontos percentilisek? Min. Q 1 Medián Q 3 Max.

Robusztus mérőszámok § Alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás • átlag

Robusztus mérőszámok § Alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás • átlag = medián = 3 ms 3 ms ± 2 ms 1 pont: 20 s Response time Új medián: sort(resp. times)[501] = 3. 02 ms Resp. t. median Robusztus Resp. t. mean Nem rob. Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms!

2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus 1 numerikus, 1 kategorikus 2 kategorikus

2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus 1 numerikus, 1 kategorikus 2 kategorikus

Numerikus kategóriánként

Numerikus kategóriánként

2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus

2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus 2 kategorikus

Pont – pont diagram (scatterplot)

Pont – pont diagram (scatterplot)

Overplotting megoldások 1: jitter

Overplotting megoldások 1: jitter

Overplotting megoldások 1: jitter

Overplotting megoldások 1: jitter

Overplotting megoldások 2: átlátszóság

Overplotting megoldások 2: átlátszóság

2 változó kapcsolata Változók Numerikus 2 numerikus Változók Kategorikus Numerikus 1 numerikus, 1 kategorikus

2 változó kapcsolata Változók Numerikus 2 numerikus Változók Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus 2 kategorikus

Mozaik diagram (mosaic plot) § A túlsúlyosak nagy része férfi!

Mozaik diagram (mosaic plot) § A túlsúlyosak nagy része férfi!

 …és a fogyasztás is Ábra forrása: [4], [5] Az új autókban a tömeg

…és a fogyasztás is Ábra forrása: [4], [5] Az új autókban a tömeg kisebb…

Gráfok Rgraphviz

Gráfok Rgraphviz

Beeswarm beeswarm

Beeswarm beeswarm

Korrelogram corrgram

Korrelogram corrgram

Treemap treemap

Treemap treemap

Tableplot tabplot

Tableplot tabplot

Tableplot tabplot

Tableplot tabplot

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

FUNKCIONALITÁS

FUNKCIONALITÁS

Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy

Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy közönség § ~ bizonyítás a matematikában § Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha még tengelyfeliratok sem: egyedül az elemző kell hogy megértse § ~ matematikatörténet

Adatkötés

Adatkötés

Lekérdezések

Lekérdezések

Színezés/átlátszóság

Színezés/átlátszóság

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök –

Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking

Cloud benchmarking § Alapvető RT-RTT összefüggések § Kísérlettervezési hiányosságok § Konfiguráció hibák § Térbeli/időbeli/kliensbeli

Cloud benchmarking § Alapvető RT-RTT összefüggések § Kísérlettervezési hiányosságok § Konfiguráció hibák § Térbeli/időbeli/kliensbeli függőségek

Datacamp § Abalakozás § Eredménykiértékelés § Konzol

Datacamp § Abalakozás § Eredménykiértékelés § Konzol

Összefoglalás § Miért jó? o Összehasonlítás o Tetszőleges mélység § Mire jó? EDA Kapacitástervezés

Összefoglalás § Miért jó? o Összehasonlítás o Tetszőleges mélység § Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

Hivatkozások [1] Behrens, J. T. : Principles and procedures of exploratory data analysis. Psychological

Hivatkozások [1] Behrens, J. T. : Principles and procedures of exploratory data analysis. Psychological Methods 2, 131– 160 (1997) [2] Tukey, J. : We need both exploratory and confirmatory. The American Statistician 34, 23– 25 (1980) [3] Yau, Nathan. Visualize this: the Flowing. Data guide to design, visualization, and statistics. John Wiley & Sons, 2011. [4] Inselberg, A. : Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M. , Urbanek, S. : Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A. , Kharchenko, V. , Mamutov, S. , Tarasyuk, O. , Romanovsky, A. : Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185 – 190. IEEE (2012) [7] Pataricza, András, et al. : Empirical Assessment of Resilience. Software Engineering for Resilient Systems. 1 -16. (2013) [8] Funk, Kaiser: Junk Charts blog, URL: http: //junkcharts. typepad. com/ [9] Yau, Nathan: Flowing. Data blog, URL: http: //flowingdata. com/