Intelligens rendszerfelgyelet VIMIA 370 IT adatok vizulis elemzse
- Slides: 69
Intelligens rendszerfelügyelet (VIMIA 370) IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]
Esettanulmány: cloud benchmarking Web Service Dependability Assessment Tool Response Time Ábra forrása: [8] Round Trip Time Request Processing Time
Elemzési megközelítés 1: leíró statisztika
Elemzési megközelítés 2: felderítő adatanalízis § Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján
Exploratory Data Analysis § Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc § Fő eszköz: adatok „bejárása” grafikus reprezentációkkal § Hipotézisteszteléssel: iteratív folyamat
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
Miről nem lesz szó? § Adatbányászat § Hipotézistesztelés § Kísérlettervezés o Pl. Rendszermodellezés tárgyunk § Számítógépes grafika § Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]
Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy közönség § Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter § ~ matematikatörténet § ~ bizonyítás § Pl. Mondrian, iplots (R) § ggplot 2 csomag (R) Many Eyes, Tableau Adobe Illustrator, Inkscape
Prezentáció vs. felderítés
Adatmennyiség? §
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
ALAPFOGALMAK
Adatelemzés Modell Adatelemzés Adat Többletinformáció
Modell § Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o…
Modell § Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o…
Adatelemzés Modell Adatelemzés Adat Többletinformáció
Adat § Nemstrukturált § o Nincs előre rögzített tárolási/értelmezési modell Széles Hosszú
Adat § Nemstrukturált § o Nincs előre rögzített tárolási/értelmezési modell o Csak metaadat o Pl. e-mail, audio anyagok o Transzformáció strukturáltba?
Rekordok és változók Rekord/megfigyelés Változók/Attribútumok • • Start. time Country Location IP Client. type DC RT, RPT, RTT
Változók: kontextus és viselkedési § Kontextus o a mérési konfigurációt jellemzi § Viselkedési o maga a mért érték • • Start. time Country Location IP Client. type DC RT, RPT, RTT Változók/Attribútumok Kontextus Viselkedési
Numerikus és kategorikus változók § Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor Numerikus § Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Kategorikus
Numerikus változók § Folytonos o Mért – tetszőleges értéket felvehet Változók • adott tartományon belül • adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga § Diszkrét Folytonos Numerikus Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Kategorikus
Kategorikus változók § Szokásos kategorikus (regular) Változók § Rendezett o szintek között hierarchia Numerikus Rendezett Kategorikus Szokásos kategorikus
Típusok • • Start. time – numerikus, folytonos Country – szokásos kategorikus Location – szokásos kategorikus IP – szokásos kategorikus Client. type – szokásos kategorikus DC – szokásos kategorikus RT, RPT, RTT– numerikus, folytonos
Adatelemzés Modell Adatelemzés Adat Többletinformáció
Többletinformáció §
Adatelemzés Adat Tisztítás Modell Felderítő Többletinformáció Megerősítő
Adatelemzés Felderítő analízis Megerősítő analízis • Cél: hipotézisek megfogalmazása • Cél: hipotézisek tesztelése • Ismerkedés az adatokkal/doménnel • Erősen ad-hoc • Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció • Előre megsejtett összefüggések ellenőrzése • Fő eszköz: statisztikai tesztek + következtető módszerek
Adatelemzés § Pl. eloszláselemzés
Adatelemzés § Pl. lineáris regresszió
Adatelemzés Adat Tisztítás Modell Felderítő Többletinformáció Megerősítő
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
ALAPVETŐ DIAGRAMTÍPUSOK
1 változó Változók Numerikus {RPT: 609, 613, 913, …} Kategorikus {location: Peyton, Durham, …}
Oszlopdiagram (bar chart) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Kategorikus változó egyes értékeinek abszolút gyakorisága • Adategység: • Oszlop – magassága: adott érték gyakorisága • Tervezői döntés: • Értékkészlet darabolása?
Hisztogram • Megjelenített dimenziók száma: 1 Fontos percentilisek? • Ábrázolt összefüggés: • Folytonos változó egyes értékeinek abszolút gyakorisága • Adategység: • Oszlop – magassága: adott érték gyakorisága • Tervezői döntés: • Oszlopszélesség/kezdőpont?
Egy kis leíró statisztika… §
Doboz diagram (boxplot) • Megjelenített dimenziók száma: 1 • Ábrázolt összefüggés: • Folytonos változó fontos percentilisei • Általában 5 fontos érték • Adategység: • Doboz o Tervezői döntés: • Outlierek? Max. Q 3 + 1. 5 IQR Q 3 Medián Q 1 – 1. 5 IQR Min.
Hisztogram: fontos percentilisek? Min. Q 1 Medián Q 3 Max.
Robusztus mérőszámok § Alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás • átlag = medián = 3 ms 3 ms ± 2 ms 1 pont: 20 s Response time Új medián: sort(resp. times)[501] = 3. 02 ms Resp. t. median Robusztus Resp. t. mean Nem rob. Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms!
2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus 1 numerikus, 1 kategorikus 2 kategorikus
Numerikus kategóriánként
2 változó kapcsolata Változók Numerikus 2 numerikus Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus 2 kategorikus
Pont – pont diagram (scatterplot)
Overplotting megoldások 1: jitter
Overplotting megoldások 1: jitter
Overplotting megoldások 2: átlátszóság
2 változó kapcsolata Változók Numerikus 2 numerikus Változók Kategorikus Numerikus 1 numerikus, 1 kategorikus Kategorikus 2 kategorikus
Mozaik diagram (mosaic plot) § A túlsúlyosak nagy része férfi!
…és a fogyasztás is Ábra forrása: [4], [5] Az új autókban a tömeg kisebb…
Gráfok Rgraphviz
Beeswarm beeswarm
Korrelogram corrgram
Treemap treemap
Tableplot tabplot
Tableplot tabplot
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
FUNKCIONALITÁS
Prezentáció vs. felderítés § Prezentáció o o Statikus Jó minőségű Tömör Sok annotáció: nagy közönség § ~ bizonyítás a matematikában § Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha még tengelyfeliratok sem: egyedül az elemző kell hogy megértse § ~ matematikatörténet
Adatkötés
Lekérdezések
Színezés/átlátszóság
Miről lesz szó? § Adatelemzési alapfogalmak § Alapvető diagramtípusok § Interaktív EDA eszközök – elvárt funkcionalitás § Esettanulmány: cloud benchmarking
Cloud benchmarking § Alapvető RT-RTT összefüggések § Kísérlettervezési hiányosságok § Konfiguráció hibák § Térbeli/időbeli/kliensbeli függőségek
Datacamp § Abalakozás § Eredménykiértékelés § Konzol
Összefoglalás § Miért jó? o Összehasonlítás o Tetszőleges mélység § Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés
Hivatkozások [1] Behrens, J. T. : Principles and procedures of exploratory data analysis. Psychological Methods 2, 131– 160 (1997) [2] Tukey, J. : We need both exploratory and confirmatory. The American Statistician 34, 23– 25 (1980) [3] Yau, Nathan. Visualize this: the Flowing. Data guide to design, visualization, and statistics. John Wiley & Sons, 2011. [4] Inselberg, A. : Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M. , Urbanek, S. : Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A. , Kharchenko, V. , Mamutov, S. , Tarasyuk, O. , Romanovsky, A. : Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185 – 190. IEEE (2012) [7] Pataricza, András, et al. : Empirical Assessment of Resilience. Software Engineering for Resilient Systems. 1 -16. (2013) [8] Funk, Kaiser: Junk Charts blog, URL: http: //junkcharts. typepad. com/ [9] Yau, Nathan: Flowing. Data blog, URL: http: //flowingdata. com/
- Intarpersonal intelligence
- Tack för att ni lyssnade bild
- Kulturel intelligens
- Vimia
- Filemoo
- Psern
- Egyenes irányvektora
- Láncfűrész vágási formák
- Eecs 370 project 1
- Acq 370
- 650 en yakın yüzlük
- Atomic universe theory
- Eecs 370 curve
- Gate ese
- Ibm 360 series
- Ese 370
- Ese 370
- Eecs 496
- Eecs 582
- Eecs 370 project 4
- Cmpt 370
- Ese 370
- Xkcd scantron
- Csc 370
- Ese 370
- Ese 370
- Data formats of ibm 360/370 machine in system programming
- Isy 370
- Csc 370
- Ese 370
- Eecs 370 project 4
- Acq 370
- Eecs 370 project 2
- 866-370-3040
- Xkcd circuit
- Ese 370
- Procesory amd wikipedia
- Csc 370