Okna vesmru statistiky dokon Martina Litschmannov Katedra aplikovan

  • Slides: 66
Download presentation
Okna vesmíru statistiky dokořán Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Okna vesmíru statistiky dokořán Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Co je to statistika? Google – 196. 106 odkazů (čeština), 2, 88. 109 odkazů

Co je to statistika? Google – 196. 106 odkazů (čeština), 2, 88. 109 odkazů (angličtina) • Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) ü Český statistický úřad, Real Time Statistics Project • Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) • Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

Proč je dobré znát (alespoň) základy statistiky? „Informace, informace…. “ „Ó, data! “ Číslo

Proč je dobré znát (alespoň) základy statistiky? „Informace, informace…. “ „Ó, data! “ Číslo 5 žije Kvantitativní výzkum Teorie Hypotéza Sběr dat Hledání pravdy Zdroj: technet. idnes. cz Analýza dat Vyhodnocení

Proč je dobré znát (alespoň) základy statistiky? „Informace, informace…. “ „Ó, data! “ Číslo

Proč je dobré znát (alespoň) základy statistiky? „Informace, informace…. “ „Ó, data! “ Číslo 5 žije Kvantitativní výzkum Teorie Hypotéza Sběr dat Hledání pravdy Zdroj: technet. idnes. cz Analýza dat Vyhodnocení

Základní pojmy ze statistické metodologie • Populace (základní soubor) je množina všech prvků, které

Základní pojmy ze statistické metodologie • Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. • (Statistické) jednotky - prvky populace • (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme • Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

Základní pojmy ze statistické metodologie úplné šetření výběrové šetření • Populace (základní soubor) je

Základní pojmy ze statistické metodologie úplné šetření výběrové šetření • Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. • (Statistické) jednotky - prvky populace • (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme • Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika • Reprezentativní výběr (odráží

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika • Reprezentativní výběr (odráží strukturu populace) vs. selektivní výběr • Metody vybírání prvků z populace: záměrný výběr (založen na expertním stanovisku), náhodný výběr

Základní pojmy ze statistické metodologie výběrové šetření • Exploratorní (popisná) statistika Popisná statistika (angl.

Základní pojmy ze statistické metodologie výběrové šetření • Exploratorní (popisná) statistika Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika

Exploratorní analýza dat

Exploratorní analýza dat

Typy proměnných Nominální proměnná Kvalitativní proměnná (kategoriální, slovní. . . ) (nelze uspořádat) Ordinální

Typy proměnných Nominální proměnná Kvalitativní proměnná (kategoriální, slovní. . . ) (nelze uspořádat) Ordinální proměnná (lze uspořádat) Typy proměnných Kvantitativní proměnná (numerická, číselná. . . )

EDA pro kategoriální veličinu

EDA pro kategoriální veličinu

Kategoriální veličina nominální (nemá smysl uspořádání) (např. Typ SŠ, Barva auta, Pohlaví, …)

Kategoriální veličina nominální (nemá smysl uspořádání) (např. Typ SŠ, Barva auta, Pohlaví, …)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní četnosti pi x

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní četnosti pi x 1 n 1 p 1=n 1 /n x 2 n 2 p 2=n 2 /n xk nk pk=nk /n Celkem: n 1+n 2+…+nk=n 1 + Modus (název nejčetnější varianty)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti [%] Muž 457 58,

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti [%] Muž 457 58, 2 Žena 328 41, 8 Celkem: 785 100, 0 Modus = Muž

Grafické znázornění A) Sloupcový graf (bar chart) Počet 25 20 15 10 5 0

Grafické znázornění A) Sloupcový graf (bar chart) Počet 25 20 15 10 5 0 Výborně Chvalitebně Prospěl Neprospěl „…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“ http: //office. microsoft. com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-HA 010218663. aspx

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10 8 6 4 2 0 Výborně Chvalitebně Prospěl Neprospěl

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10 8 6 4 2 0 Výborně Chvalitebně Prospěl Neprospěl

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10 8 6 4 2 0 Výborně Chvalitebně Prospěl Neprospěl

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10 8 6 4 2 0 Výborně Chvalitebně Prospěl Neprospěl

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10

Grafické znázornění A) Sloupcový graf (bar chart) 20 Počet 18 16 14 12 10 8 6 4 2 0 Výborně Chvalitebně Prospěl Neprospěl

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? • Subjektivně

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? • Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? Produkce CO

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? Produkce CO 2 [kg] na osobu Sloupcový graf 25000 20000 15000 USA 10000 ČR 5000 0 1993 2007 zdroj dat: http: //en. wikipedia. org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? • Subjektivně

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? • Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. • Nadbytečné názvy grafu, legendy, … • Neefektivní nuly A na co ještě?

Produkce CO 2 [tun] na osobu 25 20 20 18 15 16 10 14

Produkce CO 2 [tun] na osobu 25 20 20 18 15 16 10 14 5 12 0 10 1993 2007 USA ČR Který z grafů je „správný“? Produkce CO 2 [tun] na osobu (% roku 1993) USA ČR 100% 120% 100% 80% 60% 40% 20% 0% 98% 96% 94% 92% 1993 USA 2007 ČR 90% 1993 USA 2007 ČR

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) 5, 12% 10, 24%

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) 5, 12% 10, 24% 7; 17% 5; 12% 7, 17% Výborně 10; 24% Výborně Chvalitebně Prospěl Neprospěl 20; 47% 20, 48%

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) 5, 12% 10, 24%

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) 5, 12% 10, 24% 7; 17% 5; 12% 7, 17% Výborně 10; 24% Výborně Chvalitebně Prospěl Neprospěl 20; 47% 20, 48%

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?

Anketa Jste pro navýšení hodinové dotace matematiky na SŠ? 50% TAKHLE NE!!! PROTI

Anketa Jste pro navýšení hodinové dotace matematiky na SŠ? 50% TAKHLE NE!!! PROTI

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? • Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu

Výskyt krevních skupin a Rh faktoru [%] v USA 2%1% 3% 7% 0+ 6%

Výskyt krevních skupin a Rh faktoru [%] v USA 2%1% 3% 7% 0+ 6% A+ B+ 38% 9% AB+ 0 AB- 34% Krevní skupina 0 A B AB Celkem Rh faktor Rh+ Rh 38 7 34 6 9 2 3 1 84 16 AB- Celkem 45 40 11 4 100

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? • Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu, legendy, … • Ne vždy je graf přehlednější než tabulka A na co ještě?

Srozumitelnost výkladu 6; 3% 32; 15% 1; 0% 64; 29% Hodnocení 1 Srozumitelnost řešených

Srozumitelnost výkladu 6; 3% 32; 15% 1; 0% 64; 29% Hodnocení 1 Srozumitelnost řešených příkladů 37; 17% 2; 1% 76; 35% Hodnocení 2 Hodnocení 3 114; 53% Hodnocení 4 15; 7%1; 0% 73; 34% 48; 22% Hodnocení 1 Hodnocení 4 103; 47% Hodnocení 5 Užitečnost úloh k samostatné práci 5; 2% 34; 16% Hodnocení 2 Hodnocení 1 82; 38% Hodnocení 3 Hodnocení 4 80; 37% 96; 44% 25; 11% úprava 5; Grafická 2% 8; 4% Hodnocení 2 Hodnocení 3 81; 39% Hodnocení 4 Hodnocení 5 Praktické aplikace Hodnocení 1 75; 36% Hodnocení 4 Hodnocení 5 Hodnocení 2 Hodnocení 3 Hodnocení 5 18; 9% 3; 1%31; 15% Hodnocení 2 Hodnocení 3 Hodnocení 5 Množství řešených příkladů Hodnocení 1 89; 41% 92; 42% Hodnocení 1 Hodnocení 2 Hodnocení 3 Hodnocení 4 2 grafy ještě chybí … Hodnocení 5

Hodnocení modulu PRA (220 respondentů) Dostatečnost textu 66 Míra používání textu 85 76 Grafická

Hodnocení modulu PRA (220 respondentů) Dostatečnost textu 66 Míra používání textu 85 76 Grafická úprava 55 67 52 89 Praktické aplikace 75 Užitečnost úloh k samostatné práci 73 Srozumitelnost řešených příkladů 76 Srozumitelnost výkladu 80 34 48 103 114 1 8 5 18 96 64 0% 25 81 82 Množství řešených příkladů 23 92 31 63 3 5 15 1 37 32 2 61 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 100% skládaný pruhový graf

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát

Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? • Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu, legendy, … • Ne vždy je graf přehlednější než tabulka • „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“ Van Belle

Kategoriální proměnná ordinální (má smysl uspořádání) (např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání,

Kategoriální proměnná ordinální (má smysl uspořádání) (např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, …)

Číselné charakteristiky Seřazené podle velikosti TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní

Číselné charakteristiky Seřazené podle velikosti TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní četnosti pi Kumulativní četnosti mi Kumulativní relativní četnosti Fi x 1 n 1 p 1=n 1/n n 1 p 1 x 2 n 2 p 2=n 2/n n 1+n 2 p 1+p 2 xk nk pk=nk/n n 1+n 2+…+nk=n p 1+p 2+…+pk=1 Celkem: n 1+n 2+…+nk=n 1 ---- + Modus

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Míra nezaměstnanosti Absolutní četnosti Relativní četnosti [%) Kumulativní četnosti

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Míra nezaměstnanosti Absolutní četnosti Relativní četnosti [%) Kumulativní četnosti Kumulativní relativní četnosti [%) nízká 27 13, 6 střední 146 73, 7 173 87, 4 vysoká 25 12, 6 198 100, 0 Celkem: 198 100, 0 Modus = střední

Grafické znázornění A) Sloupcový graf (bar chart) B) Výsečový graf – koláčový graf (pie

Grafické znázornění A) Sloupcový graf (bar chart) B) Výsečový graf – koláčový graf (pie chart)

EDA pro numerická data

EDA pro numerická data

Číselné charakteristiky A) Míry polohy B) Míry variability

Číselné charakteristiky A) Míry polohy B) Míry variability

Míry polohy

Míry polohy

Aritmetický průměr Na co si dát pozor? • Harmonický průměr (proměnné vyjadřující čas na

Aritmetický průměr Na co si dát pozor? • Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) • Geometrický průměr (tempa růstu) • Vážený průměr • Průměrování dat na cirkulární škále Circular Statistics Toolbox • Průměr není rezistentní vůči odlehlým pozorováním!

Kvantily 100 p %-ní kvantil xp odděluje 100 p% menších hodnot od zbytku souboru

Kvantily 100 p %-ní kvantil xp odděluje 100 p% menších hodnot od zbytku souboru (100 p% hodnot datového souboru je menších než toto číslo. )

Význačné kvantily • Kvartily Dolní kvartil x 0, 25 Medián x 0, 5 Horní

Význačné kvantily • Kvartily Dolní kvartil x 0, 25 Medián x 0, 5 Horní kvartil x 0, 75 • Decily – x 0, 1; x 0, 2; . . . ; x 0, 9 • Percentily – x 0, 01; x 0, 02; …; x 0, 99 • Minimum xmin a Maximum xmax

Interkvartilové rozpětí Užití: např. při identifikaci odlehlých pozorování

Interkvartilové rozpětí Užití: např. při identifikaci odlehlých pozorování

Identifikace odlehlých pozorování • Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních

Identifikace odlehlých pozorování • Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

Identifikace extrémních pozorování • Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších

Identifikace extrémních pozorování • Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb

Příklad V předložených datech identifikujte odlehlá pozorování: MN [%] 8, 7 7, 8 6,

Příklad V předložených datech identifikujte odlehlá pozorování: MN [%] 8, 7 7, 8 6, 8 7, 8 9, 7 15, 7 6, 8 4, 9 6, 8

Příklad V předložených datech identifikujte odlehlá pozorování: MN 0, 25=6, 8 MN 0, 5=7,

Příklad V předložených datech identifikujte odlehlá pozorování: MN 0, 25=6, 8 MN 0, 5=7, 3 MN 0, 75=8, 7 MN [%] 4, 9 6, 8 7, 8 8, 7 9, 7 15, 7 Vnitřní hradby: Dolní mez: 6, 8 -2, 85=3, 95 IQR=MN 0, 75 -MN 0, 25=1, 9 1, 5. IQR=2, 85 Horní mez: 8, 7+2, 85=11, 55

Příklad V předložených datech identifikujte odlehlá pozorování: MN 0, 25=6, 8 MN 0, 5=7,

Příklad V předložených datech identifikujte odlehlá pozorování: MN 0, 25=6, 8 MN 0, 5=7, 3 MN 0, 75=8, 7 MN [%] 4, 9 6, 8 7, 8 8, 7 9, 7 15, 7 Vnitřní hradby: Dolní mez: 6, 8 -2, 85=3, 95 IQR=MN 0, 75 -MN 0, 25=1, 9 1, 5. IQR=2, 85 Horní mez: 8, 7+2, 85=11, 55

Příklad V předložených datech identifikujte odlehlá pozorování: MN 0, 25=6, 8 MN 0, 5=7,

Příklad V předložených datech identifikujte odlehlá pozorování: MN 0, 25=6, 8 MN 0, 5=7, 3 MN 0, 75=8, 7 MN [%] 4, 9 6, 8 7, 8 8, 7 9, 7 15, 7 Vnitřní hradby: Dolní mez: 6, 8 -2, 85=3, 95 IQR=MN 0, 75 -MN 0, 25=1, 9 1, 5. IQR=2, 85 Horní mez: 8, 7+2, 85=11, 55

Míry variability

Míry variability

Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru

Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

Výběrová směrodatná odchylka Empirické pravidlo 6 sigma k 1 2 3 0, 682 0,

Výběrová směrodatná odchylka Empirické pravidlo 6 sigma k 1 2 3 0, 682 0, 954 0, 998

Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) • Čím nižší var. koeficient, tím

Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) • Čím nižší var. koeficient, tím homogennější soubor. • Vx > 50% značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

Grafické znázornění num. proměnné A. ) Krabicový graf (Box plot)

Grafické znázornění num. proměnné A. ) Krabicový graf (Box plot)

Grafické znázornění num. proměnné B. ) Histogram Na co si dát pozor?

Grafické znázornění num. proměnné B. ) Histogram Na co si dát pozor?

Grafické znázornění num. proměnné B. ) Histogram

Grafické znázornění num. proměnné B. ) Histogram

Grafické znázornění num. proměnné B. ) Histogram 30 Četnost 25 20 15 10 5

Grafické znázornění num. proměnné B. ) Histogram 30 Četnost 25 20 15 10 5 0 27, 1 43, 8 60, 6 77, 3 94, 0 110, 7 127, 4 144, 1 160, 8 Další Data MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza (excel, projekt MI 21) Na co si dát pozor?

Souvislost mezi číselnými charakteristikami a grafy Java applet – Výběrové charakteristiky projekt MI 21

Souvislost mezi číselnými charakteristikami a grafy Java applet – Výběrové charakteristiky projekt MI 21

Odkazy • LITSCHMANNOVÁ, M. (2011), Úvod do statistiky, skripta pilotní verze • Interstat –

Odkazy • LITSCHMANNOVÁ, M. (2011), Úvod do statistiky, skripta pilotní verze • Interstat – sylabus popisné statistiky (nedokončeno) • Jak nevytvářet grafy (anglicky) The Evil Tutor‘s Guide • Real Time Statistics Project • Circular Statistics Toolbox (Matlab)

A jsme téměř na konci… Ještě otázka pro ŠKOMAM CUP!

A jsme téměř na konci… Ještě otázka pro ŠKOMAM CUP!

Volíme-li odpověď na tuto otázku náhodně, jaká je šance, že odpovíme správně? A) 25%

Volíme-li odpověď na tuto otázku náhodně, jaká je šance, že odpovíme správně? A) 25% B) 50% C) 0% D) 25%

A to už je opravdu konec! Děkuji za pozornost

A to už je opravdu konec! Děkuji za pozornost