STATYSTYKA WYKAD rok akademicki 20132014 Alfred Stach Instytut

  • Slides: 99
Download presentation
STATYSTYKA WYKŁAD rok akademicki 2013/2014 Alfred Stach Instytut Geoekologii i Geoinformacji WNGi. G e-mail:

STATYSTYKA WYKŁAD rok akademicki 2013/2014 Alfred Stach Instytut Geoekologii i Geoinformacji WNGi. G e-mail: frdstach@amu. edu. pl, tel. +4861 -829 -6179 dyżur w semestrze zimowym RA 2013/2014: poniedziałek 12: 00 – 14: 00

Zakres tematyczny zajęć 1. 2. 3. 4. 5. Wprowadzenie. Podstawowe pojęcia. Porządkowanie i wizualizacja

Zakres tematyczny zajęć 1. 2. 3. 4. 5. Wprowadzenie. Podstawowe pojęcia. Porządkowanie i wizualizacja danych. Statystyki opisowe. Podstawy teorii prawdopodobieństwa. Własności i zastosowanie rozkładów dwumianowego, Poissona, geometrycznego i hipergeometrycznego (urnowego). 6. Krzywa normalna i rozkłady próbkowe. 7. Estymacja statystyczna. 8. Testowanie hipotez. 9. Korelacja i regresja. 10. Test Chi-kwadrat i rozkład F. 11. Statystyki nieparametryczne. 12. Twierdzenie Bayesa. 13. Zagadnienia specjalistyczne 1 i 2.

Parametry statystyczne ►Analiza danych powinna doprowadzić do zwięzłego przedstawienia wyników badań za pomocą charakterystyk

Parametry statystyczne ►Analiza danych powinna doprowadzić do zwięzłego przedstawienia wyników badań za pomocą charakterystyk liczbowych zwanych parametrami statystycznymi. ►Parametry statystyczne to wielkości liczbowe służące do syntetycznego opisu struktury zbiorowości statystycznej. ►Stosowane parametry dzieli się na: • miary położenia • miary zmienności (miary rozproszenia, dyspersji) • miary asymetrii • miary koncentracji

Statystyka opisowa Miary położenia

Statystyka opisowa Miary położenia

Miary położenia opisują umiejscowienie typowych wartości cechy statystycznej na osi liczbowej.

Miary położenia opisują umiejscowienie typowych wartości cechy statystycznej na osi liczbowej.

Miary położenia średnia arytmetyczna klasyczne średnia harmoniczna średnia geometryczna miary położenia modalna pozycyjne kwartyl

Miary położenia średnia arytmetyczna klasyczne średnia harmoniczna średnia geometryczna miary położenia modalna pozycyjne kwartyl pierwszy mediana kwantyle kwartyl trzeci centyle

Miary położenia ► Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o

Miary położenia ► Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje. ► Miary pozycyjne, to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej. ► Poszczególne rodzaje średnich są obliczane na podstawie wszystkich wartości przyjmowanych przez cechę w badanej zbiorowości. ► Dla każdego konkretnego przypadku powinno się obliczać tylko jedną średnią, bo tylko jedna z nich jest odpowiednia dla danej cechy statystycznej, a pozostałe nie mają sensu. ► Wartość modalna, jest tym wariantem cechy statystycznej, który był najczęściej obserwowany. ► Kwantyle to takie warianty cechy statystycznej, które dzielą badaną zbiorowość na części w określonych proporcjach, np. na połowy (mediana). ► Wśród miar położenia można wyróżnić miary przeciętne lub inaczej miary tendencji centralnej wskazujące średni lub typowy poziom cechy, które mówią o przeciętnym poziomie badanej cechy (średnie, modalna, mediana).

Średnia arytmetyczna ► Średnia arytmetyczna jest najczęściej wykorzystywaną miarą spośród klasycznych miar położenia. Inne

Średnia arytmetyczna ► Średnia arytmetyczna jest najczęściej wykorzystywaną miarą spośród klasycznych miar położenia. Inne średnie wykorzystywane są zdecydowanie rzadziej. Jest stosunkowo prosta do obliczenia. Jej wadą (wynikającą z tego, że w jej wyznaczaniu uwzględniane są wszystkie pomiary) jest wrażliwość na przypadki odstające. Przypadki odstające to pomiary, których wartość zdecydowanie odbiega od większości pozostałych. Zwykle są wynikiem błędów, np. błędów przy zapisywaniu przecinka (wzrost osoby 1, 76 cm zamiast 176 cm). ► Średnią arytmetyczną wyznacza się ze wzoru:

Średnia arytmetyczna ► Przykład: ► Dwóch lekarzy bada pacjentów. Przeprowadzono obserwację czasu trwania tych

Średnia arytmetyczna ► Przykład: ► Dwóch lekarzy bada pacjentów. Przeprowadzono obserwację czasu trwania tych badań w minutach. Zanotowano następujące wyniki: ► Dla lekarza A: 12, 15, 18, 20 ► Dla lekarza B: 10, 12, 15, 18, 20, 21 ► Korzystając ze wzoru uzyskujemy:

Średnia harmoniczna ► Średnia harmoniczna jest stosowana zdecydowanie rzadziej niż arytmetyczna. Konieczność jej użycia

Średnia harmoniczna ► Średnia harmoniczna jest stosowana zdecydowanie rzadziej niż arytmetyczna. Konieczność jej użycia zachodzi, gdy wartości cechy statystycznej podawane są w przeliczeniu na stałą jednostkę innej zmiennej, np. prędkość w km/h, gęstość zaludnienia w osobach/km 2, spożycie w kg/osobę, itp. ► Średnią harmoniczną można wyznaczyć ze wzoru:

Średnia harmoniczna ► Przykład: ► W ciągu 8 godzin pracy w przychodni obserwowano pracę

Średnia harmoniczna ► Przykład: ► W ciągu 8 godzin pracy w przychodni obserwowano pracę trzech pielęgniarek. Na wykonanie obowiązków związanych z jednym pacjentem pielęgniarka A potrzebowała 4 min pielęgniarka B – 6 min, a pielęgniarka C – 12 min. Jaki jest średni czas zużywany na jednego pacjenta? (proszę zwrócić uwagę na rzeczywistą jednostkę badanej cechy: min/osobę!!!)

Średnia harmoniczna ►Gdyby w omawianym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy inny wynik: Jest to

Średnia harmoniczna ►Gdyby w omawianym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy inny wynik: Jest to wynik nieprawidłowy, bo przy takim tempie pracy, trzy pielęgniarki w ciągu 8 godzin (480 minut) obsłużyłyby 3× 480÷ 7, 333 min=196 osób. W rzeczywistości jednak, pielęgniarka A mogłaby zająć się 480÷ 4=120 pacjentami, pielęgniarka B - 480÷ 6=80, a pielęgniarka C - 480÷ 12=40, co daje łącznie 120+80+40=240 pacjentów.

Średnia geometryczna ►Średnią geometryczną stosuje się przy badaniu średniego tempa zmian zjawisk, tzn. w

Średnia geometryczna ►Średnią geometryczną stosuje się przy badaniu średniego tempa zmian zjawisk, tzn. w sytuacji, gdy zjawiska są ujmowane w sposób dynamiczny. ►Średnią geometryczną wyznacza się korzystając ze wzoru:

Średnia geometryczna ► Przykład: ► W ciągu trzech kolejnych lat liczba osób nowozakażonych wirusem

Średnia geometryczna ► Przykład: ► W ciągu trzech kolejnych lat liczba osób nowozakażonych wirusem HIV wynosiła odpowiednio: 500, 750, 825. Jaki był średni względny przyrost liczby nowych zakażeń? ► Wartości cechy statystycznej w tym zadaniu to przyrosty liczby zakażeń w kolejnych latach, tzn. : Zgodnie ze wzorem, średni przyrost, to:

Średnia geometryczna ►Gdyby w tym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy wynik: (1, 5+1, 1)÷

Średnia geometryczna ►Gdyby w tym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy wynik: (1, 5+1, 1)÷ 2=1, 3. ►Wynikałoby z tego, że w 3 roku, powinno być 500× 1, 3=845 osób nowozakażonych.

Średnia ważona ► Średnia ważona niepustej listy danych ► z odnoszącymi się do nich

Średnia ważona ► Średnia ważona niepustej listy danych ► z odnoszącymi się do nich nieujemnymi wagami ► z których co najmniej jedna jest dodatnia, jest określona przez: ► co oznacza: ► W ten sposób dane którym przypisano większe wagi mają większy udział w określeniu średniej ważonej niż dane, którym przypisano mniejsze wagi. Jeśli wszystkie wagi są równe, wówczas średnia ważona jest równa średniej arytmetycznej. Ogólnie, średnia ważona ma podobne własności do średniej arytmetycznej, jednakże ma ona kilka nieintuicyjnych cech

Średnia ważona ► Załóżmy, że są dwie klasy szkolne, jedna z 20 uczniami i

Średnia ważona ► Załóżmy, że są dwie klasy szkolne, jedna z 20 uczniami i druga z 30 uczniami. Wyniki testu przeprowadzonego w każdej klasie były następujące: ► klasa A = 62, 67, 71, 74, 76, 77, 78, 79, 80, 81, 82, 83, 84, 86, 89, 93, 98 ► klasa B = 81, 82, 83, 84, 85, 86, 87, 88, 89, 89, 90, 90, 91, 91, 92, 93, 94, 95, 96, 97, 98, 99 ► Średnia arytmetyczna ocen w klasie A wynosi 80, a w klasie B 90. Średnia arytmetyczna z liczb 80 i 90, jest równa 85, gdyby tę średnią przyjęto jako średnią uczniów obu klas, wynik byłby nieprawidłowy, gdyż nie uwzględniono liczebności klas. Aby ją uwzględnić, należy zsumować wszystkie oceny uczniów obu klas i podzielić przez łączną liczbę uczniów: ► Jeśli nie ma ocen poszczególnych uczniów, a tylko średnie dla całych klas, można obliczyć średnią uczniów licząc średnią ważoną klas używając liczby uczniów w klasach jako wagi tych liczb:

Średnia ważona ► Z rzeki pobrano pięć próbek wody i określono w nich stężenie

Średnia ważona ► Z rzeki pobrano pięć próbek wody i określono w nich stężenie azotanów: Nr próby 1 2 3 4 5 Stężenie (mg/L) 2, 3 4, 1 1, 8 6, 2 1, 5 Przepływ wody (L/s) 210 128 490 85 520 ► Jakie było średnie stężenie azotanów w tej rzece?

Średnia ważona przestrzenna lub czasowa

Średnia ważona przestrzenna lub czasowa

Modalna Wartość modalna, określana także jako dominanta, moda lub wartość najczęstsza, to wartość cechy

Modalna Wartość modalna, określana także jako dominanta, moda lub wartość najczęstsza, to wartość cechy statystycznej, która w danym rozkładzie empirycznym występuje najczęściej, a zatem jest to maksimum funkcji rozkładu empirycznego cechy statystycznej. Mo

Modalna ► Przykład: ► Wykorzystując dane z przykładu dla średniej arytmetycznej (czasy badania pacjentów):

Modalna ► Przykład: ► Wykorzystując dane z przykładu dla średniej arytmetycznej (czasy badania pacjentów): ► Dla lekarza A: 12, 15, 18, 20 ► Dla lekarza B: 10, 12, 15, 18, 20, 21 ► W przypadku lekarza A wartością modalną jest czas 15 minut. W przypadku lekarza B nie możemy określić wartości modalnej, ponieważ żadna z wartości cechy nie przyjęła pozycji dominującej (cztery wartości cechy powtarzały się dwukrotnie). ► Jeśli przyjmiemy, że próbę stanowiły łączne wyniki pracy obu lekarzy, to modalną jest wartość 15 (występująca w tym przypadku 4 razy): ► Mo=15 min

Modalna ► Wartość modalna, jako miara pozycyjna, jest odporna na występowanie przypadków odstających. Jeśli

Modalna ► Wartość modalna, jako miara pozycyjna, jest odporna na występowanie przypadków odstających. Jeśli przykładowo następujące dane (czas pobytu pacjenta w szpitalu w dniach): ► 6, 7, 8, 8, 9, 11, 11, 14, 15, 16, 117 ► To średni czas pobytu wyniósłby (6+7+8+8+9+11+11+11+14+14+15+16+117)÷ 13=19 dni ► Pomimo, że hospitalizacje nie były dłuższe niż 16 dni (poza jednym pacjentem, który z jakiejś przyczyny był leczony bardzo długo), wartość średniej arytmetycznej jest stosunkowo wysoka. Jest ona silnie zawyżana przez jeden przypadek odstający. Gdyby jednak do opisania typowego czasu hospitalizacji użyć wartości modalnej, uzyskamy wynik 11 dni, który jest zbliżony do czasy hospitalizacji prawie wszystkich pacjentów (poza jednym przypadkiem odstającym).

Kwantyle ► Kwartyl pierwszy (Q 1) dzieli zbiorowość na dwie części tak, że 25%

Kwantyle ► Kwartyl pierwszy (Q 1) dzieli zbiorowość na dwie części tak, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% równe bądź wyższe. ► Mediana (Me, kwartyl drugi) dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze bądź równe medianie, a połowa wartości cechy równe lub większe od Me. W szeregu szczegółowym medianą jest wartość znajdująca się w jego środku, stąd mediana jest nazywana wartością środkową. ► Kwartyl trzeci (Q 3) dzieli zbiorowość na dwie części tak, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a 25% równe bądź wyższe. ► Kwantyle definiuje się jako wartości cechy badanej populacji, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. Części te pozostają do siebie w określonych proporcjach.

Mediana ► Medianę wyznacza się ze wzoru: gdy n jest nieparzyste gdy n jest

Mediana ► Medianę wyznacza się ze wzoru: gdy n jest nieparzyste gdy n jest parzyste (mediana jest średnią dwu środkowych elementów szeregu) Przykład: Dane czasów hospitalizacji pacjentów: 6, 7, 8, 8, 9, 11, 11, 14, 15, 16, 117 Ponieważ szereg liczy 13 elementów, to zgodnie ze wzorem, środkowym jest element (13+1)÷ 2=7 w szeregu uporządkowanych wartości, czyli 11. Łatwo udowodnić, że także mediana jest niewrażliwa na przypadki odstające. Obok średniej arytmetycznej, mediana jest najczęściej stosowanym parametrem statystycznym.

Kwartyle ► Kwartyle wyznacza się w sposób analogiczny do mediany. Wyznaczając medianę, dzielimy badany

Kwartyle ► Kwartyle wyznacza się w sposób analogiczny do mediany. Wyznaczając medianę, dzielimy badany szereg na dwie połowy. Wyznaczenie kwartyla pierwszego sprowadza się do znalezienia mediany w połowie zawierającej jednostki mniejsze od mediany, a wyznaczenie kwartyla trzeciego to znalezienie mediany w połowie zawierającej jednostki większe od mediany. ► Opierając się na poprzednim przykładzie, kwartylem pierwszym będzie mediana szeregu: 6, 7, 8, 8, 9, 11, czyli 8, natomiast kwartylem trzecim będzie mediana szeregu 11, 14, 15, 16, 117, czyli 14. ► Podsumowując, dla przytoczonego przykładu: ► Q 1=8, Me=11, Q 3=14

Centyle ► Centyle stosowane są dla prób o dużej liczebności. Wskazują jaki procent jednostek

Centyle ► Centyle stosowane są dla prób o dużej liczebności. Wskazują jaki procent jednostek w próbie uzyskał wynik mniejszy od danego. Tym samym centyl 50 odpowiada medianie, a centyle 25 i 75 to odpowiednio pierwszy i trzeci kwartyl. ► Centyle są często stosowane do odnoszenie różnych pomiarów antropometrycznych u badanego dziecka do ogółu populacji dzieci. Służą do tego siatki centylowe. Są to wykresy kilku wybranych centyli (zwykle 3, 10, 25, 50, 75, 90 i 97) w zależności od wieku dla wybranego parametru antropometrycznego (np. wagi, wzrostu, obwodu głowy, itp. ).

Centyle Siatka centylowa wzrostu u chłopców Przykład: Ocenić wzrost 13 letniego chłopca, mierzącego 170

Centyle Siatka centylowa wzrostu u chłopców Przykład: Ocenić wzrost 13 letniego chłopca, mierzącego 170 cm. Ponieważ dla populacji 13 -letnich chłopców, wzrost 170 cm jest 90 -tym centylem, zatem w tej grupie wiekowej 90% chłopców jest niższych niż 170 cm, a 10% ma wzrost wyższy od 170 cm.

Miary położenia Skala Moda Mediana Średnia Nominalna X Porządkowa X X Interwałowa X X

Miary położenia Skala Moda Mediana Średnia Nominalna X Porządkowa X X Interwałowa X X X Ilorazowa X? X X (stosunkowa)

Relacje średnie, mediany i mody w zależności od kształtu rozkładu

Relacje średnie, mediany i mody w zależności od kształtu rozkładu

Statystyka opisowa Miary zmienności

Statystyka opisowa Miary zmienności

Miary zmienności (rozproszenia, dyspersji) opisują rozrzut wartości cechy statystycznej w populacji wokół wartości przeciętnej.

Miary zmienności (rozproszenia, dyspersji) opisują rozrzut wartości cechy statystycznej w populacji wokół wartości przeciętnej. Charakteryzują stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy.

Miary zmienności wariancja odchylenie standardowe klasyczne odchylenie przeciętne współczynnik zmienności miary zmienności rozstęp pozycyjne

Miary zmienności wariancja odchylenie standardowe klasyczne odchylenie przeciętne współczynnik zmienności miary zmienności rozstęp pozycyjne odchylenie ćwartkowe współczynnik zmienności Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje. Miary pozycyjne, to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej.

Wariancja ►Wariancja jest średnią arytmetyczną kwadratów odchyleń poszczególnych obserwacji od średniej arytmetycznej zbiorowości: Ważną

Wariancja ►Wariancja jest średnią arytmetyczną kwadratów odchyleń poszczególnych obserwacji od średniej arytmetycznej zbiorowości: Ważną cechą wariancji jest to, że nie jest wyrażona w jednostkach cechy, ale w jednostkach podniesionych do kwadratu, np. wariancja dla wzrostu może mieć jednostkę cm 2

Odchylenie standardowe ►Aby uzyskać miarę zmienności o jednostce zgodnej z mianem badanej cechy statystycznej,

Odchylenie standardowe ►Aby uzyskać miarę zmienności o jednostce zgodnej z mianem badanej cechy statystycznej, można posłużyć się odchyleniem standardowym, które jest pierwiastkiem kwadratowym wariancji: Odchylenie standardowe określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. Odchylenie standardowe bywa także oznaczane symbolem SD.

Odchylenie standardowe ►Znając średnią arytmetyczną i odchylenie standardowe próby, można określić typowy obszar zmienności:

Odchylenie standardowe ►Znając średnią arytmetyczną i odchylenie standardowe próby, można określić typowy obszar zmienności: W tym obszarze mieszczą się wartości cechy 68% wszystkich jednostek badanej zbiorowości statystycznej.

Odchylenie standardowe 68% 95% 99, 7% Poza przedział +/- jednego odchylenia standardowego od średniej

Odchylenie standardowe 68% 95% 99, 7% Poza przedział +/- jednego odchylenia standardowego od średniej wykracza około 33% obserwacji. Poza przedział +/- dwóch odchyleń standardowych od średniej wykracza tylko około 5% obserwacji. Prawdopodobieństwo, wystąpienia obserwacji spoza przedziału +/- trzech odchyleń standardowych od średniej jest znikome i wynosi ok. 0, 3%.

Reguła Czebyszewa ►Jaka część (F) wartości z dowolnego analizowanego zbioru danych znajduje się w

Reguła Czebyszewa ►Jaka część (F) wartości z dowolnego analizowanego zbioru danych znajduje się w obrębie określonej odległości od średniej arytmetycznej? Miarą tej odległości jest odchylenie standardowe (k). dla każdego k > 1 Wyliczona ze wzoru wartość określa dolną granicę częstości: W granicach średnia +/- k odchyleń standardowych znajduje się co najmniej F% przypadków z całego zbioru danych

Wzory obliczeniowe na wariancję i odchylenie standardowe z próby

Wzory obliczeniowe na wariancję i odchylenie standardowe z próby

Odchylenie przeciętne ►Odchylenie przeciętne (d) jest średnią arytmetyczną bezwzględnych odchyleń wartości cechy od jej

Odchylenie przeciętne ►Odchylenie przeciętne (d) jest średnią arytmetyczną bezwzględnych odchyleń wartości cechy od jej średniej arytmetycznej. Odchylenie przeciętne jest miarą rzadziej stosowaną w analizach statystycznych niż odchylenie standardowe, mimo że jego interpretacja jest podobna. Odchylenie przeciętne jest zawsze mniejsze od odchylenia standardowego, policzonych dla tego samego szeregu: d<s

Wariancja, odchylenie standardowe i przeciętne ► Przykład: ► Czasy badania pacjentów przez dwóch lekarzy

Wariancja, odchylenie standardowe i przeciętne ► Przykład: ► Czasy badania pacjentów przez dwóch lekarzy w minutach były następujące: ► Dla lekarza A: 12, 15, 18, 20 ► Dla lekarza B: 10, 12, 15, 18, 20, 21 ► Obliczone wcześniej średnie arytmetyczne wynoszą odpowiednio 16 min i 15, 4 min dla lekarza A i B. ► Wariancja czasu badania lekarza A wynosi:

Wariancja, odchylenie standardowe i przeciętne ► Dla lekarza A średni czas badania wynosi 16

Wariancja, odchylenie standardowe i przeciętne ► Dla lekarza A średni czas badania wynosi 16 min, a przeciętne zróżnicowanie ± 2, 76 min, natomiast dla lekarza B 15, 4± 4, 15 min. ► Typowy obszar zmienności wynosi: ► dla lekarza A – (13, 24 min; 18, 76 min) ► dla lekarza B – (11, 25 min; 19, 55 min) ► Odchylenie przeciętne dla lekarza A jest następujące:

Rozstęp ► Rozstęp jest najprostszą miarą zmienności. Definiuje się go jako różnicę między najwyższą

Rozstęp ► Rozstęp jest najprostszą miarą zmienności. Definiuje się go jako różnicę między najwyższą i najniższą zaobserwowaną wartością cechy statystycznej: ► R = xmax – xmin ► Rozstęp opisuje empiryczny obszar zmienności badanej cechy, nie daje jednak informacji o zróżnicowaniu poszczególnych wartości cechy w całej zbiorowości. Jest miarą pozycyjną. ► Np. dla przytoczonego wcześniej przykładu czasu badania dwu lekarzy: ► RA = 20 – 12 = 8 min ► RB = 21 – 10 = 11 min ► Łatwo zauważyć że wartość rozstępu, zależy od tego jak bardzo skrajny przypadek trafi się w próbie, czyli od jednostkowych przypadków ekstremalnych, a nie od zróżnicowania typowych obserwacji przeważających w zbiorowości.

Odchylenie ćwiartkowe ► Tak jak odchylenie standardowe jest najczęściej stosowane do opisania odchylenia wartości

Odchylenie ćwiartkowe ► Tak jak odchylenie standardowe jest najczęściej stosowane do opisania odchylenia wartości cechy od średniej arytmetycznej, tak odchylenie ćwiartkowe jest miarą zmienności najczęściej używaną w parze z medianą. Odchylenie ćwiartkowe (Q) jest połową różnicy między trzecim, a pierwszym kwartylem: Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części jednostek, pozostałej po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych. Kwartyli można użyć również do wyznaczenia typowego obszaru zmienności: (Q 1 < xtyp < Q 3) do którego należy 50% obserwacji.

Odchylenie ćwiartkowe ►W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości

Odchylenie ćwiartkowe ►W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości kwartyli są następujące: ►Q 1 A = 15, Q 3 A = 18 ►Q 1 B = 12, Q 1 B = 20 ►zatem: ►QA = (18 -15)÷ 2=1, 5 min ►QB = (20 -12)÷ 2=4 min

Współczynniki zmienności ► Współczynnik zmienności jest ilorazem bezwzględnej miary zmienności cechy i średniej wartości

Współczynniki zmienności ► Współczynnik zmienności jest ilorazem bezwzględnej miary zmienności cechy i średniej wartości tej cechy. W konstrukcji współczynnika zmienności można użyć zarówno miar klasycznych, jak i pozycyjnych. ► Współczynnik zmienności stosuje się zwykle, gdy chcemy ocenić zróżnicowanie kilku zbiorowości pod względem tej samej cechy, ewentualnie tej samej zbiorowości pod względem kilku cech. ► Współczynnik zmienności jest wielkością niemianowaną. Wartości współczynników podaje się z reguły w procentach. Przyjmuje się, że jeżeli współczynnik zmienności jest mniejszy niż 10%, to zróżnicowanie cechy jest statystycznie nieistotne. Duże wartości współczynnika zmienności świadczą o zróżnicowaniu, a więc niejednorodności zbiorowości.

Współczynniki zmienności ►Klasyczne współczynniki zmienności: oraz gdzie W przykładzie dotyczącym czasów badania pacjentów przez

Współczynniki zmienności ►Klasyczne współczynniki zmienności: oraz gdzie W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości średnich i odchyleń są następujące: zatem odpowiednie współczynniki zmienności są następujące:

Współczynniki zmienności ►Pozycyjne współczynniki zmienności: gdzie oraz W przykładzie dotyczącym czasów badania pacjentów przez

Współczynniki zmienności ►Pozycyjne współczynniki zmienności: gdzie oraz W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości kwartyli są następujące: Me. A = 15, Q 1 A = 15, Q 3 A = 18, QA = 1, 5 Me. B = 15, Q 1 B = 12, Q 1 B = 20, QB = 4 zatem odpowiednie współczynniki zmienności są następujące:

Miary zmienności Skala Zakres (min. /maks) Odch. Percentyle Stand. Nominalna Porządkowa X Interwałowa X

Miary zmienności Skala Zakres (min. /maks) Odch. Percentyle Stand. Nominalna Porządkowa X Interwałowa X X X? Ilorazowa X X X (stosunkowa)

Statystyka opisowa Miary kształtu (asymetrii, spłaszczenia)

Statystyka opisowa Miary kształtu (asymetrii, spłaszczenia)

Miary asymetrii • Często zdarza się, że porównanie średniego poziomu cechy i jej rozproszenia

Miary asymetrii • Często zdarza się, że porównanie średniego poziomu cechy i jej rozproszenia nie wykazuje różnic między badanymi zbiorowościami, a jednak obserwacja rozkładów empirycznych wyklucza podobieństwo struktury. • Rozważmy następujący przykład: w trzech szpitalach wylosowano po 20 pracowników w celu określenia ich zarobków. Uzyskano następujące wyniki: • Szpital A - 750, 1250, 1750, 1750, 2250, 2750, 2750 • Szpital B - 750, 1250, 1250, 1750, 1750, 2250, 2250, 2750, 2750 • Szpital C - 750, 1250, 1250, 1750, 1750, 2250, 2250, 2750

Miary asymetrii Gdyby obliczyć średnie arytmetyczne i odchylenia standardowe, w każdym szpitalu uzyskamy 1750±

Miary asymetrii Gdyby obliczyć średnie arytmetyczne i odchylenia standardowe, w każdym szpitalu uzyskamy 1750± 562 zł. Przedstawienie rozkładów empirycznych zarobków w tych 3 szpitalach w postaci histogramów pozwala zaobserwować różnice: rozkład symetryczny rozkład asymetryczny prawostronnie rozkład asymetryczny lewostronnie

Miary asymetrii • • Asymetrię można ocenić porównując różnice pomiędzy średnią arytmetyczną, a medianą

Miary asymetrii • • Asymetrię można ocenić porównując różnice pomiędzy średnią arytmetyczną, a medianą lub modalną. W przypadku asymetrii prawostronnej spełniona jest nierówność: Natomiast w przypadku asymetrii lewostronnej spełniona jest nierówność: Można to wyrazić za pomocą wskaźnika skośności, który przyjmuje wartość 0 przy braku asymetrii, wartości dodatnie przy asymetrii prawostronnej, a wartości ujemne przy asymetrii lewostronnej (przy użyciu miar klasycznych i pozycyjnych): lub

Miary asymetrii • Im większa wartość bezwzględna wskaźnika skośności, tym silniejsza asymetria. • Można

Miary asymetrii • Im większa wartość bezwzględna wskaźnika skośności, tym silniejsza asymetria. • Można użyć także klasycznego współczynnika asymetrii, wyrażonego wzorem: Obliczenie tego współczynnika jest stosunkowo czasochłonne, dlatego praktyczniej jest oceniać asymetrię rozkładu korzystając z miar pozycyjnych (wskaźnik asymetrii)

Skośność (3 moment rozkładu) Skrzywienie (nachylenie rozkładu) Skośność dodatnia = „ogon” po prawej Skośność

Skośność (3 moment rozkładu) Skrzywienie (nachylenie rozkładu) Skośność dodatnia = „ogon” po prawej Skośność ujemna = „ogon” po lewej Może być efektem występowania danych odstających (naturalne anomalie lub dane błędne) • Może być związana z efektem „podłogi” i „sufitu” • Można ją określić precyzyjnie • •

Skośność (3 moment rozkładu) • Skośność ujemna - lewostronna • Skośność dodatnia - prawostronna

Skośność (3 moment rozkładu) • Skośność ujemna - lewostronna • Skośność dodatnia - prawostronna

Efekt „stropu” („sufitu”)

Efekt „stropu” („sufitu”)

Efekt „podłogi”

Efekt „podłogi”

Kurtoza (z gr. κυρτός, kyrtos, kurtos - wydęty) - jedna z miar spłaszczenia rozkładu

Kurtoza (z gr. κυρτός, kyrtos, kurtos - wydęty) - jedna z miar spłaszczenia rozkładu wartości cechy. Definiuje się ją następującym wzorem: gdzie μ 4 jest czwartym momentem centralnym, zaś σ to odchylenie standardowe. W niektórych pracach, szczególnie starszych, można spotkać się ze wzorem na kurtozę, w którym nie odejmuje się od ułamka liczby 3. Nowa definicja kurtozy jest jednak bardziej wygodna, gdyż: • kurtoza rozkładu normalnego wynosi 0 • jeśli Y jest sumą n niezależnych zmiennych losowych, każdej o rozkładzie identycznym z rozkładem zmiennej losowej X, zachodzi własność: Kurt[Y] = Kurt[X] / n.

Kurtoza z próby wyraża się wzorem: Gdzie: • xi to i-ta wartość cechy, •

Kurtoza z próby wyraża się wzorem: Gdzie: • xi to i-ta wartość cechy, • μ to wartość oczekiwana w populacji, • σ to odchylenie standardowe w populacji, • zaś n to liczebność próby.

Kurtoza (4 moment rozkładu ) • Spłaszczenie lub „smukłość” rozkładu • kurtoza dodatnia= rozkład

Kurtoza (4 moment rozkładu ) • Spłaszczenie lub „smukłość” rozkładu • kurtoza dodatnia= rozkład „smukły” = leptokurtyczny • Kurtoza ujemna = rozkład „spłaszczony” = platykurtyczny • Uwaga! Rozkład może się wyglądać na smukły lub spłaszczony jedynie ze względu na przyjęte skale osi X i Y – weryfikacją jest dodanie krzywej rozkładu normalnego do histogramu

Kurtoza (4 moment rozkładu) Czerwona = dodatnia (leptokurtyczna) Niebieska = ujemna (platykurtyczna)

Kurtoza (4 moment rozkładu) Czerwona = dodatnia (leptokurtyczna) Niebieska = ujemna (platykurtyczna)

Opisywanie danych nominalnych • Częstości (frekwencje) – Występujące najczęściej? – Występujące najrzadziej? – Częstość

Opisywanie danych nominalnych • Częstości (frekwencje) – Występujące najczęściej? – Występujące najrzadziej? – Częstość względna (odsetki)? • Wykresy słupkowe – Porównanie wysokości słupków – kształt jest dowolny • przydatność użycia bezwzględnych/względnych częstości

Częstości • Liczba przypadków w określonej klasie (grupie) • Tabele częstości (frekwencji) • Wizualizacja

Częstości • Liczba przypadków w określonej klasie (grupie) • Tabele częstości (frekwencji) • Wizualizacja (wykresy słupkowe, diagramy kołowe) • Przedstawianie względnej częstości (%)

Tabela częstości >. Table # counts for origin Europa Japonia USA 26 44 85

Tabela częstości >. Table # counts for origin Europa Japonia USA 26 44 85 > round(100*. Table/sum(. Table), 2) # percentages for origin Europa Japonia USA 16. 77 28. 39 54. 84

Wykres słupkowy częstości

Wykres słupkowy częstości

Diagram kołowy częstości

Diagram kołowy częstości

Ssaki z wykopalisk neolitycznych na terenie Polski Makowiecki, D. , Stach, A. , 2007:

Ssaki z wykopalisk neolitycznych na terenie Polski Makowiecki, D. , Stach, A. , 2007: Ssaki wolno żyjące w holocenie Polski - aspekt środowiskowy i gospodarczy. [w: ] Studia interdyscyplinarne nad środowiskiem i kulturą w Polsce, red. M. Makohonienko, D. Makowiecki, Z Kurnatowska. Środowisko – Człowiek – Cywilizacja, tom 1. Seria Wydawnicza Stowarzyszenia Archeologii Środowiskowej. Bogucki Wydawnictwo Naukowe, Poznań 2007, str. 155 -170.

Ssaki z wykopalisk neolitycznych na terenie Polski Makowiecki, D. , Stach, A. , 2007:

Ssaki z wykopalisk neolitycznych na terenie Polski Makowiecki, D. , Stach, A. , 2007: Ssaki wolno żyjące w holocenie Polski - aspekt środowiskowy i gospodarczy. [w: ] Studia interdyscyplinarne nad środowiskiem i kulturą w Polsce, red. M. Makohonienko, D. Makowiecki, Z Kurnatowska. Środowisko – Człowiek – Cywilizacja, tom 1. Seria Wydawnicza Stowarzyszenia Archeologii Środowiskowej. Bogucki Wydawnictwo Naukowe, Poznań 2007, str. 155 -170.

Wykres radarowy częstości

Wykres radarowy częstości

Porządkowanie statystyczne: polega na przedstawieniu danych statystycznych w postaci ciągu rosnącego (uporządkowanie rosnące) lub

Porządkowanie statystyczne: polega na przedstawieniu danych statystycznych w postaci ciągu rosnącego (uporządkowanie rosnące) lub malejącego (uporządkowanie malejące)

Szereg statystyczny • Dane statystyczne, uporządkowanie w kolejności rosnącej lub malejącej oraz odpowiednio pogrupowane,

Szereg statystyczny • Dane statystyczne, uporządkowanie w kolejności rosnącej lub malejącej oraz odpowiednio pogrupowane, a następnie zaprezentowane w postaci tabelarycznej, nazywamy szeregiem statystycznym. • W praktyce najczęściej stosowane są szeregi statystyczne: Ø wyliczające Ø rozdzielcze (strukturalne) Ø geograficzne (terytorialne, przestrzenne) Ø dynamiczne (czasowe, chronologiczne).

Szereg rozdzielczy jest zestawieniem, w którym wartości badanej cechy statystycznej rozdzielone są na określone

Szereg rozdzielczy jest zestawieniem, w którym wartości badanej cechy statystycznej rozdzielone są na określone grupy (klasy), a każdej grupie (klasie) przyporządkowana jest liczba wartości do niej należących. Możemy stwierdzić, że szereg rozdzielczy przedstawia strukturę badanej zbiorowości.

Histogram • Histogram jest wykresem słupkowym, w którym szerokości poszczególnych słupków odpowiadają długości przedziałów

Histogram • Histogram jest wykresem słupkowym, w którym szerokości poszczególnych słupków odpowiadają długości przedziałów klasowych szeregu rozdzielczego, a wysokości liczebności tych przedziałów. • Będziemy wyróżniać dwa rodzaje histogramów: – histogram liczebności, gdy wysokości słupków odpowiadają liczebności przedziałów klasowych – histogram częstości, gdy wysokości słupków odpowiadają częstości przedziałów klasowych

Histogram

Histogram

Histogram z danych empirycznych: ile klas / jaka szerokość klas? – duża liczność próby

Histogram z danych empirycznych: ile klas / jaka szerokość klas? – duża liczność próby (n > 30) – decyzja o liczbie klas (k): • (n/2) < k < n • k 1 + 3, 3 log n • k < 5 log n – dla j (2 ; k-1) liczność j-tej klasy, nj 5 – stała szerokość klasy R/k – początek podziału xp <= xmin; przy czym xmax<= xp + k – j-ty przedział klasowy: < xp + (j-1) ; xp + j ) – środek j-tego przedziału xp + (j - 0, 5)

Histogramy • Ze wzrostem liczby przedziałów częstości obserwacji w przedziałach stają się coraz niższe.

Histogramy • Ze wzrostem liczby przedziałów częstości obserwacji w przedziałach stają się coraz niższe. • Można temu zapobiec wykreślając częstość / szerokość przedziału. W takim histogramie pole powierzchni słupka jest równe częstości.

Histogramy

Histogramy

Typy rozkładu zmiennej reprezentowane przez histogram

Typy rozkładu zmiennej reprezentowane przez histogram

Liczba posterunków opadowych w promieniu 36 km od węzła siatki interpolacyjnej II 1956 VIII

Liczba posterunków opadowych w promieniu 36 km od węzła siatki interpolacyjnej II 1956 VIII 1975

Odległość (m) węzła siatki interpolacyjnej od najbliższego posterunku pomiarowego II 1956 VIII 1975

Odległość (m) węzła siatki interpolacyjnej od najbliższego posterunku pomiarowego II 1956 VIII 1975

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21

Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013

Wykres pudełkowy (pudełko-wąsy, box and whisker)

Wykres pudełkowy (pudełko-wąsy, box and whisker)

Wykres pudełkowy (pudełko-wąsy, box and whisker) Dane odstające = 1 H Dane ekstremalne =

Wykres pudełkowy (pudełko-wąsy, box and whisker) Dane odstające = 1 H Dane ekstremalne = 1, 5 H

Wykres pudełkowy (pudełko-wąsy, box and whisker)

Wykres pudełkowy (pudełko-wąsy, box and whisker)

Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina

Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina

Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina

Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina

Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina

Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina

Maksymalne opady dobowe w miesiącach i latach wielolecia 1956 -80

Maksymalne opady dobowe w miesiącach i latach wielolecia 1956 -80