STATYSTYKA WYKAD rok akademicki 20132014 Alfred Stach Instytut

STATYSTYKA WYKŁAD rok akademicki 2013/2014 Alfred Stach Instytut Geoekologii i Geoinformacji WNGi. G e-mail:

Program wykładu Historia statystyki Definicja statystyki; opinie o statystyce Główne funkcje statystyki Zakres tematyczny

Historia statystyki • „Statystyka ma długą prehistorię, ale krótką historię” (C. Radhakrishna Rao) •

Historia statystyki • Termin statystyka ma źródło w łacińskim słowie „status”, co oznacza „państwo”.

Historia statystyki • I Międzynarodowy Kongres Statystyczny w 1854 roku w Brukseli – prezesem

Definicja - Wikipedia • Statystyka – nauka, której przedmiotem zainteresowania są metody pozyskiwania i

Główne funkcje statystyki • Opisywanie/podsumowywanie/ tabelaryzowanie danych, • Testowanie hipotez (przewidywań) na temat danych

Opisywanie/podsumowywanie/ tabelaryzowanie danych • Podsumowanie/rysowanie kształt rozkładu zmiennych ciągłych, • Tabelaryzowanie/ilustrowanie graficzne danych jakościowych

Testowanie hipotez (przewidywań) na temat danych • • • Kształtu (lub dopasowania) rozkładu, Różnic

Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupień • Czynników lub wymiarów wśród wielu zmiennych

Zakres tematyczny zajęć 1. 2. 3. 4. 5. Wprowadzenie. Podstawowe pojęcia. Porządkowanie i wizualizacja

Wzór zakresu tematycznego i formy wykładów

Forma i termin zaliczenia przedmiotu • Obowiązują zarówno treści przekazane w trakcie wykładu, jak

Internetowy podręcznik statystyki: http: //www. statsoft. pl/textbook/stathome. html

Statystyczna wizualizacja http: //vis. supstat. com/

Statystyka – strona domowa wykładów i ćwiczeń: http: //geoinfo. amu. edu. pl/staff/astach/Stat_geoinfo_2013. htm

Temat 1: Wprowadzenie. Podstawowe pojęcia. populacja, próba statystyczna, zmienne ilościowe i jakościowe, parametr populacji,

PODSTAWOWE POJĘCIA STATYSTYKI • Zbiorowość statystyczna, nazywana też populacją statystyczną, - zbiór elementów (osób,

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Skończona Ma skończoną liczbę jednostek; np. 50 firm farmaceutycznych

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Jednowymiarowa badana ze względu na jedną cechę np. firmy

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Względnie jednorodna Jej podzbiorowości mało różnią się własnościami np.

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Statyczna Wszystkie jednostki statystyczne pochodzą z tego samego okresu

Cecha • Badana własność elementów populacji statystycznej, która różnicuje tę populację • Cechy mierzalne

Klasyfikacja cech statystycznych Cecha statystyczna ilościowa (mierzalna) wyrażone za pomocą liczb skokowa przyjmuje skończoną

PRZYKŁAD 1 Badamy wysokość kredytów wśród klientów indywidualnych PKO BP w dniu 30. 06.

PRZYKŁAD 2 Badamy opinię pracowników, dotyczącą decyzji zarządu jednej z warszawskich firm o połączeniu

PODSTAWOWE POJĘCIA STATYSTYKI • Dane populacji zawierają informacje o wszystkich obiektach będących w sferze

Skale pomiarowe n n Uzależnione są od rodzaju opisywanych zmiennych Determinują, co można zrobić

Skala nominalna • Pozwala rozpoznawać obiekty jednakowe i różne, bez wypowiadania się o relacjach

Skala porządkowa • Dodatkowo wprowadza relację porządku w zbiorze zmiennych jakościowych, np. drewno suche,

Skala porządkowa • Przykład: skala ocen (ndst, db, bdb) • Wszelkiego rodzaju obliczenia są

Skala przedziałowa • Zachowuje własności skali porządkowej, ale dodatkowo wyposażona jest w stałą jednostkę

Skala przedziałowa • Przykład: skala Celsjusza dla temperatury, skala czasu, itp. • Możliwe jest

Skala ilorazowa • różni się od skali przedziałowej tym, że posiada zero absolutne, a

Skala ilorazowa • Przykład: skala Kelwina temperatury, kapitał (liczba pieniędzy), upływ czasu, itp. •

Typy próbkowania • Jeśli każdy obiekt należący do populacji ma jednakową szansę żeby zostać

Próbkowanie losowe • Użyj tablicy liczb losowych do wyselekcjonowania próby 30 samochodów przeznaczonych do

Typy próbkowania • Kiedy wylosowany obiekt nie zostaje usunięty z badanej populacji, to wtedy

Typy próbkowania • W badaniach społecznych często stosuje się próbkowanie grupowe. Najpierw populację dzieli

Typy próbkowania • Próbkowanie przypadkowe stosują często media zasięgając opinii publicznej w aktualnych sprawach.

Badania populacji • Lista (zestawienie) obiektów z których wybierana jest próba określana jest jako

Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku Pismo

Na podstawie ankiety Literary Digest przewidywał, że wybory prezydenckie w 1936 roku wygra Landon

Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku •

Badania populacji • Kiedy wykorzystujemy pomiary lub obserwacje pochodzące z całej populacji wówczas mamy

Testowanie hipotez na podstawie próby nie jest takie proste ocena niepewności wniosków

Badania eksperymentalne • Kiedy badany obiekt (osoba) nie jest poddany w trakcie eksperymentu oddziaływaniu,

Badania eksperymentalne - przykład • Czy ból w klatce piersiowej może być zmniejszony poprzez

Badania eksperymentalne - przykład • Pacjenci poddani terapii laserowej czuli się lepiej. Zaskakującym wynikiem

Badania eksperymentalne - przykład • Tworzy się zawsze grupę kontrolną. Ta grupa otrzymuje leczenie

Ogólny plan badań wykorzystujących statystyczne metody analizy danych 1. Określenie osób czy też obiektów

Slides: 62

Download presentation

STATYSTYKA WYKŁAD rok akademicki 2013/2014 Alfred Stach Instytut Geoekologii i Geoinformacji WNGi. G e-mail: frdstach@amu. edu. pl, tel. +4861 -829 -6179 dyżur w semestrze letnim RA 2013/2014: poniedziałek: 10: 00 – 12: 00; śróda: 11: 00 – 12: 00

Program wykładu Historia statystyki Definicja statystyki; opinie o statystyce Główne funkcje statystyki Zakres tematyczny wykładów w semestrze I roku akademickiego 2013/2014 • Forma i termin zaliczenia przedmiotu • Źródła wiedzy: podręczniki i Internet • Wykład 1: podstawowe pojęcia statystyki • •

Historia statystyki • „Statystyka ma długą prehistorię, ale krótką historię” (C. Radhakrishna Rao) • Najdawniejszy zapis statystyczny: karby na kościach, kamieniu i innych materiałach służące do prowadzenia rachunku swego bydła i innego dobytku • Pierwsze spisy ludności przeprowadzano w Chinach ok. 2000 lat p. n. e • Za czasów dynastii Czou (1122 – 256 p. n. e. ) ustanowiono oficjalne stanowisko odpowiedzialnego za prace statystyczne zwane „szih-su” (księgowy)

Historia statystyki • Termin statystyka ma źródło w łacińskim słowie „status”, co oznacza „państwo”. Został on użyty po raz pierwszy w połowie XVIII przez Niemca Gottfrieda Achenwalla dla określenia „gromadzenia, przetwarzania i wykorzystywania danych przez państwo” • W 1800 roku Francja jako pierwsze państwo na świecie tworzy Centralny Urząd Statystyczny • W 1834 roku powstało w Londynie Królewskie Towarzystwo Statystyczne (Royal Statistical Society). Wtedy statystykę uważano za „fakty odnoszące się do ludzi, możliwe do przedstawienia w postaci liczb, w wystarczająco zwielokrotnionej ilości, sygnalizujące prawa ogólne”

Historia statystyki • I Międzynarodowy Kongres Statystyczny w 1854 roku w Brukseli – prezesem został belgijski matematyk Adolphe Quetlet (1796 -1874) • W 1885 powstało międzynarodowe stowarzyszenie statystyków pod nazwą Międzynarodowego Instytutu Statystycznego (International Statistical Institute). Siedzibą ISI jest Haga w Holandii • W Polsce niepodległej w 1918 powołano Główny Urząd Statystycznych (GUS). GUS powstał z inicjatywy Ludwika Krzywickiego, jednego z najwybitniejszych socjologów swoich czasów. Działalność GUS była zawieszona w okresie drugiej wojny światowej, i wznowiona w 1945 roku.

Definicja - Wikipedia • Statystyka – nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska, w tym masowe. • Duża część nauki zajmuje się obserwacją otaczającego nas świata lub też posługuje się eksperymentem dla potwierdzenia swoich teorii. Takie badanie przebiega zazwyczaj według schematu: – zebranie dużej ilości danych, ich analiza i interpretacja. – Badaczowi potrzebny jest wtedy zestaw narzędzi - sprawdzonych metod, które umożliwią mu operowanie na dużych zbiorach danych. • Tworzeniem i rozwijaniem takich użytecznych narzędzi zajmuje się właśnie statystyka.

Główne funkcje statystyki • Opisywanie/podsumowywanie/ tabelaryzowanie danych, • Testowanie hipotez (przewidywań) na temat danych • Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupień

Opisywanie/podsumowywanie/ tabelaryzowanie danych • Podsumowanie/rysowanie kształt rozkładu zmiennych ciągłych, • Tabelaryzowanie/ilustrowanie graficzne danych jakościowych (takich jak płeć, zawód) oraz wyznaczanie liczności, procentów itp. , • Przeprowadzanie eksploracji/ podsumowywanie szeregów czasowych

Testowanie hipotez (przewidywań) na temat danych • • • Kształtu (lub dopasowania) rozkładu, Różnic pomiędzy grupami/próbami, Różnic pomiędzy zmiennymi, Zależności (relacji) między zmiennymi, Różnic w relacjach pomiędzy zmiennymi w różnych grupach

Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupień • Czynników lub wymiarów wśród wielu zmiennych ciągłych, • Skupień lub naturalnych grup zmiennych lub przypadków, • Wzorców lub trendów zachodzących w czasie, • Związków w tablicach wielodzielczych. • Związków pomiędzy zmiennymi niezależnymi (objaśniającymi) a zmiennymi zależnymi, określającymi przynależność do grup (kategorii).

Zakres tematyczny zajęć 1. 2. 3. 4. 5. Wprowadzenie. Podstawowe pojęcia. Porządkowanie i wizualizacja danych. Statystyki opisowe. Podstawy teorii prawdopodobieństwa. Własności i zastosowanie rozkładów dwumianowego, Poissona, geometrycznego i hipergeometrycznego (urnowego). 6. Krzywa normalna i rozkłady próbkowe. 7. Estymacja statystyczna. 8. Testowanie hipotez. 9. Korelacja i regresja. 10. Test Chi-kwadrat i rozkład F. 11. Statystyki nieparametryczne. 12. Twierdzenie Bayesa. 13. Zagadnienia specjalistyczne 1 i 2.

Wzór zakresu tematycznego i formy wykładów

Statystyka jest łatwa ?

Podręczniki

Encyklopedie i słowniki

Forma i termin zaliczenia przedmiotu • Obowiązują zarówno treści przekazane w trakcie wykładu, jak i znajdujące się w obowiązkowych lekturach • Zaliczenie jest pisemne i trwa 45 minut • Składać się będzie z 8 pytań testowych (wybór z 4 odpowiedzi) i 2 pytań otwartych • Proponowane terminy zaliczenia i poprawki: 6 i 13 VI 2014

Podręczniki dla Was!

Internetowy podręcznik statystyki: http: //www. statsoft. pl/textbook/stathome. html

Statystyczna wizualizacja http: //vis. supstat. com/

Statystyka – strona domowa wykładów i ćwiczeń: http: //geoinfo. amu. edu. pl/staff/astach/Stat_geoinfo_2013. htm

Temat 1: Wprowadzenie. Podstawowe pojęcia. populacja, próba statystyczna, zmienne ilościowe i jakościowe, parametr populacji, statystyka próby, skale pomiarowe, statystyka opisowa, wnioskowanie statystyczne, próbkowanie losowe, inne schematy próbkowania, błąd próby, obserwacja, eksperyment, efekt placebo, grupa kontrolna, randmizowany eksperyment kontrolowany, randomizowany eksperyment blokowy, • replikacja, podwójna ślepa próba. • • •

Badania statystyczne

PODSTAWOWE POJĘCIA STATYSTYKI • Zbiorowość statystyczna, nazywana też populacją statystyczną, - zbiór elementów (osób, przedmiotów, zdarzeń) podobnych, lecz nie identycznych pod względem określonej cechy, poddanych badaniom statystycznym. • Element zbiorowości statystycznej (populacji statystycznej) jest nazywany jednostką statystyczną. • Liczba jednostek statystycznych, czyli elementów zbiorowości, jest nazywana liczebnością zbiorowości. • Cecha statystyczna (nazywana też zmienną) to właściwość elementów zbiorowości statystycznej będąca przedmiotem badania statystycznego.

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Skończona Ma skończoną liczbę jednostek; np. 50 firm farmaceutycznych Nieskończona Ma nieskończona lub niemożliwą do ustalenia liczbę jednostek statystycznych; Np. zbiorowość mikroorganizmów, klienci odwiedzający centrum handlowe

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Jednowymiarowa badana ze względu na jedną cechę np. firmy farmaceutyczne badane ze względu na wielkość obrotów Wielowymiarowa badana jednocześnie ze względu na kilka cech np. firmy farm. W których badamy zależność wielkości obrotów od liczby przedstawicieli handlowych

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Względnie jednorodna Jej podzbiorowości mało różnią się własnościami np. zbiorowość gospodarstw 2 – osobowych badana ze względu na tygodniowe wydatki na żywność Niejednorodna Jej podzbiorowości wyraźnie różnią się własnościami np. zbiorowość gospodarstw o różnej wielkości badana ze względu na tygodniowe wydatki na żywność

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Statyczna Wszystkie jednostki statystyczne pochodzą z tego samego okresu np. firmy farm. zarejestrowane we wrześniu 2006 r. , spółki na giełdzie notowane 15. 06. 2007 r. Dynamiczna Jednostki statystyczne pochodzą z różnych okresów np. kolejne sesje giełdowe w październiku 2006 r.

Cecha • Badana własność elementów populacji statystycznej, która różnicuje tę populację • Cechy mierzalne (ilościowe): możliwe do opisania za pomocą liczb – ciągłe: przyjmujące dowolne wartości w danym przedziale – skokowe: przyjmująca określone wartości w danym przedziale, • Cechy niemierzalne (jakościowe): można je jedynie opisać słownie lub za pomocą odpowiednich skal

Klasyfikacja cech statystycznych Cecha statystyczna ilościowa (mierzalna) wyrażone za pomocą liczb skokowa przyjmuje skończoną lub przeliczalną liczbę wartości; w pewnym przedziale zmienności może przyjąć tylko niektóre wartości. jakościowa (niemierzalna) wyrażona w sposób opisowy. ciągła - może przyjąć każdą wartość z określonego przedziału liczbowego

PRZYKŁAD 1 Badamy wysokość kredytów wśród klientów indywidualnych PKO BP w dniu 30. 06. 2007 r. Zbiorowość statystyczna: indywidualni kredytobiorcy PKO BP Jednostka statystyczna: jeden klient – obiekt materialny (kto – klient PKO BP, kiedy – 30. 06. 2007 r. , gdzie – Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: wysokość kredytu (tys. zł) Typ cechy statystycznej: mierzalna, ciągła

PRZYKŁAD 2 Badamy opinię pracowników, dotyczącą decyzji zarządu jednej z warszawskich firm o połączeniu z jedną firmą. Zbiorowość statystyczna: pracownicy firmy Jednostka statystyczna: jeden pracownik – obiekt materialny (kto – pracownik firmy, kiedy – np. 31. 05. 2007 r. , gdzie – Warszawa, Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: opinia (kategoria cechy: popieram, nie wiem) Typ cechy statystycznej: niemierzalna

PODSTAWOWE POJĘCIA STATYSTYKI • Dane populacji zawierają informacje o wszystkich obiektach będących w sferze zainteresowań. • Dane próby zawierają informacje jedynie o niektórych obiektach będących w sferze zainteresowań. • Parametr populacji to numeryczna miara charakteryzująca całą populację • Statystyka próby to numeryczna charakterystyka próby. • Statystyka opisowa dotyczy metod porządkowania, wizualizacji i podsumowywania danych pochodzących z prób lub całej populacji • Statystyka dedukcyjna dotyczy metod służących do wyciągania wniosków na temat całej populacji przy wykorzystaniu informacji pozyskanych z próby.

Skale pomiarowe n n Uzależnione są od rodzaju opisywanych zmiennych Determinują, co można zrobić z daną zmienną • Zmienne jakościowe – Skala nominalna – Skala porządkowa (rangowa) • Zmienne ilościowe – Skala przedziałowe (interwałowa) – Skala ilorazowa (stosunkowa)

Skala nominalna • Pozwala rozpoznawać obiekty jednakowe i różne, bez wypowiadania się o relacjach między nimi, np. gatunek, rodzaj drewna, rodzaj zakładu pracy, płeć, itp. • Często pomiar na skali nominalnej jest liczbowym etykietowaniem badanych obiektów, np. kody w niektórych bazach danych • Bardzo słaba skala pomiarowa • Graficzna prezentacja, dominanta

Skala porządkowa • Dodatkowo wprowadza relację porządku w zbiorze zmiennych jakościowych, np. drewno suche, wilgotne; uszkodzenie słabe, średnie, silne; . . . • Jest skalą mocniejszą niż nominalna • Powoduje najwięcej problemów i nieporozumień, przedmiot powszechnie popełnianych błędów

Skala porządkowa • Przykład: skala ocen (ndst, db, bdb) • Wszelkiego rodzaju obliczenia są tutaj nadużyciem: nieznana jest odległość między poszczególnymi ocenami (różnica w między różnymi stopniami jest różna; często mieszane kategorie) • Możliwe jest jedynie określenie, że np. silny stopień uszkodzenia jest mocniejszy, niż słaby

Skala przedziałowa • Zachowuje własności skali porządkowej, ale dodatkowo wyposażona jest w stałą jednostkę miary i umowne zero • Możliwy jest pomiar odległości między uporządkowanymi zmiennymi • Jest skalą mocniejszą od porządkowej

Skala przedziałowa • Przykład: skala Celsjusza dla temperatury, skala czasu, itp. • Możliwe jest określenie o ile stopni dana temperatura różni się od innej • Ale nie można opisać sensownie stosunku dwóch wartości zmiennych • Np. średnia temperatura lipca w centralnej Polsce (17°C) różni się od średniej rocznej temperatury tego obszaru (7°C) o 10 stopni, ale nie oznacza to, że w lipcu jest prawie 2, 5 raza cieplej, niż średnio w roku

Skala ilorazowa • różni się od skali przedziałowej tym, że posiada zero absolutne, a nie umowne • Możliwe jest określenie ile razy dana cecha jest większa od innej • Jest to najsilniejsza skala pomiarowa

Skala ilorazowa • Przykład: skala Kelwina temperatury, kapitał (liczba pieniędzy), upływ czasu, itp. • Gleba o temperaturze 50°C (323°K) jest 1. 1 raza (czyli o 10%) cieplejsza od gleby o temperaturze 20°C (293 K) • Przykład: liczba kandydatów na studia • Na WB (300) było 5 razy mniej kandydatów na studia, niż na WNGi. G (1500) – zerem absolutnym jest tu brak kandydatów na dany kierunek studiów

Typy próbkowania • Jeśli każdy obiekt należący do populacji ma jednakową szansę żeby zostać wyselekcjonowany do badań to wtedy mówimy o próbkowaniu losowym. • W badaniach statystycznych wnioski opieramy nie na podstawie charakterystyki pojedynczego obiektu wybranego z populacji, ale podzbioru składającego się z n takich obiektów. • Nie wystarczy zatem, aby każdy obiekt miał jednakową szansę żeby zostać wybrany. Musi być też zachowana zasada, że każda próba składająca z n obiektów, ma równą szansę na pobór – wtedy dysponujemy prostą próbą losową.

Podstawa statystyki – próba losowa

Tablica liczb losowych - fragment

Próbkowanie losowe • Użyj tablicy liczb losowych do wyselekcjonowania próby 30 samochodów przeznaczonych do jazd testowych z 500 które zostały wyprodukowane w tym tygodniu 99281 59640 15221 96079 09961 05371 992 815 964 015 221 960 790 996 105 371

Typy próbkowania • Kiedy wylosowany obiekt nie zostaje usunięty z badanej populacji, to wtedy stosujemy próbkowanie ze zwracaniem. Oznacza to możliwość, wylosowania tego samego obiektu więcej niż jeden raz. • Próbkowanie stratyfikowane jest dwustopniowe. Najpierw badaną populacje dzielimy na grupy bądź klasy o których wiemy, że mają wpływ na badaną charakterystykę. Ich udział w próbie musi być identyczny jak w populacji. Następnie w obrębie każdej grupy losowo dobieramy obiekty do badań. • Kiedy jednostki populacji są uporządkowane w jakiś naturalny sposób, stosujemy często próbkowanie systematyczne. Polega ono na losowym wyborze pierwszego obiektu, a następnie dobieraniu k-tych kolejnych, na przykład co 5 osoba w kolejce do kina.

Typy próbkowania • W badaniach społecznych często stosuje się próbkowanie grupowe. Najpierw populację dzieli się na obszary albo grupy, a następnie z nich wybiera się losowo jakąś część. W badaniach uwzględnia się wszystkie jednostki (obiekty) należące do wybranych grup. Jeśli chcemy na przykład przeprowadzić badania uczniów szkół podstawowych w dużej aglomeracji miejskiej, możemy na przykład losowo wybrać 5 szkół i uwzględnić wszystkich uczęszczających do nich uczniów. • Często badana populacja jest bardzo duża lub geograficznie rozproszona. Wówczas często stosuje się do jej badań schemat próbkowania wielostopniowego. Przykładowo do jakiś celów konieczne jest przeprowadzenie ankiet w 10 000 gospodarstw domowych w Polsce. Zaczynamy od losowego wybrania z każdego województwa trzech powiatów. W tych powiatach dzielimy gminy na wiejskie i miejskie i/lub ze względu na ilość mieszkańców lub powierzchnię. Następnie dokonujemy stratyfikowanego próbkowania gmin ze względu na przyjęte kryterium. Na końcu losujemy pojedyncze miejscowości/dzielnice miast/kwartały ulic i wewnątrz nich przeprowadzamy ankietowanie każdego gospodarstwa domowego.

Typy próbkowania • Próbkowanie przypadkowe stosują często media zasięgając opinii publicznej w aktualnych sprawach. Najczęściej wygląda to tak, że dziennikarz staje na ulicy i odpytuje przypadkowych przechodniów. Wynik takiej sondy jest oczywiście bardzo mało miarodajny. Zależy on dziesiątków czynników, takich jak miejsce przeprowadzenia sondy, pora dnia, sposób zadawania pytań itp.

Badania populacji • Lista (zestawienie) obiektów z których wybierana jest próba określana jest jako rama próbkowania. Idealnie jest wówczas gdy rama obejmuje całą populację. Jednakże często, ze względów praktycznych nie są dostępne wszystkie obiekty należące do populacji. Używając na przykład spisu telefonicznego jako ramy próbkowania nie uwzględniamy osób, które zastrzegły swój numer i dane osobowe. • Próba nigdy nie jest idealnym odzwierciedleniem populacji. Różnica pomiędzy wartościami tej samej charakterystyki pozyskanej z populacji i z próby stanowi tak zwany błąd próbkowania.

Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku Pismo Literary Digest przeprowadziło, tak w przypadku kilku poprzednich wyborów, szerokie badania opinii publicznej. W rzeczywistości było to najbardziej liczne badania ankietowe jakie do tej pory przeprowadzono!!! Ankiety, w postaci kartek pocztowych, rozesłano do 10 milionów osób. Otrzymano około 2, 3 mln. odpowiedzi.

Na podstawie ankiety Literary Digest przewidywał, że wybory prezydenckie w 1936 roku wygra Landon otrzymując 57, 1% głosów w wyborach powszechnych, i 370 do 161 w proporcjach głosów elektorskich Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku • Tabela obok przedstawia wyniki sondażu opublikowanego przez The Literary Digest 31 października 1936, na krótko przed wyborami prezydenckimi w 1936 roku • W tabeli wyniki są podane w odniesieniu do poszczególnych stanów (w 1936 roku było ich 48). Zmienna „Electoral Vote” odnosi się do liczby głosów elektorów w poszczególnych stanach – w USA wybory są dwustopniowe. • W wyborach powszechnych obywatele posiadający czynne prawo wyborcze decydują o tym, który z kandydatów otrzyma głosy elektorskie przypisane do poszczególnych stanów. Z każdego stanu pochodzi tylu elektorów, ilu ma on przedstawicieli w Kongresie. Wybór elektora zgadza się z preferencjami wyborców, ponieważ ma on obowiązek respektować ich zdanie. Kolegium elektorów liczy aktualnie 538 członków.

Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku • Wyniki ankiety Literary Digest zakwestionował jedynie George H. Gallup, amerykański profesor i badacz, socjolog, statystyk i publicysta. W tym czasie był dyrektorem badawczym agencji reklamowej Young & Rubicam. Od 1933 r. do 1937 r. był profesorem dziennikarstwa na Columbia University, lecz zrezygnował ze stanowiska krótko po utworzeniu w 1935 r. własnego ośrodka badania opinii publicznej American Institute of Public Opinion (Instytut Gallupa). • Gallup przeprowadził własne badania na próbie 50 tys. respondentów. Jego wyniki były całkowicie odmienne od Literary Digest. Prognozował zwycięstwo Roosevelta z 56% głosów w wyborach ogólnokrajowych (w rzeczywistości Roosevelt zdobył 61%). • Zwycięstwo Roosevelta było miażdżące. Ostatecznie Landon wygrał tylko w dwóch stanach: Maine i Vermont, co dało mu tylko 8 głosów elektorskich. Był to najgorszy wynik, uzyskany przez przedstawiciele jednej z dwóch głównych partii w kolegium w historii.

Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku • Z perspektywy czasu, przyczyna porażki Literary Digest jasna. Mimo że ankietowano dziesięć milionów osób (z czego około 2, 3 mln odpowiedziało) co jest astronomiczną liczbą dla każdego sondażu, wykorzystana próba była zła. • Pismo ankiety wysłało przede wszystkim do własnych czytelników (abonentów). W czasie trwania Wielkiego Kryzysu było jasne, że jest to grupa z dochodami znacznie powyżej średniej krajowej. Skorzystano także z dwóch innych łatwo dostępnych list: zarejestrowanych właścicieli samochodów i użytkowników telefonów. Spowodowało to wyselekcjonowanie z populacji wyborców ludzi zamożnych – tradycyjnych zwolenników partii republikańskiej. • Magazyn Literary Digest został całkowicie zdyskredytowany i po dwóch latach zamknięty. Ta klęska doprowadziła do znacznego udoskonalenia technik badania opinii publicznej, a później zaczęto ją uważać za początek doby nowoczesnych naukowych badań opinii publicznej

Badania populacji • Kiedy wykorzystujemy pomiary lub obserwacje pochodzące z całej populacji wówczas mamy do czynienia z danymi spisu (powszechnego) • Kiedy dysponujemy pomiarami lub obserwacjami pochodzącymi jedynie z części populacji oznacza to że mamy do czynienia z próbą. • W badaniach obserwacyjnych pomiary i obserwacje wykonywane są na jednostkach wchodzących w skład populacji w taki sposób, że nie zmienia to charakterystyk badanej zmiennej. • Wykonując eksperyment wprowadzamy zmiany wpływające na jednostki wchodzące w skład populacji tak, aby zmierzyć/zaobserwować ich reakcję w zakresie badanej zmiennej.

Eksperyment - testowanie hipotezy

Testowanie hipotez na podstawie próby nie jest takie proste ocena niepewności wniosków

Badania eksperymentalne • Kiedy badany obiekt (osoba) nie jest poddany w trakcie eksperymentu oddziaływaniu, lecz sądzi że jest inaczej i reaguje zgodnie z tym przekonaniem mamy do czynienia z tak zwanym efektem placebo • Żeby uniknąć efektu placebo obiekty poddane eksperymentom dzieli się na dwie grupy: kontrolną i poddaną działaniu czynnika • Najczęstszym sposobem podziału na grupy jest wykorzystanie całkowicie przypadkowego losowania czyli tak zwany randmizowany eksperyment kontrolowany

Badania eksperymentalne - przykład • Czy ból w klatce piersiowej może być zmniejszony poprzez wiercenie otworów w sercu? Przez ponad dekadę, chirurdzy używali sprzętu laserowego by wiercić dziury w mięśniu sercowym. Wielu pacjentów po takiej terapii stwierdzało trwały i silny spadek objawów dławicy piersiowej (ból w klatce piersiowej). • Czy jest rzeczywisty skutek terapii, czy też jest to efekt placebo? Kwestię tą miał rozstrzygnąć eksperyment przeprowadzony w Lenox Hill Hospital w Nowym Jorku. • Terapia laserowa była przeprowadzana poprzez zastosowanie procedury mniej inwazyjnej (cewnik laserowy). • 298 ochotników z ciężkimi, nieuleczalnymi, bólami w klatce piersiowej losowo przypisano do dwóch grup: leczonych laserem i nie leczonych. • Pacjenci otrzymywali leki znieczulające, ale zabieg był wykonywany na jawie. Mogli słyszeć jak lekarze omawiają szczegóły zabiegu. Każdy pacjent niezależnie od płci był przekonany że jest rzeczywiście leczony. • Schemat eksperymentu wyglądał następująco:

Badania eksperymentalne - przykład • Pacjenci poddani terapii laserowej czuli się lepiej. Zaskakującym wynikiem eksperymentu było jednakże to, że grupa placebo wykazała większą poprawę stanu. • Trudno jest kontrolować wszystkie zmienne, które mogą wpływać na reakcję na leczenie. Jednym ze sposobów kontrolowania niektórych zmiennych jest przeprowadzanie dodatkowego „blokowania” obiektów. • Blok jest grupa osób/obiektów mające pewne cechy wspólne, które mogą mieć wpływ na wynik eksperymentu (skuteczność leczenia). • W randomizowanym eksperymencie blokowym, jednostki są najpierw podzielone na bloki, a następnie za pomocą losowania określa się jaką metodą ma być leczona każda osoba w bloku. • W opisanym eksperymencie czynnikiem, który nie uwzględniono, a który mógł mieć wpływ na wynik leczenia, była płeć pacjenta. Plan randomizowanego eksperymentu blokowego umożliwiającego zbadanie wpływu płci byłby następujący:

Badania eksperymentalne - przykład • Tworzy się zawsze grupę kontrolną. Ta grupa otrzymuje leczenie obojętne, umożliwiając naukowcom ocenę efektu placebo. Ogólnie rzecz biorąc, grupa kontrolna umożliwia uwzględnienie wpływu innych znanych lub nieznanych zmiennych, które mogą być przyczyną zmiany odpowiedzi w grupie eksperymentalnej. Takie zmienne są nazywane „ukrytymi” lub „zakłócającymi”. • Randomizacja dotyczy losowego sposobu selekcji do składu w obu grupach. Zasad ta pomaga zapobiec stronniczości przy wyborze członków dla każdej grupy. • Powtarzanie (replikacja) eksperymentu na wielu pacjentach zmniejsza możliwość, że obserwowane różnice między grupami są efektem jedynie przypadku. • Wiele eksperymentów jest wykonywanych zgodnie z zasadą podwójnie ślepej próby. Oznacza to, że ani osoby poddane terapii, ani bezpośrednio wykonujący badanie wiedzą jakie leczenie otrzymują pacjenci. Eksperymenty tego typu pozwalają uniknąć subtelnych oddziaływań jakie lekarz może, nawet nieświadomie, wywierać na pacjenta.

Ogólny plan badań wykorzystujących statystyczne metody analizy danych 1. Określenie osób czy też obiektów poddanych badaniom. 2. Określenie cech (zmiennych), którymi owe obiekty będą opisywane. 3. Ustalenie, czy badanie dotyczyć będzie całej populacji. Jeśli nie, to określenie odpowiedniej metody pobierania próbek 4. Ustalenie planu gromadzenia danych, uwzględniającego, jeśli jest taka konieczność, prywatność i poufność, oraz wymogi etyczne 5. Zebranie danych. 6. Analiza danych przy użyciu odpowiednich metod statystycznych. 7. Identyfikacja wszelkich zastrzeżeń dotyczących danych i określenie zaleceń do dalszych badań