Elementy sztucznej inteligencji Eksploracja Danych Analiza danych Data

  • Slides: 138
Download presentation
Elementy sztucznej inteligencji Eksploracja Danych __________ Analiza danych Data Mining Machine Learning knowledge discovery

Elementy sztucznej inteligencji Eksploracja Danych __________ Analiza danych Data Mining Machine Learning knowledge discovery Krzysztof Regulski, WIMi. IP, KISi. M, regulski@agh. edu. pl B 5, pok. 408

Gdzie stosujemy eksplorację danych? inne polityka ? zarządzanie ekonomia gospodarka produkcja zarządzanie jakością sztuczna

Gdzie stosujemy eksplorację danych? inne polityka ? zarządzanie ekonomia gospodarka produkcja zarządzanie jakością sztuczna inteligencja: rozpoznawanie wzorców, mowy, pisma, semantyka KISIM, WIMi. IP, AGH Big. Data data mining 2

Industry 4. 0 3

Industry 4. 0 3

„data scientist” – badacz danych? KISIM, WIMi. IP, AGH 4

„data scientist” – badacz danych? KISIM, WIMi. IP, AGH 4

Machine Learning • Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i jej praktycznego

Machine Learning • Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i jej praktycznego wdrażania. • Algorytmy pozwalają na zautomatyzowanie procesu pozyskiwania i analizy danych do ulepszania i rozwoju własnego systemu. KISIM, WIMi. IP, AGH 5

Machine Learning q Data Mining – pozyskiwanie wiedzy przez człowieka q Machine Learning –

Machine Learning q Data Mining – pozyskiwanie wiedzy przez człowieka q Machine Learning – odbiorcą jest maszyna, celem – usprawnienie działania. Metody (przykładowe): • Indukcja drzew decyzyjnych • Uczenie Bayesowskie (Bayesian Learning) • Uczenie z przykładów (Instance-based Learning) (np. k. NN) • Sieci neuronowe • Clustering • Support vector machines (SVM) • Analiza asocjacji (Association rule learning) • Algorytmy genetyczne • Wnioskowanie epizodyczne (CBR) • Uczenie przez wzmacnianie (Reinforcement Learning) KISIM, WIMi. IP, AGH 6

KISIM, WIMi. IP, AGH 7

KISIM, WIMi. IP, AGH 7

Big Data big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej

Big Data big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów: szukanie, pobieranie, gromadzenie i przetwarzanie model 4 V (Volume, Velocity, Variety, Value) : • wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych; • wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów; • wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych; • weryfikacja – koniecznie weryfikuj hipotezy i wnioski. • Big Data as-a-Service (BDaa. S), czyli przetwarzanie w chmurze obliczeniowej wielkich zbiorów danych, to dziś najszybciej rozwijająca się gałąź IT • Ponad 7 miliardów dolarów – na tyle szacowana jest wartość sektora Big Data as-a-Service (BDaa. S) w roku 2020 • segment Big Data rozwija się niemal 6 -krotnie szybciej niż cały rynek IT 8

Big Data Early detection of defects and production failures, thus enable their prevention, increase

Big Data Early detection of defects and production failures, thus enable their prevention, increase productivity, quality, and agility benefits that have significant competitive value. Big Data Analytics consists of 6 Cs in the integrated Industry 4. 0 and Cyber Physical Systems environment. The 6 C system comprises: » Connection (sensor and networks) » Cloud (computing and data on demand) » Cyber (model & memory) » Content/context (meaning and correlation) » Community (sharing & collaboration) » Customization (personalization and value) Data has to be processed with advanced tools (analytics and algorithms) to generate meaningful information. KISIM, WIMi. IP, AGH 9

Przechowywanie / Przetwarzanie / Analiza KISIM, WIMi. IP, AGH 10

Przechowywanie / Przetwarzanie / Analiza KISIM, WIMi. IP, AGH 10

Dane a wiedza Toniemy w danych, a brakuje nam wiedzy jaka jest w tych

Dane a wiedza Toniemy w danych, a brakuje nam wiedzy jaka jest w tych danych zawarta. „Wiedza jest specyficznym rodzajem zasobów – w przeciwieństwie do wszystkich innych, przybywa jej w miarę używania” G. Probst KISIM, WIMi. IP, AGH 11

Sztuczna Inteligencja ?

Sztuczna Inteligencja ?

Inteligencja — Czy inteligencja jest jakąś jedną dziedziną, czy też jest to nazwa dla

Inteligencja — Czy inteligencja jest jakąś jedną dziedziną, czy też jest to nazwa dla zbioru odrębnych i niepowiązanych zdolności? — Co zyskujemy w procesie uczenia się? — Co to jest intuicja? — Czy inteligencja może być nabyta wskutek nauki lub obserwacji, czy też jest jakoś uwarunkowana wewnętrznie? — Jak wiedza wpływa na wzrost inteligencji? — Czy inteligencja to szczegółowa wiedza o jakiejś dziedzinie, czy zbiór związanych ze sobą różnych zdolności? KISIM, WIMi. IP, AGH 13

Inteligencja jest zdolnością do sprawnego rozwiązywania zadań intelektualnych, które zazwyczaj uchodzą za trudne. …

Inteligencja jest zdolnością do sprawnego rozwiązywania zadań intelektualnych, które zazwyczaj uchodzą za trudne. … są trudne tak długo, jak długo nie są znane algorytmy ich rozwiązywania, potem przestają być traktowane jako zadania sztucznej inteligencji w ten sposób sztuczna inteligencja nigdy nie ma żadnych osiągnięć KISIM, WIMi. IP, AGH 14

sztuczna inteligencja - rozwiązywanie „trudnych” zadań Czy to jest trudny problem ? 98731269868414316984251684351 ×

sztuczna inteligencja - rozwiązywanie „trudnych” zadań Czy to jest trudny problem ? 98731269868414316984251684351 × 985316846315968463198643541684 A to: ”Kochanie, kup ładny kawałek wołowiny…” KISIM, WIMi. IP, AGH 15

Robot kolejkowy EWA-1 -Pan tu nie stał, pan nie jest w ciąży. Krzysztof Manc

Robot kolejkowy EWA-1 -Pan tu nie stał, pan nie jest w ciąży. Krzysztof Manc (Wynalazca) KISIM, WIMi. IP, AGH - Moja konstrukcja jest optymalna, tylko ludzie nie dorośli do tego. Wolą sami stać w kolejkach. 16

Czy nam to szybko grozi? KISIM, WIMi. IP, AGH 17

Czy nam to szybko grozi? KISIM, WIMi. IP, AGH 17

Zagadnienia AI wg prof. Ducha Soft Computing Logika rozmyta Sieci neuronowe Optymalizacja badania operacyjne

Zagadnienia AI wg prof. Ducha Soft Computing Logika rozmyta Sieci neuronowe Optymalizacja badania operacyjne Algorytmy ewolucyjne i genetyczne Wizualizacja Data mining Systemy ekspertowe Computational I ntelligence numeryczne Dane + Wiedza Artificial I ntelligence symboliczne Uczenie maszynowe Rozpoznawanie Wzorców Rachunek prawdop. Metody statystyczne Włodzisław Duch, prof. dr hab. – neurokognitywista, guru polskiej cybernetyki KISIM, WIMi. IP, AGH 18

no human? • auto - Autonomous car / • Navya, Uber, Tesla, Mercedes, Google…

no human? • auto - Autonomous car / • Navya, Uber, Tesla, Mercedes, Google… • robots / • Ross, • IBM Watson, Eve • Baxter, • Sophia, Fran Pepper • Emily Howel KISIM, WIMi. IP, AGH video: Humans Need Not Apply 19

Statystyka pojęcia podstawowe KISIM, WIMi. IP, AGH 20

Statystyka pojęcia podstawowe KISIM, WIMi. IP, AGH 20

Podstawowe cele badań statystycznych; statystycznej analizy zbiorów danych • badanie struktury populacji, reprezentowanej przez

Podstawowe cele badań statystycznych; statystycznej analizy zbiorów danych • badanie struktury populacji, reprezentowanej przez zbiór (danych) wartości wybranych cech (zmiennych) i jej: » wizualizacja w postaci rozkładów tych zmiennych bądź » charakterystyka przy zastosowaniu parametrów statystyki opisowej. • zależności: odkrywanie i określanie (charakteru, siły, kierunku) zależności (korelacji) występujących w zbiorach danych reprezentujących różne cechy badanych obiektów, zjawisk, procesów. • wnioskowanie statystyczne KISIM, WIMi. IP, AGH 21

błąd systematyczny (bias) odpowiednie losowanie pozwala uniknąć błędu systematycznego (ang. bias ) ° bias

błąd systematyczny (bias) odpowiednie losowanie pozwala uniknąć błędu systematycznego (ang. bias ) ° bias może pojawić się na skutek wykonywania pomiarów w warunkach innych od rzeczywistych ° można je wykryć stosując niezależne metody pomiaru inne MOŻLIWE PRZYCZYNY ° ° zmiany obiektu badanego po dołączeniu do urządzenia lub układu pomiarowego wpływ otoczenia na stanowisko pomiarowe KISIM, WIMi. IP, AGH 22

Skale pomiaru cechy • Skala nominalna –dotyczy cech jakościowych, operacją pomiarową jest identyfikacja kategorii

Skale pomiaru cechy • Skala nominalna –dotyczy cech jakościowych, operacją pomiarową jest identyfikacja kategorii do której należy zaliczyć wynik, prowadzi do podziału zbioru na zbiory rozłączne (np. samochody wg kolorów). • Skala porządkowa – stosowana jest do badania cech których natężenie jest określane przez przymiotniki, pociąga za sobą porządkowanie lub uszeregowanie badanej zmiennej (np. poniżej normy, w normie, powyżej normy, albo za mały, średni, duży. . . ) • Skala równomierna (przedziałowa). Stosowana do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb rzeczywistych określona przez wskazanie stałej jednostki miary i relacji przyporządkowującej liczbę każdemu wynikowi obserwacji (czas kalendarzowy, temperatura o. C) • Skala ilorazowa. Posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzują się stałymi stosunkami i bezwzględnym zerem, ma zastosowanie w fizyce, technice, np. długość czy czas skale ilościowe KISIM, WIMi. IP, AGH 23

krótki przerywnik o pogodzie… fizyk i inżynier pochodzenia niemieckiego. Większość okresu naukowego spędził w

krótki przerywnik o pogodzie… fizyk i inżynier pochodzenia niemieckiego. Większość okresu naukowego spędził w Niderlandach. Wynalazca termometru rtęciowego, twórca skali temperatur używanej w niektórych krajach anglosaskich. KISIM, WIMi. IP, AGH 24

… mówi się, że … Fahrenheit: za 0° oznaczył najniższą temperaturę zanotowaną w Gdańsku

… mówi się, że … Fahrenheit: za 0° oznaczył najniższą temperaturę zanotowaną w Gdańsku (1709 r. ). 100° miało być jego własną temperaturą, niestety był chory i skala się „przesunęła”: 100° F oznaczało 37, 8° C. Celsjusz: w pierwotnej skali za 0° przyjął temperaturę wrzenia wody, a jako za 100° temperaturę jej zamarzania, co potem trzeba było odwracać… Kelwin: jednostka temperatury równa 1/273, 16 temperatury termodynamicznej punktu potrójnego wody. 0 K oznacza najniższą teoretycznie możliwą temperaturę, jaką może mieć ciało. Jest to temperatura, w której (według fizyki klasycznej) ustały wszelkie drgania cząsteczek. Temperatury tej nie da się jednak osiągnąć… a w każdym razie zmierzyć. KISIM, WIMi. IP, AGH 25

czy może być 5 x cieplej? jeżeli na polu jest -5°C, a w pokoju

czy może być 5 x cieplej? jeżeli na polu jest -5°C, a w pokoju +20°C • to za oknem jest o 25°C zimniej • ale czy w pokoju jest 5 razy cieplej? Amerykanin powie wtedy, że za oknem jest +23°F a w pokoju +77°F • czyli cieplej o 54°F. • 23 nie jest 5 razy mniejsze od 77. • przypadek? …nie sądzę. ― to skala przedziałowa! KISIM, WIMi. IP, AGH Miejsce na podium to z kolei przykład skali porządkowej. Jak ocenić ile razy złoty medal jest więcej wart niż srebrny? 26

Skala stosunkowa (ilorazowa) na skali stosunkowej (ilorazowej) wolno dokonywać operacji matematycznych, tzn. bezpiecznie można

Skala stosunkowa (ilorazowa) na skali stosunkowej (ilorazowej) wolno dokonywać operacji matematycznych, tzn. bezpiecznie można stwierdzić, że np. dwa kilogramy cukru są dwa razy cięższe od jednego kilograma, a trzymetrowa deska jest trzy razy dłuższa niż deska o długości jednego metra wynika to z obecności absolutnego zera (gdyby cukru było 0 kg to znaczy, że nie byłoby go wcale) Przy użyciu skali stosunkowej (ilorazowej) możliwe jest podanie rozkładu częstości zmiennej, obliczenie m. in. dominanty, mediany, średniej, odchylenia standardowego i wariancji. KISIM, WIMi. IP, AGH 27

Rodzaje szeregów statystycznych Badana cecha przyjmuje niewielką liczbę jednostek (mała grupa). Porządkowana rosnąco lub

Rodzaje szeregów statystycznych Badana cecha przyjmuje niewielką liczbę jednostek (mała grupa). Porządkowana rosnąco lub malejąco Charakteryzują stan badanej zbiorowości w określonym momencie (np. w danym miesiącu, roku). Przedstawiają więc populację w układzie statycznym i służą do analizy jej struktury. dane ilościowe dane jakościowe proste KISIM, WIMi. IP, AGH skumulowane proste skumulowane Szeregi przestrzenne przedstawiają rozmieszczenie wielkości statystycznych według podziału administracyjnego (gmina, powiat, województwo, krajów, regionów geograficznych). 28

Szereg rozdzielczy prosty Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy: » Ustalenie liczby

Szereg rozdzielczy prosty Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy: » Ustalenie liczby klas oraz wielkości przedziałów klasowych » Przyporządkowanie danych przyjętym przedziałom klasowym » Zliczanie liczby jednostek w każdej klasie Liczba klas k zależy przede wszystkim od liczby obserwacji n. Stosowane bywają następujące wzory pomocne do szacowania liczby przedziałów budowanego szeregu rozdzielczego: k=1+3, 322 log n KISIM, WIMi. IP, AGH 29

Histogram 30 liczebność 25 20 15 10 5 0 6 12 18 24 35

Histogram 30 liczebność 25 20 15 10 5 0 6 12 18 24 35 wiek 36 42 48 54 Nazwa histogram pochodzi ze złożenia dwóch greckich słów histos i gramma. Pierwsze oznacza rzeczy stojące pionowo, drugie oznacza zapis, a w sumie chodzi o zapis danych z użyciem pionowych słupków. Obecnie używa się tej nazwy wyłącznie w sytuacji gdy przedstawiany jest rozkład zmiennej 30

Wykresy Wielobok liczebności Histogram KISIM, WIMi. IP, AGH 31

Wykresy Wielobok liczebności Histogram KISIM, WIMi. IP, AGH 31

Przykład zastosowania pakietu Statistica do analizy zapotrzebowania na energię 32

Przykład zastosowania pakietu Statistica do analizy zapotrzebowania na energię 32

KISIM, WIMi. IP, AGH 33

KISIM, WIMi. IP, AGH 33

KISIM, WIMi. IP, AGH 34

KISIM, WIMi. IP, AGH 34

zarobki… 2018 r. 0, 5 0, 4 2016 r. 2012 r. 0, 35 0,

zarobki… 2018 r. 0, 5 0, 4 2016 r. 2012 r. 0, 35 0, 3 0, 25 0, 2 0, 15 0, 1 0, 05 0 <1100 KISIM, WIMi. IP, AGH <1400 <2700 <3500 >7000 >14000 >19000 35

Struktura wynagrodzeń Liczba pracujących (skumulowane) (netto) Odsetek pracujących (skumulowane) Poniżej 1181 zł ok. 800

Struktura wynagrodzeń Liczba pracujących (skumulowane) (netto) Odsetek pracujących (skumulowane) Poniżej 1181 zł ok. 800 tys. osób 10% Poniżej 1423 zł ok. 1, 44 mln 18% Poniżej 2776 zł ok. 5, 2 mln osób 66% Poniżej 3549 zł ok. 6, 4 mln osób 80, 50% Ponad 3549 zł netto miesięcznie zarabia tylko 19, 5% pracujących Ponad 7000 zł ok. 270 tys. osób 3, 47% Ponad 14000 zł ok. 48 tys. osób 0, 60% Ponad 19000 zł ok. 16 tys. osób 0, 20% Źródło: opracowanie Bankier. pl na podstawie danych GUS *Dane w tabeli dotyczą ok. 8 mln osób zatrudnionych w gospodarce narodowej (sektor przedsiębiorstw plus sektor publiczny) 2016 r. 0, 5 0, 4 2012 r. 0, 35 0, 3 0, 25 0, 2 0, 15 0, 1 0, 05 0 <1100 KISIM, WIMi. IP, AGH <1400 <2700 <3500 >7000 >14000 >19000 36

jeszcze o wizualizacji… KISIM, WIMi. IP, AGH 37

jeszcze o wizualizacji… KISIM, WIMi. IP, AGH 37

Bilans zgonów i narodzin w Polsce w latach 2009 – 2011 w tysiącach osób.

Bilans zgonów i narodzin w Polsce w latach 2009 – 2011 w tysiącach osób. Strzałkami zaznaczono znak, dodano poziome linie by ułatwić śledzenie jak bilans zmienia się w latach KISIM, WIMi. IP, AGH Piramida populacyjna dla Polski na bazie danych z Narodowego Spisu Powszechnego 2011. W wielu krajach, w tym w Polsce, struktura wieku przypomina dzban lub inną figurę, w której podstawa jest węższa niż elementy powyżej. Dzieci jest mniej niż dorosłych, a populacja ludzi starszych systematycznie rośnie 38

Statystyka Opisowa badanie struktury populacji KISIM, WIMi. IP, AGH 39

Statystyka Opisowa badanie struktury populacji KISIM, WIMi. IP, AGH 39

Statystyka Opisowa Wyróżnia się następujące grupy parametrów statystycznych: • Miary położenia / skupienia/ koncentracji

Statystyka Opisowa Wyróżnia się następujące grupy parametrów statystycznych: • Miary położenia / skupienia/ koncentracji » średnia, moda, mediana, » max, min, kwantyle) • Miary zmienności » pozycyjne: rozstęp, odchylenie ćwiartkowe, odchylenie przeciętne, wsp. zmienności » klasyczne: wariancja, odchylenie standardowe, klasyczny wsp. zmienności • Miary asymetrii i Graficzna interpretacja statystyk KISIM, WIMi. IP, AGH 40

Charakterystyki położenia KISIM, WIMi. IP, AGH 41

Charakterystyki położenia KISIM, WIMi. IP, AGH 41

Miary położenia Średnia Moda (dominanta): najczęściej występująca wartość cechy Kwantyle: Kwartyle, decyle, percentyle –

Miary położenia Średnia Moda (dominanta): najczęściej występująca wartość cechy Kwantyle: Kwartyle, decyle, percentyle – mediana (kwartyl drugi) - taką wartość cechy, że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me. Czyli dystrybuanta empiryczna Fn(Me) ½ 42

Moda (dominanta) W rozkładach empirycznych określa się dominantę (modę), najczęściej występującą wartość cechy gdzie

Moda (dominanta) W rozkładach empirycznych określa się dominantę (modę), najczęściej występującą wartość cechy gdzie x 0 – dolna granicą przedziału w którym występuje moda, hm – rozpiętość przedziału klasowego, nm-1, nm+1– liczebności odpowiednio przedziału z modą, poprzedniego i następnego KISIM, WIMi. IP, AGH 43

Moda (dominanta) W rozkładach empirycznych określa się dominantę (modę), najczęściej występującą wartość cechy gdzie

Moda (dominanta) W rozkładach empirycznych określa się dominantę (modę), najczęściej występującą wartość cechy gdzie x 0 – dolna granicą przedziału w którym występuje moda, hm – rozpiętość przedziału klasowego, nm-1, nm+1– liczebności odpowiednio przedziału z modą, poprzedniego i następnego KISIM, WIMi. IP, AGH 44

Miary rozproszenia KISIM, WIMi. IP, AGH 45

Miary rozproszenia KISIM, WIMi. IP, AGH 45

sposób oceny poziomu wymagań wymagania i prowadzący OK symetryczny: mediana „równa” średniej KISIM, WIMi.

sposób oceny poziomu wymagań wymagania i prowadzący OK symetryczny: mediana „równa” średniej KISIM, WIMi. IP, AGH studenci się nie uczą skośny w prawo – średnia mniejsza niż mediana trzeba zaostrzyć reżim skośny w lewo – średnia większa niż mediana 46

outliers Która z miar położenia jest najbardziej odporna na obserwacje odstające? Mediana jest na

outliers Która z miar położenia jest najbardziej odporna na obserwacje odstające? Mediana jest na skrajne wartości odporna, co powoduje że często nazywamy ją statystyką odporną (ang. robust, resistant statistic). Obserwacja odstająca lub samotnicza (ang. outlier) to obserwacja, która przyjmuje ekstremalną wartość badanej cechy statystycznej w porównaniu z innymi obserwacjami. KISIM, WIMi. IP, AGH 47

Wykres skrzynkowy. Moc informacji na jednym rysunku. http: //pogotowiestatystyczne. pl KISIM, WIMi. IP, AGH

Wykres skrzynkowy. Moc informacji na jednym rysunku. http: //pogotowiestatystyczne. pl KISIM, WIMi. IP, AGH 48

histogram i jego rozdzielczość KISIM, WIMi. IP, AGH 49

histogram i jego rozdzielczość KISIM, WIMi. IP, AGH 49

Miary zmienności (rozproszenia) danych – interpretacja graficzna odchylenia standardowego Odchylenie standardowe w zbiorowości (1)

Miary zmienności (rozproszenia) danych – interpretacja graficzna odchylenia standardowego Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2). Diagram (1) jest smuklejszy i wyższy. s 1 < s 2 KISIM, WIMi. IP, AGH 50

Reguła trzy sigma Jeżeli zmienna losowa ma rozkład normalny N(μ, σ) to: 68, 27%

Reguła trzy sigma Jeżeli zmienna losowa ma rozkład normalny N(μ, σ) to: 68, 27% populacji mieści się w przedziale ( - σ; + σ) 95, 45% populacji mieści się w przedziale ( - 2σ; + 2σ) 99, 73% populacji mieści się w przedziale ( - 3σ; + 3σ) 51

Reguła „ 3 sigma” KISIM, WIMi. IP, AGH 52

Reguła „ 3 sigma” KISIM, WIMi. IP, AGH 52

nierówności Markowa i Czebyszewa Nierówność Markowa Nierówność Czebyszewa znajaąc średnią i odchylenie standardowo danej

nierówności Markowa i Czebyszewa Nierówność Markowa Nierówność Czebyszewa znajaąc średnią i odchylenie standardowo danej zmiennej (z-score) mamy pewność, że maksymalnie 1/4= 25% danych jest oddalonych od średniej o 2 odchylenia standardowe, a 1/9 (ok. 11%) o 3 itd. KISIM, WIMi. IP, AGH 53

KISIM, WIMi. IP, AGH 54

KISIM, WIMi. IP, AGH 54

Charakterystyczne cechy rozkładów: punkty skupienia, asymetria, rozrzut KISIM, WIMi. IP, AGH 55

Charakterystyczne cechy rozkładów: punkty skupienia, asymetria, rozrzut KISIM, WIMi. IP, AGH 55

wnioskowanie statystyczne weryfikacja hipotez statystycznych

wnioskowanie statystyczne weryfikacja hipotez statystycznych

Londyn, 1710 r. John Arbuthnot: od 82 lat w Londynie rodzi się więcej chłopców,

Londyn, 1710 r. John Arbuthnot: od 82 lat w Londynie rodzi się więcej chłopców, niż dziewczynek… przypadek, czy tendencja? Sformułowanie hipotezy zerowej H 0 : w Londynie rodzi się tyle samo kobiet co mężczyzn; p. CH = p. DZ = ½ Gdyby tak było, prawdopodobieństwo tego, że przez 82 lata rodziliby się głównie chłopcy wynosiłoby: czyli zero, a po przecinku 23 zera, a potem czwórka… KISIM, WIMi. IP, AGH 57

Egzamin do egzaminu przystąpiło 203 studentów można było zdobyć 25 punktów średnio uzyskali 14,

Egzamin do egzaminu przystąpiło 203 studentów można było zdobyć 25 punktów średnio uzyskali 14, 68; odchylenie standardowe: 3, 08 wyniki miały rozkład normalny (potwierdzone histogramem) N(14, 86; 3, 08) KISIM, WIMi. IP, AGH 58

rozkład normalny… znowu jakie jest prawdopodobieństwo uzyskania poniżej 20 punktów? jakie jest prawdopodobieństwo uzyskania

rozkład normalny… znowu jakie jest prawdopodobieństwo uzyskania poniżej 20 punktów? jakie jest prawdopodobieństwo uzyskania powyżej 20 punktów? p=0, 9582 a b p=0, 0418 z tablic dystrybuanty standaryzacja do N(0, 1) ilu studentów uzyska > 20 pkt? 0, 0418× 203=8, 49 KISIM, WIMi. IP, AGH dystrybuanta F(a) = P(X<a) P(a<X b)= F(b)- F(a) 59

Rozkłady średnich z nieskończenie wielu próbek rozkład średnich z populacji A prawdopodobień stwo otrzymania

Rozkłady średnich z nieskończenie wielu próbek rozkład średnich z populacji A prawdopodobień stwo otrzymania błąd I danego wyniku, rodzaju jeśli uznać hipotezę zerową za prawdziwą rozkład średnich z populacji B błąd II rodzaju KISIM, WIMi. IP, AGH 60

2. Przyjęcie odpowiedniego poziomu istotności oraz liczebności próby Przy podejmowaniu decyzji weryfikującej hipotezy możemy

2. Przyjęcie odpowiedniego poziomu istotności oraz liczebności próby Przy podejmowaniu decyzji weryfikującej hipotezy możemy popełnić dwa rodzaje błędów Hipoteza H 0 Decyzja prawdziwa fałszywa błąd I rodzaju decyzja trafna odrzucić 1 - decyzja trafna błąd II rodzaju nie odrzucić 1 - 61

Rodzaje błędów popełnianych przy weryfikacji hipotez statystycznych Błąd I rodzaju polega na odrzuceniu hipotezy

Rodzaje błędów popełnianych przy weryfikacji hipotez statystycznych Błąd I rodzaju polega na odrzuceniu hipotezy zerowej, mimo że jest prawdziwa. Przyjmowany w procesie weryfikacji hipotezy poziom istotności jest równy prawdopodobieństwu popełnienia błędu I rodzaju, zwykle =0. 05 lub 0. 01 Błąd II rodzaju polega za przyjęciu za prawdziwą hipotezy H 0 gdy ona w rzeczywistości jest fałszywa. Przykład H 0 - oskarżony jest niewinny H 1 - oskarżony jest winien Błąd I rodzaju : sąd skazał niewinnego: H 0 prawdziwa, ale ją odrzucono Błąd II rodzaju: sąd uwolnił winnego: H 1 prawdziwa, a przyjęto H 0, Tu błąd I rodzaju jest znacznie bardziej dotkliwy, dlatego należy zminimalizować prawdopodobieństwo jego popełnienia (czyli dostarczyć „niezbitych” dowodów) 62

KISIM, WIMi. IP, AGH 63

KISIM, WIMi. IP, AGH 63

predykcja modelowanie probabilistyczne KISIM, WIMi. IP, AGH 64

predykcja modelowanie probabilistyczne KISIM, WIMi. IP, AGH 64

KISIM, WIMi. IP, AGH 65

KISIM, WIMi. IP, AGH 65

KISIM, WIMi. IP, AGH 66

KISIM, WIMi. IP, AGH 66

Wykrywanie korelacji Obserwacja szeregów statystycznych zawierających informacje o cechach pozwala wykrywać zależności korelacyjne. Jeśli

Wykrywanie korelacji Obserwacja szeregów statystycznych zawierających informacje o cechach pozwala wykrywać zależności korelacyjne. Jeśli naszym celem jest analiza zachowania pewnej wielkości losowej Y, zbieramy również informacje towarzyszące, które mogą mieć znaczenie w analizie interesującej nas wielkości. Badana wartość, choć losowa, w istotny sposób zależy od innych zmiennych i zrozumienie charakteru tej zależności może być pożyteczne w wielu zadaniach np. przewidywania przyszłych wartości interesującej nas zmiennej. KISIM, WIMi. IP, AGH 67

KISIM, WIMi. IP, AGH 68

KISIM, WIMi. IP, AGH 68

Współczynnik korelacji Powiązanie między współczynnikiem korelacji a układem punktów Wykresy, które reprezentują graficznie związek

Współczynnik korelacji Powiązanie między współczynnikiem korelacji a układem punktów Wykresy, które reprezentują graficznie związek pomiędzy zmiennymi, nazywane są wykresami rozrzutu. Wzrokowa ocena umożliwia często określenie siły i rodzaju zależności. » Im bliżej położone są punkty na wykresie tym większej korelacji możemy się spodziewać. » Najważniejsza jest statystyczna istotność korelacji. Konieczna jest weryfikacja istotności wyliczonego z próby współczynnika. » Wartość współczynnika bliska 0 oznacza jedynie brak zależności liniowej. KISIM, WIMi. IP, AGH 69

Badanie istotności współczynnika korelacji liniowej Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji

Badanie istotności współczynnika korelacji liniowej Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H 0: ρ = 0, wobec alternatywnej: H 1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: porównujemy jej wartość z odpowiednią wartością krytyczną t , n-2 i podejmujemy odpowiednią decyzję co do prawdziwości H 0. KISIM, WIMi. IP, AGH 70

Związek korelacyjny pomiędzy zmiennymi X 1 i X 2, z wyłączeniem działania zmiennej X

Związek korelacyjny pomiędzy zmiennymi X 1 i X 2, z wyłączeniem działania zmiennej X 3 KISIM, WIMi. IP, AGH 71

Postaci zależności — Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu.

Postaci zależności — Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. — Chodzi o to, aby wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa — Może się bowiem okazać, że wyliczona wartość współczynnika korelacji jest zbliżona do zera, a mimo to pomiędzy korelowanymi zmiennymi występuje współzależność, tyle że nieliniowa KISIM, WIMi. IP, AGH 72

Przykład realizowany z pomocą pakietu STATISTICA Dane z badań przeprowadzonych w 1996 roku dotyczące

Przykład realizowany z pomocą pakietu STATISTICA Dane z badań przeprowadzonych w 1996 roku dotyczące zarobków Polaków. Ankiety wysłano do 5000 pracowników wylosowanych przez GUS. Ankiety zwróciło 1255 osób. Arkusz zawiera następujące informacje o badanych osobach » Płeć » Wykształcenie » Wiek » Staż pracy » Płaca brutto » Stawiam pod wątpliwość twierdzenie, że płeć nie ma wpływu na wysokość zarobków w Polsce, jeśli by tak było to nie powinno być różnic pomiędzy średnimi wartościami zarobków kobiet i mężczyzn. » Hipotezą zerową jest zdanie: Zarobki mężczyzn i kobiet nie różnią się » KISIM, WIMi. IP, AGH H 0 : m 1=m 2 przy hipotezie alternatywnej H 1 : m 1 m 2 , 73

KISIM, WIMi. IP, AGH 74

KISIM, WIMi. IP, AGH 74

Regresja liniowa KISIM, WIMi. IP, AGH 75

Regresja liniowa KISIM, WIMi. IP, AGH 75

Współczynnik determinacji r 2 – współczynnik determinacji, przyjmujący wartości z przedziału [0, 1], jest

Współczynnik determinacji r 2 – współczynnik determinacji, przyjmujący wartości z przedziału [0, 1], jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych KISIM, WIMi. IP, AGH 76

KISIM, WIMi. IP, AGH 77

KISIM, WIMi. IP, AGH 77

Współczynniki korelacji i determinacji Współczynniki, które otrzymujemy jeśli wcześniej dokonamy standaryzacji wszystkich zmiennych na

Współczynniki korelacji i determinacji Współczynniki, które otrzymujemy jeśli wcześniej dokonamy standaryzacji wszystkich zmiennych na średnią równą 0 i odchylenie standardowe równe 1. Np. , Wielkość tych współczynników BETA pozwala na porównanie relatywnego wkładu każdej ze zmiennych niezależnych do predykcji zmiennej zależnej. KISIM, WIMi. IP, AGH Współczynniki regresji 78

KISIM, WIMi. IP, AGH 79

KISIM, WIMi. IP, AGH 79

KISIM, WIMi. IP, AGH 80

KISIM, WIMi. IP, AGH 80

Założenia MNK 1. ) model jest liniowy 2. ) liczba obserwacji n musi być

Założenia MNK 1. ) model jest liniowy 2. ) liczba obserwacji n musi być większa lub równa liczbie oszacowanych parametrów 3. ) 4. ) 5. ) składniki losowe (reszty) są nieskorelowane 6. ) reszty mają rozkład normalny KISIM, WIMi. IP, AGH 81

Regresja wieloraka KISIM, WIMi. IP, AGH 82

Regresja wieloraka KISIM, WIMi. IP, AGH 82

Regresja wieloraka Jeśli w modelu regresji mamy do czynienia z więcej niż jedną zmienną

Regresja wieloraka Jeśli w modelu regresji mamy do czynienia z więcej niż jedną zmienną objaśniającą (niezależną), mówimy o regresji wielorakiej (wielokrotnej). Liniowy model regresji wielorakiej: y = β 0+ β 1 x 1 + β 2 x 2 +. . + βkxk + ε gdzie βj – parametry modelu (współczynniki regresji) ε – składnik losowy KISIM, WIMi. IP, AGH 83

Założenia MNK 1. ) model jest liniowy 2. ) liczba obserwacji n musi być

Założenia MNK 1. ) model jest liniowy 2. ) liczba obserwacji n musi być większa lub równa liczbie oszacowanych parametrów 3. ) 4. ) 5. ) składniki losowe (reszty) są nieskorelowane 6. ) reszty mają rozkład normalny KISIM, WIMi. IP, AGH 84

KISIM, WIMi. IP, AGH 85

KISIM, WIMi. IP, AGH 85

KISIM, WIMi. IP, AGH 86

KISIM, WIMi. IP, AGH 86

KISIM, WIMi. IP, AGH 87

KISIM, WIMi. IP, AGH 87

zmienna zależna brak istotności wyrazu wolnego wzrost istotny statystycznie wiek – brak istotności KISIM,

zmienna zależna brak istotności wyrazu wolnego wzrost istotny statystycznie wiek – brak istotności KISIM, WIMi. IP, AGH 88

Wyniki regresji model istotny statystycznie oszacowana funkcja regresji: WAGA = 6, 55 + 2,

Wyniki regresji model istotny statystycznie oszacowana funkcja regresji: WAGA = 6, 55 + 2, 05*WIEK+ 0, 72*WZROST± 4, 66 (10, 94) (0, 26) R 2=0, 78 interpretacja: • jeśli wartość zmiennej WIEK wrośnie o 1 to wartość zmiennej WAGA wzrośnie o 2, 5 kg • BETA: standaryzowany wskaźnik siły powiązania • brak istotności wpływu wieku • dodatnie oddziaływanie wieku i wzrostu na wagę • R 2=0, 78, czyli 78% ogólnej zmienności WAGI wyjaśnione przez model KISIM, WIMi. IP, AGH 89

Predykcja na podstawie modelu ile będzie ważyć dziecko w wieku 13 lat, mające 65

Predykcja na podstawie modelu ile będzie ważyć dziecko w wieku 13 lat, mające 65 cali wzrostu? Brak dowodu na istotność zmiennej nie jest dostatecznym powodem do usunięcia jej z modelu. Należy sprawdzić współliniowość Tolerancja (1 -R 2) mówi ile zmienności danej zmiennej nie zostało wyjaśnione przez pozostałe zmienne. Im mniejsza, tym bardziej nadmiarowy jest jej wkład w równanie regresji. tolerancja = 0 (lub bliska) oznacza brak możliwości obliczenia modelu. KISIM, WIMi. IP, AGH 90

Regresja ze zmienną jakościową Jeśli w analizie występują zmienne jakościowe (np. płeć, stanowisko pracy

Regresja ze zmienną jakościową Jeśli w analizie występują zmienne jakościowe (np. płeć, stanowisko pracy etc) można podzielić zbiorowość na jednorodne grupy pod względem poszczególnych wartości zmiennej a następnie porównać modele. Możemy również zastąpić zmienną jakościową sztucznymi zmiennymi binarnymi (np. płeć: kobieta = 1, mężczyzna = 0) KISIM, WIMi. IP, AGH 91

KISIM, WIMi. IP, AGH 92

KISIM, WIMi. IP, AGH 92

model przybiera postać: CSK = 105, 8 + 1, 05*WIEK- 17, 5*PŁEƱ 7, 37

model przybiera postać: CSK = 105, 8 + 1, 05*WIEK- 17, 5*PŁEƱ 7, 37 (4, 5) (0, 089) (2, 72) R 2=0, 87 PŁEĆ =0, CSK = 105, 8 + 1, 05*WIEK PŁEĆ =1, CSK = 88, 3 + 1, 05*WIEK KISIM, WIMi. IP, AGH 93

Skategoryzowane wykresy rozrzutu KISIM, WIMi. IP, AGH 94

Skategoryzowane wykresy rozrzutu KISIM, WIMi. IP, AGH 94

Eksploracja Danych Przygotowanie i wstępna obróbka danych postacie danych, wczytywanie danych, ocena jakości, filtrowanie

Eksploracja Danych Przygotowanie i wstępna obróbka danych postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych.

STATISTICA: Moduł Podstawowe statystyki i tabele » Aby wykonać ten test, idziemy do okna

STATISTICA: Moduł Podstawowe statystyki i tabele » Aby wykonać ten test, idziemy do okna Statystyki opisowe i wybierzmy kartę Odporne. Karta ta zawiera opcje umożliwiające włączenie do arkusza wynikowego średniej Winsora, średniej przyciętejoraz testu Grubbsa. » Test Grubbsa na obserwacje odstające może być użyty w celu wskazania jednej obserwacji odstającej podczas jednego przebiegu. » Test ten polega na wyliczeniu jak daleko potencjalna obserwacja odstająca znajduje się od pozostałych wartości w zbiorze danych. » Statystyka testu Grubbsa (G) liczona jest jako stosunek największego bezwzględnego odchylenia średniej z próby do odchylenia standardowego próby KISIM, WIMi. IP, AGH 96

KISIM, WIMi. IP, AGH 97

KISIM, WIMi. IP, AGH 97

Okno Zamiana wartości odstających i rzadkich zawiera różne testy umożliwiające identyfikację obserwacji odstających w

Okno Zamiana wartości odstających i rzadkich zawiera różne testy umożliwiające identyfikację obserwacji odstających w zmiennych ciągłych i jakościowych. W przypadku zmiennych jakościowych, STATISTICA za obserwacje odstające uzna te przypadki, których kod lub wartość tekstowa występują rzadziej niż określona częstotliwość. W przypadku zmiennych ciągłych można wybrać jeden z wielu dostępnych testów. KISIM, WIMi. IP, AGH 98

Test Grubbsa KISIM, WIMi. IP, AGH 99

Test Grubbsa KISIM, WIMi. IP, AGH 99

Zamiana obserwacji odstających. 2 1 KISIM, WIMi. IP, AGH 100

Zamiana obserwacji odstających. 2 1 KISIM, WIMi. IP, AGH 100

KISIM, WIMi. IP, AGH 101

KISIM, WIMi. IP, AGH 101

Metoda graficzna KISIM, WIMi. IP, AGH 102

Metoda graficzna KISIM, WIMi. IP, AGH 102

Wykres ramka-wąsy Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. Aby

Wykres ramka-wąsy Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. Aby to zrobić, należy kliknąć przycisk Zmienne, który znajduje się w oknie Statystyki opisowe. Otrzymamy okno wyboru zmiennej. Ponieważ interesuje nas znalezienie jakiejkolwiek obserwacji odstającej w naszym zbiorze, klikamy przycisk Wszystkie oraz OK. Następnie, na karcie Podstawowe, klikamy Wykres ramka-wąsy. KISIM, WIMi. IP, AGH 103

Obserwacje odstające Aby włączyć pokazywanie takich obserwacji, należy dwukrotnie kliknąć w tło wykresu. Na

Obserwacje odstające Aby włączyć pokazywanie takich obserwacji, należy dwukrotnie kliknąć w tło wykresu. Na ekranie pojawi się okno Opcje wykresu; przechodzimy w nim na kartę Wykres właściwy: Ramka-wąsy. KISIM, WIMi. IP, AGH 104

Przykład: Wykrywanie obserwacji odstających Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu

Przykład: Wykrywanie obserwacji odstających Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. KISIM, WIMi. IP, AGH 105

wybieramy dodatkowe opcje określające wykres, kontrolujące wyświetlanie obserwacji odstających i ekstremalnych oraz wykorzystanie rozkładu

wybieramy dodatkowe opcje określające wykres, kontrolujące wyświetlanie obserwacji odstających i ekstremalnych oraz wykorzystanie rozkładu przyciętego zmiennej zależnej do policzenia średniej/mediany. W oknie Wykres ramka-wąsy; więcej opcji wybieramy Odstające i ekstremalne z rozwijanej listy Odstające. KISIM, WIMi. IP, AGH 106

Usuwanie odstających wartości Dla każdej ze zmiennej liczbowej wykonuje się wykresy ramkawąsy, by znaleźć

Usuwanie odstających wartości Dla każdej ze zmiennej liczbowej wykonuje się wykresy ramkawąsy, by znaleźć wartości odstające. stosuje się następujące współczynniki: » Ramka » Wąs » Odstające KISIM, WIMi. IP, AGH 107

KISIM, WIMi. IP, AGH 108

KISIM, WIMi. IP, AGH 108

Wybór zmiennych

Wybór zmiennych

Dobór i eliminacja zmiennych KISIM, WIMi. IP, AGH 110

Dobór i eliminacja zmiennych KISIM, WIMi. IP, AGH 110

STATISTICA - Dobór i eliminacja zmiennych Procedura ta sprawdza wpływ zmiennych na zmienną zależną

STATISTICA - Dobór i eliminacja zmiennych Procedura ta sprawdza wpływ zmiennych na zmienną zależną automatycznie eliminuje puste zmienne (niezawierające żadnych wartości) i stałe (przyjmujące tę samą wartość dla wszystkich przypadków). procedura bada wpływ pojedynczych zmiennych na wielkość wyjściową. Sprawdza ona, na ile dla różnych wartości potencjalnego predykatora zmienna zależna przyjmuje różne wartości. KISIM, WIMi. IP, AGH 111

Ważność predyktorów KISIM, WIMi. IP, AGH 112

Ważność predyktorów KISIM, WIMi. IP, AGH 112

Dobór i eliminacja zmiennych KISIM, WIMi. IP, AGH 113

Dobór i eliminacja zmiennych KISIM, WIMi. IP, AGH 113

α=0, 05 tα=2, 1009 r*=0, 4438 KISIM, WIMi. IP, AGH współczynniki > r* korelacje

α=0, 05 tα=2, 1009 r*=0, 4438 KISIM, WIMi. IP, AGH współczynniki > r* korelacje niekorzystne dla modelu korelacje korzystne dla modelu 114

Metoda analizy grafów (metoda Bartosiewicz) Metoda zmierza do tego, by spośród wszystkich zmiennych objaśniających

Metoda analizy grafów (metoda Bartosiewicz) Metoda zmierza do tego, by spośród wszystkich zmiennych objaśniających wyodrębnić grupy zmiennych skorelowanych między sobą oraz znaleźć zmienne, z których żadna nie jest skorelowana z pozostałymi zmiennymi objaśniającymi. Następnie spośród tych grup zmiennych wybiera się zmienne mocniej skorelowane ze zmienną objaśnianą i wprowadza się je do relacji modelu. Do modelu wchodzą również wszystkie zmienne nieskorelowane między sobą, ale skorelowane ze zmienną objaśnianą. KISIM, WIMi. IP, AGH 115

Metoda analizy grafów (metoda Bartosiewicz) Obliczenie współczynników korelacji zmiennych objaśniających ze zmienną objaśnianą rj

Metoda analizy grafów (metoda Bartosiewicz) Obliczenie współczynników korelacji zmiennych objaśniających ze zmienną objaśnianą rj oraz zmiennych objaśniających pomiędzy sobą rij. Testowanie istotności współczynników korelacji Odrzucenie zmiennych X nieskorelowanych ze zmienna objaśnianą i konstrukcja macierzy R' z zerami w miejscu nieistotnych współczynników rij. Budowa grafu powiązań między zmiennymi objaśniającymi i wybór zmiennych do modelu, tworząc w ten sposób k grafów – grup zmiennych, odpowiadających przyszłym k zmiennym objaśniającym modelu. Do zmiennych objaśniających zalicza się: a) zmienne, które w odwzorowaniu tworzą grafy zerowe (izolowane), b) zmienne o maksymalnej liczbie łuków wybrane z każdego grafu spójnego, jeżeli w każdym grafie spójnym jest więcej niż jedna zmienna o takiej samej maksymalnej liczbie łuków, to wybiera się spośród tych zmiennych tę, która jest najbardziej skorelowana ze zmienną objaśnianą. KISIM, WIMi. IP, AGH 116

r*=0, 4 r(X 2)=3 do modelu wchodzą: X 5 , X 1 , X

r*=0, 4 r(X 2)=3 do modelu wchodzą: X 5 , X 1 , X 2 , KISIM, WIMi. IP, AGH 117

α=0, 05 tα=2, 1009 r*=0, 4438 wszystkie zmienne istotne współczynniki > r* do modelu

α=0, 05 tα=2, 1009 r*=0, 4438 wszystkie zmienne istotne współczynniki > r* do modelu wchodzą: X 1 , X 2 , X 4 Liniowa postać modelu: Y=a 0 + a 1 X 1 + a 2 X 2 + a 4 X 4+ e KISIM, WIMi. IP, AGH 118

wybór predyktorów – ocena zależności zmiennych Rodzaj zmiennych 1: 1 Jedna objaśniająca 1: n

wybór predyktorów – ocena zależności zmiennych Rodzaj zmiennych 1: 1 Jedna objaśniająca 1: n Wiele zmiennych Ilościowe Korelacja, wykres rozrzutu Macierz korelacji, F Ilościowa zależna, jakościowa objaśniająca ANOVA, χ2 skategoryzowany histogram Skategoryzowany wykres rozrzutu, χ2 Jakościowa zależna Tabela wielodzielcza, skategoryzowany histogram χ2 χ2, Tabele wielodzielcze, KISIM, WIMi. IP, AGH 119

Przykład 1 a (ANOVA) • Wiadomo, że związki chemiczne stosowane w leczeniu nowotworów mogą

Przykład 1 a (ANOVA) • Wiadomo, że związki chemiczne stosowane w leczeniu nowotworów mogą powodować obniżenie poziomu hemoglobiny we krwi (niedokrwistość). • W przypadku pewnego związku chemicznego stosowanego w leczeniu nowotworów (Lek A) podejrzewano, że przy długotrwałym stosowaniu powoduje niedokrwistość (stężenie hemoglobiny we krwi poniżej 11 g/dl) w większym stopniu niż inne leki tego typu. • Do badania włączono grupę 24 osób z rozpoznaniem nowotworu. 10 z nich podawano wspomniany lek A. Pozostałym pacjentom podawano inne leki o podobnym działaniu. 7 pacjentów zażywało lek B, a 7 lek C. • W momencie przystąpienie do badania u wszystkich pacjentów poziom hemoglobiny we krwi był prawidłowy. Po zakończonej obserwacji u pacjentów ponownie wykonano morfologię krwi. Wyniki badania poziomu hemoglobiny u badanych były następujące: KISIM, WIMi. IP, AGH 120

Przykład 1 b Lek A Lek B Lek C 10, 2 8, 7 12,

Przykład 1 b Lek A Lek B Lek C 10, 2 8, 7 12, 5 13, 8 7, 6 8, 2 9, 8 10, 9 11, 6 14, 2 14, 3 14, 1 17 13, 2 11, 6 10, 9 9, 3 10, 4 12 13, 6 13, 5 14, 7 15, 3 14, 9 Czy pacjenci przyjmujący lek A po zakończeniu terapii mieli niższy poziom hemoglobiny we krwi niż pacjenci leczeni innymi lekami? KISIM, WIMi. IP, AGH 121

Przykład 1 c Zakładamy normalność rozkładów oraz jednorodność wariancji w grupach. KISIM, WIMi. IP,

Przykład 1 c Zakładamy normalność rozkładów oraz jednorodność wariancji w grupach. KISIM, WIMi. IP, AGH Stąd wniosek, że poziom hemoglobiny u pacjentów stosujących różne leki różni się istotnie. 122

Przykład 1 d KISIM, WIMi. IP, AGH 123

Przykład 1 d KISIM, WIMi. IP, AGH 123

KISIM, WIMi. IP, AGH 124

KISIM, WIMi. IP, AGH 124

Przykład 1 e Analiza post-hoc: Porównania wielokrotne Te testy umożliwiają nam odpowiedzenie na pytanie,

Przykład 1 e Analiza post-hoc: Porównania wielokrotne Te testy umożliwiają nam odpowiedzenie na pytanie, które z analizowanych grup różnią się między sobą. KISIM, WIMi. IP, AGH 125

Kontrasty: kombinacje średnich • Kontrasty pozwalają badać hipotezy na temat różnic średnich w poszczególnych

Kontrasty: kombinacje średnich • Kontrasty pozwalają badać hipotezy na temat różnic średnich w poszczególnych grupach. • Załóżmy że chcemy porównać lek A z lekiem B z wyłączeniem leku C (Przykład 1 b). Wtedy kontrasty będą następujące: 1, -1, 0 [przykład 1 f] • Jeśli grupy (leki) są takie same, to suma średnich pomnożonych przez odpowiednie wagi będzie miała wartość oczekiwaną równą 0. • Jeśli pacjenci leczeni lekiem C mają wyższy poziom hemoglobiny, wtedy średnia będzie mniejsza od 0 (waga -1) KISIM, WIMi. IP, AGH 126

Kontrasty: kombinacje średnich • Jeśli chcemy sprawdzić, czy leki B i C istotnie różnią

Kontrasty: kombinacje średnich • Jeśli chcemy sprawdzić, czy leki B i C istotnie różnią się od leku A, tworzymy kontrast: 2, -1 [przykład 1 g] • Wagi muszą sumować się do 0, tylko wtedy suma ważonych średnich z poszczególnych grup będzie równa 0, a suma ta będzie się różnić od 0 tylko jeśli wystąpią różnice międzygrupowe. KISIM, WIMi. IP, AGH 127

Kontrasty: kombinacje średnich [przykład 1 f] KISIM, WIMi. IP, AGH 128

Kontrasty: kombinacje średnich [przykład 1 f] KISIM, WIMi. IP, AGH 128

VEPAC Wykres zmienności KISIM, WIMi. IP, AGH 129

VEPAC Wykres zmienności KISIM, WIMi. IP, AGH 129

Tabele wielodzielcze KISIM, WIMi. IP, AGH 130

Tabele wielodzielcze KISIM, WIMi. IP, AGH 130

KISIM, WIMi. IP, AGH 131

KISIM, WIMi. IP, AGH 131

KISIM, WIMi. IP, AGH 132

KISIM, WIMi. IP, AGH 132

KISIM, WIMi. IP, AGH 133

KISIM, WIMi. IP, AGH 133

Tabele raportujące KISIM, WIMi. IP, AGH 134

Tabele raportujące KISIM, WIMi. IP, AGH 134

Zmienne jakościowe KISIM, WIMi. IP, AGH 135

Zmienne jakościowe KISIM, WIMi. IP, AGH 135

Tablice kontyngencji (tabele przestawne) tabele liczebności, tabele krzyżowe albo rozdzielcze, a w przypadku dwóch

Tablice kontyngencji (tabele przestawne) tabele liczebności, tabele krzyżowe albo rozdzielcze, a w przypadku dwóch wskaźników także dwudzielcze y 1 y 2 …. ym x 1 n 12 n 1 m x 2 n 21 n 22 n 2 m Czy musiało dojść do katastrofy Challengera w 1986 r. Analiza danych z wcześniejszych 24 startów …. xk nk 1 nk 2 nkm ≤ 65 o. F > 65 o. F brak usterek 0 17 wystąpiła usterka(i) 4 3 ≤ 65 o. F > 65 o. F brak usterek 0% 70% wystąpiła usterka(i) 17% 136

Przykład Do badania wybrano 500 mieszkańców Rzeszowa, których poproszono o określenie, czy czują się

Przykład Do badania wybrano 500 mieszkańców Rzeszowa, których poproszono o określenie, czy czują się bezpiecznie. Wyniki odpowiedzi respondentów zostały przedstawione w tabeli niezależności. Sprawdź, czy istnieje zależność między płcią respondenta a poczuciem jego bezpieczeństwa, przyjmując poziom istotności alfa= 0, 05. Płeć Mężczyzna Kobieta RAZEM Czy czuje się bezpiecznie? Tak Nie 30 80 170 220 200 300 RAZEM 110 390 500 250 200 150 Tak Nie 100 50 0 Mężczyzna KISIM, WIMi. IP, AGH Kobieta 137

Porównanie dwóch wskaźników struktury (proporcji) Zweryfikujmy hipotezę o większym procencie wyzdrowień w grupie psów

Porównanie dwóch wskaźników struktury (proporcji) Zweryfikujmy hipotezę o większym procencie wyzdrowień w grupie psów leczonych nową szczepionką Z menu Statystyka wybieramy opcję Statystyki podstawowe i tabele. Następnie w otwierającym się oknie wybieramy opcję Inne testy istotności. KISIM, WIMi. IP, AGH 138