Regrese a korelace Zvislost dvou kvantitativnch promnnch Regrese

  • Slides: 47
Download presentation
Regrese a korelace Závislost dvou kvantitativních proměnných

Regrese a korelace Závislost dvou kvantitativních proměnných

Regrese - vím, která je závislá, a která nezávislá

Regrese - vím, která je závislá, a která nezávislá

Podobně bude záviset • • • Výška rostliny na obsahu živin v půdě Intenzita

Podobně bude záviset • • • Výška rostliny na obsahu živin v půdě Intenzita fotosyntézy na množství světla Druhová bohatost na zeměpisné šířce Rychlost enzymatické reakce na teplotě a nikoliv naopak

Korelace - obě proměnné jsou “stejnocenné”

Korelace - obě proměnné jsou “stejnocenné”

Podobně nás může zajímat korelace • Obsahu Pb a Cd ve vodě • Počtu

Podobně nás může zajímat korelace • Obsahu Pb a Cd ve vodě • Počtu bodů za písemku z matiky a chemie • Pokryvnosti sasanky a pryskyřníku ve čtvercích na louce • Těžko řekneme, co je závislé na čem

I u stejnocenných proměnných • můžeme jednu z nich použít jako prediktor. • Regrese

I u stejnocenných proměnných • můžeme jednu z nich použít jako prediktor. • Regrese se potom užije i v případě, že není jasně jedna závislá a jedna nezávislá. Můžu se pokusit na základě DBH (měří se snadněji) predikovat výšku stromu

Model jednoduché lineární regrese Náhodná variabilita - N(0, σ2) Sklon, též Intercept regresní koeficient

Model jednoduché lineární regrese Náhodná variabilita - N(0, σ2) Sklon, též Intercept regresní koeficient Závisle proměnná Slope Odpověď Dependent v. , response Nezávisle proměnná, prediktor, Independent v.

Regresní koeficient = sklon přímky, udává o kolik se změní Y při změně X

Regresní koeficient = sklon přímky, udává o kolik se změní Y při změně X o jednotku. Je to tedy hodnota závislá na jednotkách, ve kterých měříme X a Y. Jde od - do +. β=tg úhlu sklonu α=hodnota Y pro X=0 0 0

Předpokládáme tedy: X je změřeno přesně Y je zatíženo chybou střední hodnota Y závisí

Předpokládáme tedy: X je změřeno přesně Y je zatíženo chybou střední hodnota Y závisí lineárně na X variance “kolem přímky” je stále stejná (homogenita variance)

Která přímka je nejlepší?

Která přímka je nejlepší?

Která přímka je nejlepší?

Která přímka je nejlepší?

Která přímka je nejlepší? Tahle asi ne, ale jak to poznám?

Která přímka je nejlepší? Tahle asi ne, ale jak to poznám?

Nejlepší je ta přímka, která vyhovuje • Kriteriu nejmenších čtverců Least squares (LS) •

Nejlepší je ta přímka, která vyhovuje • Kriteriu nejmenších čtverců Least squares (LS) • tj. nejmenší součet čtverců rozdílů predikovaná - skutečná hodnota závisle proměnné

Tj. nejlepší je ta přímka, která má nejmenší součet druhých mocnin (čtverců) residuálů Svislá

Tj. nejlepší je ta přímka, která má nejmenší součet druhých mocnin (čtverců) residuálů Svislá nikoliv kolmá vzdálenost k přímce!!! Tady se projevuje, že předpokládám, že jen Y je zatíženo chybou

Lze z této podmínky vypočítat parametry přímky? Dosadím za odhad Y X a Y

Lze z této podmínky vypočítat parametry přímky? Dosadím za odhad Y X a Y jsou naměřené hodnoty. Ty považujeme za „pevné“. Hledám tedy lokální minimum funkce dvou proměnných, a a b. Výraz nahoře zderivujeme podle a a potom podle b. Dostávám dva výrazy (derivaci podle a a podle b). Ty položím rovny nule, a soustavu dvou rovnic vyřeším. V normálních případech má funkce jeden lokální extrém (protože je jediný, je též globálním extrémem, a je minimem)

Dostáváme α a β jsou skutečné hodnoty, a a b jsou jejich odhady Přímka

Dostáváme α a β jsou skutečné hodnoty, a a b jsou jejich odhady Přímka vždy prochází bodem

b je výběrovým odhadem skutečné hodnoty β Každý odhad je zatížen nějakou chybou -

b je výběrovým odhadem skutečné hodnoty β Každý odhad je zatížen nějakou chybou - z variability dat nám Statistica spočítá střední chybu odhadu b

V případě nezávislosti β=0 Dosažená hladina významnosti pro test H 0: β=0 je pravděpodobnost,

V případě nezávislosti β=0 Dosažená hladina významnosti pro test H 0: β=0 je pravděpodobnost, že takhle dobrou závislost dostaneme čistě náhodou, pokud jsou proměnné nezávislé

Pro test H 0: β=0 Počet stupňů volnosti je n-2 Obdobný test můžeme použít

Pro test H 0: β=0 Počet stupňů volnosti je n-2 Obdobný test můžeme použít i pro parametr a, testujeme pak, že přímka prochází počátkem, což je ve většině případů test nezajímavý

Test pomocí ANALÝZY VARIANCE regresního modelu Testujeme nulovou hypotézu, že model nic nevysvětluje (proměnné

Test pomocí ANALÝZY VARIANCE regresního modelu Testujeme nulovou hypotézu, že model nic nevysvětluje (proměnné jsou nezávislé). Potom platí že β=0. Test tedy musí vyjít shodně s předchozím (to je dá totožnou hodnotu p), jen neumožňuje jednostrannou hypotézu Opět - jako v klasické ANOVě, základem je rozklad sumy čtverců

Celková variabilita = čtverce odchylek pozorování od společného průměru Variabilita modelem vysvětlená=čtverce odchylek predikovaných

Celková variabilita = čtverce odchylek pozorování od společného průměru Variabilita modelem vysvětlená=čtverce odchylek predikovaných hodnot od společného průměru

Variabilita modelem nevysvětlená= čtverce odchylek pozorovaných a predikovaných hodnot Platí:

Variabilita modelem nevysvětlená= čtverce odchylek pozorovaných a predikovaných hodnot Platí:

Jako v klasické ANOVě platí MS=SS/DF - je odhadem variance základního souboru, když platí

Jako v klasické ANOVě platí MS=SS/DF - je odhadem variance základního souboru, když platí nulová hypotéza. A i tady provádíme test pomocí poměru odhadů společné variance na základě variance modelem vysvětlené a nevysvětlené

ANOVA modelu Test nulové hypotézy, že při vylíhnutí pták nemá křídlo (v den nula

ANOVA modelu Test nulové hypotézy, že při vylíhnutí pták nemá křídlo (v den nula se délka rovná nule)

Koeficient determinace procento vysvětlené variability R 2 adj - odhad, kolik je R 2

Koeficient determinace procento vysvětlené variability R 2 adj - odhad, kolik je R 2 v základním souboru

Konfidenční pás - kde s danou [zde 95%] pravděpodobností leží pro dané X střední

Konfidenční pás - kde s danou [zde 95%] pravděpodobností leží pro dané X střední hodnota Y V podstatě kde leží přímka

Predikční nebo toleranční pás Kde budou ležet další pozorování

Predikční nebo toleranční pás Kde budou ležet další pozorování

Spolehlivost je největší kolem průměru

Spolehlivost je největší kolem průměru

Regrese procházející počátkem je možné, ale Jak to reálně bylo

Regrese procházející počátkem je možné, ale Jak to reálně bylo

S vysokou jistotou jsem dokázal, že počet druhů při vzniku sopečného ostrova byl záporný

S vysokou jistotou jsem dokázal, že počet druhů při vzniku sopečného ostrova byl záporný

Regrese procházející počátkem je možné, ale Jak to reálně bylo Tohle mi udělá regrese

Regrese procházející počátkem je možné, ale Jak to reálně bylo Tohle mi udělá regrese procházející počátkem

Lineární regresi nepoužíváme proto • Že bychom si mysleli, že závislost je lineární v

Lineární regresi nepoužíváme proto • Že bychom si mysleli, že závislost je lineární v celém svém rozsahu, ale často (oprávněně) věříme, že v rozsahu námi užitých hodnot je závislot rozumně aproximovatelná lineární funkcí • Proto velký pozor na extrapolace (zvlášť nebezpečné jsou extrapolace k nule)

Užití regrese neznamená kauzální závislost • Průkazně nám vyjde: • Závislost počtu vražd na

Užití regrese neznamená kauzální závislost • Průkazně nám vyjde: • Závislost počtu vražd na počtu mrazových dní v roce ve státech USA • Závislost počtu rozvodů na počtu ledniček v průběhu let (a možná i přes jednotlivé země) • Závislost počtu obyvatel Indie na koncentraci CO 2 v průběhu let • Kauzální závislost prokáže manipulativní experiment

Závislost počtu vražd (Vraždy) na počtu mrazových dní (Mráz) v jednotlivých státech USA Výsledky

Závislost počtu vražd (Vraždy) na počtu mrazových dní (Mráz) v jednotlivých státech USA Výsledky regresní analýzy počtu vražd na 100 000 obyvatel v roce 1976 (Vraždy) v jednotlivých státech USA v závislosti na průměrném počtu mrazových dní v hlavním městě daného státu v letech 1931 -1960 (Mráz). P<0. 01

Síla testu • Závisí na počtu pozorování a na těsnosti vztahu (tedy R 2

Síla testu • Závisí na počtu pozorování a na těsnosti vztahu (tedy R 2 v základním souboru) • V experimentálních studiích (s manipulovanou nezávisle proměnnou) často zvýšíme R 2 zvětšením rozsahu nezávisle proměnné (ale pozor, to obvykle zhorší linearitu vztahu)

Při interpretacích • Rozlišuj, kdy nás zajímá více těsnost vztahu (a tedy hodnota R

Při interpretacích • Rozlišuj, kdy nás zajímá více těsnost vztahu (a tedy hodnota R 2), a kdy jsme šťastni, když “nám to vyjde průkazně”. • Jak je nová levná analytická metoda závislá na skutečné koncentraci? (Kdybych nevěřil, že H 0: „Metoda je zcela nezávislá na koncentraci“ neplatí, tak bych to asi nedělal - zajímá mě R 2, případně chyba odhadu. )

Prohlášení • Metoda je vynikající, závislost na reálných koncentracích je vysoce průkazná (p<0. 001)

Prohlášení • Metoda je vynikající, závislost na reálných koncentracích je vysoce průkazná (p<0. 001) říká jen to, že jsme si velmi jistí, že metoda je lepší než generátor náhodných čísel. Zajímá nás především R 2 [a hodnota 0. 8 se mi může zdát zatraceně nízká] (a zde hlavně chyba odhadu).

Naproti tomu • Prohlášení: Počet druhů je pozitivně závislý na p. H půdy (F

Naproti tomu • Prohlášení: Počet druhů je pozitivně závislý na p. H půdy (F 1, 33=12. 3, p<0. 01) je zajímavé, protože neplatnost nulové hypotézy není zcela evidentní. Ale R 2 mě bude zajímat taky (ale spokojím se i s dost nízkým číslem, třeba i 0. 2).

Prohozením X a Y dostanu logicky různé výsledky (regresní rovnice nejsou inverzními funkcemi). Ale

Prohozením X a Y dostanu logicky různé výsledky (regresní rovnice nejsou inverzními funkcemi). Ale R 2, F, a P jsou stejné. Odhaduji výšku pomocí DBH Odhaduji DBH pomocí výšky Tj. výška (Y) nezávislá, DBH závislá Minimalizuji Tj. DBH neávislá, výška závislá Minimalizuji

I jednoduchou regresi • počítáme ve Statistice pomocí modulu “Multiple regression”. Do výsledků píšu,

I jednoduchou regresi • počítáme ve Statistice pomocí modulu “Multiple regression”. Do výsledků píšu, že jsem užil jednoduchou regresi!!!

Transformace dat v regresi • Pozor - proměnné nejsou stejnocenné • Nezávisle proměnná se

Transformace dat v regresi • Pozor - proměnné nejsou stejnocenné • Nezávisle proměnná se považuje za přesnou • Závisle proměnná je zatížena chybou (a na ni minimalizuji odchylky závisle proměnné od predikce)

Rozlišuj • transformací nezávisle proměnné měním tvar závislosti, ale ne rozdělení reziduálů • transformací

Rozlišuj • transformací nezávisle proměnné měním tvar závislosti, ale ne rozdělení reziduálů • transformací závisle proměnné měním obojí - i tvar, i rozdělení reziduálů

první řádek se Linearizované regrese Ten obvykle maže, druhý Nejčastější transformace je logaritmická Když

první řádek se Linearizované regrese Ten obvykle maže, druhý Nejčastější transformace je logaritmická Když zlogaritmuji nezávisle proměnnou dostávám Y=a+b log(X) Předpoklad reziduály nebyly závislé na průměru transformace s nimi nic neudělala. S=a+blog(A) do článků často taky, ale dá se do popisu obrázku

Závislost je exponenciání Reziduály jsou lineárně závislé na průměru a co nám vyjde v

Závislost je exponenciání Reziduály jsou lineárně závislé na průměru a co nám vyjde v regresi je tedy ln(k), tedy k=ea

Je jedno, jestli užiji ln nebo log Ale pokud chci odhadnout růstovou rychlost, pak

Je jedno, jestli užiji ln nebo log Ale pokud chci odhadnout růstovou rychlost, pak se hodí ln Logaritmuji jen závisle proměnnou - a “homogenizuji” reziduály

Oblíbená je mocninná závislost Vždy prochází počátkem - Alometrické závislosti, Species-Area

Oblíbená je mocninná závislost Vždy prochází počátkem - Alometrické závislosti, Species-Area

Užiju buď ln, nebo log Zlinearizuje většinu monotonních závislostí bez inflexního bodu [S=c. Az],

Užiju buď ln, nebo log Zlinearizuje většinu monotonních závislostí bez inflexního bodu [S=c. Az], které procházejí počátkem Logaritmuji obě proměnné, předpokládám, že reziduály byly pozitivně závislé na průměru. Pozor, kdykoliv logaritmuji, pozitivní odchylka od předpovědi se zmenší víc, než negativní.