Korelacija i regresija Doc dr sc Lidija BiliZulle
Korelacija i regresija Doc. dr. sc. Lidija Bilić-Zulle Katedra za medicinsku informatiku Medicinski fakultet Sveučilišta u Rijeci Zavod za laboratorijsku dijagnostiku Klinički bolnički centar Rijeka 15. studeni 2008.
Odabir statističkog testa Ovisi o: • vrsti podataka/ljestvice mjerenja • raspodjeli (normalnost) • uzorku (veličina, zavisnost) • broju pokazatelja (uni/bi/multivarijatni testovi) • istraživačkom pitanju
Osobine obilježja – mjerne ljestvice
Odabir testa: ovisnost o raspodjeli – parametrijski i neparametrijski • Parametrijski testovi: • pokazatelji koji ne odstupaju od normalne raspodjele • obrađuju izvorna mjerenja • Neparametrijski testovi: • nisu ograničeni normalnošću raspodjele • ne raščlanjuju izvorne podatke već "rankove"
Ovisnost o osobini uzorka • Veličina: • veliki uzorci – parametrijski testovi • mali uzorci – neparametrijski testovi • Zavisnost • nezavisni uzorci – neparni testovi • zavisni uzorci – parni testovi
Ovisnost o broju pokazatelja • univarijatni: • raščlanjuju samo jedan pokazatelj • bivarijatni • raščlanjuju dva pokazatelja • multivarijatni • raščlanjuju više pokazatelja
Istraživačko pitanje • Postoji li razlika (u istoj varijabli) između dvaju (ili više) skupina? • Postoji li povezanost dvaju varijabli? • Može li se iz jedne (ili više) varijable predvidjeti druga?
Varijable • biološke varijable – značajke ispitanika • osnovna značajka – biološka varijabilnost • potreba za mjerenjem na što većem broju ispitanika (reprezentativni uzorak!)
Varijable • stalne – ne će se promjeniti tijekom ispitivanja (spol, rasa, genotip. . . ) • promjenive – mogu se promijeniti tijekom ispitavanja (broj leukocita, koncentracija glukoze. . . )
Varijable • nezavisne varijable – mjerimo neovisno o ishodu pokusa, prethode zavisnim varijablama, prediktori, rizični čimbenici, varijable izloženosti (os x) • zavisne varijable – kriteriji, posljedice djelovanja nezavisnih • primjer: karboksihemoglobin u krvi varijabli, predstavljaju mjeru ishoda koju u istraživanju mjerimo (os y) broj popušenih cigareta na dan
Postoji li povezanost dvaju varijabli? • statistički test KORELACIJA
Korelacija • sukladnost dvaju varijabli • govori o njihovoj povezanosti • uvjet pokazatelja: numerički (brojčana mjerna ljestvica) • nominalna • ordinalna • intervalna • omjerna • broj pokazatelja: dva
Grafički prikaz korelacije • točkasti dijagram (engl. scatter diagram) y y 2 y 1 x 2 x
Izračun korelacije • Matematički postupak za izračunavanje stupnja povezanosti dvaju brojčanih pokazatelja kojim se izračunava: • koeficijent korelacije r • statistička značajnost koeficijenta korelacije P
Koeficijent korelacije • Pozitivna potpuna (matematička) korelacija y r = +1 x
Koeficijent korelacije • Pozitivna nepotpuna korelacija y 0 < r < +1 x
Koeficijent korelacije • Nepostojanje korelacije y r=0 x
Koeficijent korelacije • Negativna nepotpuna korelacija y 0 > r > – 1 x
Koeficijent korelacije • Negativna potpuna (matematička) korelacija y r = -1 x
Pearsonov koeficijent korelacije rp • parametrijski test (računa s izmjerenim vrijednostima): • jednostavna linearna korelacija • dva pokazatelja • intervalna ili omjerna ljestvica • vrijednosti: -1 r +1 • barem jedna varijabla – normalna raspodjela • veliki uzorak (n > 35) • povezanost varijabli linearna
Spearmanov koeficijent korelacije • neparametrijski test (računa s rangovima): • linearna korelacija, r, r. S • dva pokazatelja • ordinalna mjerna ljestvica • vrijednosti: -1 r +1 • kada r. S, a ne r. P: • ordinalna mjerna ljestvica • mali uzorak (n < 35) • x i y ne slijede normalnu raspodjelu
Kada NE računati korelaciju! y y x x • . . . i kada se jedna varijabla izračunava iz druge (npr. BMI i tjelesna masa)
Koeficijent korelacije • r nema mjerne jedinice i izražava se brojem s dva decimalna mjesta • ne ovisi o tome koji je pokazatelj x, a koji y • r = 0 znači: nema linearne povezanosti • ne opisuje uzročno-posljedičnu vezu (samo povezanost)
Statistička značajnost povezanosti • uz koeficijent korelacije r potrebno naznačiti i statističku značajnost P • P – statistička značajnost povezanosti, izražava se brojem s tri decimalna mjesta • ovisi o veličini uzorka • statistički značajna korelacija P < 0, 05 TUMAČITI SE SMIJU SAMO ZNAČAJNI KOEFICIJENTI KORELACIJE!
Tumačenje koeficijenta korelacije (za biološke varijable)* • r = 0 do ± 0, 25: nema povezanosti, • r = ± 0, 26 do ± 0, 50: slaba povezanost, • r = ± 0, 51 do ± 0, 75: umjerena do dobra povezanost • r = ± 0, 76 do ± 1: vrlo dobra do izvrsna povezanost • r = ± 1: matematička povezanost *Colton, 1974.
Jakost povezanosti • udio zajedničkih vrijednosti • koeficijent determinacije – r 2 • Primjer za r = 0, 67; r 2 = 0, 45 ili 45% zajedničkih vrijednosti
Primjer za raspravu* Je li ispravno računati Pearsonov koeficijent korelacije za stupanj opeklina na tijelu i trajanje bolničkog liječenja izraženo u danima? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije? Biochemia Medica 2007; 17(1): 10 -5.
Primjer za raspravu* U istraživanju povezanosti raspoloženje i količine tekućine (vode) unesene pijenjem tijekom dana dobivena je povezanost r = 0, 12; P = 0, 003. Je li ispravno tumačiti kako postoji značajna povezanost raspoloženja i količine popijene tekućine? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije? Biochemia Medica 2007; 17(1): 10 -5.
Primjer za raspravu* U istraživanju povezanosti visine tijela i biološke dobivena je korelacija r = 0, 97; P = 0, 001. Možemo li zaključiti kako su visina i dob nesumnjivo zaista izvrsno povezani? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije? Biochemia Medica 2007; 17(1): 10 -5.
Primjer za raspravu* U istraživanju povezanosti koncentracije alkohola u krvi i prometnih nesreća utvrđeni su r = 0, 78; P = 0, 002. Možemo li zaključiti kako uzimanje alkohola nesumnjivo uzrokuje prometne nesreće? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije? Biochemia Medica 2007; 17(1): 10 -5.
Primjer za raspravu* Usporedbom katalitičke koncentracije dvaju enzima u krvi ispitanika dobivena je povezanost r = 0, 52; P = 0, 002. Možemo li zaključiti kako vrijednosti enzima imaju 52% zajedničkih vrijednosti katalitičke koncentracije? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije? Biochemia Medica 2007; 17(1): 10 -5.
Primjer za raspravu* Ispitana je povezanost vremena provedenog u radu s računalom i brzine pisanja teksta na računalu u žena (n 1=60) i muškaraca (n 2=40). Koeficijent korelacije za žene iznosi r 1 = 0, 70, a za muškarce r 2 = 0, 50 i oba su statistički značajna. Možemo li zaključiti kako je r 1 > r 2, tj. da je u žena veća povezanost vremena provedenog za računalom i brzine pisanja teksta na računalu? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije? Biochemia Medica 2007; 17(1): 10 -5.
Može li se iz jedne varijable predvidjeti druga? • statistički test REGRESIJSKA RAŠČLAMBA
Regresijska raščlamba. . . matematički model koji daje što točniju procjenu koliko će se promijeniti promatrana zavisna varijabla (kriterij) kao odgovor na promjenu nezavisne varijable (prediktor).
Uvjeti za izračunavanje regresije • postojanje korelacije između ispitivanih varijabli • ravnomjerno raspršenje rezultata oko pravca regresije • kvalitetan ispitivani uzorak (nasumično uzorkovanje)
Regresijska raščlamba • • linearna regresija višestruka regresijska raščlamba logistička regresija Passing-Bablock regresija
Linearna regresija • • matematička povezanost… …dvaju pokazatelja (x i y) nezavisna mjerenja koliko promjena jednog (x) određuje promjenu drugog (y): • x: nezavisna varijabla (prediktor) • y: zavisna varijabla (kriterij) • rezultat: jednadžba pravca: y = a + bx y = b 0 + b 1 x
Linearna regresija • y = a + bx; a = odsječak; b = nagib pravca y b a 1 x • y = x; idelan pravac kroz ishodište, a = 0; b = 1
Linerna regresija • metoda najmanjih kvadrata: • način utvrđivanja položaja regresijskog pravca među točkama • najmanji mogući zbroj kvadrata odstupanja pojedinačnih točaka od pravca po osi y, tj. suma kvadrata udaljenosti (y-y 1)2 svih točaka y x
Linearna regresija • pogrješka prognoze (rezidual) – variranje rezultata oko pravca • standardna pogrješka prognoze – prosjek kvadrata udaljenosti svih točaka od pravca regresije (odgovara standardnoj devijaciji aritmetičke sredine)
Linearna regresija • granice pouzdanosti • raspon vrijednosti rezultata unutar kojeg s određenom sigurnošću nalazimo predviđene rezultate (uobičajeno 95% CI) y x
Višestruka regresijska raščlamba • omogućuje: • predviđanje zavisne varijable (kriterija) iz više nezavisnih (pokazatelja, prediktora) • nemaju svi pokazatelji istu vrijednost u predviđanju • pojedinačni značajni pokazatelji mogu izgubiti značajnost u višestrukoj regresiji
Logistička regresija • nalazi najbolji odgovarajući matematički model za predviđanje dihotomnog ishoda iz niza nezavisnih varijabli • značajka ishoda: dihotomnost, tj. dva moguća ishoda
Passing-Bablok regresija • model linearne regresije koji pretpostavlja kako niti jedna od dvaju varijabli nije niti zavisna niti nezavisna • najčešće: usporedba dvaju metoda mjerenja • rezultat: vrijednost odsječka i nagiba pravca s intervalom pouzdanosti koji ukazuju na postojanje stalne ili proporcionalne razlike između mjerenja
Hvala na pozornosti Lidija. Bilic-Zulle@medri. hr
- Slides: 45