A regresszis egyenes egyenlete Y alpha beta 1
A regressziós egyenes egyenlete • Y= alpha + beta 1. X 1 + beta 2. X 2 + beta 3. X 3 +. . . + epszilon a használt egyenlet a minta alapján: • Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 + b 4 X 4. . TÖBB VÁLTOZÓ HATÁSÁT EGYETLEN ÉRTÉKBEN ÖSSZEGEZZÜK (súlyozott átlag) ahol az X 1 az első független változó és a b 1 a hozzátartozó regressziós koefficiens, az X 2 a második független változó és a b 2 a hozzá tartozó regressziós koefficiens, stb.
A regressziós egyenes egyenlete (folyt. ) • A számítás hasonló az egyszerű lineáris regresszióhoz, a legkisebb átlagos négyzetes távolság kiszámításán alapul. • Két független változó esetén egy síktól való távolságot minimalizálunk, több független változónál ez már nem szemléltethető
2. feladat: Feher et al. Beta blockers, lipoproteins and a non-insulin dependent diabetes (Postgrad. Med. 64, 927, 1988) • Y (H): HDL 2 szubfrakció, mmol/l • X 1 (B): beta blokkolót szedett 1: igen, 2: nem • X 2 (D). drink 1: alkoholt fogyasztott, 2: nem • X 3 (S) smoking 1: dohányzik, 0: nem • X 4 (A): életkor, év • X 5 (W) testsúly • X 6 (T) trigliceridek • X 7 (C) C-peptide • X 8 (G) vércukor H = 0. 711 -0. 0824 B - 0. 0173 D - 0. 0399 S - 0. 00455 A - 0. 00214 W 0. 0444 T + 0. 00463 C - 0. 00391 G. R 2: 59. 5%, adj. R 2: 54. 3% Kérdés: mit jelentenek a piros számok?
Válaszok az 2. feladatra • 0. 0824 B: ha béta-blokkolót szed valaki, akkor a HDL 2 (védő) frakció szérumszint 0. 0824 mmol/l-el nagyobb lesz, azaz a nem szedők 0. 711 mmol/l-ével szemben 0. 711+0. 082=0. 793 mmol/l. • - 0. 00455 A: az öregedéssel párhuzamosan évente 0. 00455 mmol/l-el csökken a HDL 2 -frakció szérumszintje, • - 0. 0444 T: 1 mmol/l triglicerid szint csökkenés 0. 044 mmol/l HDL-csökkenéssel jár együtt. Tehát ha valakinek 2 mmol/l-el csökkentjük a triglicerid koncentrációját, ez 0. 7110 -2. 0. 0444=0. 71100. 0888=0. 6222 mmol/l HDL koncentrációt eredményez, ha az összes többi tényező változatlan marad.
Parameter Estimates (gyakika) Sigma-restricted parameterization Beta S. E. of beta -95, 00% +95, 00% 0, 07105 0, 292256 0, 105274 0, 082585 0, 501928 -2, 108 21, 86223 0, 178725 0, 108891 -0, 038151 0, 395601 0, 033646 0, 057 1, 38497 0, 247451 0, 114376 0, 019652 0, 475250 0, 086926 -0, 186 2, 69438 0, 197392 0, 113819 -0, 029298 0, 424082 B S. E. of B t p -95, 00% +95, 00% Intercept -79, 3334 36, 85479 -2, 15259 0, 034524 -152, 736 -5, 93070 DIFVEGF 0, 0414 0, 01490 2, 77615 0, 006922 0, 012 GENDER 9, 8770 6, 01770 1, 64132 0, 104864 AGE 0, 7211 0, 33331 2, 16349 BMI_E 0 1, 2541 0, 72314 1, 73426
Az egyenlet • CDS 7 months, %= -79. 33 + 9. 877 xgender + 0. 7211 xage + 1. 2541 x. BMI + 0. 0414. diff. VEGF • Legyen a beteg 40 éves férfi, BMI-je 28% • CDS 7 months, % = - 79. 33 + 9. 877 x 1 + 0. 7211 x 40 + 1. 2541 x 28 + 0. 0414. diff. VEGF = • -79. 33+9. 877+28. 84+63. 95+0. 0414. diff. VEGF= • -79. 33 + 102. 667 + 0. 0414. diff. VEGF= • 23. 337 + 0. 0414. diff. VEGF
A VEGF emelkedés hatása • • • CDS 7 months, % = 23. 337 + 0. 0414. diff. VEGF Ha a VEGF emelkedés 100 pg/ml, akkor CDS 7 months, % = 23. 337 +4. 14=27. 477 Ha a VEGF emelkedés 400 pg/ml, akkor CDS 7 months, % = 23. 337 + 16. 56 = 38. 977 Ha nem férfi, hanem nő a beteg, akkor 9. 877 -el több, tehát 49. 774% a várható restenosis
A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)
A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
Az alap szérum IL-6 szint és a 3 éves mortalitás
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
Kérdés • Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható. • A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre • Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
Kiechl, S. et al. : Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 • Bruneck tanulmány: 1990, 826 40 -79 éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). • A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. • A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)
KÉRDÉSEK • 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat) 2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) • Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis
500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125 -ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 SD növekedés
Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001. • 1984, 26311 > 40 éves Miyagi tartomány, kérdőív: zöldtea fogyasztás mértéke • Követési idő: 1999 748 személy-év 1982 dec. -ig. 419 gyomorrák, diagnózis időpontja • Kérdés: befolyásolja-e a zöldtea fogyasztás a gyrmorrák kifejlődésének az esélyét? • Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás
A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója
Többszörös logisztikus regresszió • Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
Relatív rizikó (relative risk) , esélyarány (odds ratio) • Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
Relatív rizikó • Relatív rizikó: A/A+B osztva C/C+Dvel: a példában 119/543 osztva 205/547 -el: 0. 22/0. 37=0. 59 (95% CI: 0, 48 -0. 71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
Esély-arány (OR) • Először mindkét csoportban kiszámítjuk az esélyét annak, hogy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0. 28, ill. 205/342=0. 60. A két esély arány tehát A/B osztva C/D-vel, 0. 28/0. 60=0. 47 (95% CI 0. 33 -0. 67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. • EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ • Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0 -val, ill 1 -el jelőljük, ha folyamatos, akkor egy bizonyos egységnyi növekedésre pl. 1. SD növekedésre vonatkozik a kapcsolat, az OR.
A logisztikus regresszió során alkalmazott számítási mód • A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. maximum likehood ratio kiszámítása. Ez, mint minden valószínűségarány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.
A logisztikus regresszió egyenlete • odds (bekövetkezik/nem következik be, A/B= P/1 -P. Ha a ln-át vesszük, ln (odds) = ln (P/1 P) = ßo + ßII • Ha ezt az egyes független változók szerint részeire bontjuk, akkor ln (odds) = ßo + X 1ß 1 + X 2ß 2. . • A ßo azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß 1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.
A logisztikus regresszió egyenlete (folyt. ) • A 0 hiptézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1 -től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a lnát, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meghatározott OR-ekre, pontosabban ezek ln-ára ln (OR) = X 1(ln. OR 1) + X 2(ln. OR 2). . • Az egyes komputer programok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)
Modell felépítés a logisztikus regresszióban • Hasonló a lineáris regresszióhoz manuális automatikus: forward selection backward elimination stepwise selection • A számítógépes programok mérőszámot adnak (vö R 2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.
A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések • Elegendő a megfigyelések száma? (5 -10 -szer több eset, mint változó) • A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni. • Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!) • Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!
Példa a többszörös logisztikus regresszióra (Burián et al, Circulation, 2001)
Kérdés • A négy paraméter előre képes-e jelezni, hogy egy adott egyén az ISZB-s beteg vagy kontrollcsoportba tartozik? • Számítás többszörös logisztikus regresszió független változók: HDL-koleszterin, a triglicerid és az anti-hsp 60 szintek (folyamatos változók, 1 SD változás) és a Chl, pneumoniae (nominális 0 (szeroneg), 1 (szeropoz) Függő változó: csoport 0: kontroll, 1: ISZB
STATISTICA OUTPUT Model: Logistic regression (logit) N of 0's: 48 1's: 241 Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1) Final loss: 115, 14789192 Chi˛(4)=29, 591 p=, 00001 Const. B 0 Estimate -, 74 SE , 68 t(284) -1, 08 p-level , 28 -95%CL -2, 08 +95%CL , 61 Wald's khi 2 1, 16 p-level , 28 OR (unit ch) , 48 -95%CL , 12 +95%CL 1, 84 LOGHSP 60 HDL_CHOL TRIGLICE CHL_PNEU , 9383 -, 186086 , 51 , 71548 , 2997 , 284498 , 18 , 36015 3, 1305 -, 654084 2, 81 -1, 98662 , 0019 , 513587 , 01 , 04792 , 3483 -, 746078 , 15 -1, 42439 1, 5282 , 373907 , 86 -, 00658 9, 8000 , 427826 7, 88 3, 94668 , 0017 , 513062 , 00 , 04697 2, 5556 , 830202 1, 66 , 48896 1, 4167 , 474223 1, 16 , 24066 4, 6101 1, 453402 2, 37, 99344
SPSS output
Milyen jó a modell? (Goodness of fit) SPSS A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.
MIHEZ SZÁMÍTSUK AZ ODDS RATIOT? • Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb. ). • Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egység pl. 1 SD változás mit jelent. Megoldások: értelmes kategóriákat állítok fel: pl. életkorban 10 év, binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb. )
HOL HÚZZUK MEG A HATÁRT? A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja) Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t
Anti-hsp 60 legfelső kvartilis vs. többi • Példánkban az anti-hsp 60 legfelső kvartilisának határa: 183, 24 AU/ml. • Ezután átkódoljuk a változót, úgy, hogy 0: <193. 24, 1: >183. 24. • Megszámoltatjuk a géppel, hogy a beteg, ill kontroll csoportban hány 0 és 1 anti-hsp 60 antitest szintű egyén van. • HSP 60 KV Row alacsony magas Totals KO 51 3 54 PS 175 73 248 All Grps 226 76 302 Végül elvégezzük a logisztikus analízist a folyamatos változót a binárissal helyettesítve
STATISTICA OUTPUT Const. B 0 HDL_CHOL TRIGLICE HSP 60_M_ CHL_PNEU Estimate 2, 06560 -, 79768 , 1339 2, 00283 -, 92184 SE , 54187 , 34038 , 1409 , 62255 , 36728 t(287) 3, 81201 -2, 34351 , 9505 3, 21714 -2, 50987 p-level , 00017 , 01979 , 3426 , 00144 , 01263 -95%CL , 99906 -1, 46764 -, 1434 , 77749 +95%CL 3, 13214 -, 12773 , 4112 3, 22817 -, 19892 Wald's khi 214, 531405, 49206 , 9035 10, 35002 6, 29946 p-level , 01911 , 3419 , 00130 , 01208 OR(u. ch) 7, 89002 , 45037 1, 1433 7, 40998 2. 34 -95%CL 2, 71574 , 23047 , 8664 2, 17600 1. 18 1, 5086 25, 23339 4. 66 , 00014 +95%CL 22, 92288 , 88009 -1, 64475
SPSS output
A logisztikus regressziós számítással megoldható problémák • Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában • Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect) • A a két változó egymástól független, de befolyásolják egymás hatását, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is
Független egymást nem befolyásoló változók • Mind a magas anti-hsp 60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7. 47 (2. 18 -25. 2), ill. 2. 17 (1. 18 -4. 66). • A két változó között nincs korreláció: Spearman r: 0. 007 (p=0. 91) • Számítsuk ki a magas anti-hsp 60 szint OR-át, a Chl. pneum. szeronegatívoknál (2. 06 (1. 12 -3. 78)) és a Chl. pneum. szeropozitívoknál (3. 85 (2. 63 -5. 62). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén? ) befolyásolja egymást
Két változó együttes hatása
Az alap szérum IL-6 szint és a 3 éves mortalitás
A korábbi cerebrovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti összefüggésre (interakciót találtak, p=0. 09)
A családi rizikó predikciója a koleszterin, HDL és a nem alapján, az interakció hatása B CHOL HDL NEM Constant , 6335 -2, 4635 -, 4027 , 8494 S. E. , 2985 , 9827 , 4848 1, 5590 Wald 4, 5031 6, 2846 , 6899 , 2968 df p 1 1 , 0338 , 0122 , 4062 , 5859 R , 1494 -, 1954 , 0000 INTERAKCIÓ BEÉPÍTVE CHOL HDL NEM CHOL by NEM Constant -, 6148 -2, 4323 -4, 1402 , 8909 6, 0057 , 8546 , 9994 2, 5648 , 5979 3, 7456 , 5175 5, 9231 2, 6058 2, 2203 2, 5710 1 1 1 , 4719 , 0149 , 1065 , 1362 , 1088 , 0000 -, 1870 -, 0735 , 0443
A családi rizikó predikciója a koleszterin és HDL alapján fiúkban Variable B S. E. Wald df Sig R CHOL HDL Constant , 3208 -2, 9730 2, 3467 , 3799 1, 4563 1, 9864 , 7132 4, 1674 1, 3957 1 1 1 , 3984 , 0412 , 2374 , 0000 -, 1864
A családi rizikó predikciója a koleszterin és HDL alapján lányokban Variable B S. E. Wald df Sig R CHOL HDL Constant 1, 1179 -1, 8774 -2, 7346 , 4946 1, 4030 2, 4150 5, 1094 1, 7907 1, 2821 1 , 0238 , 1808 , 2575 , 2507 , 0000
Az érsebészeti példában • Kérdés: a nagymértékű korai VEGF emelkedés előre jelzi-e a klinikailag szignifikáns (>50%) restenosist? • Mi az, hogy nagymértékű korai VEGF emelkedés? Pl. legfelsőbb kvintilisban, kvartilisban, tertilisban, stb. • Legyen a tertililis, >90 pg/ml
Az esélyarányok • Azoknak, akikben legalább 90 pg/ml-el megemelkedik a szérum VEGF szintje a műtétet követő 4 nap alatt, 19, 1 -szer (CI: 1, 7 -211, 4) nagyobb az esélyük arra, hogy náluk 7 hónap alatt klinikailag szignifikáns restenosis fejlődjön ki, akkor is, ha a restenosis igen/nem csoportokban ugyanannyi lenne a férfi, mint a nő, ha a két csoport betegeinek átlag életkora és BMI-je is ugyanakkora lenne. • A nőknek 6. 7 -szer (CI: 1. 00 -45. 2)-szer nagyobb az esélyük a klinikailag szignifikáns restenosisra, még akkor is, ha ha a restenosis igen/nem csoportok betegeinek átlag életkora és BMI-je is ugyanakkora lenne, és ugyanolyan mértékű lenne náluk a korai VEGF emelkedés.
- Slides: 52