REGRESSZIS SZMTSOK II LOGISZTIKUS REGRESSZI LOGISZTIKUS REGRESSZI A

  • Slides: 63
Download presentation
REGRESSZIÓS SZÁMÍTÁSOK II LOGISZTIKUS REGRESSZIÓ

REGRESSZIÓS SZÁMÍTÁSOK II LOGISZTIKUS REGRESSZIÓ

LOGISZTIKUS REGRESSZIÓ A lineáris és a logisztikus regresszió kérdésfeltevése hasonló, számítási módjuk azonban egészen

LOGISZTIKUS REGRESSZIÓ A lineáris és a logisztikus regresszió kérdésfeltevése hasonló, számítási módjuk azonban egészen más. A logisztikus regresszió nem a legkisebb négyzetek elve szerint dolgozik, hanem egy, a valószínűségi eloszláson alapuló számítást hajt végre. A végeredmény az esély-arány, azaz az odds ratio (OR). Ez – mint neve is mutatja – két esély (odds) aránya. Az esélyt külön-külön kiszámítja a program akkor, ha egy bizonyos feltétel fennáll, illetve nem áll fenn, és a két esély arányát adja meg részünkre. A változó, amely az y tengelyre kerül (függő változó) bináris (igen/nem). A program nem magukkal az OR-ekkel, hanem ezek természetes logaritmusaival (ln. OR) dolgozik, amiket a legtöbb program B-nek nevez. A program megadja a B értékeket, ezek SEM-jét, egy ún. közti (Wald) statisztikát, végül az OR-t és ennek 95%-os konfidencia intervallumát. (Utóbbit sokszor külön kell kérnünk). Folyamatos változóknál alapesetben egy SD változás hatását mutatja meg az OR, tehát azt, hogy ha az x tengelyre mért (független), folyamatos változó egy S. D. egységet nő, akkor az hányszorosára növeli (vagy esetleg csökkenti) a bináris függő változó bekövetkezésének (y=1) valószínűségét a be nem következésével (y=0) szemben.

A testtömegindex (BMI), mint az ischemiás szívbetegség (ISZB) rizikófaktora cukorbetegekben. Számítás logisztikus regresszió módszerével.

A testtömegindex (BMI), mint az ischemiás szívbetegség (ISZB) rizikófaktora cukorbetegekben. Számítás logisztikus regresszió módszerével. Változó B SEM BMI 0, 0796 0, 0274 Konstan -2, 9343 0, 7845 s Wald df p-érték R 8, 4703 1 0, 0036 0, 1487 13, 9890 1 0, 0002 A BMI anti-ln(B)-je (esélyaránya, odds ratio, OR) OR Az OR 95%-os CI -je 1, 0829 1, 0263 -1, 1425 A testtömeg index egy SD-vel) való növekedése 1, 08 -szorosára növeli az ISZB kockázatot. A BMI egy SD-je 5, 28, tehát ha pl. egy normál 25 testtömeg-indexű és egy kissé elhízott 30, 28 testtömeg indexű beteget hasonlítunk össze, akkor az utóbbi betegnek 1, 08 -szor magasabb az ISZB kockázata

A szérum HDL-koleszterin szint, mint az ischemiás szívbetegség (ISZB) védőfaktora cukorbetegekben. Számítás logisztikus regresszió

A szérum HDL-koleszterin szint, mint az ischemiás szívbetegség (ISZB) védőfaktora cukorbetegekben. Számítás logisztikus regresszió módszerével Változó B HDL Konstans SEM . Wald df p-érték R -1, 0140 0, 3855 6, 9169 1 0, 0085 -0, 1294 0, 5003 1, 1149 1 0, 2910 0, 4736 A HDL anti-ln(B)-je (esélyaránya, odds ratio, OR) OR Az OR 95%-os CI-je 0, 3628 0, 1704 -0, 7723 A HDL-koleszterin szint 1 SD-vel (0, 40 mmol/l-rel) való csökkenése az ISZB kockázatot kb. az egyharmadára (OR: 0, 3628) csökkenti le.

Logisztikus regresszió 1. • binomiális vagy kétváltozós (bináris) logisztikus regresszió • Analyze Regression Binary

Logisztikus regresszió 1. • binomiális vagy kétváltozós (bináris) logisztikus regresszió • Analyze Regression Binary Logistic … • akkor használjuk, ha a célváltozónk dichotóm (pl. igen/nem) • a próba megmutatja, hogy a bemeneti változók közül melyiknek van szignifikáns hatása • ha a hatás szignifikáns, az esélyhányados /Exp(B)/ megmutatja, hogy a dichotóm célváltozó egyik értékének mennyivel nagyobb a valószínűsége Szabó Gábor, 2005.

Logisztikus regresszió 2. • alkalmas a próba a közvetett hatások kimutatására is • ha

Logisztikus regresszió 2. • alkalmas a próba a közvetett hatások kimutatására is • ha egy változó szignifikáns hatása eltűnik egy újabb változó bevonásával, ott közvetett hatásra gyanakodhatunk szemüveges-e Szign. : 0, 04; Exp(B)=2, 0 sikeresen vizsgázott? (igen/nem) szemüveges-e Szign. : 0, 25; Exp(B)=1, 2 sikeresen vizsgázott? (igen/nem) Szign. : 0, 03; Exp(B)=1, 8 hány könyvet olvas évente Szabó Gábor, 2005.

Bináris logisztikus regresszió • AZ Y ESEMÉNY BEKÖVETKEZÉSÉNEK ESÉLYE • A vizsgált Y esemény

Bináris logisztikus regresszió • AZ Y ESEMÉNY BEKÖVETKEZÉSÉNEK ESÉLYE • A vizsgált Y esemény lehet pl. a szívinfarktus (bekövetkezett vagy nem következett be), transzplantáció eredménye (a beültetett szerv kilökődött vagy nem lökődött ki) a tüdőrák megfigyelésének az eredménye egy prospektív vizsgálat során (kialakult a megfigyelt egyéneknél a tüdőrák vagy sem). Ilyen esetekben – az xi független változók egyaránt tartalmazhatnak folytonos és nominális adatokat –, az Y esemény bekövetkezési valószínűségét logisztikus regresszióval becsüljük. Az eljárás nagyon hasonlít a korábban megismert lineáris regresszióhoz

Logisztikus regresszió (folyt) • A logisztikus regreszió használata előtt az y függő változót binárissá

Logisztikus regresszió (folyt) • A logisztikus regreszió használata előtt az y függő változót binárissá kell kódolni (0= az esemény nem következett be, 1= az esemény bekövetkezett). A számítógépes programok a regressziós koefficiensek mellett (a, bi) az OR értékeket és azok 95%-os konfidenciaintervallumát is meghatározzák. • A számítási eljárás bonyolultabb mint a lineáris regressziónál. Általában az iteratív maximum likelihood módszert használják a számítógépes programok. • A logisztikus regresszió alkalmazásánál vegyük figyelembe a következőket: • az egyéneket egymástól függetlenül, random módon válasszuk a mintába legalább 5 - 10 esemény jusson mindegyik vizsgált prediktor változóra.

A logisztikus reakció „lelke” az adatok binárissá tétele • A már eleve bináris adatok

A logisztikus reakció „lelke” az adatok binárissá tétele • A már eleve bináris adatok közül az informatívak kiválasztása • A folyamatos adatok binárissá való átváltoztatása úgy, hogy a létrejövő két csoport biológiailag/orvosilag is különbözzön egymástól

1. példa: HANO (herediter angioneurotikus oedema) genetikája Összefüggést találtunk • A) a XII faktor

1. példa: HANO (herediter angioneurotikus oedema) genetikája Összefüggést találtunk • A) a XII faktor gén egy polimorfizmusa és az első tünetek jelentkezésének időpontja (év) között • B) A bradykinin receptor gén és az évi tünet előfordulás között

P=0, 002 CC CT TT

P=0, 002 CC CT TT

P=0, 018

P=0, 018

Tovább a logisztikus regresszió felé • Mind a tünetkezdeti életkor, mind pedig az évi

Tovább a logisztikus regresszió felé • Mind a tünetkezdeti életkor, mind pedig az évi rohamszám folyamatos változó • Ahhoz, hogy maghatározhassuk, milyen mértékű változást idéz elő a vizsgált értékekben a két genetikai polimorfizmus, ezeket binárissá kell tenni. A legtöbbször erre a célra használt felosztás: a mediánon alapszik 1. csop. medián alatti, 2. csop medián vagy medián feletti értékeket mutató betegek

<= 10 éves >10 éves

<= 10 éves >10 éves

Életkor és BMI összefüggése

Életkor és BMI összefüggése

Dichotomizálás • Nézzük most meg, hogy ha az idős kor határát 50 évben, ill.

Dichotomizálás • Nézzük most meg, hogy ha az idős kor határát 50 évben, ill. 60 évben határozzuk meg, akkor az így létrejövő 2 -2 csoportban mennyire különbözik majd a BMI? • A BMI-t a medián szerint dichotomizáljuk: alacsony: medián (27) vagy ennél kevesebb, magas: 27 -nél több

P=0, 026

P=0, 026

P=0, 012

P=0, 012

Logistic regression (1) Table 2 Age and signs of coronary heart disease (CD)

Logistic regression (1) Table 2 Age and signs of coronary heart disease (CD)

How can we analyse these data? • Compare mean age of diseased and nondiseased

How can we analyse these data? • Compare mean age of diseased and nondiseased – Non-diseased: 38. 6 years – Diseased: 58. 7 years (p<0. 0001) • Linear regression?

Dot-plot: Data from Table 2

Dot-plot: Data from Table 2

Logistic regression (2) Table 3 Prevalence (%) of signs of CD according to age

Logistic regression (2) Table 3 Prevalence (%) of signs of CD according to age group

Dot-plot: Data from Table 3 Diseased % Age group

Dot-plot: Data from Table 3 Diseased % Age group

Logistic function (1) Probability of disease x

Logistic function (1) Probability of disease x

§ An interpretation of the logit coefficient which is usually more intuitive is the

§ An interpretation of the logit coefficient which is usually more intuitive is the "odds ratio" § Since: [p/(1 -p)] = exp( + X) exp( ) is the effect of the independent variable on the "odds ratio"

An Example: Hurricane Evacuations Q: EVAC Did you evacuate your home to go someplace

An Example: Hurricane Evacuations Q: EVAC Did you evacuate your home to go someplace safer before Hurricane Dennis (Floyd) hit? 1 YES 2 NO 3 DON'T KNOW 4 REFUSED

The Data

The Data

From SPSS Output: “Households with pets are 1. 933 times more likely to evacuate

From SPSS Output: “Households with pets are 1. 933 times more likely to evacuate than those without pets. ”

Example - Rizatriptan for Migraine • Response - Complete Pain Relief at 2 hours

Example - Rizatriptan for Migraine • Response - Complete Pain Relief at 2 hours (Yes/No) • Predictor - Dose (mg): Placebo (0), 2. 5, 5, 10 Source: Gijsmant, et al (1997)

Example - Rizatriptan for Migraine (SPSS)

Example - Rizatriptan for Migraine (SPSS)

Example - Rizatriptan for Migraine • 95% CI for : • 95% CI for

Example - Rizatriptan for Migraine • 95% CI for : • 95% CI for population odds ratio: • Conclude positive association between dose and probability of complete relief

TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ

TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ

A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease,

A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása

Az alap szérum IL-6 szint és a 3 éves mortalitás

Az alap szérum IL-6 szint és a 3 éves mortalitás

A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői

A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői

Kérdés • Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes

Kérdés • Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? • Prospektív vizsgálat, RR számolható.

 • A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a

• A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre • Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.

A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint

A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint

Kiechl, S. et al. : Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation,

Kiechl, S. et al. : Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 • Bruneck tanulmány: 1990, 826 40 -79 éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). • A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. • A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)

KÉRDÉSEK • 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A

KÉRDÉSEK • 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat) 2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) • Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis

500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125 -ben fejlődött ki

500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125 -ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 egység növekedés

Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan.

Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001. • 1984, 26311 > 40 éves Miyagi tartomány, kérdőív: zöldtea fogyasztás mértéke • Követési idő: 1999 748 személy-év 1982 dec. -ig. 419 gyomorrák, diagnózis időpontja • Kérdés: befolyásolja-e a zöldtea fogyasztás a gyomorrák kifejlődésének az esélyét? • Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás

A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója

A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója

Kimenetel (függő Példa a változó) kimenetelre Folyamatos Dichotóm (igennem) Az igen eseményig eltelt idő

Kimenetel (függő Példa a változó) kimenetelre Folyamatos Dichotóm (igennem) Az igen eseményig eltelt idő A használandó többszörös analitikai módszer Többszörös lineáris regresszió Vérnyomás, testsúly, hőmérséklet Halál, rák, felvétel Többszörös intenzív osztályra logisztikus regresszió A halálig, a rák dg Cox regresszió -ig eltelt idó (proportinal hazard analízis)

A cukorbetegek magas testtömeg-indexe ill. HDLkoleszterin szintje befolyásolja-e az ischemiás szívbetegség kifejlődésének kockázatát Változó

A cukorbetegek magas testtömeg-indexe ill. HDLkoleszterin szintje befolyásolja-e az ischemiás szívbetegség kifejlődésének kockázatát Változó Nem ISZB-s (n=156) ISZB-s (n=76) ? p-érték (Fisher exact teszt) BMI (kg/m 2) <25 64 16 >25 92 60 0, 003 HDL-koleszterin (mmol/l) <1, 3 88 56 >1, 3 68 20 0, 014

Változó B SEM Wald df p-érték BMI 0, 959 magas/norm ál* 0, 325 8,

Változó B SEM Wald df p-érték BMI 0, 959 magas/norm ál* 0, 325 8, 701 1 0, 003 Konstans 0, 280 24, 599 1 0, 0002 -1, 386 A BMI anti-ln(B)-je (esélyhányados, odds ratio, OR) OR Az OR 95%-os CI-je 2, 609 1, 380 - 4, 933

Változó B SEM Wald df p-érték HDL -0, 772 normál/alacs ony* 0, 306 6,

Változó B SEM Wald df p-érték HDL -0, 772 normál/alacs ony* 0, 306 6, 342 1 0, 012 Konstans 0, 171 6, 991 1 <0, 0001 0, 5000, 4523 A HDL anti-ln(B)-je (esélyhányados, odds ratio, OR) OR Az OR 95%-os CIje 0, 462 0, 253 - 0, 843

A többszörös modellek feltételezései (assumptions) TÖBBSZÖRÖS LINEÁRIS TÖBBSZÖRÖS LOGISZTIKUS PROPRCIONÁLIS HAZARD ANALÍZIS MIT MODELLEZÜNK?

A többszörös modellek feltételezései (assumptions) TÖBBSZÖRÖS LINEÁRIS TÖBBSZÖRÖS LOGISZTIKUS PROPRCIONÁLIS HAZARD ANALÍZIS MIT MODELLEZÜNK? A függő változó átlaga A függő változó egyik értéke bekövetkezése esélyének (odds) temészetes logaritmusa (logit) A relativ kockázat (hazard) logaritmusa A FOLYAMATOS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változóval is A függő változó logitja lineárisan változhat több független áltozóval is A relatív hazard logaritmusa lineárisan változhat több független áltozóval is A SKALARIS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változó egységnyi változásával is A függő változó logitja lineárisan változhat több független változó egységnyi változásával is A relatív hazard logaritmusa lineárisan változhat több független változó egységnyi változásával is A FÜGGŐ VÁLTOZÓ ELOSZLÁSA Normális Binomiális Nincs meghatározva

Többszörös logisztikus regresszió • Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független

Többszörös logisztikus regresszió • Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.

Relatív rizikó (relative risk) , esélyarány (odds ratio) • Példa: Az AIDS definiciójának megfelelő

Relatív rizikó (relative risk) , esélyarány (odds ratio) • Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)

Relatív rizikó • Relatív rizikó: A/A+B osztva C/C+Dvel: a példában 119/543 osztva 205/547 -el:

Relatív rizikó • Relatív rizikó: A/A+B osztva C/C+Dvel: a példában 119/543 osztva 205/547 -el: 0. 22/0. 37=0. 59 (95% CI: 0, 48 -0. 71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának

Esély-arány (OR) • Először mindkét csoportban kiszámítjuk az esélyét annak, hogy esemény, példánkban az

Esély-arány (OR) • Először mindkét csoportban kiszámítjuk az esélyét annak, hogy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0. 28, ill. 205/342=0. 60. A két esély arány tehát A/B osztva C/D-vel, 0. 28/0. 60=0. 47 (95% CI 0. 33 -0. 67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. • EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES