Estadstica multivariada Programa de doctorado Calidad de vida

  • Slides: 38
Download presentation
Estadística multivariada Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública” Dpto.

Estadística multivariada Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública” Dpto. Medicina Preventiva. Francisco Javier Barón López 1

Notas previas: Leyendo modelos estadísticos n Altura = 170 ¨ La altura media en

Notas previas: Leyendo modelos estadísticos n Altura = 170 ¨ La altura media en la población es de 170 cm ¨ Cada individuo introduce además un término de error aleatorio n 170 + 5 n 170 – 3 n … ¨ Los términos de error tienen algún tipo de distribución conocida n Normal, … n Igualmente distribuidos en grupos… n Independientes n Incorrelados temporalmente, … Dpto. Medicina Preventiva. Francisco Javier Barón López 2

Modelos con variables dicotómicas n Altura = 160 + 10 Sexo Promedio del caso

Modelos con variables dicotómicas n Altura = 160 + 10 Sexo Promedio del caso base ¨ Código: 1 Grupo de tratamiento, … Efecto de sexo = 1 Codificación de los grupos por sexo: n n ¨ Código: 0 Grupo de control, caso base… 0 mujeres 1 hombres Interpretación: n n n La altura media en las mujeres es de 160 cm La altura media en los hombres es de 170 cm El sexo influye en la altura. El sexo hombre tiene un efecto no nulo de 10 cm sobre la altura media. Dpto. Medicina Preventiva. 160 + 0 160 + 10 Francisco Javier Barón López 3

Modelos con variables numéricas n Precio casa = 100. 000 + 10. 000 Habitación

Modelos con variables numéricas n Precio casa = 100. 000 + 10. 000 Habitación Intercepción, Intersección, … ¨ Pendiente. Aumento de valor de una casa por cada habitación. Interpretación: n El precio de una casa con cero habitaciones es 100. 000 ¨ ¨ n n ¡Extraño! En realidad es mejor interpretarlo como lo que habría que añadir a una casa con un numero medio de habitaciones para que tuviese un precio medio. Las casas aumentan de precio en función del número de habitaciones. El efecto de añadir una habitación es aumentar el precio de la casa en 10. 000. Dpto. Medicina Preventiva. Francisco Javier Barón López 4

Modelos con variables dicotómicas y numéricas n Precio casa = 100. 000 + 10.

Modelos con variables dicotómicas y numéricas n Precio casa = 100. 000 + 10. 000 Habitación + 30. 000 Barrio ¨ Codificación del barrio: n n 0 Bajo 1 Alto Dpto. Medicina Preventiva. Francisco Javier Barón López 5

… y con variables cualitativas en general n Precio casa = 100. 000 +

… y con variables cualitativas en general n Precio casa = 100. 000 + 10. 000 Habitación + 10. 000 Barrio 1 + 20. 000 Barrio 2 ¨ Codificación del barrio: Barrio 1 Barrio 2 Bajo Medio Alto 0 1 0 0 0 1 Variables indicadoras, mudas Nos ayudarán a comprender mejor los efectos, interacciones, … Grupo de control Tratamiento 1 Tratamiento 2 Variable cualitativa inicial Dpto. Medicina Preventiva. Francisco Javier Barón López 6

… esperad, aún hay más… n Precio casa = ¨ ¨ ¨ 100. 000

… esperad, aún hay más… n Precio casa = ¨ ¨ ¨ 100. 000 + 10. 000 Habitación + 10. 000 Barrio 1 + 20. 000 Barrio 2 + 6. 000 Aparcamiento ¨ Codificación del aparcamiento n n 0: Sin aparcamiento 1: Con aparcamiento Dpto. Medicina Preventiva. Francisco Javier Barón López 7

… y faltan las interacciones. n Precio casa = 100. 000 + 10. 000

… y faltan las interacciones. n Precio casa = 100. 000 + 10. 000 Habitación ¨ + 10. 000 Barrio 1 + 20. 000 Barrio 2 ¨ + 6. 000 Aparcamiento ¨ + 2. 000 Aparcamiento * Barrio 1 ¨ + 4. 000 Aparcamiento * Barrio 2 ¨ Dpto. Medicina Preventiva. Francisco Javier Barón López 8

El modelo no debe quedarse corto ni pasarse n Un modelo muy simple no

El modelo no debe quedarse corto ni pasarse n Un modelo muy simple no explicará bien la variabilidad presente en los datos. ¨ n Precio = 100. 000 Un modelo muy complicado será difícil de comprender. ¨ Además podemos encontrarnos sorpresas: correlaciones entre variables explicativas (falta de ortogonalidad), inestabilidad numérica, … ¨ Precio = 100. 000 + 10. 000 Hab + 30. 000 Barrio + 6. 000 Aparcamiento + … Dpto. Medicina Preventiva. Francisco Javier Barón López 9

Complicar el modelo lo justito n Elegir modelo que explique lo observado y que

Complicar el modelo lo justito n Elegir modelo que explique lo observado y que sea tan simple como sea posible. ¨ Precio = 100. 000 n n ¨ Precio = 100. 000 + 10. 000 Hab. n n ¨ Bondad de ajuste corregida 10%. Significación = 0, 01 Mejor. Pero hay mucha variabilidad por explicar. Compliquémoslo. Precio = 100. 000 + 10. 000 Hab + 30. 000 Barrio n n ¨ Bondad de ajuste corregida 1%. Significación = 0, 0001 Muy simple. No explica la variabilidad. Compliquémoslo. Bondad de ajuste corregida 41%. Significación = 0, 12 Tal vez no valga la pena complicarlo más. ¡OJO! SPSS sólo enseña directamente la significación del modelo mínimo frente al que nosotros propongamos. Raro será que no sea significativo un modelo tan simple. Un cálculo manual nos permitirá comparar unos modelos con otros. Precio = 100. 000 + 10. 000 Hab + 30. 000 Barrio + 6. 000 Aparcamiento n n Bondad de ajuste corregida 40%. Significación = 0, 15 No ha merecido la pena la complicación. Dpto. Medicina Preventiva. Francisco Javier Barón López 10

Dos técnicas para abordar problemas multivariados n En función del tipo de la variable

Dos técnicas para abordar problemas multivariados n En función del tipo de la variable respuesta vamos a considerar dos técnicas que son casos particulares del modelo lineal generalizado. Este abarca buena parte de las técnicas estadísticas que se aplican en Medicina: ¨ Modelo lineal generalizado n Respuesta numérica: (Regresión lineal) ¨ ¨ n T-student en 2 muestras ANOVA de 1 vía ANOVA de 2 vias con/sin interaccciones Modelos factoriales… Respuesta dicotómica (Regresión Logística) ¨ ¨ Vivo/Muerto Enfermo/Sano Dpto. Medicina Preventiva. Francisco Javier Barón López 11

Marco general n Tenemos una serie de variables explicativas, X 1, …, Xp ¨

Marco general n Tenemos una serie de variables explicativas, X 1, …, Xp ¨ ¨ ¨ n Numéricas Ordinales Dicotómicas Cualitativas codificadas en forma de múltiples dicotómicas Interacciones, … Tenemos una sola variable explicada (univariante) ¨ Numérica: Modelo lineal de regresión n Y = b 0 + Σ bi xi ¨ Dicotómica: Regresión logística n Ln (Odds) = b 0 + Σ bi xi Dpto. Medicina Preventiva. Francisco Javier Barón López 12

1 0 Dpto. Medicina Preventiva. Francisco Javier Barón López 13

1 0 Dpto. Medicina Preventiva. Francisco Javier Barón López 13

Un contraste de igualdad de medias (t-student) n Hipótesis nula: ¨ n Hipótesis alternativa:

Un contraste de igualdad de medias (t-student) n Hipótesis nula: ¨ n Hipótesis alternativa: ¨ n Es el salario medio inicial igual para hombres y mujeres n Salario = b 0 El Género tiene un efecto no nulo sobre el salario n Salario = b 0 + b 1 Genero Este problema puede formularse en términos de un análisis de regresión: La hipótesis nula afirma que ¨ Salario = b 0 + b 1 Genero Valor medio del grupo control GENERO=0 (mujer) Dpto. Medicina Preventiva. es cero. Si signif. pequeña la rechazamos. Efecto del “tratamiento” GENERO=1 (hombre) Francisco Javier Barón López 14

Se rechaza el modelo simple Salario promedio del “grupo control” (mujeres) Se rechaza el

Se rechaza el modelo simple Salario promedio del “grupo control” (mujeres) Se rechaza el modelo simple Efecto del genero 1 en el salario medio Dpto. Medicina Preventiva. Francisco Javier Barón López 15

Sin embargo el modelo alternativo no es bueno… Sólo un 21% de la variabilidad

Sin embargo el modelo alternativo no es bueno… Sólo un 21% de la variabilidad presente Puede ser explicada por un modelo que contenga Al género como variable explicativa. Debe haber más razones para esa variabilidad Los modelos con muchos parámetros tienden a exagerar la bondad del modelo. Corrección de “honestidad” sobre la bondad. Si al introducir variables vemos que no aumenta o que baja, deberíamos reconsiderar la complejidad del modelo. Dpto. Medicina Preventiva. Francisco Javier Barón López 16

¿Y si consideramos el nivel de estudios? n Hipótesis nula: ¨ Es el salario

¿Y si consideramos el nivel de estudios? n Hipótesis nula: ¨ Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios ¡Increíblemente simple! n Salario = b 0 n n Hipótesis alternativa: ¨ El Género y los años de estudios tienen un efecto no nulo sobre el salario n Salario = b 0 + b 1 Genero + b 2 Estudios Dpto. Medicina Preventiva. Francisco Javier Barón López 17

Por supuesto, seguimos teniendo evidencia contra la hipótesis nula (modelo simple) Desde ahora lo

Por supuesto, seguimos teniendo evidencia contra la hipótesis nula (modelo simple) Desde ahora lo ignoramos. La nueva variable aumenta notablemente la variabilidad explicada. ¿Podremos mejorarlo introduciendo otra variable? Dpto. Medicina Preventiva. Aparentemente estas variables tienen algo que decir, pero… ¿habrá variables confusoras? Francisco Javier Barón López 18

¿Y si añadimos la categoría laboral? n Hipótesis nula: ¨ Es el salario medio

¿Y si añadimos la categoría laboral? n Hipótesis nula: ¨ Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios y categoría laboral n n n ¡No me lo puedo creer! Salario = b 0 Hipótesis alternativa: ¨ El Género, los años de estudios y la categoría laboral directivo tienen un efecto no nulo sobre el salario n SEGUR DIRECT. Admin 0 0 Seguridad 1 0 Directivo 0 1 Salario = b 0 + b 1 Genero + b 2 Estudios + b 3 SEGUR +b 4 DIRECT Dpto. Medicina Preventiva. Francisco Javier Barón López 19

El nuevo modelo mejora claramente al anterior… …pero parece que parte del modelo no

El nuevo modelo mejora claramente al anterior… …pero parece que parte del modelo no era necesario. El término que mide el efecto de ser empleado de seguridad no tiene un efecto muy diferente del caso base. Dpto. Medicina Preventiva. Francisco Javier Barón López 20

Simplifiquemos el modelo n Hipótesis nula: ¨ Es el salario medio inicial igual para

Simplifiquemos el modelo n Hipótesis nula: ¨ Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios, aunque sea directivo n n Salario = b 0 Hipótesis alternativa: ¨ El Género, los años de estudios y ser directivo tienen un efecto no nulo sobre el salario n Salario = b 0 + b 1 Genero + b 2 Estudios + b 3 SEGUR + b 4 DIRECT El modelo es más simple, pero no disminuye La variabilidad explicada ¡Lo preferimos así! Dpto. Medicina Preventiva. Francisco Javier Barón López 21

¿Habrá interacciones? Hipótesis nula: ¨ Es el salario medio inicial igual para hombres y

¿Habrá interacciones? Hipótesis nula: ¨ Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios, aunque sea directivo n n Salario = b 0 Hipótesis alternativa: ¨ El género, los años de estudios y ser directivo tienen un efecto no nulo sobre el salario, y también tiene un “premio especial” ser hombre directivo (interacción). n Salario = b 0 + b 1 Genero + b 2 Estudios + b 3 DIRECT +b 4 Genero*DIRECT Coeficiente de la interacción Si positivo: sinérgias Si negativo: efectos antagónicos Si nulo: No hay interacción Dpto. Medicina Preventiva. En SPSS podemos introducir interacciones con otro modelo. Para seguir con el modelo de regresión introducimos otra variable. Francisco Javier Barón López 22

Dpto. Medicina Preventiva. Francisco Javier Barón López 23

Dpto. Medicina Preventiva. Francisco Javier Barón López 23

Sube ligeramente la variabilidad explicada. ¿Vale la pena considerarla el efecto de la interacción?

Sube ligeramente la variabilidad explicada. ¿Vale la pena considerarla el efecto de la interacción? Tenemos evidencia en contra de que ninguno de los coeficientes es nulo. ¿Deberíamos considerar más variables? ¿Más interacciones? Dpto. Medicina Preventiva. Francisco Javier Barón López 24

Marco general (recordatorio) n Tenemos una serie de variables explicativas, X 1, …, Xp

Marco general (recordatorio) n Tenemos una serie de variables explicativas, X 1, …, Xp ¨ ¨ ¨ n Numéricas Ordinales Dicotómicas Cualitativas codificadas en forma de múltiples dicotómicas Interacciones, … Tenemos una sola variable explicada (univariante) ¨ Numérica: Modelo lineal de regresión n Y = b 0 + Σ bi xi ¨ Dicotómica: Regresión logística n Ln (Odds) = b 0 + Σ bi xi Dpto. Medicina Preventiva. Francisco Javier Barón López 25

Regresión Logística n La variable respuesta (explicada) es dicotómica) Vivo/Muerto ¨ Sano/Enfermo ¨ …

Regresión Logística n La variable respuesta (explicada) es dicotómica) Vivo/Muerto ¨ Sano/Enfermo ¨ … ¨ n Claramente el modelo lineal tal cual no es adecuado. n En epidemiología es frecuente usar modelos multiplicativos en lugar de aditivos: Fumar multiplica por 10 las “odds” de enfermedad. ¨ Usar el casco disminuye por 20 la “odds” de lesión grave. ¨ … ¨ Dpto. Medicina Preventiva. Francisco Javier Barón López 26

n Es decir, preferimos un modelo del tipo ¨ Odds(fumar, beber, . . )

n Es decir, preferimos un modelo del tipo ¨ Odds(fumar, beber, . . ) = Odds(base) * OR(fumar) * OR(beber)*… Dpto. Medicina Preventiva. Francisco Javier Barón López 27

Fumadores Los individuos de control Ni fuman ni beben Factor Riesgo: Fumar Odds Ratio=

Fumadores Los individuos de control Ni fuman ni beben Factor Riesgo: Fumar Odds Ratio= 4 Odds=1/12 * 4=4/12 Factor Riesgo: Beber Odds Ratio= 3 Bebedores Odds=1/12 * 3=3/12 Odds=1/12 Fumadores bebedores Factor Riesgo: Fumar y Beber Odds Ratio= 3*4=12 Dpto. Medicina Preventiva. Odds=1/12 * 4 * 3=12/12 Francisco Javier Barón López 28

n El modelo de regresion logística es equivalente a: Odds caso base Dpto. Medicina

n El modelo de regresion logística es equivalente a: Odds caso base Dpto. Medicina Preventiva. Variación de odds debido a x 1 Variación de odds debido a x 2 Odds Ratio Francisco Javier Barón López 29

Caso simple: Una variable explicativa dicotómica ¨ X 1=0: No está presente el factor

Caso simple: Una variable explicativa dicotómica ¨ X 1=0: No está presente el factor de riesgo Odds del caso base ¨ X 1=1: Sí hay factor de riesgo Odds Ratio De X 1 Odds del caso base Dpto. Medicina Preventiva. Francisco Javier Barón López 30

n Si b 1 es el coeficiente de la variable x 1 ¨ Si

n Si b 1 es el coeficiente de la variable x 1 ¨ Si b 1=0 entonces OR=1 n ¨ Si b 1>0 entoces OR>1 n ¨ No es realmente un factor de riesgo Aumenta el riesgo Si b 1<0 entonces OR<1 n Disminuye el riesgo Dpto. Medicina Preventiva. Francisco Javier Barón López 31

Un ejemplo: Condenas a pena de muerte en Florida n Variables explicativas: ¨ Raza

Un ejemplo: Condenas a pena de muerte en Florida n Variables explicativas: ¨ Raza n 1=Blanco (factor de riesgo, con perdón) ¨ Raza n n de la víctima del acusado 1=Negro (intuitivamente, factor de riesgo, ¡glubs!) Variable explicada ¨ 1=Condena Dpto. Medicina Preventiva. a pena de muerte Francisco Javier Barón López 32

¿Será la raza negra del acusado un factor de riesgo? En principio un simple

¿Será la raza negra del acusado un factor de riesgo? En principio un simple estudio descriptivo parece modtrar que no. Incluso parece que reduce el riesgo. Dpto. Medicina Preventiva. Francisco Javier Barón López 33

¿Será la raza negra del acusado un factor de riesgo? n Veamos que dice

¿Será la raza negra del acusado un factor de riesgo? n Veamos que dice el modelo de regresión logística: Dpto. Medicina Preventiva. Francisco Javier Barón López 34

¿Será la raza negra del acusado un factor de riesgo? La prueba es no

¿Será la raza negra del acusado un factor de riesgo? La prueba es no significativa El coeficiente es negativo. Más bien debe reducir el riesgo ser Acusado de raza negra. Para encontrar la Odds Ratio hay que mirar la columna Exp(B) Dpto. Medicina Preventiva. Odds Ratio El intervalo de confianza para Odds Ratio incluye al valor 1 No tenemos evidencia en contra de que la raza no sea factor de riesgo. Francisco Javier Barón López 35

¿Y si incluimos en el modelo la raza de la víctima? Aparentemente, al tener

¿Y si incluimos en el modelo la raza de la víctima? Aparentemente, al tener en cuenta la raza de la víctima, parece ser que si la víctima es blanca, la probabilidad de ser condenado a muerte es mayor. Veamos que dice el modelo logístico. Dpto. Medicina Preventiva. Francisco Javier Barón López 36

Dpto. Medicina Preventiva. Francisco Javier Barón López 37

Dpto. Medicina Preventiva. Francisco Javier Barón López 37

Odds Ratios de cada factor de riesgo Ambos coeficientes son positivos. Parecen ser factores

Odds Ratios de cada factor de riesgo Ambos coeficientes son positivos. Parecen ser factores de riesgo. Dpto. Medicina Preventiva. Significativos Con la confianza habitual 1 no forma parte de ningún intervalo de confianza. Francisco Javier Barón López 38