Tema 6 Anlisis de la Varianza 1 parte

  • Slides: 20
Download presentation
Tema 6: Análisis de la Varianza (1ª parte: ANOVA simple)

Tema 6: Análisis de la Varianza (1ª parte: ANOVA simple)

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación, o no. Ejemplos: Tiempo de cura / medicamento utilizado Rendimiento de cosechas / fertilizante Renta familiar / hábito de lectura Número de préstamos / ubicación PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables cualitativas F 1, F 2, …, Fn, determínese cuáles de ellas infuyen en Y, y cuáles no (es decir, cuáles guardan relación con Y). Ejemplos: Tiempo de cura / medicamento utilizado, grupo sanguíneo Número de préstamos / sexo, nivel de estudios, afición al cine

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación, o no. ANOVA simple Y: variable respuesta (numérica) F: factor (cualitativa) PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables cualitativas F 1, F 2, …, Fn, determínese cuáles de ellas infuyen en Y, y cuáles no (es decir, cuáles guardan relación con Y). ANOVA multifactorial Y: variable respuesta (numérica) F 1, F 2, …, Fn : factores (cualitativas)

Y: variable respuesta (numérica) F: factor (cualitativa) 1. ANOVA simple: idea ¿Son independientes Y

Y: variable respuesta (numérica) F: factor (cualitativa) 1. ANOVA simple: idea ¿Son independientes Y y F? ¿Hay relación entre Y y F? ¿Hay diferencias significativas en el valor de Y, según que F tome uno u otro valor? ¿Influye F en el valor de Y? ¿Hay diferencias en los valores de Y, entre los distintos grupos determinados por F? Medias en cada nivel de factor Y µ 2 µ 1 µ 3 F 1 2 Niveles de factor 3

Y: variable respuesta (numérica) F: factor (cualitativa) Si el valor de F no guarda

Y: variable respuesta (numérica) F: factor (cualitativa) Si el valor de F no guarda relación con el de Y… ¿Cómo deberían ser µ 1 , µ 2 , µ 3 ? Y Media global µ 2 µ µ 1 µ 3 F 1 2 3

H 0 : µ 1 = µ 2 = µ 3 H 1: alguna

H 0 : µ 1 = µ 2 = µ 3 H 1: alguna µi es distinta H 0 equivalente a: Y, F son independientes; Y, F no guardan relación; F no influye en el valor de Y; no hay diferencias significativas en Y según distintos valores de F, etc. Rechazar H 0 equivale a encontrar dependencia entre F e Y.

¿Cómo contrastar H 0 : µ 1 = µ 2 = … = µn

¿Cómo contrastar H 0 : µ 1 = µ 2 = … = µn H 1: alguna µi es distinta ? Mala idea: varios contrastes H 0: µi=µk H 1: µi≠µk Error de tipo I se acumula, la confianza “total” es demasiado baja Buena idea: descomposición de la variabilidad Pizarra

Yik Residuo del dato Yik: Yik-µi Y Media global µ 2 µ µ 1

Yik Residuo del dato Yik: Yik-µi Y Media global µ 2 µ µ 1 µ 3 F 1 2 3 Yik: el primer subíndice (i) indica el valor del nivel del factor; el segundo (k), el orden que ocupa el dato dentro de los pertenecientes a ese nivel del factor.

TABLA DE ANOVA: Fuente de variación Suma de cuadrados Grados de libertad Entregrupos(VE) I-1

TABLA DE ANOVA: Fuente de variación Suma de cuadrados Grados de libertad Entregrupos(VE) I-1 Intra-gruposó residual ó no explicada (VNE) N-I Total (VT) N-1 Varianzas ó cuadrados medios Cociente-F Raíz cuadrada de se 2: error experimental

TABLA DE ANOVA: SCE: suma de cuadr. explicada o entre-grupos SCR: suma de cuadr.

TABLA DE ANOVA: SCE: suma de cuadr. explicada o entre-grupos SCR: suma de cuadr. residual o intra-grupos SCT: suma de cuadr. totales

H 0 : µ 1 = µ 2 = … = µn H 1:

H 0 : µ 1 = µ 2 = … = µn H 1: alguna µi es distinta ? Rechazamos si p-valor < nivel de significación Intuitivamente, aceptaremos cuando la variabilidad explicada es pequeña (es decir, rechazamos cuando la variabilidad explicada es grande) Statgraphics

Resumen: Concepto Valor Media total μ Media de cada nivel (grupo) Efecto de cada

Resumen: Concepto Valor Media total μ Media de cada nivel (grupo) Efecto de cada nivel (grupo) Residuo μi αi=μi-μ εij = yii-μi Estim.

Concepto Variabilidad total (VT ó SCT) Variab. Residual (VR ó VNE ó SCR) Variab.

Concepto Variabilidad total (VT ó SCT) Variab. Residual (VR ó VNE ó SCR) Variab. Explicada (VE ó SCE) Error experimental (σ) Coef. Det. R 2 (VE/VT) x 100

2. El modelo de ANOVA simple Descripción del modelo: PIZARRA Requisitos del modelo: 1.

2. El modelo de ANOVA simple Descripción del modelo: PIZARRA Requisitos del modelo: 1. - Normalidad en cada nivel de factor. 2. - Homocedasticidad (igual varianza en cada nivel de factor) 3. - Independencia de las observaciones: residuos aleatorios. H 0 : σ1 = σ2 = … = σn H 1: alguna σi es distinta

Requisitos del modelo: 1. - Normalidad en cada nivel de factor. 2. - Homocedasticidad

Requisitos del modelo: 1. - Normalidad en cada nivel de factor. 2. - Homocedasticidad (igual varianza en cada nivel de factor) 3. - Independencia de las observaciones: residuos aleatorios. Se traducen en que los residuos son aleatorios, y siguen una normal N(0, σ) Error experimental

¿Qué hacer si alguna hipótesis falla? - Si falla la homocedasticidad, siempre que no

¿Qué hacer si alguna hipótesis falla? - Si falla la homocedasticidad, siempre que no haya grandes diferencias entre el número de observaciones en los distintos grupos (niveles de factor), el ANOVA sigue siendo fiable. - El contraste de ANOVA es robusto frente a la violación del supuesto de normalidad. El no-cumplimiento de esta hipótesis sí puede afectar a la estimación del error experimental. - Transformaciones de los datos…

¿Qué hacer si alguna hipótesis falla? - El verdadero problema es la independencia de

¿Qué hacer si alguna hipótesis falla? - El verdadero problema es la independencia de las observaciones. La violación de este supuesto sí pone en duda las conclusiones del ANOVA; suele ser debido a: 1. - errores en el muestreo (efecto aprendizaje, descuidos, falta de aleatorización, etc. ) 2. - existencia de otros factores que también influyen en la variable respuesta, y no han sido tomados en consideración (necesidad de aplicar no un ANOVA con un factor, sino un ANOVA multifactorial)

De hecho, la independencia de las observaciones debería quedar garantizada por el modo en

De hecho, la independencia de las observaciones debería quedar garantizada por el modo en que se ha diseñado el estudio: (1) Modelo correcto: evidencia razonable de que hay un único factor que pueda tener influencia sobre Y. (2) Una correcta recogida de los datos: Principio de aleatorización. “Todos los factores no controlados por el experimentador y que puedan influir en los resultados, deben asignarse al azar a las observaciones” (D. Peña).

IMPORTANTE: si se rechaza la hipótesis nula, en el contraste de ANOVA, eso significa

IMPORTANTE: si se rechaza la hipótesis nula, en el contraste de ANOVA, eso significa que no todas las medias son iguales. Sin embargo, puede que algunas sí que sean iguales. Para decidir qué grupos tienen medias similares, descomponemos los niveles del factor en grupos homogéneos. Statgraphics

3. Contraste de Kruskal-Wallis - Método no-paramétrico - Util si fallan los requisitos del

3. Contraste de Kruskal-Wallis - Método no-paramétrico - Util si fallan los requisitos del ANOVA (aunque inferior a ANOVA). - Realiza un contraste sobre las medianas H 0: M 1= M 2=…= Mn H 1: alguna Mi es distinta. - Utiliza la noción de rango. La idea es ordenar de menor a mayor todos los datos (sin atender al nivel del factor del que provienen), asignar rangos, y comparar después los rangos medios correspondientes a los distintos niveles del factor.