Tema 6 Anlisis de la Varianza PROBLEMA 1
Tema 6: Análisis de la Varianza
PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación, o no. Ejemplos: Tiempo de cura / medicamento utilizado Rendimiento de cosechas / fertilizante Renta familiar / hábito de lectura Número de préstamos / ubicación PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables cualitativas F 1, F 2, …, Fn, determínese cuáles de ellas infuyen en Y, y cuáles no (es decir, cuáles guardan relación con Y). Ejemplos: Tiempo de cura / medicamento utilizado, grupo sanguíneo Número de préstamos / sexo, nivel de estudios, afición al cine
PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación, o no. ANOVA simple Y: variable respuesta (numérica) F: factor (cualitativa) PROBLEMA 2: Dada una variable cuantitativa continua Y, varias variables cualitativas F 1, F 2, …, Fn, determínese cuáles de ellas infuyen en Y, y cuáles no (es decir, cuáles guardan relación con Y). ANOVA multifactorial Y: variable respuesta (numérica) F 1, F 2, …, Fn : factores (cualitativas)
Y: variable respuesta (numérica) F: factor (cualitativa) 1. ANOVA simple: idea ¿Son independientes Y y F? ¿Hay relación entre Y y F? ¿Hay diferencias significativas en el valor de Y, según que F tome uno u otro valor? ¿Influye F en el valor de Y? Y Medias en cada nivel de factor µ 2 µ 1 µ 3 F 1 2 Niveles de factor 3
Y: variable respuesta (numérica) F: factor (cualitativa) Si el valor de F no guarda relación con el de Y… ¿Cómo deberían ser µ 1 , µ 2 , µ 3 ? Y Media global µ 2 µ µ 1 µ 3 F 1 2 3
H 0 : µ 1 = µ 2 = µ 3 H 1: alguna µi es distinta H 0 equivalente a: Y, F son independientes; Y, F no guardan relación; F no influye en el valor de Y; no hay diferencias significativas en Y según distintos valores de F, etc. Rechazar H 0 equivale a encontrar dependencia entre F e Y.
¿Cómo contrastar H 0 : µ 1 = µ 2 = … = µn H 1: alguna µi es distinta ? Mala idea: varios contrastes H 0: µi=µk H 1: µi≠µk Error de tipo I se acumula, la confianza “total” es demasiado baja Buena idea: descomposición de la variabilidad Pizarra
Yik Residuo del dato Yik: Yik-µi Y Media global µ 2 µ µ 1 µ 3 F 1 2 3 Yik: el primer subíndice (i) indica el valor del nivel del factor; el segundo (k), el orden que ocupa el dato dentro de los pertenecientes a ese nivel del factor.
TABLA DE ANOVA: SCE: suma de cuadr. explicada o entre-grupos SCR: suma de cuadr. residual o intra-grupos SCT: suma de cuadr. totales
H 0 : µ 1 = µ 2 = … = µn H 1: alguna µi es distinta ? Rechazamos si p-valor < nivel de significación Intuitivamente, aceptaremos cuando la variabilidad explicada es pequeña (es decir, rechazamos cuando la variabilidad explicada es grande) Statgraphics
2. El modelo de ANOVA simple Descripción del modelo: PIZARRA Requisitos del modelo: 1. - Normalidad en cada nivel de factor. 2. - Homocedasticidad (igual varianza en cada nivel de factor) 3. - Independencia de las observaciones: residuos aleatorios. H 0 : σ1 = σ2 = … = σn H 1: alguna σi es distinta Statgraphics
3. Contraste de Kruskal-Wallis - Método no-paramétrico -Util si fallan los requisitos del ANOVA. - Realiza un contraste sobre las medianas H 0: M 1= M 2=…= Mn H 1: alguna Mi es distinta. - Utiliza la noción de rango. La idea es ordenar de menor a mayor todos los datos (sin atender al nivel del factor del que provienen), asignar rangos, y comparar después los rangos medios correspondientes a los distintos niveles del factor.
4. Anova multifactorial PROBLEMA: Dada una variable cuantitativa continua Y, varias variables cualitativas F 1, F 2, …, Fn, determínese cuáles de ellas influyen en Y, y cuáles no (es decir, cuáles guardan relación con Y). Y: variable respuesta (numérica) F 1, F 2, …, Fn : factores (cualitativas) Ejemplo: Y tiempo de cura, F 1 medicamento administrado, F 2 grupo sanguíneo; Y nº de visitas a una página web, F 1 nivel de estudios, F 2 sexo. Si Fi influye en el valor de Y (si existen diferencias significativas en Y según los distintos valores de Fi) decimos que Fi es SIGNIFICATIVO. Por tanto, un primer problema consiste en determinar cuáles de los factores considerados en un cierto estudio, son significativos.
Dos modelos: 1. Sin interacción: consideramos que los efectos de los factores se suman, sin que la combinación de factores produzca cambios cualitativos. PROBLEMA: Determinar factores significativos. 2. Con interacción: consideramos la posibilidad de que la combinación de factores produzca cambios cualitativos. PROBLEMA 1: Determinar factores significativos. PROBLEMA 2: Determinar la existencia de “interacción” entre factores (es decir, qué combinaciones de factores pueden tener un efecto cualitativo distinto a la mera suma de efectos).
Dos modelos: 1. Sin interacción: consideramos que los efectos de los factores se suman, sin que la combinación de factores produzca cambios cualitativos. PROBLEMA: Determinar factores significativos. 2. Con interacción: consideramos la posibilidad de que la combinación de factores produzca cambios cualitativos. PROBLEMA 1: Determinar factores significativos. PROBLEMA 2: Determinar la existencia de “interacción” entre factores (es decir, qué combinaciones de factores pueden tener un efecto cualitativo distinto a la mera suma de efectos). Un intento de visualizar qué implica que un factor sea o no significativo….
Y 1 B A F 1 2 F 2
Las medias en A y B parecen muy Y diferentes; por tanto, F 1 significativo. µB µA 1 B A F 1 2 F 2
µ 1 Y µ 2 1 2 F 2 B A F 1 Las medias en 1 y 2 parecen muy similares; por tanto, F 2 NO significativo.
5. Modelo de ANOVA multifactorial sin interacción - Modelo: PIZARRA - Requisitos del modelo: suponemos que F 1 tiene “a” niveles, y F 2 tiene “b” niveles. Por tanto, en total hay a. b subgrupos. 1. - Cada uno de los subgrupos es normal. 2. - La varianza es la misma en todos ellos (Homocedasticidad) 3. - Independencia de las observaciones (residuos aleatorios) 1 + 2 + 3 = Residuos normales N(0, σ); σ: error experimental Esto es lo que, en este caso, debemos comprobar
6. Modelo de ANOVA multifactorial con interacción Decimos que existe INTERACCION si los factores no son independientes, es decir, si el efecto de alguno de ellos depende del nivel en que esté el otro. Idea intuitiva de lo que supone la existencia de interacción…
Y 1 B A F 1 2 F 2
F 1 NO significativo. Y 1 B A F 1 2 F 2
F 2 NO significativo. Y 1 B A F 1 2 F 2
Sin embargo, para aquellos que Y tienen el primer factor en A, parece haber diferencias significativas… 1 B A F 1 2 F 2
Y análogamente para los que tienen Y el primer factor en B 1 B A F 1 2 F 2
- Modelo: PIZARRA - Requisitos del modelo: 1, 2, 3 como en el caso sin interacción (ojo, los residuos no son los mismos en uno y otro caso). 1 + 2 + 3 = Residuos normales N(0, σ); σ: error experimental Esto es lo que, en este caso, debemos comprobar Statgraphics
- Slides: 26