ANOVA y Pruebas de Hiptesis Anlisis de varianza
ANOVA y Pruebas de Hipótesis
Análisis de varianza ANOVA
Objetivo y supuestos del modelo Objetivos Supuestos del modelo El análisis de varianza se utiliza para comparar las medias de varias poblaciones (más de dos). Todas las poblaciones tienen la misma varianza. Este análisis se basa en la variabilidad que presentan los datos con respecto a su propia media o bien entre las diferentes medias. Todas las muestras aleatorias son independientes. Es una prueba de hipótesis donde se utiliza la distribución F. Cada una de las muestras constituye un grupo.
Tipos de ANOVA De un factor De dos factores Cuando sólo se toma en consideración una variable para todas las poblaciones. Cuando intervienen en el análisis dos variables. Ejemplo: Comparar el consumo de combustible de varios modelos de automóvil utilizando el mismo conductor. Ejemplo: Comparar el consumo de combustible de varios modelos de automóvil utilizando diferentes conductores.
El modelo de análisis de un factor Supóngase que se tienen k muestras independientes con n 1, n 2, …, nk observaciones, y con medias poblacionales 1, 2, … k La hipótesis nula es que todas las medias son iguales La hipótesis alternativa es que al menos dos medias son diferentes .
Distribución F También se conoce como F de Fisher Es continua No puede ser negativa. Se utiliza como estadístico de prueba en la prueba de hipótesis Dependen de dos parámetros: los grados de libertad en el numerador y los grados de libertad en el denominador. Se aplica en la comparación de varias medias poblacionales en forma simultánea Los grados de libertad es el número de elementos en una muestra que tienen libertad para variar. Tienes sesgo positivo gl = n-1 Es asintótica
Ejemplo de aplicación. Consumo de combustible en km/litro Se quiere comparar el consumo de combustible de tres tipos de autos : A, B y C. Se realizan pruebas con siete conductores para los autos A y B y con 6 para el auto C. Los resultados se muestran en la siguiente tabla: Auto A Auto B Auto C 22. 2 24. 6 22. 7 19. 9 23. 1 21. 9 20. 3 22. 0 23. 1 21. 4 23. 5 24. 1 21. 2 23. 6 22. 1 21. 0 22. 1 23. 4 20. 3 23. 5 (Tomado de Lind, Marchal & Wathen, 2008)
Ejemplo de aplicación Hipótesis nula Hipótesis alternativa El consumo medio de combustible de los tres tipos de autos es el mismo. Al menos de los tres tipos de autos tienen consumo medio de combustible distintos.
Metodología para el ANOVA • Calcular las medias muestrales de cada grupo. Auto A Sumas = Auto B Auto C 22. 2 24. 6 22. 7 19. 9 23. 1 21. 9 20. 3 22. 0 23. 1 21. 4 23. 5 24. 1 21. 2 23. 6 22. 1 21. 0 22. 1 23. 4 20. 3 23. 5 146. 3 162. 4 Media del auto A Media del auto B Media del auto C 137. 4 (Fuente propia)
Metodología para el ANOVA • Calcular la media global (suma de todos los datos entre el total de datos). Sumas = Auto A Auto B Auto C 22. 2 24. 6 22. 7 19. 9 23. 1 21. 9 20. 3 22. 0 23. 1 21. 4 23. 5 24. 1 21. 2 23. 6 22. 1 21. 0 22. 1 23. 4 20. 3 23. 5 146. 3 162. 4 137. 4 Media global
Metodología para el ANOVA • Calcular la variabilidad que hay dentro de cada grupo, es decir la suma de las diferencias entre cada dato y la media del grupo que le corresponde, elevada al cuadrado: Auto A Auto B Auto C 22. 2 1. 69 24. 6 1. 96 22. 7 0. 04 19. 9 1 23. 1 0. 01 21. 9 1 20. 36 22. 0 1. 44 23. 1 0. 04 21. 4 0. 25 23. 5 0. 09 24. 1 1. 44 21. 2 0. 09 23. 6 0. 16 22. 1 0. 64 21. 0 0. 01 22. 1 1. 21 23. 4 0. 25 20. 36 23. 5 0. 09 SCA = 3. 76 SCB = 4. 96 SCC = 3. 41 (Fuente propia)
Metodología para el ANOVA • Calcular la variabilidad total que existe dentro de los grupos (la suma de las variabilidades dentro de cada grupo): SCA = 3. 76 SCB = 4. 96 SCC = 3. 41
Metodología para el ANOVA • Calcular la variabilidad que existe entre los diferentes grupos (las diferencias entre las medias individuales de cada grupo y la media global ponderadas por el número de observaciones de cada grupo):
Metodología para el ANOVA • Calcular la suma total de los cuadrados, STC, que se obtiene como la suma de la variación dentro de los grupos, SCD, mas la variación entre los grupos, SCG:
Tabla de ANOVA de un factor Para resumir todos los datos y poder realizar el siguiente paso de la prueba de hipótesis, se realiza una tabla. Fuente de variación Entre los grupos Dentro de los grupos Suma de los cuadrados Grados de libertad SCG K-1 SCD STC Media de los cuadrados Cociente F n-K n-1 Total (Fuente propia) K : = número de grupos n = número total de datos
Tabla de ANOVA de un factor Para el ejemplo: Fuente de variación Entre los grupos Dentro de los grupos Suma de los cuadrados Grados de libertad 21. 55 3– 1=2 12. 13 33. 68 Media de los cuadrados Cociente F 20 – 3 = 17 20 – 1 = 19 Total K=3 n = 7 + 6 = 20 (Fuente propia)
Regla de decisión Se basa en la distribución F de Fisher con (K-1) grados de libertad en el numerador. Depende del nivel de significancia Los valores de F se localizan en una tabla que depende del nivel de significancia. 5% 2. 5% (n-K) grados de libertad en el denominador. 1% (Elaborado a partir de Lind, Marchal & Wathen, 2008)
Tabla de la distribución F para = 5% Se localizan los grados de libertad del numerador, en este caso K – 1 = 3 -1 = 2 Se localizan los grados de libertad del denominador, en este caso n-K = 20 -3 =17 Donde se intersectan ese es el valor en tablas de F, en este caso = 3. 59 (Tomado de Lindt, Marchal & Wathen, 2008)
Regla de decisión Si el valor calculado de F es mayor al de las tablas, se rechaza la hipótesis nula, en cualquier otro caso, se acepta. En este caso, el valor calculado de F es 15. 18 El valor de F de las tablas con nivel de significancia = 5% es 3. 59 Como la F calculada es mayor que la F de las tablas (15. 18 > 3. 59) se rechaza la hipótesis nula.
Conclusión Como se rechaza la hipótesis nula se puede concluir que: • el consumo promedio de combustible de los tres tipos de automóviles no son iguales.
Pruebas de hipótesis
Un caso • El director de una fábrica de cereales está tratando de averiguar si el peso promedio de todas sus cajas de cierto cereal malteado es mayor a lo indicado en el empaque. • En caso contrario, tendrá que llamar al técnico para que realice un ajuste a la máquina de llenado.
Prueba de hipótesis • Es un procedimiento mediante el cual se establece una conjetura acerca de las características de la población y permite verificar si esta conjetura se cumple (Lind, Marchal & Wathen, 2008). • Este proceso tiene una analogía con un juicio donde suponemos que el acusado es inocente y el jurado decide si la persona es culpable sólo si existen pruebas contundentes en contra de la presunción de inocencia.
Procedimiento de la prueba de hipótesis Paso 1 Paso 2 Paso 3 Paso 4 Paso 5 • Establecer hipótesis nula y alternativa • Seleccionar nivel de significancia • Identificar estadístico de prueba • Formular regla para toma de decisiones • Tomar una muestra y llegar a la decisión (Elaborado a partir de Lind, Marchal & Wathen, 2008)
Paso 1. Establecer hipótesis nula y alternativa Hipótesis nula Enunciado relativo a un Se representa parámetro de la por H 0. población que se va a probar. Hipótesis alternativa Siempre incluye en su expresión matemática el signo =. Afirmación que se acepta si los datos de la muestra permiten rechazar la hipótesis nula. Se representa por H 1. El signo = nunca aparece en su expresión matemática.
Tipo de prueba La forma de la hipótesis alternativa define el tipo de prueba que se va a realizar: Prueba de 2 colas Región de rechazo Prueba de una cola derecha Región de rechazo Prueba de una cola izquierda Región de rechazo (Tomado de Lindt, Marchal & Wathen, 2008)
Paso 2. Seleccionar un nivel de significancia Nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es verdadera. Depende del investigador y del tipo de investigación: 5% si está relacionado con los consumidores. Se representa con la letra griega . Al aceptar o rechazar la hipótesis nula puede incurrirse en dos tipos de errores: Error Tipo I: Rechazar la hipótesis nula cuando es verdadera. Su probabilidad es α. 1% en relación con el control de calidad. 10% para encuestas políticas. Error Tipo II: Aceptar la hipótesis nula cuando es falsa. Su probabilidad es β.
Tipos de errores Hipótesis nula H 0 es verdadera H 0 es falsa Investigador Acepta H 0 Rechaza H 0 Decisión correcta Error tipo II Decisión correcta β es la probabilidad de cometer un error tipo II
Paso 3. Identificar estadístico de prueba Se refiere al tipo de Para la media distribución que se va a utilizar. Generalmente se Para la utiliza la proporción distribución normal (Z). Para diferencia dese Depende de lo que medias: quiere probar. Para diferencia de proporciones:
Paso 4. Formular regla para tomar decisiones Se establecen las condiciones específicas para aceptar o rechazar la hipótesis nula. Se toma en cuenta el tipo de prueba (1 cola o 2 colas) y el nivel de significancia (valor de ). Se establece el valor crítico o punto de división entre la región de aceptación y la región de rechazo.
Paso 4. Formular regla para tomar decisiones Se debe determinar el valor crítico (Z) que divide las regiones de aceptación y rechazo. Nivel de significancia 10% 5% 1% Prueba de una cola Z = 1. 29 Prueba de una cola Z = 1. 645 Prueba de una cola Z = 2. 33 Prueba de dos colas Z = 1. 645 Prueba de dos colas Z = 1. 96 Prueba de dos colas Z = 2. 58
Paso 5. Tomar una muestra y llegar a la decisión A partir de la información que se obtiene de la muestra, se calcula el valor de Z. Se determina si este valor se encuentra en las regiones de aceptación o de rechazo. Con base en esta información se obtiene la conclusión.
EJEMPLOS
Ejemplo 1 • Un fabricante de catsup utiliza una máquina para vaciar 16 onzas de su salsa en las botellas. • A partir de su experiencia de varios años con la máquina despachadora, el gerente de control de calidad sabe que la cantidad de producto que se vacía en las botellas tiene una distribución normal con media de 16 onzas y una desviación estándar de 0. 15 onzas. • Una muestra de 15 botellas llenadas durante 1 hora reveló que la cantidad media por botella era de 16. 017 onzas. • ¿Existe evidencia para sugerir que la cantidad media despachada es diferente a 16 onzas? • Utilice un nivel de significancia de 5%. (Tomado de Lindt, Marchal & Wathen, 2008)
Paso 1. Establecer hipótesis nula y alternativa Un fabricante de catsup utiliza una máquina para vaciar 16 onzas de su salsa en las botellas. ¿Existe evidencia para sugerir que la cantidad media despachada es diferente a 16 onzas? Esto nos indica la hipótesis nula y la hipótesis alternativa: Prueba de 2 colas (Fuente propia)
Paso 2 y Paso 3. Determinar nivel de significancia Identificar el estadístico de prueba • Nivel de significancia Utilice un nivel de significancia de 5%. • Estadístico de prueba La cantidad media despachada es diferente a 16 onzas. Este texto indica que se trata de la media, por tanto el estadístico de prueba es:
Paso 4. Formular regla para tomar decisiones • Tipo de prueba y nivel de significancia Como el nivel de significancia es de 5%, la región de aceptación es de 95% y como la prueba es de dos colas, los valores críticos que dividen las regiones de aceptación y rechazo son 1. 96. -1. 96 (Fuente propia)
Paso 5. Tomar una muestra y llegar a la decisión • La información que se obtiene de la muestra y del enunciado del problema es: Una muestra de 15 botellas llenadas durante 1 hora reveló que la cantidad media por botella era de 16. 017 onzas. • A partir de su experiencia de varios años con la máquina despachadora, el gerente de control de calidad sabe que la cantidad de producto que se vacía en las botellas tiene una distribución normal con media de 16 onzas y una desviación estándar de 0. 15 onzas. n = 15: -2. 58 Como el valor calculado de Z está en la región de aceptación, se acepta la hipótesis nula: es decir no existe evidencia para determinar que las botellas de catsup contienen una cantidad diferente a 16 onzas.
Ejemplo 2 • Una empresa que se dedica a la fabricación de barras de acero determina que éstas deberán tener una longitud promedio de al menos 2. 8 pies, con una desviación estándar de 0. 20 pies. • Las barras más largas pueden ser utilizadas o ser alteradas, sin embargo las de menor longitud deberán desecharse. • Se selecciona una muestra de 25 barras de la línea de producción, y se encontró una longitud de 2. 73 pies. • La directiva de la compañía desea determinar si el equipo de producción requiere ajuste o no. • Utilice un nivel de significancia de 5%.
Paso 1. Establecer hipótesis nula y alternativa Una empresa que se dedica a la fabricación de barras de acero determina que éstas deberán tener una longitud promedio de al menos 2. 8 pies, La directiva de la compañía desea determinar si el equipo de producción requiere ajuste o no. Esto nos indica la hipótesis nula y la hipótesis alternativa: Prueba de 1 cola izquierda (Fuente propia)
Paso 2 y Paso 3. Determinar nivel de significancia. Identificar el estadístico de prueba • Nivel de significancia Utilice un nivel de significancia de 5% • Estadístico prueba de “deberán tener una longitud promedio de al menos 2. 8 pies” Este texto indica que se trata de la media, por tanto el estadístico de prueba es:
Paso 4. Tomar una muestra y llegar a la decisión • La información que se obtiene de la muestra y del enunciado del problema es: …determina que éstas deberán tener una longitud promedio de al menos 2. 8 pies, con una desviación estándar de 0. 20 pies. Se selecciona una muestra de 25 barras de la línea de producción, y se encontró una longitud de 2. 73 pies. n = 25; -1. 645 Como el valor calculado de Z está en la región de rechazo, se acepta la hipótesis alternativa: es decir la longitud promedio de las barras es menor a 2. 8 pies por lo tanto la máquina necesita ser ajustada.
Paso 5. Formular regla para tomar decisiones • Tipo de prueba y nivel de significancia Como el nivel de significancia es del 5%, la región de aceptación es de 95% y como la prueba es de una cola izquierda, el valor crítico que divide las regiones de aceptación y rechazo es 1. 645. (Fuente propia) -1. 645
Fuentes de consulta • Lind, D. , Marchal, W. & Wathen, S. (2008). Estadística aplicada a los negocios y la economía. México: Mc. Graw-Hill Interamericana. (Disponible en la Biblioteca Virtual ULA, colección Mc. Graw-Hill).
- Slides: 44