Anlisis de Varianza ANOVA Analysis of Variation ANOVA

  • Slides: 48
Download presentation
Análisis de Varianza ANOVA (Analysis of Variation)

Análisis de Varianza ANOVA (Analysis of Variation)

ANOVA – Asunto básico • Dos Variables: – Categórica (los grupos) – Cuantitativa (lo

ANOVA – Asunto básico • Dos Variables: – Categórica (los grupos) – Cuantitativa (lo medido) • ¿Los promedios de la variable cuantitativa varían entre los grupos (categorías)? • Nota: si se trata solamente de dos grupos se hace test – t no pareado. Anova, para más de dos grupos.

ANOVA 1. Muestras provienen de población con distribución normal y con similares DS (para

ANOVA 1. Muestras provienen de población con distribución normal y con similares DS (para hablar de similitud de DS siga la regla 2: 1). 2. La varianza de cada grupo es un estimativo de la varianza de la población. 3. La varianza mezclada (pooled) de los grupos puede utilizarse para calcular IC de la diferencia de pares de promedios.

Anova • Cuando tenemos más de dos grupos. • Hipótesis nula: • Calcular valor

Anova • Cuando tenemos más de dos grupos. • Hipótesis nula: • Calcular valor de F (de Fisher). • Distribución de F tiene sesgo cuando se acepta hipótesis nula.

Que hace el ANOVA? En su forma más simple ANOVA: H 0: Los promedios

Que hace el ANOVA? En su forma más simple ANOVA: H 0: Los promedios de todos los grupos son iguales. Ha: No todos los promedios son iguales • No dice cómo o cuáles son diferentes. • Puede continuar con “múltiples comparaciones” .

Ejemplos de utilización de ANOVA en odontología 1. Cinco tratamientos diferentes para pacientes con

Ejemplos de utilización de ANOVA en odontología 1. Cinco tratamientos diferentes para pacientes con herpes recurrente 2. Variación de ángulo goníaco en pctes con ADM clase I, III 3. Resistencia al desgaste de tres resinas diferentes 4. Grosor de la capa híbrida utilizando tres adhesivos diferentes

Least Squares Means Factor Level LS Mean Standard Error N POSTGRADO Endo 6. 100

Least Squares Means Factor Level LS Mean Standard Error N POSTGRADO Endo 6. 100 0. 127 10. 000 POSTGRADO Orto 6. 143 0. 121 11. 000 POSTGRADO Perio 6. 286 0. 107 14. 000 Analysis of Variance Source Type III SS df Mean Squares F-ratio p-value POSTGRADO 0. 234 2 0. 117 0. 726 0. 492 Error 5. 145 32 0. 161 Case 11 is an Outlier (Studentized Residual : -3. 466)

Test de ANOVA, se asume que: • Cada muestra debe ser independiente de las

Test de ANOVA, se asume que: • Cada muestra debe ser independiente de las otras. • Cada muestra debe haber sido seleccionada al azar de la pob de donde proviene.

 • Las pob de donde provienen las muestras debe tener dist normal. •

• Las pob de donde provienen las muestras debe tener dist normal. • Las varianzas de cada pob deben ser iguales, aunque los promedios sean diferentes, es decir cuando los tratamientos tengan efecto. Nota: si esto no se cumple, deberá ocupar otro test, generalmente test de Kruskal-Wallis.

Cómo seleccionar muestra al azar? • Asignando con la moneda (cara / sello) (fácil

Cómo seleccionar muestra al azar? • Asignando con la moneda (cara / sello) (fácil solamente para dos grupos). • Tablas de números aleatorios (ver libros de bioestadística) • Generar números aleatorios (función random o aleatorio. entre en excel), u otro software.

Anotación en ANOVA • N: número de individuos en total

Anotación en ANOVA • N: número de individuos en total

ANOVA – ANALISIS DE VARIANZA DE UNA VIA Datos: 5 tratamientos con antivirales en

ANOVA – ANALISIS DE VARIANZA DE UNA VIA Datos: 5 tratamientos con antivirales en 6 pctes (replicas) (P) (2) (3) (4) (5) 5 4 6 7 9 8 6 4 4 3 7 6 4 6 5 7 3 5 6 7 10 5 4 3 7 8 6 3 5 6 f = 6, k = 5, N = 30

5 trat para infección herpética (valores indican días de duración de las lesiones) (P)

5 trat para infección herpética (valores indican días de duración de las lesiones) (P) (2) (3) (4) (5) 5 4 6 7 9 8 6 4 4 3 7 6 4 6 5 7 3 5 6 7 10 5 4 3 7 8 6 3 5 6

5 trat para infección herpética (valores indican días de duración de las lesiones) (P)

5 trat para infección herpética (valores indican días de duración de las lesiones) (P) (2) (3) (4) (5) 5 4 6 7 9 8 6 4 4 3 7 6 4 6 5 7 3 5 6 7 10 5 4 3 7 8 6 3 5 6 45 30 26 31 37

5 trat para infección herpética (valores indican días de duración de las lesiones) (P)

5 trat para infección herpética (valores indican días de duración de las lesiones) (P) (2) (3) (4) (5) 25 16 36 49 81 64 36 16 16 9 49 36 16 36 25 49 9 25 36 49 100 25 16 9 49 64 36 9 25 36 351 158 118 171 249

Suma total de cuadrados Suma total de los cuadrados (SSC): Factor de corrección (CF):

Suma total de cuadrados Suma total de los cuadrados (SSC): Factor de corrección (CF): (åx)2/n TSS = (351+158+118+171+249) – (45+3026+31+37)2 /30 = 1047 – 28561/30 = 1047 – 952, 03 Factor de corrección = 94, 97

Suma total de los cuadrados • Está basada en la suma de los cuadrados

Suma total de los cuadrados • Está basada en la suma de los cuadrados de las diferencias de cada una de las observaciones del promedio general. Se divide en: – Suma de Cuadrados Entre los grupos basado en la suma de los cuadrados de la diferencia entre el promedio de cada grupo y el promedio general (SSB) – Suma de Cuadrados Dentro de los grupos: calculado como la suma de los cuadrados para la diferencia entre cada observación y el promedio de su grupo (SSw)

SSB • Variabilidad entre los grupos: Variabilidad de los promedios de los diferentes grupos

SSB • Variabilidad entre los grupos: Variabilidad de los promedios de los diferentes grupos alrededor del gran promedio (calculado sin tomar en cuenta la estructura del grupo)

SSw • Variabilidad dentro del grupo: También llamada variación NO explicada o residual y

SSw • Variabilidad dentro del grupo: También llamada variación NO explicada o residual y se refiere a la variación al azar entre los individuos dentro de cada grupo.

Cuadrados dentro de los grupos (Error) Suma de cuadrados dentro de los grupos (Within

Cuadrados dentro de los grupos (Error) Suma de cuadrados dentro de los grupos (Within Sum of Squareds) (Donde k: número de grupos; f: número de individuos en cada grupo) SSW = 1047 – ( 452/6 +302/6 +262/6 +312/6 + 372/6 ) = 1047 – 988, 51 SSW = 58, 49

SUMA DE CUADRADOS ENTRE LOS GRUPOS Between sum of squares Suma de cuadrados entre

SUMA DE CUADRADOS ENTRE LOS GRUPOS Between sum of squares Suma de cuadrados entre los grupos (between) SSB = ( 452/6 +302/6 +262/6 +312/6 + 372/6 ) – 952, 03 SSB = 988, 51 – 952, 03 SSB = 36, 48

Cuadrados medios • Cada suma de cuadrados se convierte en una varianza estimada (Cuadrados

Cuadrados medios • Cada suma de cuadrados se convierte en una varianza estimada (Cuadrados Medios) dividiendo por sus grados de libertad. • GL entre los grupos: k – 1 • Dentro de los grupos: (n 1 – 1 + n 2 – 1 + n 3 – 1)

De la hipótesis nula: GAUSS • Todos los grupos tienen el mismo promedio y

De la hipótesis nula: GAUSS • Todos los grupos tienen el mismo promedio y la misma varianza, por lo tanto la relación de las varianzas sería 1. • Mediante el valor de F comparamos las varianzas y obtenemos la relación de ellas

Tabla de ANOVA Construcción de la tabla de Análisis de Varianza: Fuente de Variación

Tabla de ANOVA Construcción de la tabla de Análisis de Varianza: Fuente de Variación SC gl MS Between Within 36, 48 58, 49 4 25 9, 12 3, 897 2, 339 Total 94, 97 29 = 2, 75 F Por lo tanto existen dif. signif. (P<0, 05)

Fcrítico depende de los gl de CMentre y CM dentro, y elegir el valor

Fcrítico depende de los gl de CMentre y CM dentro, y elegir el valor de

Por lo tanto P<0, 05 P>0, 01 0, 05>P>0, 01

Por lo tanto P<0, 05 P>0, 01 0, 05>P>0, 01

Valores de F críticos según tabla Valor de F obtenido = 3, 897 =

Valores de F críticos según tabla Valor de F obtenido = 3, 897 = 2, 75 = 3, 35 = 4, 18 Por lo tanto: 0, 05> P > 0, 01

Valor de F

Valor de F

GRADOS DE LIBERTAD EN TABLA DE ANOVA Entre los grupos (between) (k-1): n(úmero de

GRADOS DE LIBERTAD EN TABLA DE ANOVA Entre los grupos (between) (k-1): n(úmero de grupos) – 1: (5 - 1) = 4 Dentro de los grupos (within) k(n-1): 5(6 -1) = 25 Total = n – 1; 30 - 1 = 29

VALOR DE F Si F es un número grande, la variabilidad entre las medias

VALOR DE F Si F es un número grande, la variabilidad entre las medias de las muestras es mayor que la esperada a la variabilidad dentro de las muestras, y rechaza la hipótesis nula de que todas las muestras son de la misma población.

Least Squares Means Factor Level LS Mean Standard Error N Medicamento Placebo 7. 500

Least Squares Means Factor Level LS Mean Standard Error N Medicamento Placebo 7. 500 0. 624 6. 000 Medicamento a 5. 000 0. 624 6. 000 Medicamento b 4. 333 0. 624 6. 000 Medicamento c 5. 167 0. 624 6. 000 Medicamento d 6. 167 0. 624 6. 000 Analysis of Variance Source Type III SS df Mean Squares F-ratio p-value Medicame 36. 467 nto 4 9. 117 3. 896 0. 014 Error 25 2. 340 58. 500

Gráficos para ANOVA • Promedios y DS de cada grupo. • Cajas. • Puntos.

Gráficos para ANOVA • Promedios y DS de cada grupo. • Cajas. • Puntos.

Tests para comparar medias • Scheffé – Si tamaño de los grupos es diferente

Tests para comparar medias • Scheffé – Si tamaño de los grupos es diferente – Interesa además contrastes (Ej: grupo 1 y 2 vs 3) • Tukey – Si tamaño de los grupos es igual – Interés prinicipal es comparar solo promedios de grupos • Bonferroni – No se había previsto comparar grupos Utilizar solamente si resultado en ANOVA es p<0, 05

Test de Scheffé • Dos promedios presentan diferencias significativas si su diferencia excede el

Test de Scheffé • Dos promedios presentan diferencias significativas si su diferencia excede el valor calculado por: k = número de promedios. F 3, 8; 0. 05 = 4, 0662 MSE = 0, 917 (de cuadrado medio, within)

Test de Scheffé • Dos promedios presentan diferencias significativas si su diferencia excede el

Test de Scheffé • Dos promedios presentan diferencias significativas si su diferencia excede el valor calculado por: [(k-1)F 0, 05]1/2 [(1/n 1 + 1/n 2)*MSE]1/2 k = número de promedios. F 3, 8; 0, 05 = 4, 0662 MSE = 0, 917 (de cuadrado medio, within)

Cálculo de Scheffé Existe diferencia entre dos grupos, si la diferencia de sus promedios

Cálculo de Scheffé Existe diferencia entre dos grupos, si la diferencia de sus promedios supera a 2, 928

5 trat para infección herpética (valores indican días de duración de las lesiones), última

5 trat para infección herpética (valores indican días de duración de las lesiones), última fila sus promedios (P) (2) (3) (4) (5) 5 4 6 7 9 8 6 4 4 3 7 6 4 6 5 7 3 5 6 7 10 5 4 3 7 8 6 3 5 6 7, 50 5, 00 4, 33 5, 17 6, 17

Promedios de cada grupo y sus diferencias 1. Entre Placebo y grupo (3) =

Promedios de cada grupo y sus diferencias 1. Entre Placebo y grupo (3) = 7, 50 – 4, 33 = 3, 17 Valor supera al valor del test de Scheffé (2, 928), por lo tanto existen diferencias significativas entre esos dos grupos 2. Entre placebo y grupo (2) = 7, 50 – 5, 0 = 2, 50 Valor del test de Scheffé es superior, por lo tanto NO existen diferencias significatvas entre Placebo y grupo 2. NO DEBE HACER MÁS COMPARACIONES…YA QUE TODAS LAS OTRAS DIFERENCIAS SON MENORES A VALOR DE SCHEFFÉ. Promedios ordenados de mayor a menor (línea marca entre qué grupos NO existe diferencias significativas): (P) (5) (4) (2) (3) 7, 50 6, 17 5, 00 4, 33

Realización de Anova con software estadístico • Dependiente: variable que desea examinar, debe ser

Realización de Anova con software estadístico • Dependiente: variable que desea examinar, debe ser continua (por ejemplo: edad, recuento de linfocitos, hematócrito, etc. D N !) • Factor: una o más variables categóricas que tienen agrupados datos en más de dos grupos (variables de agrupar, ej. : NSE, Clase esq (I, II y III), etc. ) • Identificar si desea comparación entre grupos(Tukey, Scheffé, etc. )

Least Squares Means Factor Level LS Mean Standard Error N Medicamento Placebo 7. 500

Least Squares Means Factor Level LS Mean Standard Error N Medicamento Placebo 7. 500 0. 624 6. 000 Medicamento a 5. 000 0. 624 6. 000 Medicamento b 4. 333 0. 624 6. 000 Medicamento c 5. 167 0. 624 6. 000 Medicamento d 6. 167 0. 624 6. 000 Analysis of Variance Source Type III SS df Mean Squares F-ratio p-value Medicamento 36. 467 4 9. 117 3. 896 0. 014 Error 58. 500 25 2. 340

Scheffe Test Medicamento(i) Medicamento(j) Difference p-value 95. 0% Confidence Interval Lower Upper Placebo a

Scheffe Test Medicamento(i) Medicamento(j) Difference p-value 95. 0% Confidence Interval Lower Upper Placebo a 2. 500 0. 125 -0. 434 5. 434 Placebo b 3. 167 0. 029 0. 233 6. 100 Placebo c 2. 333 0. 172 -0. 600 5. 267 Placebo d 1. 333 0. 687 -1. 600 4. 267 a b 0. 667 0. 965 -2. 267 3. 600 a c -0. 167 1. 000 -3. 100 2. 767 a d -1. 167 0. 781 -4. 100 1. 767 b c -0. 833 0. 923 -3. 767 2. 100 b d -1. 833 0. 389 -4. 767 1. 100 c d -1. 000 0. 862 -3. 934 1. 934

Tukey o Scheffé • Tukey. Uses the Studentized range statistic to make all pairwise

Tukey o Scheffé • Tukey. Uses the Studentized range statistic to make all pairwise comparisons. This is the default. • Scheffé. The significance level of Scheffé’s test is designed to allow all possible linear combinations of group means to be tested, not just pairwise comparisons available in this feature. The result is that Scheffé’s test is more conservative than other tests.

Tipos de Anova • Con un factor • Con dos factores: – tres grupos

Tipos de Anova • Con un factor • Con dos factores: – tres grupos (A, B, C) – género (M, F) – Interacción • Con más de dos factores (NSE, género, religión) • De medidas repetidas (activ EMG)

Anova de dos vías Categorical values encountered during processing are: GRUPO$ (3 levels) A,

Anova de dos vías Categorical values encountered during processing are: GRUPO$ (3 levels) A, B, C METODO$ (2 levels) I, II Dep Var: LIPIDOS N: 18 Multiple R: 0. 998 Squared multiple R: 0. 996 Analysis of Variance Source GRUPO$ METODO$ GRUPO$*METODO$ Error Sum-of-Squares df Mean-Square F-ratio 109. 644 0. 027 0. 047 2 1 2 54. 822 0. 027 0. 024 1372. 854 0. 670 0. 591 0. 479 12 0. 040 P 0. 000 0. 429 0. 569 ----------------------------------------

Desventajas de utilizar computador en estadística (Altman, 1999) • Errores en los softwares •

Desventajas de utilizar computador en estadística (Altman, 1999) • Errores en los softwares • Versatilidad (dada la disponibilidad de tantos softwares y tests: tentación a usar el q no corresponde) • La caja negra le aleja de sus datos • La basura se va con la basura (si ingresa datos en forma equivocada los resultados serán equivocados, ingreso de 0, 9, 999)

Ventajas de utilizar computador en estadística (Altman, 1999) • • Precisión y rapidez Versatilidad

Ventajas de utilizar computador en estadística (Altman, 1999) • • Precisión y rapidez Versatilidad (gran cantidad de tests disponibles) Gráficos Flexibilidad Nuevas variables Volumen de datos Transferencia de datos

Estrategia para análisis de datos • • Recolección de datos (form codificados) Entrada de

Estrategia para análisis de datos • • Recolección de datos (form codificados) Entrada de datos (Excel) Chequear datos (min, max, x, ds) Graficar antes de analizar Análisis de datos Chequear resultados Interpretar

Web Pages that Perform Statistical Calculations: – http: //members. aol. com/johnp 71/javasta 2. html#Demos

Web Pages that Perform Statistical Calculations: – http: //members. aol. com/johnp 71/javasta 2. html#Demos