TECNICAS ELEMENTALES DE ANALISIS La tabla de contingencia
TECNICAS ELEMENTALES DE ANALISIS
La tabla de contingencia. Análisis de relación entre dos variables Una tabla de contingencia es el resultado del cruce de dos o más variables. Es la forma de presentación de los datos típica de la investigación en ciencias sociales, que se caracteriza por un uso predominante de variables (o atributos) definidas en los niveles de medición nominal y ordinal. La tabla de contingencia consiste en un cierto número de celdas en las que, como resultado de un proceso de tabulación, se vuelcan las frecuencias (número de casos) correspondientes a cada combinación de valores de varias variables. Cuando se analizan relaciones bivariadas lo importante es determinar si existe alguna relación entre las dos variables
La tabla de contingencia. Análisis de relación entre dos variables COMPONENTES DE UNA TABLA DE CONTINGENCIA Distribuciones marginales Distribuciones condicionales Un total poblacional o muestral TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA Análisis de perfiles o características poblacionales Análisis descriptivo de grupos o segmentos de población
La tabla de contingencia. Análisis de relación entre dos variables ¿Qué significa analizar una tabla asimétricamente? La variable independiente incide sobre la variable dependiente. Los porcentajes se calculan en función de la variable independiente. Cuadro: Misiones, 1980 - Pertenencia de la población por condición de pobreza según tipo de asentamiento (%) Tipo de asentamiento Condición de pobreza URBANO RURAL TOTAL NO POBRE 66, 8 194397 42, 4 122701 54, 6 317098 POBRE 33, 2 96610 57, 6 166814 45, 4 263424 Total 100 291007 100 289515 100 (580522) Frecuencias marginales
Como se lee una tabla de manera asimétrica: Habiendo tomado ‘Tipo de asentamiento’ como variable independiente, se calcularon los porcentajes “en el sentido de esta variable, nuestro “factor causal”. Ello quiere decir que las bases para el cálculo porcentual están dadas por el total de casos para cada valor de la variable independiente. En la celda superior izquierda de la tabla observamos ‘ 66, 8’, y sabemos -por el título - que la cifra corresponde a un porcentaje. La lectura correcta de esta cifra tiene lugar en dos pasos, cada uno de los cuáles supone responder a una pregunta. Lo primero que debemos responder es: “ 66, 8% de qué? (o ¿de quiénes? )”. La única respuesta correcta es: “del 100% constituido por los 291. 007 habitantes urbanos”; es decir, buscamos primero en la tabla dónde está el 100% —en la primera hilera—, y dirigimos luego nuestra vista hacia el encabezamiento de dicha hilera leyendo: ‘Urbano’. Después nos preguntamos ¿Qué sucede con este 66, 8%? ”, y podremos responder: “viven en hogares sin NBI”. A esta segunda pregunta respondimos simplemente dirigiendo nuestra atención hacia el encabezamiento de la columna: ‘No’. Así, el significado de la primera celda puede expresarse: «De todos los habitantes urbanos de Misiones, hay un 66, 8% que pertenece a hogares sin NBI» .
Si intentamos reducir al mínimo la redundancia en la lectura de la tabla, podemos considerar que lo esencial de la información está contenido en los enunciados 2 y 4 (o, indiferentemente, en los 1 y 3). De este modo, destacaremos el sentido fundamental queremos prestarle a los datos: en estas dos cifras -33, 2% y 57, 6%- está resumido lo que la tabla significa para nosotros. Comparando estos dos porcentajes, nuestra lectura pone en evidencia la relación entre las dos variables postulada por nuestra hipótesis: «Mientras que en la población urbana hay un 33, 2% de habitantes en hogares con NBI, entre los pobladores rurales este porcentaje asciende al 57, 6%» . Se corrobora por lo tanto la existencia de una probabilidad diferencial de pertenecer a un hogar con NBI en función del tipo de asentamiento de la población.
Problemas comunes en la lectura de cuadros 1. La lectura del cuadro puede estar mal hecha si no se considera cual fue la base sobre la que se calculo el porcentaje. En cualquier tabla de doble entrada hay tres bases sobre las que se pueden calcular los porcentajes. el total de la columna el total de la fila el total (N) Se comete un error lógico cuando un porcentaje es leído sobre una base que no fue la utilizada para el cálculo. Ejemplo: si del cuadro anterior leyera un 66, 8% de los habitantes de Misiones son urbanos y viven en hogares sin NBI, la lectura da a entender que el porcentaje fue calculado sobre el total de la población provincial, con lo cual el enunciado pasa a ser una proposición falsa. El porcentaje que corresponde a dicha expresión es 33, 5%. Igualmente erróneo sería escribir «En Misiones, un 66, 8 % de las personas pertenecientes a hogares sin NBI residen en asentamientos urbanos» . La construcción de esta frase supone que el 66, 8% fue calculado sobre el total de personas pertenecientes a hogares sin NBI, con lo que el enunciado es también falso (para esta redacción, el porcentaje correcto sería ‘ 61, 3’).
Problemas comunes en la lectura de cuadros 2. Pero también se presentan problemas pragmáticos. Sucede que diferentes redacciones son susceptibles de comunicar distintos significados. Comparemos los siguientes enunciados: a. - «Más de dos tercios de los habitantes urbanos viven en hogares que no presentan NBI b. - « Solamente un 66, 8% de los habitantes urbanos pertenece a hogares sin NBI » . Tanto ‘a’ como ‘b’ expresan correctamente el porcentaje, desde una perspectiva puramente lógica. Sin embargo, es evidente que ambos enunciados no tienen el mismo significado: ciertamente ‘a’ trasunta una visión de la situación más optimista que ‘b’. Podemos probar de eliminar los adverbios en nuestros enunciados ‘a’ y ‘b’, con lo que obtenemos expresiones cuyo valor lingüístico es muy similar: a. « Dos tercios de los habitantes urbanos viven en hogares que no presentan NBI´ b. « Un 66, 8% de los habitantes urbanos pertenece a hogares sin NBI»
La diferencia porcentual. Una medida de la asociación Grado de participación política según conocimiento político Conocimiento político Participación política Bajo Alto Total Alto 6 13 19 Bajo 59 43 102 65 56 121 Total La diferencia porcentual se calcula en la dirección en que se realiza la comparación
La diferencia porcentual. Una medida de la asociación Grado de participación política según conocimiento político Conocimiento político Participación política Bajo Alto Diferencia porcentual Alto 9 23 14 Bajo 91 77 -14 100 N= 121 Total Mientras que en los alumnos de bajo conocimiento sólo hay un 9% con alta participación, entre los de alto conocimiento hay un 23%, es decir, hay un 14% más de alta participación política O se pueden comparar los porcentajes de baja participación: Diciendo que entre en los alumnos de alto conocimiento hay un 14% menos de baja participación respecto a los alumnos de bajo conocimiento
¿Cuándo se utiliza la prueba de Ji cuadrado? En las tablas de contingencia puedo utilizar la diferencia porcentual y observar que entre las categorías de las variables el valor de la misma es del 25%. Esa relación la observo en una muestra, la cual es solamente una de las tantas muestras que se hubieran podido extraer de la población bajo estudio. Tal vez el azar haya sido la razón de que apareciera en la muestra esa diferencia porcentual, cuando en realidad esta relación no se daba en la población. La cuestión que se nos presenta es: ¿Podemos considerar a esa diferencia porcentual del 25% lo suficientemente importante como para asumir que representa una diferencia existente realmente en la población? Cuando nos formulamos este tipo de preguntas, estamos queriendo saber si la relación es estadísticamente significativa. El test de Ji cuadrado es una de las respuestas posibles. 11
¿Qué es la prueba de Ji cuadrado? El test de Ji cuadrado se basa en una medida de cuánto se apartan las frecuencias condicionales observadas en la muestra de lo que serían las frecuencias esperables si no existiera ninguna relación entre las variables. • En muchas situaciones que se presentan en la investigación queremos comparar las frecuencias observadas en la realidad con las frecuencias esperadas que se pueden deducir de un modelo teórico. • La prueba de Ji cuadrado sirve para usar con variables nominales y ordinales. 12
Grado de conocimiento político según participación Si analizamos sólo las frecuencias marginales, no podemos decir nada de la relación entre variables
Grado de conocimiento político según participación Máxima relación posible entre las variables. La totalidad de los estudiantes con bajo conocimiento tienen baja participación Ausencia relación entre las variables. Si calculamos los porcentajes de alta participación son prácticamente idénticos para ambos niveles de conocimiento
Pasos necesarios para el uso e interpretación del Ji cuadrado 1. Calcular x 2 para la tabla a analizar 2. Fijar un nivel de significación (es una decisión arbitraria) 3. Determinar el número de grados de libertad de la tabla 4. Comparar el valor de x 2 en esta tabla con el valor crítico ‘VC’ en la Tabla del x 2 15
1. COMO SE CALCULA JI CUADRADO FORMULA PARA EL CALCULO DE JI CUADRADO X 2
Cálculo de Ji cuadrado Valor de X 2= 4, 43 -En la columna frecuencias observadas se consignan las frecuencias observadas en cada celda -Bajo las frecuencias esperadas observamos los 121 estudiantes distribuidos según un modelo de independencia estadística (ver cálculo) -En la columna (Fo-Fe) se consigna para cada celda la diferencia entre la frecuencia esperada y la observada. -En la columna (Fo-Fe)2 se eleva al cuadrado las diferencias de la anterior columna
Cálculo de Ji cuadrado -Se estandariza cada una de las diferencias dividiendo a cada una de ellas por la frecuencia esperada correspondiente -Se suman todos los valores de la última columna, obteniendo el valor que arroja el X 2 - Por último se suman los valores de la última columna, obteniendo el valor que arroja X 2
¿De dónde salen las frecuencias esperadas? Cuadro de frecuencias observadas n(a) r(a) N
Cuadro de frecuencias esperadas
Como interpreto un valor de x 2 1. Fijar un nivel de significación (es una decisión arbitraria) 2. Determinar el número de grados de libertad de la tabla 3. Comparar el valor de x 2 en esta tabla con el valor crítico ‘VC’ en la Tabla del x 2 21
Nivel de significación o valor P El nivel de significación se refiere a la probabilidad de equivocarnos que estemos dispuestos a aceptar, si por ejemplo elegimos un nivel de significación del 0, 05, equivale a considerar aceptable un riesgo del 5 %. El riesgo consiste en la probabilidad de que dos variables que no estan asociadas en la población si lo estén en los datos muestrales. Los niveles más utilizados son el 0, 05 y el 0, 01
Como interpreto un valor de x 2 2. Determinar el número de grados de libertad de la tabla. Fórmula para el cálculo de los grados de libertad 23
Valores críticos de la tabla de X 2 24
Que pasa si el X 2 de la tabla es mayor que el valor crítico de la tabla? X 2 empírico > que el X 2 teórico (el que sale de la tabla de valores críticos) concluyo que la relación es estadísticamente significativa y rechazo la hipótesis nula. Si por el contrario el X 2 teórico es > que el X 2 empírico, acepto la hipótesis nula y rechazo la hipótesis alternativa. La relación entre las variables no es estadísticamente significativa 25
Prueba de hipótesis Ji cuadrado Ejemplo
Ejemplo de Ji cuadrado Cuadro. Condición de actividad según sexo Para una lectura inicial de esta tabla de contingencia se puede recurrir a la diferencia porcentual. Mientras que entre las mujeres solo hay un 55, 4% que está ocupada, entre los varones son un 59% los ocupados, por lo tanto, hay un 3, 6% más de ocupados entre estos. Por otro lado, también se puede decir que mientras entre los varones sólo hay un 4, 9% que está desocupado, entre las mujeres ese porcentaje asciende a 6, 7%. Por otro lado, también se puede observar que el porcentaje de mujeres inactivas (37, 8%) es superior al porcentaje de varones inactivos (36, 1%). 27
• Chi-Square Tests Grados de libertad Nivel de significación. p valor Ho = No hay relación entre el sexo y la condición de actividad. Ha = Hay relación entre las variables. Nivel de significación a = 0. 05 Grados de libertad: 2 Una vez calculado el test se obtiene un nivel de significación de 0, 69. En tanto que esta probabilidad es claramente superior al nivel de significación a = 0, 05, no podemos rechazar la hipótesis nula. Se puede afirmar que existe una probabilidad alta de cometer Error de Tipo I, el cual consiste en rechazar la hipótesis nula cuando en realidad es verdadera. Hay un 69% de chances que las diferencias entre los porcentajes se deban al azar en la selección de los casos de nuestra muestra y que por ende no esté reflejando una relación real existente en la población. Al asumir un riesgo de 5% yo aceptaba que en ese porcentaje de las infinitas muestras posibles, las variables estuvieron asociadas aún cuando no lo estuvieran en la población. Pero no se puede asumir un 69% de riesgo. La prueba del x² permite afirmar que no existe 28 relación estadística entre la variable sexo y la variable condición de actividad.
- Slides: 28