Curso de Estadstica Bsica SESION 6 ANLISIS DESCRIPTIVO
Curso de Estadística Básica SESION 6 ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS DE DOS VARIABLES MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez Estadística Básica
Objetivo Representar datos de dos variables de forma tabular y gráfica. Comprender la distinción entre los propósitos básicos del análisis de correlación y regresión lineal. (Sesión 6 y 7) Estadística Básica
Agenda Sesión 6 • • Datos de dos variables Correlación lineal (Sesión 6) Regresión lineal (Sesión 7) Evaluación (Sesión 7) Estadística Básica
Casos • A medida que una persona crece, por lo general aumenta de peso. Alguien podría preguntar, “¿existe alguna relación entre la estatura y el peso? ” • Médicos dedicados a la investigación, prueban fármacos nuevos y obsoletos prescribiendo dosis diferentes en pacientes y observando sus respuestas. Una de las preguntas podría ser, “¿la dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente? ” Estadística Básica
Datos de dos variables Estos datos constan de los valores de dos variables respuesta diferentes que se obtienen del mismo elemento de la población. Cada una puede ser cualitativa o cuantitativa. Como resultado, los datos bivariados pueden formarse mediante tres combinaciones de variable: 1. Ambas variables son cualitativas (de atributo) 2. Una variable es cualitativa y otra cuantitativa (numérica) 3. Ambas variables son cuantitativas Estadística Básica
Dos variables cualitativas Cuando los datos bivariados resultan de dos variables cualitativas, los datos se disponen en una tabla cruzada o de contingencia. Estadística Básica
Ejemplo Treinta estudiantes de una Universidad fueron identificados y clasificados aleatoriamente según dos variables: • Género (M/F) • Especialización (Filosofía y Letras, Administración de Empresas, Tecnología) A continuación se muestran los datos en la tabla: Estadística Básica
Estadística Básica
Tabla cruzada Estos datos pueden resumirse en una tabla cruzada o de contingencia de 2 x 3 donde se presenta la frecuencia para cada categoría cruzada de las dos variables junto con los totales por renglón y por columna denominados totales marginales (o marginales). El total de los totales marginales es el gran total y es igual a n, el tamaño de la muestra. Estadística Básica
Tabla cruzada Estadística Básica
Frecuencias relativas Las tablas de contingencia a menudo presentan porcentajes (frecuencias relativas). Estos porcentajes pueden estar basados en toda la muestra o en las clasificaciones de la submuestra (renglones o columnas). Estadística Básica
Porcentajes basados en el gran total (toda la muestra) La tabla de contingencia puede convertirse fácilmente en porcentajes del gran total, al dividir cada frecuencia entre el gran total y multiplicar por 100 el resultado. Estadística Básica
Porcentajes basados en el gran total Con la tabla de contingencia expresada en porcentajes puede verse fácilmente que el 60% de la muestra son hombres, 40% mujeres, 30% están especializándose en tecnología, etc. Estadística Básica
Porcentajes basados en los totales por renglón Los elementos de la misma tabla de contingencia pueden expresarse como porcentajes de los totales por renglón (o género), al dividir cada elemento del renglón entre el total de éste y multiplicar por 100 el resultado. Estadística Básica
Porcentajes basados en los totales por renglón En la tabla anterior se observa que el 28% de los hombres están especializándose en Filosofía y Letras, mientras que el 42% de las mujeres están especializándose en la misma área. Estadística Básica
Porcentajes basados en los totales por columna Los elementos de la tabla de contingencia también pueden expresarse como porcentajes de los totales por columna (o especialización), al dividir cada elemento de la columna entre el total de ésta y multiplicar por 100 el resultado. Estadística Básica
Porcentajes basados en los totales por columna Con base en la tabla anterior, se observa que de todos los estudiantes de Filosofía y Letras, la mitad son hombres y la otra mitad son mujeres. Estadística Básica
Una variable cualitativa y otra cuantitativa Cuando los datos bivariados se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa. Se aplica la estadística descriptiva vista en sesiones anteriores como, la media, varianza, desviación estándar, Q 1, mediana, Q 3, etc. , y los resultados se presentan uno junto al otro para efectos de comparación. Estadística Básica
Ejemplo Para comparar la capacidad de frenado de tres diseños de bandas de rodamiento, se midió la distancia necesaria para detener un automóvil de 3000 libras que se desplazaba sobre pavimento húmedo. Los neumáticos de cada diseño fueron probados en el mismo vehículo que circulaba sobre un pavimento húmedo controlado. Estadística Básica
Nota El diseño de la banda de rodamiento es una variable cualitativa con tres niveles de respuesta y la distancia de frenado es una variable cuantitativa. La distribución de las distancias de frenado del diseño A, de la banda de rodamiento, debe compararse con las distribuciones de las distancias de frenado de cada uno de los diseños de la banda. Esta comparación puede efectuarse aplicando técnicas numéricas y gráficas. Estadística Básica
Resumen de cinco puntos para cada diseño Estadística Básica
Dos variables cuantitativas Cuando los datos bivariados son resultado de dos variables cuantitativas, los datos matemáticos suelen expresarse como pares ordenados (x, y), donde x es la variable de entrada (variable independiente) y y es la variable de salida (variable dependiente). En los problemas en que intervienen dos variables cuantitativas, los datos de la muestra se presentan gráficamente en un diagrama de dispersión Estadística Básica
Diagrama de dispersión Es la gráfica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados. La variable de entrada, x, se grafica en el eje horizontal y la variable de salida, y, se grafica en el eje vertical. Estadística Básica
Ejemplo En la clase de educación física del señor Torres, se tomaron varios puntajes de condición física. La muestra siguiente es el número de “lagartijas” y “sentadillas” realizadas por 10 estudiantes elegidos aleatoriamente: En la siguiente tabla se presentan estos datos muestrales y un diagrama de dispersión de los datos Estadística Básica
Estadística Básica
Correlación Lineal El objetivo primordial del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables. Se aplica en datos cuantitativos que muestran diferentes relaciones entre variables independientes o de entrada, x, y variables dependientes o de salida, y. Si a medida que crece x no hay un cambio definido en los valores de y, se dice que no hay correlación o relación entre x y y. Si a medida que crece x, hay un cambio en los valores de y, existe una correlación. La correlación es positiva cuando y tiende a crecer, y es negativa cuando y tiende a decrecer. Si los pares ordenados (x, y) tienden a seguir un patrón de línea recta, se tiene una correlación lineal. La precisión del cambio en y cuando crece x, determina la intensidad de la correlación lineal. Estadística Básica
Estadística Básica
Coeficiente de correlación lineal El coeficiente de correlación lineal r, es la medida numérica de la intensidad de la relación lineal entre dos variables. El coeficiente refleja la consistencia del efecto que el cambio en una variable tiene sobre la otra. Este valor ayuda a responder a la pregunta ¿Existe una correlación lineal entre las dos variables en consideración? El coeficiente de correlación lineal, r, siempre tiene un valor entre -1 y +1. Un valor de +1 significa una correlación positiva perfecta, y un valor de -1 indica una correlación negativa perfecta. Estadística Básica
Cálculo de r El valor de r está definido por la fórmula producto momento de Pearson: Donde: Son las desviaciones estándar de las variables x y y Estadística Básica
Cálculo de r El valor de r se puede calcular con una fórmula alternativa equivalente al momento de Pearson como: Donde: Estadística Básica
Ejemplo Encuentre el coeficiente de correlación lineal para los datos de “lagartijas” y “sentadillas” mostrados anteriormente. Solución: Primero, es necesario, elaborar una tabla de extensiones enumerando todos los pares de valores (x, y) para poder encontrar las extensiones x 2, xy y y 2, así como los totales en cada una de las cinco columnas. Estadística Básica
Tabla de extensiones Estadística Básica
Cálculos A continuación se realizan los preliminares, sustituyendo las cinco sumatorias de la tabla de extensiones en sus correspondientes fórmulas: Estadística Básica
Cálculo de r Finalmente se sustituyen las tres sumas de cuadrados en el cálculo de r y se obtiene el valor del coeficiente de correlación. Nota: El valor de r suele redondearse a la centésima más próxima Estadística Básica
Conclusión El valor del coeficiente de correlación lineal calculado ayuda a responder a la pregunta: “¿existe una correlación lineal entre las dos variables en consideración? ”. Cuando el valor calculado de r está próximo a cero, se concluye que hay poca correlación lineal o que no hay correlación lineal. A medida que el valor calculado de r cambia de 0 a +1 ó -1, indica una correlación lineal cada vez más fuerte entre las dos variables. Desde el punto de vista gráfico, al calcular r, se mide qué tan bien una recta describe el diagrama de dispersión de los pares ordenados. Cuando el valor de r cambia de 0 a +1 ó -1, los puntos de datos que crean un patrón se acercan más a una recta. Estadística Básica
Estimación visual del coeficiente de correlación lineal El siguiente método para estimar r es rápido y en general produce un estimado razonable cuando la “ventana de datos” es aproximadamente cuadrada. Procedimiento 1. Coloque dos lápices sobre su diagrama de dispersión. Manténgalos paralelos y muévalos de modo que estén lo más cerca posible, de modo que todos los puntos del diagrama de dispersión están entre ellos. 2. Visualice una región rectangular acotada por los dos lápices y que termina de manera justa en los puntos extremos del diagrama de dispersión. Estadística Básica
Ventana de datos Estadística Básica
Estimación visual del coeficiente de correlación lineal 3. Estime cuántas veces más largo que ancho es el rectángulo. Una forma fácil de hacerlo es marcar mentalmente cuadrados en el rectángulo. Denomine k a este número de múltiplos. k=2. 5 Estadística Básica
Estimación visual del coeficiente de correlación lineal 4. El valor de r puede estimarse como: 5. El signo de r se determina por la posición general del largo de la región rectangular. Si el largo está en posición creciente, r es positivo; si está en posición decreciente, r es negativo. Si el rectángulo está en posición horizontal o vertical, entonces r es cero, sin importar la razón del largo al ancho. Estadística Básica
Estimación de r para la relación entre el número de lagartijas y sentadillas k=4 Estadística Básica
Cálculo de r Estadística Básica
Coeficientes de correlación lineal Estadística Básica
Problema Suponga que la compañía Trigos Excelentes, S. A. le haya pedido a varios de sus representantes regionales trabajar tiempo extra para incrementar las ventas. Usted no está convencido de que el tiempo extra sea necesario, ni que las horas extras estén correlacionadas con el incremento de ventas. La siguiente tabla de datos muestra el número de horas mensuales que los representantes trabajaban anteriormente junto con el promedio de ventas. La tabla de datos también muestra el incremento de horas y las nuevas ventas. Compare el incremento de horas con el incremento de ventas para determinar si están correlacionados. Estadística Básica
Problema Estadística Básica
- Slides: 44