Coeficiente de correlacin y coeficiente de determinacin Decimos

  • Slides: 16
Download presentation
Coeficiente de correlación y coeficiente de determinación Decimos que dos variables, X e Y,

Coeficiente de correlación y coeficiente de determinación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente e Y la dependiente (Y “depende” de X). La relación puede ser claramente causal o no. • Mayor presupuesto es causal de mayor investigación. (X es la “causa” de Y) • La presencia del campo gravitatorio de una masa afecta al tiempo y al espacio. La gravedad hace que los relojes atrasen. Un reloj en la superficie de la Tierra atrasa con respecto a un reloj en la Luna ya que el campo gravitatorio en la superficie terrestre es mayor que el de la lunar. La diferencia es pequeña, pero puede medirse • La relación altura – peso tiene parte de causalidad, pero también existen otros factores. (X y otros factores son la causa de Y) Cuando se hacen correlaciones hay que analizar bien el fenómeno para no caer en errores

Correlaciones espuria Hay que evitar las denominadas correlaciones espúreas o espurias, es decir, que

Correlaciones espuria Hay que evitar las denominadas correlaciones espúreas o espurias, es decir, que llevan a conclusiones erróneas. Ocurren cuando dos variables, X e Y, son realmente independientes entre sí, pero dependientes ambas de una misma causa común, Z. X Y Z

Puntos de dispersión Un conjunto de variables X e Y los podemos representar en

Puntos de dispersión Un conjunto de variables X e Y los podemos representar en un diagrama de dispersión que nos dará una idea de la gráfica y la posible correlación entre ambas variables. Y Y X No hay correlación Y X Correlación positiva X Correlación negativa

Algunos tipos de correlaciones Modelo Lineal Correlación lineal positiva Correlación lineal negativa • Potencial

Algunos tipos de correlaciones Modelo Lineal Correlación lineal positiva Correlación lineal negativa • Potencial • Logarítmica • Otros tipos • Potencial inversa • Exponencial positiva • Exponencial negativa • Otros tipos

Recta que mejor se ajusta: Método de mínimos cuadrados • La recta de regresión

Recta que mejor se ajusta: Método de mínimos cuadrados • La recta de regresión es la que se obtiene a partir de los de puntos de dispersión y es la que representa mejor la distribución de esos puntos como modelo lineal. • Se suele emplear el método de los Mínimos Cuadrados, que consiste en encontrar aquella recta tal que la suma de los cuadrados de las distancias, di, de los puntos a la recta sea la mínima posible. y d 10 d 8 d 5 d 3 d 1 d 9 d 6 x d 4 d 2 • Bajo esta condición se puede demostrar que la pendiente, b, y la ordenada en el origen, a, se determinan mediante:

Ejemplo 1. Regresión Lineal Tiempo (s) Distancia(m) 1 3 2 6 3 9 4

Ejemplo 1. Regresión Lineal Tiempo (s) Distancia(m) 1 3 2 6 3 9 4 12 5 15

Covarianza Retroalimentado, recordemos…. Media aritmética: Suma de los valores que toma una variable dividida

Covarianza Retroalimentado, recordemos…. Media aritmética: Suma de los valores que toma una variable dividida entre el número total, n, de valores sumados. Varianza: Es una medida de lo que se dispersan los valores de una muestra respecto de su media. Se determina con cualquiera de las formulas equivalentes siguientes: La varianza, V, es también el cuadrado de la desviación típica, S. Cuando se trata de una distribución bidimensional. . . Covarianza: Es una medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio de la x como del valor medio de la y. Se determina mediante la expresión:

Coeficiente de Correlación de Pearson, r • El coeficiente de correlación de Pearson, r,

Coeficiente de Correlación de Pearson, r • El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de los puntos de dispersión a la recta de regresión obtenida es satisfactoria. • Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raiz cuadrada de las varianzas) • Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:

Grado de Correlación • El coeficiente de correlación, r, presenta valores entre – 1

Grado de Correlación • El coeficiente de correlación, r, presenta valores entre – 1 y +1. • Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión. • Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente. • Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente. No hay correlación Hay correlación no lineal Correlación lineal positiva Correlación lineal negativa

Coeficiente de Determinación, R 2 • Para una estimación de un mejor ajuste frecuentemente

Coeficiente de Determinación, R 2 • Para una estimación de un mejor ajuste frecuentemente se prefiere utilizar el Coeficiente de Determinación, R 2, que es el Coeficiente de Correlación elevado al cuadrado. • Se determina mediante cualquiera de las dos expresiones siguientes: • Su valor oscila entre 0 y +1. • Cuando hay una buena correlación lineal, R 2 es muy cercano a +1. Normalmente se acepta para valores de R 2 >= 0’ 99. • Cuando no hay correlación o bien ésta no es lineal, R 2 es bajo e incluso cercano a cero

Funciones no Lineales Antes de proceder a la regresión, hay que transformar la ecuación

Funciones no Lineales Antes de proceder a la regresión, hay que transformar la ecuación no lineal, y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x, a y b respectivamente. Modelo Potencial Exponencial Logarítmico Ecuación Linealizada -----Log y Ln y y Gráfica Log x x Log x Y Log y Ln y y X Log x x Log x A Log a Ln a a B b b b a b A B B B

Ejemplo 5: El Péndulo de Galileo Una de las principales aportaciones de Galileo Galilei

Ejemplo 5: El Péndulo de Galileo Una de las principales aportaciones de Galileo Galilei (15641642), fue encontrar la relación entre el tiempo o periodo de oscilación de un péndulo y su longitud. Esto permitió construir por primera vez en la historia relojes de gran precisión basados en péndulos. Dicen que la idea de correlacionar estas variables se le ocurrió en la iglesia de su ciudad natal, Pisa, mientras, absorto, observaba cómo oscilaban las lámparas del techo. . . Estos datos podrían corresponder a un hipotético experimento realizado por Galileo. . . (c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

Las deducciones de Galileo Para encontrar el modelo que relaciona periodo de oscilación, T,

Las deducciones de Galileo Para encontrar el modelo que relaciona periodo de oscilación, T, con la longitud del péndulo, L, Galileo bien pudo hacer las siguientes deducciones. . . No es lineal No es exponencial Tampoco es logarítmica Es potencial

Cálculos de la Regresión Potencial para el Péndulo de Galileo Como vamos a ajustar

Cálculos de la Regresión Potencial para el Péndulo de Galileo Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y. Por lo demás se procede exactamente igual a una regresión lineal, ajustando a una expresión del tipo Y = A + BX. Por último, de B y A calculados se despejan b y a respectivamente.

Ley del Péndulo Se deduce que. . . Generalizando. . . El periodo de

Ley del Péndulo Se deduce que. . . Generalizando. . . El periodo de oscilación de un péndulo es proporcional a la raíz cuadrada de su longitud

Bibliografía Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

Bibliografía Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)