Regresin lineal mltiple Tema 2 Regina Kaiser Depto

  • Slides: 65
Download presentation
Regresión lineal múltiple Tema 2 Regina Kaiser Depto. Estadística, Universidad Carlos III 1

Regresión lineal múltiple Tema 2 Regina Kaiser Depto. Estadística, Universidad Carlos III 1

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 2

Objetivos o o o Formulación del modelo de regresión múltiple Métodos de estimación para

Objetivos o o o Formulación del modelo de regresión múltiple Métodos de estimación para dichos modelos Tomar decisiones acerca de los parámetros Aprendizaje de utilización de gráficos para detectar el tipo de relación entre las variables Cuantificación del grado de relación lineal Regina Kaiser Depto. Estadística, Universidad Carlos III 3

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 4

Introducción o o o Estudio conjunto de varias variables (más de dos). Varias variables

Introducción o o o Estudio conjunto de varias variables (más de dos). Varias variables independientes xi se utilizan para explicar otra dependiente y Utilizamos toda la información disponible Regina Kaiser Depto. Estadística, Universidad Carlos III 5

El modelo de regresión múltiple o o n observaciones de la forma (xi 1,

El modelo de regresión múltiple o o n observaciones de la forma (xi 1, …, xik, yi) Objetivo: aproximar y a partir de x 1, …, xk : variables independientes o explicativas y: variable dependiente o respuesta (a explicar) Regina Kaiser Depto. Estadística, Universidad Carlos III 6

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 7

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 7

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 8

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 8

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 9

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 9

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 10

Linealidad o Los datos se ajustan aproximadamente a la ecuación: o Con dos variables

Linealidad o Los datos se ajustan aproximadamente a la ecuación: o Con dos variables explicativas: Los datos están aproximadamente contenidos en un plano. En general, en un hiperplano. Regina Kaiser Depto. Estadística, Universidad Carlos III 11

Homogeneidad o El valor promedio de la perturbación es cero, Regina Kaiser Depto. Estadística,

Homogeneidad o El valor promedio de la perturbación es cero, Regina Kaiser Depto. Estadística, Universidad Carlos III 12

Homocedasticidad: Var[ui]=s 2 Varianza de perturbaciones constante Regina Kaiser Depto. Estadística, Universidad Carlos III

Homocedasticidad: Var[ui]=s 2 Varianza de perturbaciones constante Regina Kaiser Depto. Estadística, Universidad Carlos III 13

Independencia o Perturbaciones ui independientes entre sí. o En particular E[uiuj]= 0 para i

Independencia o Perturbaciones ui independientes entre sí. o En particular E[uiuj]= 0 para i ¹ j Regina Kaiser Depto. Estadística, Universidad Carlos III 14

Normalidad o Las perturbaciones siguen distribución normal ui~N(0, s 2) o En consecuencia: Regina

Normalidad o Las perturbaciones siguen distribución normal ui~N(0, s 2) o En consecuencia: Regina Kaiser Depto. Estadística, Universidad Carlos III 15

Otras hipótesis o El número de datos n es mayor que k+1 o Ninguna

Otras hipótesis o El número de datos n es mayor que k+1 o Ninguna variable explicativa es combinación lineal de las demás (las xi son linealmente independientes) Regina Kaiser Depto. Estadística, Universidad Carlos III 16

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 17

Forma matricial del modelo Habitualmente escribimos el modelo como Y = Xb + U

Forma matricial del modelo Habitualmente escribimos el modelo como Y = Xb + U con: o Regina Kaiser Depto. Estadística, Universidad Carlos III 18

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 19

Método de Mínimos Cuadrados Valorobservado Dato(y) Recta de regresión estimada Regina Kaiser Depto. Estadística,

Método de Mínimos Cuadrados Valorobservado Dato(y) Recta de regresión estimada Regina Kaiser Depto. Estadística, Universidad Carlos III 20

Mínimos Cuadrados o Objetivo: Buscar los valores de b 0, b 1, …, bk

Mínimos Cuadrados o Objetivo: Buscar los valores de b 0, b 1, …, bk que mejor ajustan nuestros datos. Ecuación: o Residuo: o Minimizar: o Regina Kaiser Depto. Estadística, Universidad Carlos III 21

Mínimos Cuadrados o Resultado en forma matricial: Regina Kaiser Depto. Estadística, Universidad Carlos III

Mínimos Cuadrados o Resultado en forma matricial: Regina Kaiser Depto. Estadística, Universidad Carlos III 22

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 23

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 23

Interpretación geométrica o Hemos calculado: o Tenemos: o Definimos la matriz: H es idempotente,

Interpretación geométrica o Hemos calculado: o Tenemos: o Definimos la matriz: H es idempotente, simétrica y del mismo rango que X, (k+1). Es una matriz de proyección. Regina Kaiser Depto. Estadística, Universidad Carlos III 24

Interpretación geométrica o H simétrica (obvio) H idempotente o Residuos ortogonales a valores ajustados

Interpretación geométrica o H simétrica (obvio) H idempotente o Residuos ortogonales a valores ajustados o Residuos ortogonales a matriz de diseño X o Regina Kaiser Depto. Estadística, Universidad Carlos III 25

Interpretación geométrica Subespacio vectorial generado por las columnas de X Regina Kaiser Depto. Estadística,

Interpretación geométrica Subespacio vectorial generado por las columnas de X Regina Kaiser Depto. Estadística, Universidad Carlos III 26

Varianza o Para estimar s 2 utilizamos la varianza residual o Es insesgado como

Varianza o Para estimar s 2 utilizamos la varianza residual o Es insesgado como estimador de s 2 y además Regina Kaiser Depto. Estadística, Universidad Carlos III 27

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 28

Propiedades de los estimadores o Normalidad. Sabemos Y=Xb +U, de donde Y~N(Xb, s 2

Propiedades de los estimadores o Normalidad. Sabemos Y=Xb +U, de donde Y~N(Xb, s 2 I). Como también es normal. Esperanza. o Varianza. o Regina Kaiser Depto. Estadística, Universidad Carlos III 29

Propiedades de los estimadores Tenemos La varianza s 2 suele ser desconocida y utilizamos

Propiedades de los estimadores Tenemos La varianza s 2 suele ser desconocida y utilizamos el error estándar estimado Regina Kaiser Depto. Estadística, Universidad Carlos III 30

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 31

Inferencia. Contrastes para b Para averiguar si la variable xi afecta a la respuesta,

Inferencia. Contrastes para b Para averiguar si la variable xi afecta a la respuesta, debemos plantear el contraste Rechazamos la hipótesis nula si: Regina Kaiser Depto. Estadística, Universidad Carlos III 32

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 33

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 33

Inferencia. Int. de confianza para b Podemos construir un intervalo de confianza para b

Inferencia. Int. de confianza para b Podemos construir un intervalo de confianza para b con nivel de confianza 1 -a como Si n > 30 y a = 0. 05, sabemos que tn-k-1, a/2 @ 2. Regina Kaiser Depto. Estadística, Universidad Carlos III 34

Inferencia. Contraste de regresión Igual que en la regresión simple VT=VE+VNE Regina Kaiser Depto.

Inferencia. Contraste de regresión Igual que en la regresión simple VT=VE+VNE Regina Kaiser Depto. Estadística, Universidad Carlos III 35

Inferencia. Contraste de regresión Para averiguar si existe relación lineal entre la variable respuesta

Inferencia. Contraste de regresión Para averiguar si existe relación lineal entre la variable respuesta y las explicativas, realizamos Rechazamos la hipótesis nula si: Regina Kaiser Depto. Estadística, Universidad Carlos III 36

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 37

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 37

Coeficiente de determinación o El coeficiente de determinación se define: o El coeficiente de

Coeficiente de determinación o El coeficiente de determinación se define: o El coeficiente de determinación ajustado es más interesante ya que sólo aumenta si disminuye la varianza residual Regina Kaiser Depto. Estadística, Universidad Carlos III 38

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 39

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 39

Predicción para la media o Buscamos estimador puntual e I. C. para el valor

Predicción para la media o Buscamos estimador puntual e I. C. para el valor medio de la respuesta cuando x=x 0 Regina Kaiser Depto. Estadística, Universidad Carlos III 40

Predicción para la media o El intervalo de confianza para la media que obtenemos

Predicción para la media o El intervalo de confianza para la media que obtenemos es: Regina Kaiser Depto. Estadística, Universidad Carlos III 41

Ejemplo: semiconductores o ¿Cúal sería el I. C. para la respuesta media si la

Ejemplo: semiconductores o ¿Cúal sería el I. C. para la respuesta media si la longitud del cable es 8 y la altura de la estructura es 275? Regina Kaiser Depto. Estadística, Universidad Carlos III 42

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 43

Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III 43

Predicción para una nueva observación o Intervalo de predicción o Ejemplo: semiconductores (long. 8,

Predicción para una nueva observación o Intervalo de predicción o Ejemplo: semiconductores (long. 8, altura 175) Regina Kaiser Depto. Estadística, Universidad Carlos III 44

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 45

Multicolinealidad o o o Problema frecuente que se presenta cuando las variables explicativas son

Multicolinealidad o o o Problema frecuente que se presenta cuando las variables explicativas son muy dependientes entre sí. No es un problema del modelo, sino de los datos, surge cuando det(Xt. X) próximo a cero. Las variables explicativas son significativas en el modelo simple, pero dejan de serlo en el múltiple. Regina Kaiser Depto. Estadística, Universidad Carlos III 46

Índice de condicionamiento o Los autovalores de Xt. X son mayores o iguales que

Índice de condicionamiento o Los autovalores de Xt. X son mayores o iguales que cero, para que haya multicolinealidad, alguno tiene que ser aproximadamente cero. Si 10 £ Ind. Cond. £ 30, multiolinealidad moderada Si Ind. Cond. > 30, multicolinealidad alta Regina Kaiser Depto. Estadística, Universidad Carlos III 47

Ejemplo: Sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III 48

Ejemplo: Sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III 48

Ejemplo: sabor del queso Multicolinealidad moderada Regina Kaiser Depto. Estadística, Universidad Carlos III 49

Ejemplo: sabor del queso Multicolinealidad moderada Regina Kaiser Depto. Estadística, Universidad Carlos III 49

Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III 50

Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III 50

Ejemplo: sabor del queso Regresión simple Láctico Antes 30. 73 Regina Kaiser Depto. Estadística,

Ejemplo: sabor del queso Regresión simple Láctico Antes 30. 73 Regina Kaiser Depto. Estadística, Universidad Carlos III 51

Ejemplo: sabor del queso Regresión simple Acético Antes 3. 9 Regina Kaiser Depto. Estadística,

Ejemplo: sabor del queso Regresión simple Acético Antes 3. 9 Regina Kaiser Depto. Estadística, Universidad Carlos III 52

Ejemplo: sabor del queso Regresión simple: H 2 S Antes 1. 2 Regina Kaiser

Ejemplo: sabor del queso Regresión simple: H 2 S Antes 1. 2 Regina Kaiser Depto. Estadística, Universidad Carlos III 53

Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III 54

Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III 54

Ejemplo: sabor del queso Regresión múltiple: Acético y H 2 S Sabor Acético +

Ejemplo: sabor del queso Regresión múltiple: Acético y H 2 S Sabor Acético + H 2 S 64. 5% H 2 S 57. 11% Regina Kaiser Acético 50. 61% Depto. Estadística, Universidad Carlos III 55

Ejemplo: sabor del queso Regresión múltiple: Láctico y H 2 S Sabor Láctico +

Ejemplo: sabor del queso Regresión múltiple: Láctico y H 2 S Sabor Láctico + H 2 S 65. 1% H 2 S 57. 11% Regina Kaiser Láctico 49. 59% Depto. Estadística, Universidad Carlos III 56

Ejemplo: sabor del queso Regresión múltiple: Láctico y Acético Sabor Láctico + Acético 50.

Ejemplo: sabor del queso Regresión múltiple: Láctico y Acético Sabor Láctico + Acético 50. 7% Láctico Acético 49. 59% Regina Kaiser Depto. Estadística, Universidad Carlos III 57

Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III 58

Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III 58

Ejemplo: sabor del queso Regresión múltiple: Láctico y H 2 S Sabor Láctico +

Ejemplo: sabor del queso Regresión múltiple: Láctico y H 2 S Sabor Láctico + H 2 S 65. 1% H 2 S 57. 11% Regina Kaiser Láctico 49. 59% Depto. Estadística, Universidad Carlos III 59

Diagnosis o o Más compleja que en la regresión simple. Gráficos de residuos frente

Diagnosis o o Más compleja que en la regresión simple. Gráficos de residuos frente a valores previstos para detectar falta de linealidad y heterocedasticidad. Gráficos probabilísticos (pp-plots) para los residuos para detectar falta de normalidad. Análisis de datos influyentes. Regina Kaiser Depto. Estadística, Universidad Carlos III 60

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad,

Descripción breve del tema 1. Introducción 2. Hipótesis del modelo n Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. 4. 5. 6. 7. 8. Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III 61

Variables dicotómicas En un muestra pueden aparecer grupos de observaciones. Ejemplo: En una muestra

Variables dicotómicas En un muestra pueden aparecer grupos de observaciones. Ejemplo: En una muestra de alumnos los grupos pueden venir dados por el sexo. Regina Kaiser Depto. Estadística, Universidad Carlos III 62

Variables dicotómicas o Podemos introducir variables ficticias, dicotómicas o dummies del siguiente modo: Regina

Variables dicotómicas o Podemos introducir variables ficticias, dicotómicas o dummies del siguiente modo: Regina Kaiser Depto. Estadística, Universidad Carlos III 63

Variables dicotómicas Regina Kaiser Depto. Estadística, Universidad Carlos III 64

Variables dicotómicas Regina Kaiser Depto. Estadística, Universidad Carlos III 64

Variables politómicas o o En numerosas ocasiones las variables cualitativas toman valores en más

Variables politómicas o o En numerosas ocasiones las variables cualitativas toman valores en más de dos características. Si tenemos s categorías, introducimos s-1 variables dicotómicas zt Regina Kaiser Depto. Estadística, Universidad Carlos III 65