Grado en Ingeniera Asignatura Estadstica Tema Regresin Grado

  • Slides: 69
Download presentation
Grado en Ingeniería Asignatura: Estadística. Tema: Regresión. Grado en Ingeniería. Estadística. Tema 4

Grado en Ingeniería Asignatura: Estadística. Tema: Regresión. Grado en Ingeniería. Estadística. Tema 4

Regresión Introducción. Relaciones no deterministas. Regresion simple. Modelo. Estimación. Diagnosis. Regresion múltiple. Gráficos de

Regresión Introducción. Relaciones no deterministas. Regresion simple. Modelo. Estimación. Diagnosis. Regresion múltiple. Gráficos de dispersión múltiples. Estimación. Diagnosis. Previsiones. Multicolinealidad. Variables ficticias (dummy). Número de transparencia: 2 Grado en Ingeniería. Estadística. Tema 4

Objetivos Ø Saber analizar las relaciones entre variables a través de un modelo de

Objetivos Ø Saber analizar las relaciones entre variables a través de un modelo de regresión lineal que describa cómo influye una variable X sobre otra variable Y. Ø Saber obtener estimaciones puntuales de los parámetros de dicho modelo. Ø Saber construir intervalos de confianza y resolver contrastes sobre dichos parámetros. Ø Saber estimar el valor promedio de Y para un valor de X. Ø Saber predecir futuros valores de la variable respuesta Y. Número de transparencia: 3 Grado en Ingeniería. Estadística. Tema 4

Relaciones entre variables La regresión estudia relaciones entre variables. Qué tipo de relaciones entre

Relaciones entre variables La regresión estudia relaciones entre variables. Qué tipo de relaciones entre variables pueden existir: -Relaciones deterministas (exactas). - Relaciones no deterministas (no exactas). Número de transparencia: 4 Grado en Ingeniería. Estadística. Tema 4

Relaciones deterministas Diremos que una relación entre dos variables es determinista cuando al conocer

Relaciones deterministas Diremos que una relación entre dos variables es determinista cuando al conocer el valor de una de las variables podemos conocer exactamente el valor de la otra. Corresponden a una relación matemática exacta, una función. Y = f(x) Número de transparencia: 5 Grado en Ingeniería. Estadística. Tema 4

Relaciones no deterministas La relación entre las dos variables no es exacta. Conocido el

Relaciones no deterministas La relación entre las dos variables no es exacta. Conocido el valor de una de las variables, no podemos conocer el valor exacto de la otra. Sabemos que existe relación entre las variables pero no es exacta. Número de transparencia: 6 Grado en Ingeniería. Estadística. Tema 4

Regresión ¿Qué hace la regresión? Crea un modelo lineal para simular la relación entre

Regresión ¿Qué hace la regresión? Crea un modelo lineal para simular la relación entre variables. La relación no es exacta y el modelo no es exacto, pero es muy útil. Número de transparencia: 7 Grado en Ingeniería. Estadística. Tema 4

Regresión: residuos Si la relación no es exacta, siempre cometeremos un cierto error. e

Regresión: residuos Si la relación no es exacta, siempre cometeremos un cierto error. e = residuo La distancia de cada punto (real) a la recta es la parte que el modelo no puede predecir. Estimaremos la recta de regresión para que los errores que cometemos sean mínimos (Estimación por Mínimos Cuadrados), exigiendo que el error medio sea cero. Número de transparencia: 8 Grado en Ingeniería. Estadística. Tema 4

¿Cómo se calcula la recta de regresión? Número de transparencia: 9 Grado en Ingeniería.

¿Cómo se calcula la recta de regresión? Número de transparencia: 9 Grado en Ingeniería. Estadística. Tema 4

¿Cómo denominamos a las variables? X Y Independiente Explicativa Dependiente Respuesta A explicar Es

¿Cómo denominamos a las variables? X Y Independiente Explicativa Dependiente Respuesta A explicar Es el valor que conocemos Es lo queremos predecir Número de transparencia: 10 Grado en Ingeniería. Estadística. Tema 4

Regresión: un ejemplo Analicemos la relación entre los costes de producción en un proceso

Regresión: un ejemplo Analicemos la relación entre los costes de producción en un proceso y la cantidad de piezas producidas. Y = coste de producción, X = piezas producidas. Calcularemos la recta con Statgraphics Número de transparencia: 11 Grado en Ingeniería. Estadística. Tema 4

Regresión: un ejemplo coste prod = 0, 783429 + 0, 669509*piezas producidas Número de

Regresión: un ejemplo coste prod = 0, 783429 + 0, 669509*piezas producidas Número de transparencia: 12 Grado en Ingeniería. Estadística. Tema 4

Regresión: un ejemplo coste prod = 0, 783429 + 0, 669509*piezas producidas Por tanto,

Regresión: un ejemplo coste prod = 0, 783429 + 0, 669509*piezas producidas Por tanto, una empresa que produzca un millón de unidades tendrá unos costes de: coste prod = 0, 783429 + 0, 669509* 1 = 1, 45 millones €. ¿Todas las empresas con ese volumen de producción tienen el mismo coste? Número de transparencia: 13 Grado en Ingeniería. Estadística. Tema 4

Regresión: un ejemplo ¿Todas las empresas con ese volumen de producción tienen el mismo

Regresión: un ejemplo ¿Todas las empresas con ese volumen de producción tienen el mismo coste? ? Hay un rango de variación del coste, de 2, 8 a 4, 8 milllones de €. En concreto, para la empresa donde trabajo: coste prod = 1, 66 millones. Pero el modelo dice: coste prod = 0, 783429 + 0, 669509* 1 = 1, 46 millones €. Por tanto, el error que cometemos será 1, 66 – 1, 46 = 0, 2 millones. Número de transparencia: 14 Grado en Ingeniería. Estadística. Tema 4

Hipótesis del modelo ¿Podemos aplicar el modelo de regresión a todos los tipos de

Hipótesis del modelo ¿Podemos aplicar el modelo de regresión a todos los tipos de datos? No, para que las conclusiones de nuestro modelos sean las correctas, los datos que manejamos deben cumplir: 1. 2. 3. 4. Linealidad. Homocedasticidad. Independencia. Normalidad. Número de transparencia: 15 Grado en Ingeniería. Estadística. Tema 4

Linealidad Esta es una hipótesis fundamental. Los datos deben seguir una tendencia lineal, estar

Linealidad Esta es una hipótesis fundamental. Los datos deben seguir una tendencia lineal, estar altamente correlacionados. Número de transparencia: 16 Grado en Ingeniería. Estadística. Tema 4

Linealidad: ¿qué pasa si los datos no son lineales? La regresión no representará correctamente

Linealidad: ¿qué pasa si los datos no son lineales? La regresión no representará correctamente la relación entre los datos. Si nuestros datos no son lineales, podemos buscar una transformación matemática (log, sqrt…) que mejore su linealidad. Número de transparencia: 17 Grado en Ingeniería. Estadística. Tema 4

Homocedasticidad Esta hipótesis consiste en asegurar que nuestros datos tienen varianza constante, es decir

Homocedasticidad Esta hipótesis consiste en asegurar que nuestros datos tienen varianza constante, es decir la gráfica debe ser • Cuando la varianza de los datos es constante se dice que son HOMOCEDÁSTICOS. • ¿Qué sucede si los datos son no son homocedásticos? Número de transparencia: 18 Grado en Ingeniería. Estadística. Tema 4

Homocedasticidad: datos heterocedásticos Cuando la varianza no es constante, se dice que los datos

Homocedasticidad: datos heterocedásticos Cuando la varianza no es constante, se dice que los datos son HETEROCEDÁSTICOS. ¿Cómo afecta esto a la regresión? Los errores en la previsión serían más grandes a medida que aumenta el valor de las variables! No se debe aplicar regresión a datos heterocedásticos. Hay que transformarlos (por ejemplo, LOG). Número de transparencia: 19 Grado en Ingeniería. Estadística. Tema 4

Comprobación de la linealidad y homocedasticidad La comprobación de las hipótesis de linealidad y

Comprobación de la linealidad y homocedasticidad La comprobación de las hipótesis de linealidad y homocedasticidad podemos realizarla mediante un análisis grafico (gráficos de dispersión) de nuestros datos. Si los datos cumplen estas hipótesis podemos continuar nuestro análisis. Número de transparencia: 20 Grado en Ingeniería. Estadística. Tema 4

Independencia Exigimos que los datos que estamos analizando sean independientes unos de otros: -

Independencia Exigimos que los datos que estamos analizando sean independientes unos de otros: - Si analizamos los costes en función del volumen de producción para distintas fábricas, asumimos que los datos de una fabrica no afectan a los de otra. - NO pueden analizarse con regresión valores de una secuencia temporal, ya que cada dato depende del anterior. Número de transparencia: 21 Grado en Ingeniería. Estadística. Tema 4

Normalidad La última de las hipótesis del modelo exige que los datos que analizamos

Normalidad La última de las hipótesis del modelo exige que los datos que analizamos sean normales. ¿Qué significa esto? Hemos dicho que para cada valor de X, la Y toma valores en un cierto rango. Asumimos que los valores que Y toma para cada valor de X siguen una distribución normal. Número de transparencia: 22 Grado en Ingeniería. Estadística. Tema 4

El modelo Si los datos cumplen las hipótesis que hemos formulado, ya podemos estimarlo:

El modelo Si los datos cumplen las hipótesis que hemos formulado, ya podemos estimarlo: coste prod = 0, 783429 + 0, 669509*piezas producidas Número de transparencia: 23 Grado en Ingeniería. Estadística. Tema 4

El modelo coste prod = 0, 783429 + 0, 669509*piezas producidas b 0 Es

El modelo coste prod = 0, 783429 + 0, 669509*piezas producidas b 0 Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real). b 1 El signo “+” nos indica que las dos variables crecen a la vez El signo “-” nos indica que, si una variable crece, la otra decrece. Además, nos dice cómo crece la Y cuando lo hace la X. DY = b 1 DX. Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las piezas producidas aumentan en un millón? D(coste prod) = 0, 669509*D (piezas producidas) = 0, 67 millones. Número de transparencia: 24 Grado en Ingeniería. Estadística. Tema 4

Regresión: un problema…. En regresión partimos de una muestra de datos y a partir

Regresión: un problema…. En regresión partimos de una muestra de datos y a partir de ella estimamos el modelo. coste prod = 0, 783429 + 0, 669509*piezas producidas Número de transparencia: 25 Grado en Ingeniería. Estadística. Tema 4

Regresión: un problema…. Si variamos la muestra, cambiarán los parámetros del modelo (los números

Regresión: un problema…. Si variamos la muestra, cambiarán los parámetros del modelo (los números que hemos calculado). ¿Es posible elegir una muestra que nos de esta gráfica? Si esto sucede, la pendiente de la recta b 1 sera cero y se dice que LA REGRESIÓN NO ES SIGNIFICATIVA. Número de transparencia: 26 Grado en Ingeniería. Estadística. Tema 4

Regresión: un problema…. Queremos estar seguros de que nuestra regresión es válida independientemente de

Regresión: un problema…. Queremos estar seguros de que nuestra regresión es válida independientemente de la muestra considerada. Queremos estar seguros de que la regresión vale para toda la población estudiada y no solo para una muestra concreta. QUEREMOS ASEGURARNOS DE QUE b 1 NUNCA VALE CERO. Número de transparencia: 27 Grado en Ingeniería. Estadística. Tema 4

Análisis de significación Para analizar si b 1 es cero, tenemos tres herramientas: Intervalos

Análisis de significación Para analizar si b 1 es cero, tenemos tres herramientas: Intervalos de confianza. Contrastes de Hipótesis: Estadístico t. p-valor. Número de transparencia: 28 Grado en Ingeniería. Estadística. Tema 4

Intervalos de confianza Calcularemos un rango donde estará la estimación del verdadero valor de

Intervalos de confianza Calcularemos un rango donde estará la estimación del verdadero valor de b 1, cualquiera que sea la muestra que tomemos. Esto lo aseguramos con una cierta probabilidad (generalmente el 95%). b 1 -2 x. SE(b 1) b 1 +2 x. SE(b 1) Si el valor 0 no pertence al intervalo, el parámetro es significativo. Número de transparencia: 29 Grado en Ingeniería. Estadística. Tema 4

Intervalos de confianza coste prod = 0, 783429 + 0, 669509*piezas producidas (b 1

Intervalos de confianza coste prod = 0, 783429 + 0, 669509*piezas producidas (b 1 -2 x. SE(b 1) ; b 1 +2 x. SE(b 1) ) ( 0, 67 -2*0, 7; 0, 67+2*0, 7) = (0, 53; 0, 81) El 0 no pertenece al intervalo, el parámetro es significativo. Número de transparencia: 30 Grado en Ingeniería. Estadística. Tema 4

Contrastes de hipótesis Una alternativa para asegurar que b 1 no es cero es

Contrastes de hipótesis Una alternativa para asegurar que b 1 no es cero es plantear un contraste según la forma estándar: H 0: b 1 =0, H 1: b 1 ≠ 0. Statgraphics nos da el p-valor de este contraste. p<0. 05 Rechazamos Ho La regresión es significativa. Número de transparencia: 31 Grado en Ingeniería. Estadística. Tema 4

Contrastes de hipótesis: Prueba de la t Aun tenemos una alternativa al p valor

Contrastes de hipótesis: Prueba de la t Aun tenemos una alternativa al p valor para resolver el contraste: H 0: b 1 =0 H 1: b 1 ≠ 0 p<0. 05 Rechazamos Ho La regresion es significativa Número de transparencia: 32 Grado en Ingeniería. Estadística. Tema 4

Contrastes de hipótesis: Prueba de la t Aún tenemos una alternativa al p-valor para

Contrastes de hipótesis: Prueba de la t Aún tenemos una alternativa al p-valor para resolver el contraste: H 0: b 1 =0, H 1: b 1 ≠ 0. |t|>2 rechazamos Ho, |t|<2 aceptamos Ho. |t|>2 Rechazamos Ho La regresión es significativa. Número de transparencia: 33 Grado en Ingeniería. Estadística. Tema 4

¿Es bueno mi modelo? ¿Cuánto? -> R 2 El coeficiente R 2 indica cuánto

¿Es bueno mi modelo? ¿Cuánto? -> R 2 El coeficiente R 2 indica cuánto de Y es explicado por X Ejemplo: R 2=71. 76% R 2 = coeficiente de correlación muestral al cuadrado. Número de transparencia: 34 Grado en Ingeniería. Estadística. Tema 4

Resumen Estudiamos los datos y vemos si cumplen las hipótesis. Si no las cumplen,

Resumen Estudiamos los datos y vemos si cumplen las hipótesis. Si no las cumplen, transformamos. Ajustamos el modelo. Intervalos y contrastes para ver si X es significativa (INFLUYE) sobre Y. Número de transparencia: 35 Grado en Ingeniería. Estadística. Tema 4

Diagnosis Las decisiones que podemos tomar gracias a la información aportada por un modelo

Diagnosis Las decisiones que podemos tomar gracias a la información aportada por un modelo de regresión son importantes. Necesitamos estar seguros de que nuestras conclusiones son correctas. Para ello: Contrastes, intervalos de confianza…. Diagnosis: comprobar una vez más que se cumplen las hipótesis del modelo. En la diagnosis del modelo, comprobamos que la parte aleatoria del modelo (sus residuos) no contiene información adicional ni refleja lagunas en el cumplimiento de las hipótesis del modelo (linealidad, homocedasticidad, independencia y normalidad) Número de transparencia: 36 Grado en Ingeniería. Estadística. Tema 4

Diagnosis La diagnosis se realiza observando los gráficos de los residuos: debemos ver gráficos

Diagnosis La diagnosis se realiza observando los gráficos de los residuos: debemos ver gráficos como este: Número de transparencia: 37 Grado en Ingeniería. Estadística. Tema 4

Diagnosis No podemos aceptar residuos con otros comportamientos: Número de transparencia: 38 Grado en

Diagnosis No podemos aceptar residuos con otros comportamientos: Número de transparencia: 38 Grado en Ingeniería. Estadística. Tema 4

Regresión Introducción. Relaciones no deterministas. Regresion simple. Modelo. Estimación. Diagnosis. Regresion múltiple. Gráficos de

Regresión Introducción. Relaciones no deterministas. Regresion simple. Modelo. Estimación. Diagnosis. Regresion múltiple. Gráficos de dispersión múltiples. Estimación. Diagnosis. Previsiones. Multicolinealidad. Variables ficticias (dummy). Número de transparencia: 39 Grado en Ingeniería. Estadística. Tema 4

Regresión múltiple En un modelo de regresión múltiple, queremos conocer el valor de una

Regresión múltiple En un modelo de regresión múltiple, queremos conocer el valor de una variable respuesta a partir de más de una variable explicativa: En esta expresión, cada uno de los coeficientes beta representa la influencia individual que cada una de las X tiene sobre Y. Ventajas: Las hipótesis del modelo son las mismas que en regresión simple. Los contrastes, intervalos, diagnosis… también. Pequeños inconvenientes: La visualización de los gráficos es un poco más complicada. Necesitamos redefinir el coeficiente R 2. Número de transparencia: 40 Grado en Ingeniería. Estadística. Tema 4

Regresion multiple: Graficos Cada celda del gráfico matricial representa la relación bilateral entre dos

Regresion multiple: Graficos Cada celda del gráfico matricial representa la relación bilateral entre dos variables: Número de transparencia: 41 Grado en Ingeniería. Estadística. Tema 4

Regresión múltiple: R 2 corregido El coeficiente R 2 tiene el inconveniente de que

Regresión múltiple: R 2 corregido El coeficiente R 2 tiene el inconveniente de que se incrementa al aumentar el número de variables en el modelo (ya sean significativas o no). Para paliar este efecto, corregimos el coeficiente para que tenga en cuenta este efecto, por lo que en regresión múltiple se utiliza el coeficiente R 2 corregido ( o ajustado). Adjusted R 2 = 81. 73% Número de transparencia: 42 Grado en Ingeniería. Estadística. Tema 4

Regresión Introducción. Relaciones no deterministas. Regresion simple. Modelo. Estimación. Diagnosis. Regresion múltiple. Gráficos de

Regresión Introducción. Relaciones no deterministas. Regresion simple. Modelo. Estimación. Diagnosis. Regresion múltiple. Gráficos de dispersión múltiples. Estimación. Diagnosis. Previsiones. Multicolinealidad. Variables ficticias (dummy). Número de transparencia: 43 Grado en Ingeniería. Estadística. Tema 4

Ejemplo Número de accidentes en provincias españolas en función del número de vehículos matriculados.

Ejemplo Número de accidentes en provincias españolas en función del número de vehículos matriculados. --------------------------------------Dependent variable: nacciden --------------------------------------Standard T Parameter Estimate Error Statistic P-Value --------------------------------------CONSTANT 278, 24 102, 518 2, 71406 0, 0265 matricul 0, 0993373 0, 00850344 11, 682 0, 0000 --------------------------------------R-squared (adjusted for d. f. ) = 93, 7703 percent Número de transparencia: 44 Grado en Ingeniería. Estadística. Tema 4

Ejemplo Número de accidentes en provincias españolas en función del número de permisos de

Ejemplo Número de accidentes en provincias españolas en función del número de permisos de conducir --------------------------------------Dependent variable: nacciden --------------------------------------Standard T Parameter Estimate Error Statistic P-Value --------------------------------------CONSTANT 216, 481 127, 099 1, 70325 0, 1269 permisos 0, 107617 0, 0109657 9, 81395 0, 0000 --------------------------------------R-squared (adjusted for d. f. ) = 91, 3722 percent Número de transparencia: 45 Grado en Ingeniería. Estadística. Tema 4

Regresiones Accid=278. 2 +0. 1 Matriculas (11. 68) Accid=216. 4 +0. 1 Permisos (9.

Regresiones Accid=278. 2 +0. 1 Matriculas (11. 68) Accid=216. 4 +0. 1 Permisos (9. 81) Número de transparencia: 46 Grado en Ingeniería. Estadística. Tema 4

Regresión con las dos variables --------------------------------------Dependent variable: nacciden --------------------------------------Parameter Estimate Standard T Error Statistic

Regresión con las dos variables --------------------------------------Dependent variable: nacciden --------------------------------------Parameter Estimate Standard T Error Statistic P-Value --------------------------------------CONSTANT 250, 63 113, 216 2, 21373 0, 0625 matricul 0, 0725492 0, 0395634 1, 83374 0, 1093 permisos 0, 0301069 0, 043353 0, 694461 0, 5098 --------------------------------------- Número de transparencia: 47 Grado en Ingeniería. Estadística. Tema 4

Regresiones Accid=278. 2 +0. 1 Matriculas (11. 68) Accid=216. 4 +0. 1 Permisos (9.

Regresiones Accid=278. 2 +0. 1 Matriculas (11. 68) Accid=216. 4 +0. 1 Permisos (9. 81) Accid=250+0. 07 Matriculas +0. 03 Permisos (1. 8) (0. 69) Número de transparencia: 48 Grado en Ingeniería. Estadística. Tema 4

¿Qué está pasando? Correlación=. 975 Número de transparencia: 49 Grado en Ingeniería. Estadística. Tema

¿Qué está pasando? Correlación=. 975 Número de transparencia: 49 Grado en Ingeniería. Estadística. Tema 4

Regresión: un problema A veces las variables independientes son muy parecidas: contienen la misma

Regresión: un problema A veces las variables independientes son muy parecidas: contienen la misma información. Variables Independientes Número de transparencia: 50 Variable Dependiente Grado en Ingeniería. Estadística. Tema 4

Regresión: un problema El modelo no puede diferenciar entre las variables. Variables Independientes Número

Regresión: un problema El modelo no puede diferenciar entre las variables. Variables Independientes Número de transparencia: 51 Variable Dependiente Grado en Ingeniería. Estadística. Tema 4

En nuestro ejemplo Matrículas Permisos Num Accid Ambas son muy parecidas para distinguir entre

En nuestro ejemplo Matrículas Permisos Num Accid Ambas son muy parecidas para distinguir entre ellas. Número de transparencia: 52 Grado en Ingeniería. Estadística. Tema 4

En nuestro ejemplo Solución: eliminar una variable. Perdemos muy poca información. Matrículas Permisos Num

En nuestro ejemplo Solución: eliminar una variable. Perdemos muy poca información. Matrículas Permisos Num Accid Ambas son muy parecidas para distinguir entre ellas. Número de transparencia: 53 Grado en Ingeniería. Estadística. Tema 4

En nuestro ejemplo Solución: eliminar una variable. Perdemos muy poca información. Matrículas Num Accid

En nuestro ejemplo Solución: eliminar una variable. Perdemos muy poca información. Matrículas Num Accid Ambas son muy parecidas para distinguir entre ellas. Número de transparencia: 54 Grado en Ingeniería. Estadística. Tema 4

El problema de multicolinealidad aparece en casi todos los trabajos estadísticos. Tendemos a medir

El problema de multicolinealidad aparece en casi todos los trabajos estadísticos. Tendemos a medir una cosa de muchas formas. Se detecta: En regresión simple, las variables son significativas. Al introducir nuevas variables, dejan de ser significativas. Número de transparencia: 55 Grado en Ingeniería. Estadística. Tema 4

Regresión Introducción. Relaciones no deterministas. Regresion simple. Modelo. Estimación. Diagnosis. Regresion múltiple. Gráficos de

Regresión Introducción. Relaciones no deterministas. Regresion simple. Modelo. Estimación. Diagnosis. Regresion múltiple. Gráficos de dispersión múltiples. Estimación. Diagnosis. Previsiones. Multicolinealidad. Variables ficticias (dummy). Número de transparencia: 56 Grado en Ingeniería. Estadística. Tema 4

Estudiamos Pesos - Alturas ¿Es igual la relación para hombres que para mujeres? Peso

Estudiamos Pesos - Alturas ¿Es igual la relación para hombres que para mujeres? Peso Altura Número de transparencia: 57 Grado en Ingeniería. Estadística. Tema 4

Estudiamos Pesos - Alturas ¿Es igual la relación para hombres que para mujeres? Peso

Estudiamos Pesos - Alturas ¿Es igual la relación para hombres que para mujeres? Peso Altura Número de transparencia: 58 Altura Grado en Ingeniería. Estadística. Tema 4

Estudiamos Pesos - Alturas Si la relación no es igual, podemos cometer errores graves:

Estudiamos Pesos - Alturas Si la relación no es igual, podemos cometer errores graves: Peso Altura Número de transparencia: 59 Altura Grado en Ingeniería. Estadística. Tema 4

Ejemplos Variable Y Variable X Grupo que puede influir Peso Altura Sexo: Hombre o

Ejemplos Variable Y Variable X Grupo que puede influir Peso Altura Sexo: Hombre o Mujer Consumo de un trabajador Ingresos trabajador Consumo de un automóvil Potencia Motor: Gasolina Margen Ordinario de una sucursal bancaria Comisiones Sucursal: Urbana o Rural Número de transparencia: 60 del Status laboral: Paro o Empleado Diésel o Grado en Ingeniería. Estadística. Tema 4

Es necesario introducir el grupo: Para ello: • definiremos una variable Z que tome

Es necesario introducir el grupo: Para ello: • definiremos una variable Z que tome los siguientes valores: Zi =0 si una observación pertenece al grupo A Zi=1 si una observación pertenece al grupo B • y estimaremos el siguiente modelo de regresión: Número de transparencia: 61 Grado en Ingeniería. Estadística. Tema 4

El modelo que se estima: • Mujeres: Les asignamos Z=0. Por tanto: • Hombres:

El modelo que se estima: • Mujeres: Les asignamos Z=0. Por tanto: • Hombres: Les asignamos Z=1. Por tanto: Número de transparencia: 62 Grado en Ingeniería. Estadística. Tema 4

Por tanto: Peso Altura El efecto es que un hombre de la misma altura

Por tanto: Peso Altura El efecto es que un hombre de la misma altura pesa b 2 kilos más que una mujer de su misma altura. ¿O no? Número de transparencia: 63 Grado en Ingeniería. Estadística. Tema 4

Hagámoslo: Dependent variable: peso --------------------------------------Standard T Parameter Estimate Error Statistic P-Value --------------------------------------CONSTANT -77, 7888

Hagámoslo: Dependent variable: peso --------------------------------------Standard T Parameter Estimate Error Statistic P-Value --------------------------------------CONSTANT -77, 7888 16, 0908 -4, 83438 0, 0000 altura 0, 842013 0, 0905752 9, 29628 0, 0000 sexo -5, 17748 2, 20877 -2, 34405 0, 0208 --------------------------------------R-squared = 60, 8791 percent R-squared (adjusted for d. f. ) = 60, 1927 percent Sexo=0 Hombres Sexo=1 Mujeres Por tanto: un hombre que mida 180 pesará= -78+0. 84 x 180=73 kilos. . . y una mujer de la misma altura pesará=-78+0. 84 x 180 -5. 17=68 kilos La diferencia existe porque t=-2. 34 que es mayor que 2 en valor absoluto Número de transparencia: 64 Grado en Ingeniería. Estadística. Tema 4

Resultado 5 Kilos Peso Hombres Mujeres Altura Número de transparencia: 65 Grado en Ingeniería.

Resultado 5 Kilos Peso Hombres Mujeres Altura Número de transparencia: 65 Grado en Ingeniería. Estadística. Tema 4

Interacciones Hemos supuesto que las rectas son paralelas. ¿Y si no lo son? Y

Interacciones Hemos supuesto que las rectas son paralelas. ¿Y si no lo son? Y B A X Número de transparencia: 66 Grado en Ingeniería. Estadística. Tema 4

Modelización de las interacciones La modelización de la interacción es sencilla. Hay que estimar

Modelización de las interacciones La modelización de la interacción es sencilla. Hay que estimar un modelo de regresión entre: · la variable Y, · la variable X, · la variable Z, · la interacción de X y Z que se modeliza por el producto (XZ). Para el grupo con Z=0 Para el grupo con Z=1 Por tanto, analizar si existe interacción se reduce a estimar un modelo de regresión y analizar si el parámetro es significativo (estadístico t mayor de 2) en la estimación realizada. Número de transparencia: 67 Grado en Ingeniería. Estadística. Tema 4

Ejemplo: Ventas de empresas del sector servicios en Madrid en función de su inversión

Ejemplo: Ventas de empresas del sector servicios en Madrid en función de su inversión en I+D LOG(VENTAS) = 1. 762 + 0. 393 Log(ID) (t) (7. 88) (10. 34) R 2 = 45. 7 % Número de transparencia: 68 Grado en Ingeniería. Estadística. Tema 4

Ejemplo: Ventas de empresas del sector servicios en Madrid en función de su inversión

Ejemplo: Ventas de empresas del sector servicios en Madrid en función de su inversión en I+D Queremos estudiar si hay diferencias por estar en el sector telecomunicaciones TELECO=1 Si está en el sector teleco TELECO=0 si no está en ese sector LOG(VENTAS) =2. 25+ 0. 288 Log(ID)+0. 527 TELECO (t) (11. 12) (8. 08) (7. 03) R 2 = 61. 05% • Si la empresa funciona en el sector teleco: Log(VENTAS)= 2. 78 + 0. 288 log(ID) • Si funciona en otro sector: Log(VENTAS) = 2. 25 + 0. 288 log(ID) Estimamos la interacción: Log(VENTAS)=1. 99+0. 334 Log(ID)+1. 80 TELECO-0. 202 TELECOx. Log(ID) (t) (8. 84) (8. 40) (3. 40) (-2. 43) R 2= 62. 8% • Si no está en el sector teleco Log(VENTAS) = 1. 99 + 0. 334 log(ID) • Si está en el sector teleco Log(VENTAS) = 3. 8 + 0. 13 log(ID) Número de transparencia: 69 Grado en Ingeniería. Estadística. Tema 4