Curso de Probabilidad y Estadstica Tema 7 Estadstica

Curso de Probabilidad y Estadística Tema: (7) Estadística Descriptiva Dr. José Antonio Camarena Ibarrola camarena@umich. mx Facultad de Ingeniería Eléctrica

El campo de la Estadística n n Recopilación, Presentación, Análisis y Uso de Información para resolver problemas, tomar decisiones, hacer estimaciones y diseñar productos y procedimientos

La variabilidad n n La Estadística sirve para presentar, describir y entender la variabilidad Un proceso produce un resultado, al repetirse un proceso, los resultados cambian a pesar de que el proceso se reprodujo aparentemente en las mismas circunstancias.

Población n n Colección de mediciones de un universo respecto al cual queremos obtener conclusiones o tomar decisiones. Ej. Conjunto de valores de consumo de energía (KWH) facturados en el primer bimestre de 2008

Tipos de datos n n n Datos numéricos (continuos o discretos) Datos categóricos (Ej. Sexo, marca, . . ) Datos identificadores de unidades

Muestreo de datos Muestreo aleatorio Muestra Población Nota: Si la muestra es igual a la población, al muestreo le llamamos censo

Estadística n n Descriptiva. Organización, resumen y presentación de datos Inferencial. Llegar a una conclusión acerca de la población, el proceso o el modelo de asignación de las variables

Presentación gráfica de la información n n n Diagrama de puntos Gráficas de dispersión Diagramas de tallos y hojas Histogramas Diagramas de cajas con bigotes Gráficas de Pareto Series de tiempo

Diagrama de puntos Ejemplo: Datos de resistencia a la tensión de muestras de mortero Portland (Kg/cm 2) con polímero agregado: 16. 85 16. 40 17. 21 16. 35 16. 52 17. 04 16. 96 17. 15 16. 59 16. 57 mortero Portland sin modificar: 17. 50 17. 63 18. 25 18. 00 17. 86 17. 75 18. 22 17. 90 17. 96 18. 15 * * 16. 0 ** * 16. 5 * ** 17. 0 * = Mortero modificado + = Mortero sin modificar * * + + + 17. 5 + + ++ 18. 0 + + + 18. 5

Graficas de dispersión

Gráfica de dispersión

Grafica de dispersión 3 D

Gráfica de burbujas

Ejemplo: Resistencia a la tensión de 80 muestras de aleación Aluminio-Litio 105 221 183 186 121 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149

Diagrama de tallos y hojas Tallo 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Hoja 6 7 7 5 1 5 8 0 1 0 3 4 1 3 2 9 5 4 7 1 3 0 7 8 5 4 0 3 6 9 6 0 7 1 0 8 1 8 9 7 5 5 8 3 3 4 1 9 8 3 3 4 0 1 4 3 5 1 0 5 6 1 4 6 8 0 2 0 9 8 8 1 6 7 0 8 9 6 Frecuencia 1 1 1 2 3 3 6 8 12 10 10 7 6 4 1 3 1 1

Tallos y Hojas ordenado Tallo 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Hoja 6 7 7 1 5 0 5 8 0 1 3 3 1 2 3 0 0 1 1 0 0 1 0 3 4 0 1 7 8 1 8 9 7 5 4 5 3 3 2 1 6 8 5 8 4 3 9 5 6 9 4 6 5 7 4 5 4 6 9 9 7 7 6 8 8 8 9 8 Frecuencia 1 1 1 2 3 3 6 8 12 10 10 7 6 4 1 3 1 1

Los datos ordenados 76 123 145 154 163 172 181 200 87 131 146 156 163 174 183 201 97 133 148 157 165 174 184 207 101 133 149 158 167 175 186 208 105 134 149 158 167 176 190 218 110 135 150 158 168 176 193 221 115 135 150 158 169 178 194 228 118 141 151 160 170 180 196 229 120 142 153 160 171 180 199 237 121 143 154 160 171 181 199 245 Son 80 datos, como es un numero par, la mediana será el promedio de los que ocupan los lugares 40 y 41, o sea (160+163)/2=161. 5 El primer cuartil es el valor en (0. 25)*80+0. 5=20. 5, es decir, el promedio de los valores en los puestos 20 y 21, o sea (143+145)/2=144 El tercer cuartil es el promedio de los valores en los puestos 60 y 61, es decir, (181+181)/2=181

El rango intercuartil n n n RIC=Q 3 -Q 1 Es una medida de dispersión de datos En el ejemplo anterior: RIC=181 -144=37

Tabla de Frecuencias Clase 70 a 90 90 a 110 a 130 a 150 a 170 a 190 a 210 a 230 a 250 Frecuencia 2 3 6 14 22 17 10 4 2 Frec. Relativa 0. 0250 0. 0375 0. 0750 0. 1750 0. 2125 0. 1250 0. 0500 0. 0250 Frec. Rel. Acum. 0. 0250 0. 0625 0. 1375 0. 3125 0. 5875 0. 8000 0. 9250 0. 9750 1. 0000

Histograma 70 90 110 130 150 170 190 210 230 250

Cajas con bigotes n n n Presenta al mismo tiempo una medida de dispersión, de tendencia central y de valores extremos Se debe determinar la mediana, el primero y el tercer cuartil y los valores máximo y mínimo Rango Intercuartílico RIC=Q 3 -Q 1

Las gráficas de Caja son útiles para hacer comparaciones Supongamos que un corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 100 m, durante 10 días consecutivos (cada día se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo) El desplazamiento de las gráficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo menor, como así también la diferencia intercuartílica

Ejemplo En un diario presentan el siguiente gráfico de caja y bigotes. La variable en estudio es “calificación en un examen de ingreso” Teniendo en cuenta esta gráfica indique en forma aproximada: a)¿Qué calificación obtuvo el estudiante con menor nota? b)¿Qué calificación obtuvo el estudiante con mayor nota? c)¿Cuál es el primer cuartil? d)¿Cuál es el tercer cuartil? e)¿Cuál es la mediana?

Ejercicio En un aeropuerto se registran los vuelos que arriban en una semana determinada y los datos se vuelcan en la siguiente tabla: Día Lunes Vuelos 25 Martes Miércoles 37 45 Jueves Viernes Sábado Domingo 50 32 40 30 Ordene en forma creciente y calcule mediana y cuartiles. ¿Cuántos vuelos hay el día que hay menos vuelos? ¿Cuántos vuelos hay el día que hay más vuelos? Represente mediante un diagrama de caja y bigotes.

Diagrama de Pareto n n n Se ordenan la frecuencias en orden descendente La escala horizontal no es necesariamente numérica La línea indica los porcentajes acumulados Útiles en análisis de datos de defectos en procesos de producción Muy usada en los programas de mejoramiento de calidad pues permite a los ingenieros concentrarse en los problemas realmente importantes

Ejemplo, Proceso de fabricación de un puerta de automóvil Tipo de Defecto Cant Mancha 21 Rayón 35 Defecto en manija 17 Floja Tipo de Defecto Cant % Rayón 35 32 Floja 29 26 Mancha 21 19 Defecto en manija 17 16 29 Otros 8 7 Abollada 3 TOTAL 110 100 Defecto en vidrio 5 TOTAL 110

Diagrama de Pareto

Serie de tiempo

Descripción numérica de los datos n n n n Media Varianza Moda Mediana Sesgo Curtosis Covarianza Factor de correlación

La media muestral La media de la población

La media geométrica

La varianza muestral La varianza de la población

Varianzas muestrales, Covarianza muestral y correlación muestral

La varianza muestral no-sesgada Los datos de la muestra están mas cerca de la media de la muestra que de la media de la poblaciòn, para compensar esto la varianza se multiplica por n/(n-1) Las n desviaciones suman cero, por lo tanto la n-ésima desviación se puede obtener a partir de las n-1 restantes (n-1 “grados de libertad”)

La moda n n El valor de mayor frecuencia Si hay dos, la distribución es bi-modal

El rango dinámico n La diferencia entre el máximo y el mínimo de los valores de la población

Sesgo y Curtosis

Regresión lineal n n n Es una técnica estadística para investigar la relación entre dos o mas variables Se utiliza para realizar predicciones de una variable (respuesta) en términos de otras (regresivas) El término “regresión” fue acuñado por el frances Francis Galton quien lo usó en sus estudios de la herencia La regresión simple o bivariada consiste de hacer predicciones de una variable en términos de otra solamente En la regresión múltiple, la predicción se hace tomando en cuenta a varias variables

Regresión lineal simple n n n Asumimos que la relación entre la variable respuesta y la variable regresiva es una línea recta Cada observación cumple La suma de los cuadrados de los errores es

Regresión lineal simple n Para minimizar el error derivamos e igualamos a cero respecto a n De la misma manera derivando respecto a n Simplificando estas dos ecs:

Regresión lineal simple n Reconociendo que n La ecuación Se convierte en Esto lo reemplazamos en n Para obtener n n

Regresión lineal simple n De la ecuación n Despejamos n Para obtener

Regresión lineal simple n Es lo mismo que

Ejemplo n Un Ingeniero está investigando el efecto de la temperatura sobre el rendimiento de un producto, sus experimentos arrojan los siguientes resultados Temp 100 110 120 130 140 150 160 170 180 190 Rend 51 54 61 66 70 74 78 85 89 45

La gráfica de dispersión n Esta gráfica nos indica una fuerte suposición de que la relación entre las dos variables puede ser lineal

Haciendo los cálculos

Finalmente

Transformaciones a una linea recta n

En R n n n n > x <- c(21, 62, 10, 53) > labels <- c("London", "New York", "Singapore", "Mumbai") > png(file = "city. jpg") > pie(x, labels) > print(x) [1] 21 62 10 53 > dev. off() #cierra el archivo

En R n n v <- c(9, 13, 21, 8, 36, 22, 12, 41, 33, 19) >png(file = "histogram. png") >hist(v, xlab = "Weight", col = "yellow", border = "blue") > dev. off()

En R n n n >input <- mtcars[, c('wt', 'mpg')] >png(file = "scatterplot. png") # Obtener la gráfica de puntos para autos con peso entre 2. 5 y entre 15 y 30 millas por galón de rendimiento >plot(x = input$wt, y = input$mpg, xlab = "Weight", ylab = "Milage", xlim = c(2. 5, 5), ylim = c(15, 30), main = "Weight vs Milage" ) >dev. off()

En R n n n >input<-mtcars[, c('mpg', 'cyl')] >print(input) >png(file="boxplot. png") > boxplot(mpg ~ cyl, data = mtcars, xlab = "Number of Cylinders", + ylab = "Miles Per Gallon", main = "Mileage Data") > dev. off() mpg cyl Mazda RX 4 21. 0 6 Mazda RX 4 Wag 21. 0 6 Datsun 710 22. 8 4 Hornet 4 Drive 21. 4 6 Hornet Sportabout 8. 7 8 Valiant 18. 1 6 Duster 360 14. 3 8 Merc 240 D 24. 4 4 Merc 230 22. 8 4 Merc 280 19. 2 6 Merc 280 C 17. 8 6 Merc 450 SE 16. 4 8 Merc 450 SL 17. 3 8 Merc 450 SLC 15. 2 8 Cadillac Fleetwood 10. 4 8 Lincoln Continental 10. 4 8 Chrysler Imperial 14. 7 8 Fiat 128 32. 4 4 Honda Civic 30. 4 4 Toyota Corolla 33. 9 4 Toyota Corona 21. 5 4 Dodge Challenger 15. 5 8 AMC Javelin 15. 2 8 Camaro Z 28 13. 3 8 Pontiac Firebird 19. 2 8 Fiat X 1 -9 27. 3 4 Porsche 914 -2 26. 0 4 Lotus Europa 30. 4 4 Ford Pantera L 15. 8 8 Ferrari Dino 19. 7 6 Maserati Bora 15. 0 8 Volvo 142 E 21. 4 4

Media, mediana, desviación estandar y moda en R n n n n >x <- c(12, 7, 3, 4. 2, 18, 2, 54, -21, 8, -5) >result. mean <- mean(x) >print(result. mean) [1] 8. 22 >median. result <- median(x) >print(median. result) [1] 5. 6 >result. sd<-sd(x) >print(result. sd) [1] 19. 20057 >result. var<-var(x) >print(result. var) [1] 368. 6618 >19. 2^2 [1] 368. 64

n n n n n R no tiene uma función para calcular la moda, se puede usar la siguiente: >getmode <- function(v) { uniqv <- unique(v); uniqv[which. max(tabulate(match(v, uniqv)))] } >v <- c(2, 1, 2, 3, 4, 1, 5, 5, 3, 2, 3) >result <- getmode(v) > print(result) [1] 2

Regresión en R n n n n > temp<-c(100, 110, 120, 130, 140, 150, 160, 170, 180, 190) > rend<-c(45, 51, 54, 61, 66, 70, 74, 78, 85, 89) > rel<-lm(rend~temp) > print(rel) Call: lm(formula = rend ~ temp) Coefficients: (Intercept) temp -2. 739 0. 483 > a<-data. frame(temp=175) > res<-predict(rel, a) >print(res) 1 81. 79091 >png(file = "regresionlineal. png") >plot(temp, rend, col = "blue", main = "Regresión Temp y Rend", abline(lm(rend~temp)), cex = 1. 3, pch = 16, xlab = “Temp en grados", ylab = “Rendimiento") >dev. off()

Resultado

Perspectiva histórica de la teoría de la fiabilidad • Estudios para poder evaluar la mortalidad derivada de las epidemias. Orígenes: • Compañías de seguros, para determinar los riesgos de sus pólizas de seguro de vida. • Tablas de vida: La primera tabla de vida data de 1693 y es debida a Edmund Halley Siglo XX: se utilizaban los métodos actuariales tanto para estimar la supervivencia de pacientes sometidos a distintos tratamientos como para estudiar la fiabilidad de equipamientos, en particular de los ferrocarriles. En 1939 Waloddi Weibulll, cuando era profesor del Royal Institute of Technology en Suiza, propuso una distribución para describir la duración de materiales, que más tarde llevaría su nombre. En 1951 Epstein y Sobel empezaron a trabajar con la distribución exponencial como modelo probabilístico para estudiar el tiempo de vida de dispositivos 58

Fiabilidad y Mantenimiento Desde el punto de vista de la ingeniería, la fiabilidad es la probabilidad de que un aparato, dispositivo o persona desarrolle una determinada función bajo condiciones fijadas durante un periodo de tiempo determinado. • La confiabilidad de un elemento puede ser caracterizada a través de distintos modelos de probabilidades. • Podemos describir varias distribuciones de fallas comunes y ver qué podemos aprender de ellas para gestionar los recursos de mantenimiento. Convirtiendo el conocimiento ganado de ellas en acciones PROACTIVAS de Mantenimiento y aplicarlas en el Diseño. 59

Diagrama de Ishikawa El diagrama de Ishikawa conocido también como causa-efecto, es una forma de organizar y representar las diferentes teorías propuestas sobre las causas de un problema. Nos permite, por tanto, lograr un conocimiento común de un problema complejo, sin ser nunca sustitutivo de los datos.

Ejemplo de Diagrama “Espinazo” o de Ishikawa

Herramientas de Fiabilidad Se estudia mediante el análisis estadístico de datos de supervivencia. ISO define fiabilidad como la probabilidad de que un componente o sistema, desarrolle durante un periodo de tiempo dado, la tarea que tiene encomendada sin fallos, y en las condiciones establecidas. Estudiar Duraciones de Procesos que es común en muchas ciencias: • Duración de un componente (Fiabilidad) • Supervivencia de un paciente a un tratamiento (Medicina) • Duración del desempleo (Economía) • Edad de las personas (Demografía y sociología) 62

Veamos, a partir de un histograma podemos desarrollar las cuatro funciones de importancia para la caracterización de la fiabilidad. 63

En estudios de mantenimiento necesitamos pasar del anterior histograma a funciones continuas, debido que la variable tiempo de fallo es continua. Esta funciones nos dan una idea clara de la distribución de fallos. Empezamos por la f(t) ó pdf que indica la densidad probable de fallas en cada instante t. Pudiendo llamar a t 1 y t 2, -∞ y ∞ respectivamente 64

F(t) ó CDF Cumulative Density Function: aquí de -∞ a Tiempo t, seria la probabilidad de que la falla ocurra antes del tiempo t. el área bajo la curva / transcurrido t (Función Repartición ) cdf=14/48 Tiempo t Intervalo -∞ a t, la acumulación de fallas 65

R(t) Reliability (confiabilidad) Esta es la probabilidad de éxito o sea que no ocurra la falla antes de t. Representando por el área bajo la curva desde t hasta infinito. R(t)= 1 - F(t) Tiempo t 66

La tasa de falla del intervalo t 1 a t 2 se define como Es la probabilidad de que ocurra una falla en el intervalo de t 1 a t 2 dado que no ha habido falla al tiempo t 1 la función de Riesgo, o tasa de mortalidad h(t) es Y como R(t)=1 -F(t), entonces R’(t)=-F’(t)=-f(t), de ahí Es muy común asumir que las fallas tienen una distribución exponencial, entonces: Y entonces se dice que la tasa de falla es constante, la constante λ

Función de Riesgo típica (t) DOMINIO ELECTRONICO desclasificación Hipótesis exponencial constante 1 2 desarrollo 3 obsolescencia Edad t Madurez (fallos aleatorios) Inicio utilización 68

Función de Riesgo típica DOMINIO MECANICO (t) Influencia del desgaste sobre (t) Curva debida a los fallos precoces desclasificación Madurez 1 Puesta en servicio 3 2 rodaje obsolescencia Edad t 69

Cuando la tasa de fallo del elemento responde a la curva de la bañera es conveniente realizar un ensayo acelerado del mismo (en condiciones de stress) para que supere la zona de mortalidad infantil o fallas infantiles. – determinar cuando comienza la vida útil del producto y ofrecer a los clientes una garantía de funcionamiento durante ese periodo de funcionamiento problemático. – Una vez superado el periodo crítico, la empresa está razonablemente segura de que el producto tiene una posibilidad de fallos reducida 70

La distribución de fallas de diferentes tipos de maquinaria no son las mismas. Aun varían en una misma maquina durante su operación. Sus formas pueden ser estudiadas a partir de las funciones pdf, cdf y tasa de falla de los datos reales de mantenimiento o de ensayos de fiabilidad. Estos dan forma a determinadas expresiones matemáticas conocidas como distribuciones obteniendo: • Dist. Exponencial • Dist. Normal • Dist. Lognormal • Dist. Weibull 71

EL MODELO EXPONENCIAL pdf f (t) = exp (- t), cdf F(t) = 1 - exp(- t), t 0 R(t) = exp (- t ), t 0 = h(t) 72

EL MODELO DE WEIBULL =5 x) f (t) =0, 5 x) =3, 6 =1 x) f (x) =2, 5 x) =2 x) parámetro de forma > 0; parámetro de escala > 0; parámetro de posición - < < + t (t) =4 3 2 2 1 1, 5 0, 5 1 0, 5 t t Esta estrechamente relacionada con la distribución exponencial, se utiliza con gran frecuencia para representar la vida de los componentes en servicio, fué usada por Weibull (1951) para describir las variaciones en la resistencia a la fatiga del acero y posteriormente se ha usado para representar la vida y el servicio de tubos y otros equipos electrónicos 73

Las características de la distribución de Weibull 74

Las características de la distribución de Weibull 75

Las características de la distribución de Weibull - El parámetro de posición (en unidad de tiempo) f(t) Se llama también parámetro de diferenciación o de localización. Significado: indica la fecha de inicio de los fallos. -- si > 0, hay supervivencia total entre t = 0 y t = ; -- si = 0, los fallos empiezan en el origen del tiempo; 2 < 0 2 = 0 2 > 0 t -- si < 0, los fallos han empezado antes del origen del tiempo. 76

Ejemplo Obtención de la fiabilidad de neumáticos a través del Análisis de la degradación Siete marcas de neumáticos fueron controlados en su desgaste cada 5. 000 millas, midiendo la profundidad de cada uno. La tabla que contiene las mediciones desde su inicio hasta las 30. 000 millas f (t) = exp (- t), t 0 F(t) = 1 - exp(- t), t 0 R(t) = exp(- t ), Degradación Critica t 0 y= 2 mm 77

Ejemplo 78

Ejemplo 79

Ejemplo 80

Ejemplo 81

Ejemplo n

Sistemas simples en serie n

Ejemplo n

Ejemplo n R(10, 000)=exp(-0. 039186)=0. 96