DETECCN Y DIAGNSTICO DE FALLOS ESTADSTICAS MULTIVARIANTES Variabilidad
DETECCÓN Y DIAGNÓSTICO DE FALLOS. ESTADÍSTICAS MULTIVARIANTES
Variabilidad del proceso Variaciones ambientales, v Cambios en los materiales, r Proceso Factores asignables: Personal, equipos, etc, u Cambios en el producto, q • En ausencia de variaciones asignables o de materias primas, si se toman muestras de q: q(t)= ivi • las medidas de la serie q(t) son independientes • q(t) es un proceso estacionario N( , 2) En estas condiciones se dice que el proceso está “bajo control”
En un proceso bajo control La media y la varianza 2 pueden estimarse mediante: n suele ser pequeño (4 -10) para evitar la aparición de causas asignables durante ese tiempo En un proceso en estado de control, el 99. 7% de las muestras están en la región R = [ -3 , -3 ]
Estadística Univariable • Gráficos de control: Dr. Shewart, USA 1924. Gráficos de evolución temporal de valores medios y su span, etc. • Definen, a través de los límites de control, el estándar de funcionamiento a alcanzar • Permiten detectar la presencia de factores asignables que desvían la producción del estándar a alcanzar LSC: m + 3 / n LIC: m - 3 / n
Estadísticas multivariables • ANÁLISIS DE COMPONENTES PRINCIPALES (PCA) • PCA determina un conjunto de vectores de carga ortogonales que pueden ser ordenados por la cantidad de variabilidad del proceso que pueden explicar. • Si se tiene m variables y n observaciones de cada variable se construye la matriz X: Los vectores de carga se calculan mediante la descomposición de valores singulares de:
Análisis de componentes principales I • Lo cual es equivalente a calcular los valores y vectores propios de: A= XTX • Con = T , una matriz que contiene los valores propios reales no negativos de A. Se eligen los “a” vectores propios de A correspondientes a los “a” valores propios más grandes y se forma P. • La proyección de los datos observados X en este espacio de dimensión reducida es: T = XP • Los datos originales pueden calcularse como:
Análisis de componentes principales II • La matriz de residuos: • Los componentes principales son los vectores ti, i=1, . . . , a y cuando hay datos nuevos se calculan como: ti = x. Tpi. • Detección de fallos: – Se calcula la estadística Hostellings: T 2=x. TP a-2 PTx – Se compara dicha estadística con un umbral calculado como: – Si T 2 > Ta => el sistema está fuera de control, es decir hay un fallo
Análisis de componentes principales III – Para monitorizar los restante “m-a” variables se utiliza la estadística Q => Q = r. Tr, con r = (I – PPT)x – Q también se conoce como SPE – Cuando el sistema está bajo control Q es muy pequeña, (variaciones debido al ruido), para detectar un fallo se pone un umbral Q • Diagnosis de fallos: – Calcular PCA para cada clase de datos que tengamos (fallos) y aplicar la estadística T 2 y Q a cada modelo PCA para decidir que fallos ha ocurrido
Análisis de componentes principales IV • PCA dinámicos: • PCA no lineales: • Red neuronal
Análisis de componentes principales VI • Ejemplo (datos de Fisher), – consisten en m=4 variables y n=50 medidas de cada variable y 3 clases distintas:
Análisis de componentes principales VII • Con los datos de la clase 1: – Se normalizan para tener media 0 y varianza 1 – Se construye la matriz X – Se calculan los valores y vectores propios de A – Se eligen 2 componentes principales que explican la variabilidad del proceso en (2. 075+0. 986)/4*100 = 76. 52%. Y se construye la matriz P
Análisis de componentes principales VIII • La matriz T=XP • Para detectar fallo (distinguir entre las clases) se proyectan todos los datos en los componentes principales de la clase 1 (t 1 y t 2) => ti = x. Tpi • Se calcula la región de confianza de la clase 1 con el umbral T :
Análisis de componentes principales IX • Detección de fallos: – Distinguir datos entre las clases:
Discriminante de Fisher (FDA) I • FDA es una técnica que reduce la dimensionalidad del espacio en términos de máxima separación entre clases. – Se construye la matriz X – Se calcula la matriz de dispersión total: – Se calcula la matriz de dispersión para cada clase: – La matriz de dispersión dentro de la clase: – Se calcula la matriz de dispersión entre clases:
Discriminante de Fisher (FDA) II • Si todo ha ido bien: St = Sb + Sw • El primer vector de Fisher se calcula maximizando la dispersión entre clases y minimizando la dispersión dentro de la clase: • El segundo vector de Fisher se calcula cumpliendo la misma condición pero además asegurando que es ortogonal al primer vector. . . . • Esto es equivalente a resolver el siguiente problema de valores y vectores propios: Sb wk = k Sw wk
Discriminante de Fisher (FDA) III • Donde los vectores propios wk son los vectores de Fisher y los valores propios k indican el grado de separabilidad entre clases al proyectar los datos en la dirección wk. • Wa es la matriz formada por a= (p-1) vectores FDA (con p igual al número de clases) • La proyección de los datos sobre este nuevo espacio es: zi = Wa. Txi • Detección de fallos: – Utilizar una función discriminante para cada clase de datos (fallos) que diga a que clase pertenecen los datos actuales: gi(x) > gj(x) i j
Discriminante de Fisher (FDA) IV • Con gi(x) = P(wi | x) => probabilidad a posteriori que los datos x pertenezcan a la clase i • Aplicando la regla de Bayes y suponiendo que los datos están normalmente distribuidos: • Para introducir dinámica, se introducen datos pasados en la matriz X como se hacía con p. CA
Discriminante de Fisher (FDA) V • Ejemplo (datos de Fisher): – Construir la matriz X con todos los datos (3 clases, 4 variables y n=50 medidas de cada variable) – Cálculo de Sb y Sw: – Calculo de los valores y vectores propios, 1 = 32. 27, y 2=0. 2776.
Discriminante de Fisher (FDA) VI – Cálculo de la proyección de los datos de cada clase sobre el espacio creado de dimensión 2: zi = Wa. Txi. – Representación de las clases en este espacio:
Discriminante de Fisher (FDA) VI – Calcular g 1, g 2 y g 3 para cada clase la mayor de ellas nos dice que fallo ocurre : – Tasa de acierto: 100% para la clase 1, 98% para la clase 2 (1 dato de 50 mal clasificado), 94% para 3
Mínimos cuadrados parciales (PLS) I • PLS es una técnica de reducción de la dimensionalidad, maximizando la covarianza entre la matriz de predicción (X) y la matriz predicha (Y). n 1 filas indican que hay un fallo de tipo 1 p columnas
Mínimos cuadrados parciales (PLS) II • • • X = TPT + E Y = U QT + F La técnica PLS relaciona X e Y => Y = TBQT+ F Ahora hay que calcular estos valores para asegurar que la covarianza entre X e Y sea máxima. • Algoritmo: – Escalar X e Y para que tengan media nula y varianza 1 – Inicializar: E 0 = X, F 0= Y, j=1 y uj = a una de las columnas de Fj-1 – Resolver iterativamente hasta converger:
Mínimos cuadrados parciales (PLS) III • Si converge calcular: • Hacer • Repetir el procedimiento para j=1, 2, . . min(n, m)
Mínimos cuadrados parciales (PLS) IV • Se calcula la matriz: • La predicción de la matriz Y se calcula como: • Detección y diagnóstico de fallos: – Utilizando la estadística T 2 y Q. • PLS dinámico • PLS no-lineal
Mínimos cuadrados parciales (PLS) V • Ejemplo: – Se construye X con todos los datos. – Se construye Y – Se aplica el algoritmo dado para j=1, 2 obteniendose:
Mínimos cuadrados parciales (PLS) VI • Se calcula • Se representan y 1 vs y 2 vs y 3
Mínimos cuadrados parciales (PLS) VII • Si proyectamos los datos en sobre los vectores PLS (t 1 y t 2):
- Slides: 27