Minera de Datos Aplicada en Series Temporales de

  • Slides: 20
Download presentation
Minería de Datos Aplicada en Series Temporales de Pacientes Parkinsonianos P. Guillén 1, Y.

Minería de Datos Aplicada en Series Temporales de Pacientes Parkinsonianos P. Guillén 1, Y. Rivas 2 , A. Fernandez 2 , B. Nava 2, G. Briceño 2 1 Centro de Simulación y Modelos (CESIMO), Universidad de Los Andes, Mérida, Venezuela 2 Postgrado en Modelado y Simulación de Sistemas, Universidad de Los Andes, Mérida, Venezuela

Introducción Minería de datos Extracción Conocimiento Minería de datos y series de tiempo Extraer

Introducción Minería de datos Extracción Conocimiento Minería de datos y series de tiempo Extraer patrones de comportamiento. Dinámica No-Lineal SAX Espacio Simbólico. Medida de Disimilaridad Basada en Compresión (CDM) Compresión de datos para caracterizar.

Planteamiento del Problema Técnicas del análisis no lineal han sido aplicadas con éxito para

Planteamiento del Problema Técnicas del análisis no lineal han sido aplicadas con éxito para tratar de describir fenómenos neurológicos comprender las funciones y disfunciones de los órganos o sistemas que las generan caracterizar el comportamiento de algún órgano, o bien cómo ayuda en el diagnóstico y tratamiento de las patologías La enfermedad de Parkinson Microregistros neurofisiológicos de la actividad subcortical

Base de Datos snr stn tal zi -424. 772. 167. 029. 159 -593. 938.

Base de Datos snr stn tal zi -424. 772. 167. 029. 159 -593. 938. 281. 217. 294 1901 -213. 034. 140. 363. 607 -394. 772. 167. 466. 021 -599. 938. 282. 262. 149 1866 -523. 034. 087. 043. 448 -375. 772. 167. 902. 882 -563. 938. 283. 307. 004 1868 -873. 034. 033. 723. 284 -365. 772. 168. 339. 743 -495. 938. 284. 351. 859 1901 -423. 033. 980. 403. 120 -347. 772. 168. 776. 605 -475. 938. 285. 396. 714 1878 -503. 033. 927. 082. 961 -357. 772. 169. 213. 466 -442. 938. 286. 441. 568 1843 -930. 338. 737. 627. 972 -375. 772. 169. 650. 327 -459. 938. 287. 486. 423 1855 -193. 033. 820. 442. 633 -382. 772. 170. 087. 188 -506. 938. 288. 531. 278 1858 216. 966. 232. 877. 526 -410. 772. 170. 524. 050 -532. 938. 289. 576. 133 1841 326. 966. 286. 197. 689 -426. 772. 170. 960. 911 -515. 938. 290. 620. 988 1855 876. 966. 339. 517. 853 -406. 772. 171. 397. 772 -474. 938. 291. 665. 843 1891 124. 696. 639. 283. 801 -417. 772. 171. 834. 633 -415. 938. 292. 710. 698 1884 171. 696. 644. 615. 818 -435. 772. 172. 271. 495 -350. 938. 293. 755. 552 1846 298. 696. 649. 947. 834 -404. 772. 172. 708. 356 -290. 938. 294. 800. 407 1867 359. 696. 655. 279. 850 -337. 772. 173. 145. 218 -245. 938. 295. 845. 262 1907 348. 696. 660. 611. 866 -258. 772. 173. 582. 079 -283. 938. 296. 890. 117 1933 252. 696. 665. 943. 883 -196. 772. 174. 018. 940 -320. 938. 297. 934. 972 1979 279. 696. 671. 275. 899 -185. 772. 174. 455. 801 -312. 938. 298. 979. 827 2010 260. 696. 676. 607. 915 -174. 772. 174. 892. 662 -303. 938. 300. 024. 682 2025 268. 696. 681. 939. 931 -151. 772. 175. 329. 524 -282. 938. 301. 069. 536 1990 229. 696. 687. 271. 947 -116. 772. 175. 766. 385 -308. 938. 302. 114. 391 1911 221. 696. 692. 603. 964 -118. 772. 176. 203. 246 -417. 938. 303. 159. 246 1884 153. 696. 697. 935. 980 -125. 772. 176. 640. 107 -527. 938. 304. 204. 101 1881 136. 696. 703. 267. 996 -143. 772. 177. 076. 969 -575. 938. 305. 248. 956 1843 886. 967. 086. 000. 122 Tabla 1: Microregistros de la Actividad Subcortical Grupo de 5 pacientes con Parkinson muestreados a una frecuencia de 24 khz y un tiempo de duración de 2 segundos. (48. 000 registros) Donde: Snr: Sustancia Negra Stn: Subtálamo Tal: Tálamo Zi: Zona Incerta

Metodología Aproximación Simbólica (SAX) Este enfoque simbólico permite que una serie temporal de longitud

Metodología Aproximación Simbólica (SAX) Este enfoque simbólico permite que una serie temporal de longitud n, se reduzca a una cadena de longitud w, (donde w < n). Serie de tiempo Proceso de Discretización: Aproximación finita a trozos baabccbc Serie temporal original Cadena de Símbolos Representación Intermedia Representación simbólica de una serie de tiempo w El número de representaciones PAA en una serie de tiempo a Tamaño del alfabeto (Ejemplo para el alfabeto= {a, b, c}, a=3) Tabla 2: Notaciones utilizadas en la metodología SAX Aproximación Finita a Trozos (Representación PAA) Representación discreta de cadenas Ventajas de SAX: • Reducción de la dimensión • Límites inferiores de las distancias medidas.

Aproximación Simbólica (SAX) Aproximación Finita a Trozos (Representación PAA) Se define cuando los datos

Aproximación Simbólica (SAX) Aproximación Finita a Trozos (Representación PAA) Se define cuando los datos de una serie de tiempo de longitud n se dividen en segmentos de tamaños iguales de longitud w. El i-ésimo elemento de es calculado por la siguiente ecuación: Visualización de la representación PAA. En este caso una serie de tiempo de longitud n=128 es reducida a w=8 segmentos Donde se calcula la media de los datos comprendidos en cada uno de los segmentos, siendo la representación PAA el promedio de cada segmento. En busca de la sencillez y la claridad se supone que n es divisible entre w.

Aproximación Simbólica (SAX) Discretización Es conveniente aplicar una técnica de discretización que produzca símbolos

Aproximación Simbólica (SAX) Discretización Es conveniente aplicar una técnica de discretización que produzca símbolos con igual probabilidad. Definición Puntos de Interrupción: Es una lista ordenada de números tal que el área bajo una curva de Gauss con distribución N (0, 1) desde a a 3 4 5 6 7 8 9 Visualización de la dicretización de una serie temporal con n = 128, w = 8 y a = 3, formando la palabra baabccbc. 10 β 1 -0. 43 -0. 67 -0. 84 -0. 97 -1. 07 -1. 15 -1. 22 -1. 28 A B β 2 0. 43 0 -0. 25 -0. 43 -0. 57 -0. 67 -0. 76 -0. 84 C 0. 67 0. 25 0 -0. 18 -0. 32 -0. 43 -0. 52 D 0. 84 0. 43 0. 18 0 -0. 14 -0. 25 E 0. 97 0. 57 0. 32 0. 14 0 F 1. 07 0. 67 0. 43 0. 25 G 1. 15 0. 76 0. 52 1. 22 0. 84 H I 1. 28 J βi β 3 β 4 β 5 β 6 β 7 β 8 β 9 Tabla 3: Puntos de interrupción para tamaños de alfabeto a de 3 a 10. todo coeficiente PAA que se encuentre por debajo del punto de interrupción más pequeño es reemplazado por el símbolo "a", todo coeficiente superior o igual al de corte más pequeño y menor al segundo más pequeño es reemplazado por el símbolo "b", y así sucesivamente.

Aproximación Simbólica (SAX) Distancias medidas 1. 5 C 1 0. 5 0 -0. 5

Aproximación Simbólica (SAX) Distancias medidas 1. 5 C 1 0. 5 0 -0. 5 -1 Q -1. 5 0 20 1. 5 40 60 80 100 120 C 1 0. 5 0 -0. 5 -1 Q 1. 5 0 20 40 60 baabccbc babcacca 80 100 120

Aproximación Simbólica (SAX) Distancias medidas j= a 4 i= βi β 1 -0. 67

Aproximación Simbólica (SAX) Distancias medidas j= a 4 i= βi β 1 -0. 67 β 2 0 β 3 0. 67 1 2 3 4 a b c d 1 a 0 0 0. 67 1. 34 2 b 0 0. 67 3 c 0. 67 0 0 0 4 d 1. 34 0. 67 0 0 Tabla 4: búsqueda utilizada por la función MINDIST. Corresponde a un alfabeto de tamaño 4. dist (a, a) = 0 dist (a, c) = 0, 67

Reducción de la Numerosidad N-n+1 Ventanas N: Longitud de la serie n: Tamaño de

Reducción de la Numerosidad N-n+1 Ventanas N: Longitud de la serie n: Tamaño de ventana Visualización de las Ventanas deslizantes

Metodología Medida de Disimilaridad Basada en Compresión (CDM) En este estudio, se utilizó la

Metodología Medida de Disimilaridad Basada en Compresión (CDM) En este estudio, se utilizó la métrica propuesta por Keogh, E. et al. para aproximar la complejidad de Kolmogorov, la cual dice que dadas dos cadenas X e Y se define la Medida de Disimilaridad Basada en Compresión (CDM) como: Donde: • C(XY) = Tamaño en bytes del archivo comprimido que contiene la concatenación de las cadenas X e Y • C(X) = Tamaño en bytes del archivo comprimido que contiene la cadena X • C(Y) = Tamaño en bytes del archivo comprimido que contiene la cadena Y.

Metodología Medida de Disimilaridad Basada en Compresión (CDM) • La CDM es cercana a

Metodología Medida de Disimilaridad Basada en Compresión (CDM) • La CDM es cercana a uno (1) cuando X e Y no están relacionadas y disminuye a medida que estas se encuentran más vinculadas. • Por definición, la disimilaridad de una cadena consigo misma es cero (0). • La CDM(X, Y) es igual a la CDM(Y, X). En general, la CDM busca información compartida por las dos cadenas X e Y, esto lo hace a través de los algoritmos de compresión, los cuales se encargan de buscar patrones repetidos dentro de los datos, para que luego se pueda cuantificar la diferencia existente entre los mismos.

Metodología Medida de Disimilaridad Basada en Compresión (CDM) Matriz de Disimilaridad Dado un conjunto

Metodología Medida de Disimilaridad Basada en Compresión (CDM) Matriz de Disimilaridad Dado un conjunto de series temporales podemos calcular la disimilaridad entre todos los pares disponibles de estas. La matriz de disimilaridad es simétrica con respecto a la diagonal, por lo tanto, basta con calcular una de las triangulares para utilizarla como entrada a otros algoritmos. La diagonal de la matriz es igual a cero. Visualización de la Matriz de Disimilaridad CDM (i, j), entre un par de series (Si, Sj) CDM(4, 2), es la disimilaridad entre las series S 4 y S 2.

Resultados Aproximación Simbólica (SAX) Tamaño del alfabeto Tamaño del (a) segmento (w) Tamaño de

Resultados Aproximación Simbólica (SAX) Tamaño del alfabeto Tamaño del (a) segmento (w) Tamaño de la ventana (N) 3, 5, 8 400, 600, 800, 2400 6, 8, 10

Aproximación Simbólica (SAX)

Aproximación Simbólica (SAX)

Distancia: Tal 1 vs Tal 2 Distancia: Tal 1 vs snr 1 Distancia: Tal

Distancia: Tal 1 vs Tal 2 Distancia: Tal 1 vs snr 1 Distancia: Tal 1 vs zi 1 Distancia: Tal 1 vs stn 1

Comparación del índice CDM entre zonas subcorticales

Comparación del índice CDM entre zonas subcorticales

Dendograma de las zonas subcorticales

Dendograma de las zonas subcorticales

Conclusiones y Recomendaciones Ambas técnicas permiten caracterizar entre zonas subcorticales. Herramienta de apoyo para

Conclusiones y Recomendaciones Ambas técnicas permiten caracterizar entre zonas subcorticales. Herramienta de apoyo para los neurólogos al momento de realizar la electroestimulación. Crear un software que reciba las señales de la cánula e informe al cirujano en la zona subcortical en la que se encuentra. • Probar con otras técnicas de minería de datos y comparar los resultados obtenidos con SAX y CDM. Adicionalmente es interesante conocer cuál caracteriza mejor en tiempo de cómputo y consumo de recursos.

GRACIAS

GRACIAS