Tcnicas numricas para el procesamiento de datos reales

  • Slides: 45
Download presentation
Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del

Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Sumario • Introducción • Caracterización probabilística básica: el histograma • Cálculo de los momentos

Sumario • Introducción • Caracterización probabilística básica: el histograma • Cálculo de los momentos de una distribución • Estudio de las correlaciones a dos puntos • Análisis espectral • Análisis en componentes principales (PCA) • Inferencia Markoviana • Wavelets

Introducción Requisitos básicos para este taller: • Sólida formación de Matemáticas y Probabilidad •

Introducción Requisitos básicos para este taller: • Sólida formación de Matemáticas y Probabilidad • Nociones de programación Todos los ejemplos mostrados en este taller han sido obtenidos usando programas C cuyo código fuente está a la disposición de los estudiantes. ¿Por qué se necesita programación en el análisis de datos? El análisis de datos se basa en la aplicación repetitiva de reglas de cálculo (generales o deducidas de modelos)

¿Cómo usar los programas? 1. - Desempaquetarlos

¿Cómo usar los programas? 1. - Desempaquetarlos

¿Cómo usar los programas? 2. - Cambiamos de directorio y compilamos

¿Cómo usar los programas? 2. - Cambiamos de directorio y compilamos

¿Cómo usar los programas? 3. - Ejecutamos el programa y verificamos el resultado

¿Cómo usar los programas? 3. - Ejecutamos el programa y verificamos el resultado

¿Por qué se hacen análisis de tipo estadístico? Porque se pretende inferir principios universales,

¿Por qué se hacen análisis de tipo estadístico? Porque se pretende inferir principios universales, no dependientes de realizaciones particulares ¿Determinista o aleatorio?

Caracterización probabilística básica: el histograma Aproximación empírica a la función de densidad de probabilidad

Caracterización probabilística básica: el histograma Aproximación empírica a la función de densidad de probabilidad Muestreo: Buscamos el máximo y mínimo empíricos de esa variable Dividimos el rango total en B cajas, de ancho:

Los lados de las cajas son de la forma: Los puntos centrales de cada

Los lados de las cajas son de la forma: Los puntos centrales de cada caja son de la forma: o sea,

Eventos por caja: Probabilidad estimada: Si N, Ni son suficientemente grandes:

Eventos por caja: Probabilidad estimada: Si N, Ni son suficientemente grandes:

Ejemplo

Ejemplo

Histograma B = 100

Histograma B = 100

Problemas típicos: Si la distribución es muy curtótica Histograma de la derivada

Problemas típicos: Si la distribución es muy curtótica Histograma de la derivada

Solución: Truncar el rango estudiado Criterio k : con

Solución: Truncar el rango estudiado Criterio k : con

… aunque se ha de tener cuidado de no cortar demasiado 1 3

… aunque se ha de tener cuidado de no cortar demasiado 1 3

Otro problema es el muestreo limitado de las colas Criterio de significación sencillo:

Otro problema es el muestreo limitado de las colas Criterio de significación sencillo:

Cálculo de los momentos de una distribución Los momentos determinan propiedades de la distribución

Cálculo de los momentos de una distribución Los momentos determinan propiedades de la distribución Media: Sesgo: Varianza: Curtosis: Si los momentos enteros positivos no divergen demasiado rápido, el conjunto de todos los define

Estimación empírica: En la práctica, es imposible obtener estimaciones precisas para p≥ 3 Teorema:

Estimación empírica: En la práctica, es imposible obtener estimaciones precisas para p≥ 3 Teorema: Análogamente, Pero, obviamente:

Realmente, ¿es tan grave este problema? Densidad de momento p: Densidad empírica de momento

Realmente, ¿es tan grave este problema? Densidad de momento p: Densidad empírica de momento p:

Densidades empíricas p=2 p=1 p=4 p=3 Estimar p=3 requiere millones de datos; p=4 miles

Densidades empíricas p=2 p=1 p=4 p=3 Estimar p=3 requiere millones de datos; p=4 miles de millones

Estudio de las correlaciones a dos puntos Estadística de orden 2, pero distribuida espacialmente.

Estudio de las correlaciones a dos puntos Estadística de orden 2, pero distribuida espacialmente. Correlación a dos puntos: Si hay estacionariedad espacial (invariancia de traslación) En este caso, la correlación coincide con la autocorrelación

Se puede simplificar el cálculo usando transformadas de Fourier donde la transformada de Fourier

Se puede simplificar el cálculo usando transformadas de Fourier donde la transformada de Fourier se calcula: La inversa es igual, cambiando el signo Sobre datos numéricos, se puede usar la FFT

Inconveniente: la transformada de Fourier numérica es, en realidad, una serie de Fourier donde

Inconveniente: la transformada de Fourier numérica es, en realidad, una serie de Fourier donde la unidad de frecuencia es: Las series son periódicas (aliasing).

La segunda mitad de los índices representan frecuencias negativas: si entonces con Función de

La segunda mitad de los índices representan frecuencias negativas: si entonces con Función de autocorrelación discreta: La transformada de Fourier discreta de la autocorrelación discreta es el cuadrado del módulo de la transformada. El aliasing ha de ser tratado correctamente

1. - Se extiende la secuencia xn con igual número de ceros: 2. -

1. - Se extiende la secuencia xn con igual número de ceros: 2. - Se define la máscara de los datos:

3. - Se calculan las autocorrelaciones vía FFT: 4. - Se estima la autocorrelación

3. - Se calculan las autocorrelaciones vía FFT: 4. - Se estima la autocorrelación contínua:

Correlación a dos puntos de la señal de ejemplo

Correlación a dos puntos de la señal de ejemplo

Correlación a dos puntos de las derivadas

Correlación a dos puntos de las derivadas

Correlación de los valores absolutos de las derivadas

Correlación de los valores absolutos de las derivadas

Análisis espectral Generalmente el análisis de la autocorrelación se aborda directa en el espacio

Análisis espectral Generalmente el análisis de la autocorrelación se aborda directa en el espacio de Fourier:

Análisis de componentes principales (PCA) Varias series temporales:

Análisis de componentes principales (PCA) Varias series temporales:

Modelo lineal: Existen M causas independientes, que se combinan linealmente para formar las series

Modelo lineal: Existen M causas independientes, que se combinan linealmente para formar las series observadas. ¿Cómo se extraen las causas? Decorrelando. Fijamos Matriz de correlación:

Diagonalizando: Se aplica principales a los datos para extraer las componentes

Diagonalizando: Se aplica principales a los datos para extraer las componentes

Datos originales:

Datos originales:

Derivadas:

Derivadas:

Inferencia Markoviana Sólo estudiaremos el grado de dependencia mutua. Entropía o cantidad de información:

Inferencia Markoviana Sólo estudiaremos el grado de dependencia mutua. Entropía o cantidad de información: Cantidad de información compartida o información mutua:

Datos originales:

Datos originales:

Derivadas: Criterio 3 empíricos Extremos

Derivadas: Criterio 3 empíricos Extremos

Wavelets ¿Qué es una wavelet? Una wavelet (wave particle) es una función oscilatoria elemental

Wavelets ¿Qué es una wavelet? Una wavelet (wave particle) es una función oscilatoria elemental y localizada.

¿Para qué sirve una wavelet? Las wavelet tienen dos aplicaciones principales: • Análisis •

¿Para qué sirve una wavelet? Las wavelet tienen dos aplicaciones principales: • Análisis • Representación Las wavelets están muy bien adaptadas para estudiar sistemas sin escala definida, aunque también son útiles en otras situaciones.

¿Cómo se usan las wavelets? Por medio de proyecciones de wavelet Escala Las proyecciones

¿Cómo se usan las wavelets? Por medio de proyecciones de wavelet Escala Las proyecciones de wavelet corren sobre todas las posiciones y escalas de observación Posición

Representación: Se pueden reconstruir las señales a partir de sus proyecciones de wavelet …si

Representación: Se pueden reconstruir las señales a partir de sus proyecciones de wavelet …si la wavelet es admisible Pero tal representación en wavelets es extremadamente redundante (una serie 1 D se vuelve una función 2 D, una imagen 2 D se convierte 3 D, etc) Por ello se buscan subselecciones de escalas y posiciones más eficientes. Paradigma: caso diádico

Análisis: Caracterización de propiedades locales de una señal Paradigma: Análisis de singularidades A cada

Análisis: Caracterización de propiedades locales de una señal Paradigma: Análisis de singularidades A cada punto de la señal q se le asigna un exponente h invariante de escala: el exponente de singularidad Donde es una wavelet sobre la que se proyecta la señal

El análisis de singularidades sirve para detectar estructuras, independientemente de la escala y la

El análisis de singularidades sirve para detectar estructuras, independientemente de la escala y la amplitud Imagen SST Pathfinder Exponentes de singularidad asociados (Cabo Hatteras, 8 de Mayo, 2000)

¡GRACIAS POR SU ATENCIÓN!

¡GRACIAS POR SU ATENCIÓN!