Lnea Minera de Datos LA INTEGRIDAD REFERENCIAL EN

  • Slides: 22
Download presentation
Línea: Minería de Datos LA INTEGRIDAD REFERENCIAL EN LA CALIDAD DE BASES DE DATOS

Línea: Minería de Datos LA INTEGRIDAD REFERENCIAL EN LA CALIDAD DE BASES DE DATOS RELACIONALES M en C Javier García en colaboración con Dr. Carlos Ordoñez Mondragón Dra. Hanna Oktaba

Línea: Minería de Datos Índice Donde se inscribe el proyecto de investigación Algunas definiciones

Línea: Minería de Datos Índice Donde se inscribe el proyecto de investigación Algunas definiciones Ejemplo Donde surge el problema Modelo Definiciones Granularidad Métricas asociadas Instrumentación Variantes Resultados experimentales

Línea: Minería de Datos Donde se inscribe el proyecto de investigación La investigación en

Línea: Minería de Datos Donde se inscribe el proyecto de investigación La investigación en minería de datos típicamente asume que los datos a analizar están correctos Las herramientas están enfocadas a que el analista pueda descubrir patrones y en general aspectos del dominio de los datos sobre la base de que los datos están correctos

Línea: Minería de Datos Donde se inscribe el proyecto de investigación Sin embargo se

Línea: Minería de Datos Donde se inscribe el proyecto de investigación Sin embargo se ha estudiado que gran parte del trabajo de análisis de datos (hasta el 80%) se dedica a limpieza y comprensión de los datos Por otro lado, las investigaciones y el sw existente de limpieza de datos se enfoca principalmente en corregir errores de dominio de valores sobre atributos aislados

Línea: Minería de Datos Donde se inscribe el proyecto de investigación Se han estudiado

Línea: Minería de Datos Donde se inscribe el proyecto de investigación Se han estudiado muy poco los errores que tienen que ver con la interrelación de los datos Esta investigación se inscribe en el área de minería de datos llamada preprocesamiento de datos, en particular en la detección de problemas de integridad referencial En la fase actual estamos estudiando el despliegue de datos consistentes y en un futuro la reparación de los datos.

Línea: Minería de Datos Algunas definiciones Integridad referencial – Llave foránea – Restricciones de

Línea: Minería de Datos Algunas definiciones Integridad referencial – Llave foránea – Restricciones de integridad – Acciones referenciales Dependencia de inclusión Normalización

Línea: Minería de Datos Ejemplo cliente cl telefono t 0 949 -1212 t 1

Línea: Minería de Datos Ejemplo cliente cl telefono t 0 949 -1212 t 1 555 -8145 nombre Juan Perez Ana Peralta calle ciudad Guadal Mont Benito Juarez insurgentes estad Jal NL Atributo Foráneo compra c a b c d cliente t 0 t 5 t 1 μ LLave Foránea nombre Juan Perez L 55001 Ana Perez Pedro G. pago Cred h Efec Cred h empleado XE 5000 PR 4000 XE 5000 PR 4404 fecha Mar-02 Ene-03 May-12 Jul-20 c. p. 05211 10012

Línea: Minería de Datos Donde surge el problema ● ● Se integra una base

Línea: Minería de Datos Donde surge el problema ● ● Se integra una base de datos de diferentes fuentes – No coinciden los dominios de las llaves – Los SMBD son diferentes Se relaja la integridad referencial por motivos de desempeño x xx x – No se definen las restricciones de integridad referencial en el esquema de la BD (Ej. foreign key) – No se definen acciones referenciales (Ej. on delete cascade)

Línea: Minería de Datos ¿Cómo medimos el problema? ● ● ● Lo debemos medir

Línea: Minería de Datos ¿Cómo medimos el problema? ● ● ● Lo debemos medir rápido, fácil y exactamente La medición debe reflejar la salud de la Base de Datos Las herramientas utilizadas no deben depender del SMBD

Línea: Minería de Datos ¿De qué nos podemos valer? ● Álgebra relacional ● Estadística

Línea: Minería de Datos ¿De qué nos podemos valer? ● Álgebra relacional ● Estadística clásica ● Técnicas de minería de datos exploratoria ● Lenguaje estándard de explotación de datos ● Detección exploratoria de errores

Línea: Minería de Datos Modelo La base de las métricas propuestas: – El valor

Línea: Minería de Datos Modelo La base de las métricas propuestas: – El valor absoluto del error – El valor relativo del error en relación al tamaño de la base de datos – Diferentes niveles de granularidad (valor, atributo, relación, base de datos)

Línea: Minería de Datos Valor Atributo

Línea: Minería de Datos Valor Atributo

Línea: Minería de Datos Atributo Foráneo Relación Base de Datos

Línea: Minería de Datos Atributo Foráneo Relación Base de Datos

Línea: Minería de Datos Métricas asociadas ● Máxima frecuencia de error ● Mínima frecuencia

Línea: Minería de Datos Métricas asociadas ● Máxima frecuencia de error ● Mínima frecuencia de error ● Media de frecuencias de error por atributo ● Desviación estadard de las frecuencias de error ( σ )

Línea: Minería de Datos % valores inv. con respecto al total Comportamiento del error

Línea: Minería de Datos % valores inv. con respecto al total Comportamiento del error 90 Geométrica 70 70 80 90 99 % error absoluto 50 Uniforme 30 0 0. 1 1 veces la desv. estandard con respecto a la media (CV) 10 una corrida

Línea: Minería de Datos Instrumentación Variantes Exhaustiva Agrupamiento refint. java Recibe una gráfica con

Línea: Minería de Datos Instrumentación Variantes Exhaustiva Agrupamiento refint. java Recibe una gráfica con las restricciones de integridad referencial Entrega cláusulas en SQL que calculan el modelo de métricas propuesto

Línea: Minería de Datos

Línea: Minería de Datos

Línea: Minería de Datos Resultados con bases de datos reales

Línea: Minería de Datos Resultados con bases de datos reales

Línea: Minería de Datos Trabajo actual y futuro ● Explotación de datos en forma

Línea: Minería de Datos Trabajo actual y futuro ● Explotación de datos en forma consistente ● Cálculo de las métricas con UDFs ● Reparación de Datos ● Minería de textos

Línea: Minería de Datos ¡Gracias !

Línea: Minería de Datos ¡Gracias !

Línea: Minería de Datos Foreign Keys CREATE TABLE COMPRA (CID … NOT NULL, CL

Línea: Minería de Datos Foreign Keys CREATE TABLE COMPRA (CID … NOT NULL, CL … … … … FOREIGN KEY (CL) REFERENCES CLIENTE (CL) ON DELETE CASCADE ON UPDATE CASCADE)

Línea: Minería de Datos Integración o diferente dominio Cuautitlán Aragón x CU Los departamentos

Línea: Minería de Datos Integración o diferente dominio Cuautitlán Aragón x CU Los departamentos de Control escolar e Inscripción tienen bd separadas. ●Consistentes internamente, ●Con errores al integrarse Objetivo final : conciliar y mejorar la calidad de los datos. x x x Alumno Plantel Control escolar Plantel Alumno Plantel Inscripcion