Lnea Minera de Datos LA INTEGRIDAD REFERENCIAL EN
- Slides: 22
Línea: Minería de Datos LA INTEGRIDAD REFERENCIAL EN LA CALIDAD DE BASES DE DATOS RELACIONALES M en C Javier García en colaboración con Dr. Carlos Ordoñez Mondragón Dra. Hanna Oktaba
Línea: Minería de Datos Índice Donde se inscribe el proyecto de investigación Algunas definiciones Ejemplo Donde surge el problema Modelo Definiciones Granularidad Métricas asociadas Instrumentación Variantes Resultados experimentales
Línea: Minería de Datos Donde se inscribe el proyecto de investigación La investigación en minería de datos típicamente asume que los datos a analizar están correctos Las herramientas están enfocadas a que el analista pueda descubrir patrones y en general aspectos del dominio de los datos sobre la base de que los datos están correctos
Línea: Minería de Datos Donde se inscribe el proyecto de investigación Sin embargo se ha estudiado que gran parte del trabajo de análisis de datos (hasta el 80%) se dedica a limpieza y comprensión de los datos Por otro lado, las investigaciones y el sw existente de limpieza de datos se enfoca principalmente en corregir errores de dominio de valores sobre atributos aislados
Línea: Minería de Datos Donde se inscribe el proyecto de investigación Se han estudiado muy poco los errores que tienen que ver con la interrelación de los datos Esta investigación se inscribe en el área de minería de datos llamada preprocesamiento de datos, en particular en la detección de problemas de integridad referencial En la fase actual estamos estudiando el despliegue de datos consistentes y en un futuro la reparación de los datos.
Línea: Minería de Datos Algunas definiciones Integridad referencial – Llave foránea – Restricciones de integridad – Acciones referenciales Dependencia de inclusión Normalización
Línea: Minería de Datos Ejemplo cliente cl telefono t 0 949 -1212 t 1 555 -8145 nombre Juan Perez Ana Peralta calle ciudad Guadal Mont Benito Juarez insurgentes estad Jal NL Atributo Foráneo compra c a b c d cliente t 0 t 5 t 1 μ LLave Foránea nombre Juan Perez L 55001 Ana Perez Pedro G. pago Cred h Efec Cred h empleado XE 5000 PR 4000 XE 5000 PR 4404 fecha Mar-02 Ene-03 May-12 Jul-20 c. p. 05211 10012
Línea: Minería de Datos Donde surge el problema ● ● Se integra una base de datos de diferentes fuentes – No coinciden los dominios de las llaves – Los SMBD son diferentes Se relaja la integridad referencial por motivos de desempeño x xx x – No se definen las restricciones de integridad referencial en el esquema de la BD (Ej. foreign key) – No se definen acciones referenciales (Ej. on delete cascade)
Línea: Minería de Datos ¿Cómo medimos el problema? ● ● ● Lo debemos medir rápido, fácil y exactamente La medición debe reflejar la salud de la Base de Datos Las herramientas utilizadas no deben depender del SMBD
Línea: Minería de Datos ¿De qué nos podemos valer? ● Álgebra relacional ● Estadística clásica ● Técnicas de minería de datos exploratoria ● Lenguaje estándard de explotación de datos ● Detección exploratoria de errores
Línea: Minería de Datos Modelo La base de las métricas propuestas: – El valor absoluto del error – El valor relativo del error en relación al tamaño de la base de datos – Diferentes niveles de granularidad (valor, atributo, relación, base de datos)
Línea: Minería de Datos Valor Atributo
Línea: Minería de Datos Atributo Foráneo Relación Base de Datos
Línea: Minería de Datos Métricas asociadas ● Máxima frecuencia de error ● Mínima frecuencia de error ● Media de frecuencias de error por atributo ● Desviación estadard de las frecuencias de error ( σ )
Línea: Minería de Datos % valores inv. con respecto al total Comportamiento del error 90 Geométrica 70 70 80 90 99 % error absoluto 50 Uniforme 30 0 0. 1 1 veces la desv. estandard con respecto a la media (CV) 10 una corrida
Línea: Minería de Datos Instrumentación Variantes Exhaustiva Agrupamiento refint. java Recibe una gráfica con las restricciones de integridad referencial Entrega cláusulas en SQL que calculan el modelo de métricas propuesto
Línea: Minería de Datos
Línea: Minería de Datos Resultados con bases de datos reales
Línea: Minería de Datos Trabajo actual y futuro ● Explotación de datos en forma consistente ● Cálculo de las métricas con UDFs ● Reparación de Datos ● Minería de textos
Línea: Minería de Datos ¡Gracias !
Línea: Minería de Datos Foreign Keys CREATE TABLE COMPRA (CID … NOT NULL, CL … … … … FOREIGN KEY (CL) REFERENCES CLIENTE (CL) ON DELETE CASCADE ON UPDATE CASCADE)
Línea: Minería de Datos Integración o diferente dominio Cuautitlán Aragón x CU Los departamentos de Control escolar e Inscripción tienen bd separadas. ●Consistentes internamente, ●Con errores al integrarse Objetivo final : conciliar y mejorar la calidad de los datos. x x x Alumno Plantel Control escolar Plantel Alumno Plantel Inscripcion
- Regla de integridad
- Que es integridad en base de datos
- Banca en lnea
- Lnea
- Lnea
- Minera san xavier
- Reglamento de seguridad e higiene minera
- Lemas de seguridad minera
- Minera hmc
- Que es una regla cardinal
- Zimbra casanare
- Que es la integridad
- Confidencialidad integridad y disponibilidad
- Regla de wallace
- Acaso teme job a dios de balde
- Integridad del yo
- Integridad vs desesperación
- Direktang sipi
- Datos objetivos enfermeria
- Actitudes ejemplos
- Modalidad discursiva
- Integridade referencial de dados
- Coesão referencial