Minera de Datos MC Beatriz Beltrn Martnez Facultad
Minería de Datos MC Beatriz Beltrán Martínez Facultad de Ciencias de la Computación. Otoño 2009
Introducción Cada vez es más frecuente el almacén de información en bases de datos como en: Data Warehouse Empresas de Marketing Escuelas Gobierno Esto dificulta la realización de análisis de aspectos relevantes. MC Beatriz Beltrán Martínez Otoño 2009 2
Introducción La búsqueda tradicional de datos se realiza mediante análisis estadísticos. A finales de los 80’s la estadística se amplió a técnicas como lógica difusa, razonamiento heurístico y redes neuronales. Actualmente, las técnicas anteriores se aprovechan para generar conocimiento. MC Beatriz Beltrán Martínez Otoño 2009 3
Definición La Minería de Datos es la extracción automática de información predictiva escondida desde bases de datos. La Minería de Datos estudia métodos y algoritmos que permiten la extracción automática de información sintetizada que permite caracterizar las relaciones escondidas. MC Beatriz Beltrán Martínez Otoño 2009 4
Definición En las aplicaciones de la Minería de Datos se hace sobre datos previamente recolectados. Los datos no cambian mientras están siendo analizados. Por lo que los datos generados son confiables y consistentes para éstos datos. MC Beatriz Beltrán Martínez Otoño 2009 5
Tipo de Tecnología La Minería de Datos y las Bases de Datos comerciales están disponibles para resolver problemas de decisión de negocios. La Minería de Datos es una tecnología que ayuda a enfocarse en la información más importante en los almacenes de datos. MC Beatriz Beltrán Martínez Otoño 2009 6
Tipo de Tecnología Minería de Datos: › No es una solución a negocios. › Es sólo tecnología. › Encuentra las “gemas pérdidas” en montañas de información. MC Beatriz Beltrán Martínez Bases de Comerciales: Datos › Involucra decisiones de información. › Da decisiones de negocios. Otoño 2009 7
Herramientas Las Herramientas de la Minería de Datos: › Predicen tendencias futuras y comportamientos. › Pueden responder a preguntas que consumarían demasiado tiempo para resolverlas. La automatización, provee herramientas típicas de soporte de decisión. MC Beatriz Beltrán Martínez Otoño 2009 8
Herramientas Las Herramientas obtienen de las bases de datos patrones escondidos. Las Técnicas de la Minería de Datos pueden ser implementadas rápidamente en software y en las plataformas de hardware existente. Las Herramientas de Minería de Datos pueden ser implementadas en plataformas clienteservidor o computadoras de procesamiento paralelo. MC Beatriz Beltrán Martínez Otoño 2009 9
Técnicas Las Técnicas de la Minería de Datos son el resultado de un largo proceso de investigación y desarrollo de productos. La Minería de Datos esta soportada por tres tecnologías que son lo suficientemente maduras: üColección masiva de datos. üComputadoras con multiprocesamiento. üAlgoritmos de minería de datos. MC Beatriz Beltrán Martínez Otoño 2009 10
Evolución de consultas En la siguiente tabla se muestra la evolución del tipo de consultas. Evolución Preguntas de Negocios Tecnologías permitidas Características Colección de datos (Años 60) Acceso a datos. (Años 80) Cuales fueron los ingresos en los últimos 5 años? Que rebajas se tuvieron en Nueva Inglaterra en marzo? Computadoras, cintas y discos. Bases de datos relacionales y lenguajes de consulta estructurados (SQL) Data Warehouse y soporte a la toma de decisiones. (Años 90) Data Mining (1995) Que rebajas se tuvieron en Nueva Inglaterra en marzo? Repetir para Boston. (Procesamiento analítico en línea, bases de datos multidimensionales y almacenes de datos. Liberación de datos estáticos retrospectiva. Nivel de registro en liberación de datos dinámicos retrospectiva. Niveles múltiples en liberación de datos dinámicos retrospectiva. Que es lo más probable que pase con las rebajas en Boston el próximo mes? Algoritmos avanzados, Liberación de computadoras con información proactiva multiprocesador y bases de prospectiva datos masivas. MC Beatriz Beltrán Martínez Otoño 2009 11
Componentes El componente principal en la Tecnología de la Minería de Datos ha sido desarrollado en: üEstadística üInteligencia Artificial üMáquinas de Aprendizaje Actualmente, existe gran relevancia en: üAmbientes de negocios üLas descripciones básicas de las arquitecturas de almacenes de datos. MC Beatriz Beltrán Martínez Otoño 2009 12
Técnicas Las técnicas para la Minería de Datos son: ü Redes Neuronales Artificiales. ü Árboles de Decisión. ü Algoritmos Genéticos. ü Modelos Lineales. ü Vecino más Cercano. MC Beatriz Beltrán Martínez Otoño 2009 13
Minería de Datos La Minería de Datos ha surgido del potencial del análisis de grandes volúmenes de información. Su fin es obtener resúmenes y conocimiento para la toma de decisiones. Además se pretende construir experiencia a partir de millones de transacciones. MC Beatriz Beltrán Martínez Otoño 2009 14
Minería de Datos El conjunto de datos de donde la minería intenta extraer conocimiento se le llama conjunto de entrenamiento. La meta de la Minería es obtener conocimiento válido no solo para la base de datos considerada sino para una muy similar. El conocimiento puede ser probado con otro conjunto de entrenamiento. MC Beatriz Beltrán Martínez Otoño 2009 15
Minería de Datos Algunas de las aplicaciones de la Minería de Datos son: › › › Compañias Farmaceuticas. Compañias de crédito. Compañias de transporte. Compañias de consumo. Reacciones químicas. Comercio, monitoreo. MC Beatriz Beltrán Martínez Otoño 2009 16
Retos de la Minería Facilidad con que se puede caer en una falsa interpretación. Es fácil equivocarse. Tiempo y espacio. Privacidad MC Beatriz Beltrán Martínez Otoño 2009 17
Proceso de la Minería BD Selecció n Datos Preprocesad o Selección de característic as Extracción de conocimiento Conocimiento MC Beatriz Beltrán Martínez Otoño 2009 Evaluación Modelo clasificador 18
Proceso de la Minería Algoritmos de aprendizaje: Mediante una técnica de Minería de Datos, se obtiene un modelo de conocimiento. El modelo representa patrones de comportamiento observados en los valores de las variables o relaciones de asociación. También pueden usarse técnicas para generar distintos modelos. MC Beatriz Beltrán Martínez Otoño 2009 19
Tipología de Técnicas de la Minería Los métodos no supervisados, descubren: ü patrones y ü tendencias en los datos actuales. El descubrimiento de esa información sirve para llevar a cabo acciones y obtener un beneficio de ellas. MC Beatriz Beltrán Martínez Otoño 2009 20
Taxonomía de la Minería Data Mining Verification Driven DM SQL Discovery Driven DM SQL Generator Description Visualization Query Tools OLAP Prediction Clasification Clustering Association Secuential Association MC Beatriz Beltrán Martínez Decision Tree Distillation Otoño 2009 Statistical Regression Rule Induction Neural Network 21
Métodos de la Minería Agrupamiento. › También se llama segmentación. › Identifica tipologías de grupos, donde se guarda similitud. › Se requiere información sobre el colectivo a segmentar. › La información corresponde a valores concretos. › Se basan en herramientas de carácter estadísticos, generación de reglas, redes neuronales, etc. MC Beatriz Beltrán Martínez Otoño 2009 22
Técnicas de la Minería Métodos estadísticos. › Técnica tradicional en el tratamiento de grandes volúmenes de datos. › Existen varios modelos: ØANOVA (Análisis de Varianza). Contrasta con variables continuas. ØJi cuadrado. Contrasta con la independencia de variables. ØComponentes principales. Permite reducir el número de variables. MC Beatriz Beltrán Martínez Otoño 2009 23
Técnicas de la Minería Métodos estadísticos. ØAnálisis de clústers. Permite clasificar poblaciones. ØAnálisis de discrimante. Permite encontrar reglas de clasificación de elementos en grupos. ØRegresión lineal. Se identifica una variable dependiente de las independientes, con una relación lineal. ØRegresión logística. Trabaja con variables discretas, se requiere que las variables sean lineales. MC Beatriz Beltrán Martínez Otoño 2009 24
Técnicas de la Minería Árboles de decisión. › Herramientas analíticas empleadas para el descubrimiento de reglas y relaciones. › Se construye partiendo el conjuntos de dos (CART) o más (CHAID). › Cada subconjunto a su vez es particionado. › Se continua hasta no encontrar diferencias significativas de influencia. MC Beatriz Beltrán Martínez Otoño 2009 25
Técnicas de la Minería Reglas de asociación. › Derivan de un tipo de análisis que extrae información por coincidencias. › Permite descubrir correlaciones o co-ocurrencias en los sucesos de la base de datos. › Se formaliza la obtención de reglas del tipo SI. . . ENTONCES. MC Beatriz Beltrán Martínez Otoño 2009 26
Técnicas de la Minería Redes neuronales. › Son capaces de detectar y aprender patrones y características de los datos. › Una vez adiestradas las redes pueden hacer previsiones, clasificaciones y segmentación. › Esto se realiza estructurando nivels o capas. › Se tienen dos tipos de aprendizaje: supervisado y no supervisado. MC Beatriz Beltrán Martínez Otoño 2009 27
Técnicas de la Minería Algorítmos genéticos. › Hacen uso de técnicas de reproducción (mutación y cruce) para ser utilizadas para búsqueda y optimización. › Se parte de una población inicial, y se altera optimizándola. › Esta herramienta se usa en las primeras fases de la minería y después se aplica redes neuronales o regresión logística. MC Beatriz Beltrán Martínez Otoño 2009 28
Técnicas de la Minería Lógica difusa. › Surge de la necesidad de modelar la realidad de forma mas exacta, evitando el determinismo y exactitud. › Permite el tratamiento probabilístico de categorización colectiva. › Trata la existencia de barreras difusas o suaves entre grupos. MC Beatriz Beltrán Martínez Otoño 2009 29
Técnicas de la Minería Series temporales. › Consisten en el estudio de una variable a través del tiempo para que partiendo de ese conocimiento y con el supuesto de no cambios poder realizar predicciones. › Se basan en ciclos, tendencias y estaciones. › Se puede aplicar enfoques híbridos entre métodos anteriores, o con otro tipo de variables. MC Beatriz Beltrán Martínez Otoño 2009 30
Técnicas de la Minería Redes bayesianas. › Son una alternativa para la minería. › Se tiene las ventajas: ØPermiten aprender sobre relaciones de dependencia y causalidad. ØPermiten combinar conocimiento de datos. ØEvitan el sobre-ajuste de datos. ØPermiten el manejo de bases de datos incompletas. MC Beatriz Beltrán Martínez Otoño 2009 31
Técnicas de la Minería Inducción de reglas. › Como información de entrada, se tiene un conjunto de casos donde se ha asociado una clasificación o evaluación. › Con tal información se obtiene un árbol de decisión, que soportan la evaluación o clasificación. › En caso de que la entrada tenga ruido, esta técnica se puede habilitar con métodos estadísticos. MC Beatriz Beltrán Martínez Otoño 2009 32
Técnicas de la Minería Sistemas basados sistemas expertos. en conocimiento y › Permiten la formalización de árboles y reglas de decisión, extraídas del conocimiento de expertos. › Poseen motores de inferencia, que gestionan las preguntas. › De esta forma el proceso de decisión es eficiente y rápido. MC Beatriz Beltrán Martínez Otoño 2009 33
Evaluación de la Minería Selección de técnicas adecuadas. ü El mínimo aceptable para elegir una tecnología de MD y un producto depende de qué tanto el producto beneficia al negocio: ØIngresos. ØCostos disminuidos. ØRendimiento de inversiones. ü Para desarrollar con éxito un negocio, el MD debe buscar algo más que patrones deseados. MC Beatriz Beltrán Martínez Otoño 2009 34
Evaluación de la Minería Se tienen tres medidas claves, para una evaluación de las herramientas. ü Precisión: Se deben modelos precisos, pero reconociendo pequeñas diferencias en las técnicas. ü Explicación: Las herramientas deben explicar al usuario final de manera clara como funciona el modelo. ü Integración: Las herramientas deben integrarse en el proceso real del negocio, flujos de datos e información de la empresa. MC Beatriz Beltrán Martínez Otoño 2009 35
- Slides: 35