Minera de Datos con Clementine Lic Miguel Cospin

Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

Minería de Datos (o Data Mining) © 2006 SPSS Inc. § Es descubrir información

CREENCIAS FALSAS SOBRE LO QUE ES DATA MINING § Proceso de fuerza bruta sobre

EVOLUCIÓN DEL ANÁLISIS DE DATOS © 2006 SPSS Inc. 4

Tres clases de algoritmos de Data Mining: “Diferencias” en los grupos o clusters Que

¿Que es lo que hace la Minería de Datos? § Data mining utiliza los

En donde encaja el Modelado de Clementine? Datos existentes • Datos Históricos • Datos

Modelado Predicción y Clasificación Asociación Clustering y Segmentación Reducción de datos Los modelos son

Aplicaciones Sector Público Ve o nt nt ie im as al n te De

OPORTUNIDADES DE DATA MINING EN SEGMENTACIÓN § Encontrar segmentos con Cluster Analysis © 2006

OPORTUNIDADES DE DATA MINING EN DETECCIÓN DE FRAUDE § Detectar efectivamente fraudes en el

OPORTUNIDADES DE DATA MINING EN VENTA CRUZADA § Realizar ventas cruzadas de manera más

OPORTUNIDADES DE DATA MINING EN CORREO DIRECTO § Atraer los clientes mas rentables. ©

SPSS Clementine es la más avanzada herramienta de Data Mining del mercado. Combina modernas

Características de Clementine § Fácil entendimiento de los datos § § Poderosa Preparación de

Características de Clementine § Técnicas de Modelado Técnicas Supervisadas § C&RT, Redes Neuronales, C

Capacidad Extendida de Clementine § Cubre todos los aspectos de las interacciones de clientes

Muestreo y validación de modelos § Tradicional en minería de datos : 2 muestras

Reglas de Asociación A PRIORI y CARMA : § Clementine permite analizar grandes bases

Reglas de Inducción Los algoritmos de reglas de inducción y de asociación son las

Detección de Secuencias § Estas técnicas permiten detectar reglas de asociación en donde el

Árboles de decisión Un algoritmo de árbol de decisión divide sucesivamente un conjunto de

Redes neuronales Clementine cuenta con los métodos de redes neuronales de mayor uso (Kohonen,

Redes neuronales § Una red neuronal es básicamente un modelo simplificado de la forma

Redes neuronales Las redes neuronales son una herramienta ideal para enfrentar problemas complejos como

Visualización gráfica Muchas fases del proceso de minería utilizan gráficos y diagramas para explorar

Gráfico de puntos Muestran la relación entre los campos numéricos. © 2006 SPSS Inc.

Gráficos de Distribución Muestran la ocurrencia de valores simbólicos (no numéricos), como un género

Histograma Muestran la ocurrencia de valores de los campos numéricos. Se suelen utilizar para

Gráficos de Colección Muestran la distribución de los valores de un campo numérico relativo

Gráficos de Mallas direccionales § Muestran la fuerza de las relaciones entre variables categóricas.

Gráfico de Evaluación Es una forma sencilla de evaluar y comparar modelos predictivos para

Análisis de conglomerados § Para interpretar los clusters © 2006 SPSS Inc. 35

Diagramas de Cajas Muestran la mediana, rango intercuartil, valores extremos y casos extremos de

Gráfica de Links Muestra nodos y las conexiones entre nodos. Por ejemplo, puede examinar

CAT’s (Templates) Son modelos ya probados para Incrementar la retención de clientes , atraer

Minería de textos Un 80% o más en promedio de la información de las

Metodología para Data Mining (CRISP) © 2006 SPSS Inc. 40

Soluciones SPSS para Data Mining © 2006 SPSS Inc. 41

Algunos clientes Servicios Financieros Retail/Bienes de consumo © 2006 SPSS Inc. Lealtad Tecnología Entretenimiento

Slides: 43

Download presentation

Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

Minería de Datos (o Data Mining) © 2006 SPSS Inc. § Es descubrir información que se encuentra oculta adentro de las bases de datos de manera inteligente pero automatizada. § Data Mining, en su proceso de análisis y exploración de datos utiliza tecnicas estadísticas y modelos matematicos para encontrar patrones, relaciones y tendencias con USO PREDICTIVO 2

CREENCIAS FALSAS SOBRE LO QUE ES DATA MINING § Proceso de fuerza bruta sobre los datos crudos. § Aplicación “ciega” de algoritmos para análisis/modelaje. § Encontrar relaciones en donde no existen. § Magia. © 2006 SPSS Inc. ! O N 3

Tres clases de algoritmos de Data Mining: “Diferencias” en los grupos o clusters Que eventos ocurren juntos? Dada una serie de acciones o eventos; cual acción es la que probablemente ocurra después? Data Mining Agrupar casos que presentan características similares. Predecir “Relaciones” Asociar “Patrones” Predecir quién es más probable en demostrar un comportamiento específico en el futuro © 2006 SPSS Inc. 5

¿Que es lo que hace la Minería de Datos? § Data mining utiliza los datos existentes para : § Predecir § § § Agrupar § § Encontrar eventos que ocurren simultáneamente o en una secuencia Identificar § © 2006 SPSS Inc. Descubrir grupos de clientes homogéneos basados en sus características Asociar § § La pertenencia a una categoría Un Valor numérico Identificar casos que no siguen un comportamiento esperado 6

En donde encaja el Modelado de Clementine? Datos existentes • Datos Históricos • Datos Presentes • Procesos • Casos PREDICCION Crear Modelos OPERACIONES • Reporte • Casos • Scoring • Actividad de campo Retroalimentación • Examinar la data en su entera dimensión • Aprender interacciones de tendencias en las relaciones • Descubrir cambios en el comportamiento © 2006 SPSS Inc. 7

Aplicaciones Sector Público Ve o nt nt ie im as al n te De Ventas Cruzadas, Lealtad, Correo Directo, Basket Analysis Lealtad CRM Impuestos, Satisfacción de usuarios, Finanzas públicas lle Ventas Cruzadas, Lealtad, Churn ta gu Se y ud Sa l tre En © 2006 SPSS Inc. m Data mining co Utilización de Recursos, Detección de Fraudes, Control de Calidad le Adquisición y Retención Ventas cruzadas Detección de Fraude CRM Te ro s Servicios Financieros 9

SPSS Clementine es la más avanzada herramienta de Data Mining del mercado. Combina modernas técnicas de modelamiento con poderosas herramientas de acceso, manipulación y exploración de datos en una interfaz simple e intuitiva. © 2006 SPSS Inc. 15

Características de Clementine § Fácil entendimiento de los datos § § Poderosa Preparación de los datos § § § Visualización Interactiva Accesa y combina datos de múltiples fuentes Especifica valores perdidos Deriva nuevas variables Produce información resumida Incrementa la productividad con su enfoque visual de la manipulación de datos © 2006 SPSS Inc. 17

Características de Clementine § Técnicas de Modelado Técnicas Supervisadas § C&RT, Redes Neuronales, C 5. 0, Quest, CHAID, Regresión Lineal y Regresión Logística § Técnicas No Supervisadas § K-medias, Kohonen, Bi-etápico § Apriori, GRI, Sequence, Carma, Detección de Anomalías § § Técnicas de Evaluación § § Tablas Estadísticas, Gráficos de Ganancia y ROI Técnicas de Publicación de modelos § § Punteo o Scoring de Bases de Datos Scoring en tiempo real © 2006 SPSS Inc. 18

Capacidad Extendida de Clementine § Cubre todos los aspectos de las interacciones de clientes § Minería de Textos (Text Mining) § Web Mining § Predictive Enterprise Services (PES) § § § Administrador de Modelost Administrador de Procesos Traslada los resultados a la acción § Interactúa con aplicaciones Predictivas § Publica los modelos con Solution Publisher © 2006 SPSS Inc. 19

Muestreo y validación de modelos § Tradicional en minería de datos : 2 muestras de datos. (Grande para entrenamiento y Pequeña de evaluación provenientes de la misma fuente) § Con Clementine se puede contar con tres muestras: entrenamiento, prueba y evaluación. (Tiene un nodo que automáticamente crea las particiones que se necesitan para el análisis). © 2006 SPSS Inc. 20

Reglas de Asociación A PRIORI y CARMA : § Clementine permite analizar grandes bases de datos transaccionales o registros de programas de puntos y obtener reglas significativas que describan hábitos específicos de consumo. Los métodos de reglas de asociación permiten descubrir que valores de dos o más variables (que pueden ser predictores y objetivo en distintas reglas) generalmente ocurren conjuntamente (o no ocurren conjuntamente). © 2006 SPSS Inc. 21

Reglas de Inducción Los algoritmos de reglas de inducción y de asociación son las herramientas de análisis más frecuentes en el modelado de: § Hábitos de compra § Análisis de secuencias de compra § Patrones de consumo § Análisis de Ventas cruzadas o cross-selling § Clementine cuenta con los modelos GRI (Generalizad Rule Induction) que permiten generar reglas que sintetizan patrones en los datos utilizando una medida del interés de la regla para jerarquizar las reglas. © 2006 SPSS Inc. 22

Detección de Secuencias § Estas técnicas permiten detectar reglas de asociación en donde el tiempo es importante dado que las variables están cronológicamente ordenadas. § Análisis muy útil en el área de Ventas al Detalle o Retail para detectar patrones de consumo § Y en el área de e-commerce en la detección de compra conjunta y patrones de navegación. © 2006 SPSS Inc. 23

Árboles de decisión Un algoritmo de árbol de decisión divide sucesivamente un conjunto de registros obteniendo grupos en donde la distribución de la variable objetivo es más homogénea que al considerar todos los registros. Las divisiones se realizan seleccionando el predictor que mejor agrupa a los registros desde el punto de vista de homogeneizar la variable objetivo. Los algoritmos disponibles son: § C 5. 0 § C&RT § CHAID § QUEST § CHAID Exhaustivo Util para Segmentar Consumidores y se dispone de muchas variables que se quieren priorizar. © 2006 SPSS Inc. 24

Redes neuronales Clementine cuenta con los métodos de redes neuronales de mayor uso (Kohonen, Prune, Radial Basis, etc. ). Las redes neuronales son, junto a los árboles de decisión, las más importantes herramientas de data mining disponibles actualmente debido a su capacidad para encontrar relaciones ocultas entre las variables y su flexibilidad para enfrentar distintos tipos de problemas de negocios. © 2006 SPSS Inc. 25

Redes neuronales § Una red neuronal es básicamente un modelo simplificado de la forma en que el cerebro humano procesa información. La red aprende examinando los registros individuales, haciendo una predicción para cada registro de acuerdo a su semejanza con patrones vistos anteriormente, evaluando la predicción con el valor real de la variable objetivo en el registro y corrigiendo los patrones de acuerdo al acierto o fracaso en la predicción. Este proceso continúa repetidamente hasta que, básicamente, la red no puede mejorar más su eficiencia predictiva, generándose en ese momento el modelo. © 2006 SPSS Inc. 26

Redes neuronales Las redes neuronales son una herramienta ideal para enfrentar problemas complejos como ¿por qué un empleado abandona su trabajo ? ¿ Qué nivel de logro puede alcanzar una campaña que inicia? Fenómenos que son afectados por muchas variables cuya interrelación no es necesariamente lineal. Clementine dispone de redes neuronales de Kohonen para desarrollar modelos de segmentación no dirigida conocidos como mapas auto-organizados. Este tipo de relaciones son las más frecuentes cuando se analizan datos de clientes con el propósito de detectar segmentos según hábitos de compra, consumos, nivel de cross-selling, etc. © 2006 SPSS Inc. 27

Visualización gráfica Muchas fases del proceso de minería utilizan gráficos y diagramas para explorar los datos. La visualización gráfica de Clementine se puede clasificar en 4 tipos : 1. Gráficos para comprender mejor los tipos de datos y las distribuciones 2. Gráficos para manipular registros y campos previo a las operaciones de modelado 3. Gráficos para comprobar la distribución y las relaciones entre campos recién derivados. 4. Gráficos de apoyo al modelado © 2006 SPSS Inc. 28

Gráficos de Distribución Muestran la ocurrencia de valores simbólicos (no numéricos), como un género o un tipo de hipoteca, en un conjunto de datos. El uso habitual del nodo de distribución consiste en mostrar los desequilibrios de los datos que pueden rectificarse mediante el nodo Equilibrar antes de crear un modelo. © 2006 SPSS Inc. 30

Histograma Muestran la ocurrencia de valores de los campos numéricos. Se suelen utilizar para explorar los datos antes de las manipulaciones y la generación de modelos. Los nodos de histogramas se utilizan para detectar desequilibrios en los datos. © 2006 SPSS Inc. 31

Gráficos de Colección Muestran la distribución de los valores de un campo numérico relativo a los valores de otro, en lugar de la ocurrencia de los valores de un solo campo. Las colecciones son útiles para ilustrar una variable o un campo cuyos valores cambian con el tiempo. © 2006 SPSS Inc. 32

Gráfico de Evaluación Es una forma sencilla de evaluar y comparar modelos predictivos para elegir el mejor modelo para su aplicación. Muestran el comportamiento de los modelos pronosticando determinados resultados. © 2006 SPSS Inc. 34

Gráfica de Links Muestra nodos y las conexiones entre nodos. Por ejemplo, puede examinar las rutas que los usuarios toman a través de un sitio Web, mediante el rastreo de cuántas veces los usuarios van de una página a la siguiente. © 2006 SPSS Inc. 37

CAT’s (Templates) Son modelos ya probados para Incrementar la retención de clientes , atraer utilidades de los clientes y crear ventas cruzadas eficientes y estrategias de venta. Disponibles : § CRM (Bancos y Retail) § Credit. Scoring (Riesgo financiero en Bancos) § Reducción Churn (Telecomunicaciones) © 2006 SPSS Inc. 38

Minería de textos Un 80% o más en promedio de la información de las empresas no está estructurada o está en formatos de textos, comparado con el 20% o menos que está estructurada en tablas y bases de datos usadas en minería de datos tradicional. Información de notas de los operadores de call centers, formas llenadas en la página web, correos electrónicos de clientes y algunas otras fuentes valiosas de información en texto de la empresa, a menudo no son utilizadas. § Text Mining para Clementine permite extraer conceptos claves, impresiones y relaciones de una base de datos no estructurada, los convierte en un formato estructurado para un modelo predictivo con Clementine. De esta forma se basan las decisiones críticas en el 100% de la información disponible de los datos, no sólo en el 20%. © 2006 SPSS Inc. 39