ELABORADO POR AVALOS IRINA PAGUAY SANDRA DIRECTOR ING
ELABORADO POR: AVALOS IRINA PAGUAY SANDRA DIRECTOR: ING. MARIO ALMACHE
AGENDA ¿Cómo surge nuestro proyecto? • Antecedentes • Problema y Justificación • Objetivos ¿Cómo solucionamos el problema? • Minería de Datos • Metodología CRISPDM ¿Qué modelo predictivo fue seleccionado? • J 48 • Regresión Lineal • Clasificadores Lazy ¿Qué concluimos? • Conclusiones • Recomendaciones • Trabajos Futuros
AGENDA ¿Cómo surge nuestro proyecto? • Antecedentes • Problema y Justificación • Objetivos ¿Cómo solucionamos el problema? • Minería de Datos • Metodología CRISPDM ¿Qué modelo predictivo fue seleccionado? • J 48 • Regresión Lineal • Clasificadores Lazy ¿Qué concluimos? • Conclusiones • Recomendaciones • Trabajos Futuros
Instrucciones para el uso de Power. Point ANTECEDENTES Deserción Universitaria UNESCO: 40% deserción al año 2015 SENESCYT: 26% deserción al año 2014
ANTECEDENTES Tasa de Retención Grado • Eficiencia académica • Nivel de permanencia al inicio de la carrera • Nivel de deserción Tasa de titulación grado • Nivel de permanencia hasta el final de la carrera
PROBLEMA Universidad Magnitud Global Alumnos Multidimensional Sociedad Desarrollo económico y social
Ejemplo de gráfico de líneas JUSTIFICACIÓN Disminuir la tasa de deserción Acceso a un mejor nivel de vida Desarrollo personas y profesional de calidad Disminuir la pérdida del presupuesto invertido Incrementar el número de graduados Nuevas estrategias de retención y tomar medidas necesarias y oportunas Categoría “A”
OBJETIVOS Técnicas de minería de datos Causas Interfaz web Proponer un Modelo Predictivo
AGENDA ¿Cómo surge nuestro proyecto? • Antecedentes • Problema y Justificación • Objetivos ¿Cómo solucionamos el problema? • Minería de Datos • Metodología CRISPDM ¿Qué modelo predictivo fue seleccionado? • J 48 • Regresión Lineal • Clasificadores Lazy ¿Qué concluimos? • Conclusiones • Recomendaciones • Trabajos Futuros
TÉCNICAS DE MINERÍA DE DATOS SUPERVISADOS Árboles de decisión Regresión DATA MINING Segmentación NO SUPERVISADOS Agrupamiento ("clustering")
METODOLOGÍA CRISP-DM
FASE I: COMPRENSIÓN DEL NEGOCIO 1. Determinación objetivos del negocio Predecir la deserción universitaria con el menor grado de error de tal forma que se puedan dar y crear nuevas medidas de ayuda. 2. Evaluación de la Situación Se recopiló información personal del alumno, notas, horarios y docentes de los períodos Marzo 2011 Marzo 2016 de los alumnos de pre-grado presencial. 3. Determinación objetivos de la minería de datos Refinar, limpiar datos recopilados los Seleccionar y comparar los resultados 4. Generación del plan de proyecto Variables Asignaturas
FASE II: COMPRENSIÓN DE LOS DATOS 1. Recolectar datos Los datos se recolectaron en dos distintos archivos. xlsx, el primero que contiene una tabla con la información personal del alumno y el segundo contiene las notas por materia. 2. Descripción de los Datos Alumnos: 16220 registros Nota: 604893 registros 3. Exploración de los Datos Análisis estadístico que revela las características de los datos demográficos y académicos.
FASE II: COMPRENSIÓN DE LOS DATOS 3. Exploración de los datos
FASE II: COMPRENSIÓN DE LOS DATOS 4. Verificar la calidad de los datos
FASE II: COMPRENSIÓN DE LOS DATOS 4. Verificar la calidad de los datos CÉDULA 0202181806 PERÍODO MATERIA PREGRADO S-II INST. OCT 16 -FEB 17 INDUSTRIAL NOTA 14. 19 HORA INICIO FIN 1200 1259 DIA DOCENTE F ECHEVERRIA YANEZ, LUIS MANUEL MECANICA 0202181806 PREGRADO S-II INST. OCT 16 -FEB 17 INDUSTRIAL MECANICA 14. 19 0930 1130 M ECHEVERRIA YANEZ, LUIS MANUEL
FASE III: PREPARACIÓN DE LOS DATOS • Período cohorte: 2011 Muestra: 8264 estudiantes. • Se eliminaron las variables: Promedio Colegio, Cantón Nacimiento y Residencia, Dirección, Ingresos familiares, Carreras a distancia y los 1. Seleccionar los datos alumnos que no registraban el colegio de procedencia. • Eliminaron alumnos que no tenían información personal Muestra: 267050 registros de notas. • Mismo formato registro 2. Limpieza de datos • Eliminó la letra ñ y el símbolo de tilde de los registros • Fusión registros duplicados
FASE III: PREPARACIÓN DE LOS DATOS • Pentaho Data Integration para crear el Data Warehouse mediante archivos ETL (Extract – Transform – Load). • Base de datos relacional: 18 nuevas tablas • MACRO_ENTRENAMIENTO_DESERCIÓN y MACRO_PRUEBA_DESERCIÓN • Cantidad Cambio, Créditos Materia, Curso Alumno, Deserción, Día 3. Construir e integrar los datos Viernes, Km, Materias Cursadas, Materias Repetidas, Matricula Siguiente, Nivel, Período Tipo, Promedio Alumno, Tiempo, Tipo Alumno, Tipo Carrera, Tipo Horario, Tipo matrícula.
FASE IV: MODELADO 1. Escoger la técnica de modelado ÁRBOLES DE DECISIÓN Ventajas • Analiza todas las opciones. • Fácil interpretación. • Esquemas que cuantifican el costo de un resultado y la probabilidad de que suceda. Desventajas • Gran cantidad de datos. • Elegir un árbol óptimo. • En árboles complejos es más difícil y tardado la evaluación de los eventos.
FASE IV: MODELADO 1. Escoger la técnica de modelado REGRESIÓN LINEAL Ventajas • Herramienta útil para estudiar e identificar las posibles relaciones entre los cambios observados en dos conjuntos diferentes de variables • Suministra datos para confirmar hipótesis • Proporcionan una forma sencilla e intuitiva de estudiar la relación entre dos variables Desventajas • La variable dependiente debe ser continua • Sólo se basa en relaciones lineales • Sólo se basa en la media de la variable dependiente • Sensible a los valores atípicos • Los datos deben ser independientes
FASE IV: MODELADO 1. Escoger la técnica de modelado CLASIFICADORES LAZY Ventajas • No es necesario realizar suposiciones de los conceptos a aprender. • Aprende usando funciones sencillas como aproximaciones locales. • El coste de aprendizaje es nulo. Desventajas • Su rendimiento baja si el número de datos crece. • Su interpretabilidad es nula
FASE IV: MODELADO 2. Generar el plan de prueba El error cuadrático medio (RMSE) 80% entrenamiento 20% prueba Instancias correctamente clasificadas Matriz de Confusión El error absoluto medio (MAE)
FASE IV: MODELADO 3. Construir el modelo y evaluar el modelo CARACTERÍSTICAS • • Tareas de clasificación, regresión, clustering y asociación Trabaja con archivos del tipo arff VENTAJAS • • Identifica patrones de comportamiento Licencia GNU-GPL Corre en cualquier plataforma Extensa colección de técnicas DESVENTAJAS • • • Poca documentació n No incluye algoritmo para el modelado de secuencias Interfaz de usuario poco amigable ALGORTIMOS • • • Bayesianos Árboles de decisión Basados en Reglas Funciones (Regresión Logística) Perezosos (lazy) Multiclasificadore s
FASE IV: MODELADO 3. Construir el modelo y evaluar el modelo MODELOS DEPARTAMENTO DECC TCON Modelo 1: Reprueban Asignatura ETAPAS MODELADO ETAPA I Modelo Predictivo ETAPA II Modelo Predictivo CADM VDA EMEC CHUM ELEE Modelos 2: Deserción de la Universidad ETAPA I Modelo Predictivo ETAPA II Modelo Predictivo
AGENDA ¿Cómo surge nuestro proyecto? • Antecedentes • Problema y Justificación • Objetivos ¿Cómo solucionamos el problema? • Minería de Datos • Metodología CRISPDM ¿Qué modelo predictivo fue seleccionado? • J 48 • Regresión Lineal • Clasificadores Lazy ¿Qué concluimos? • Conclusiones • Recomendaciones • Trabajos Futuros
FASE IV: MODELADO Modelo 1: Predice si un alumno va a aprobar o reprobar una materia
FASE IV: MODELADO Modelo 2: Deserción de la Universidad
ÁRBOLES DE DECISIÓN Eficaz y eficiente Factible y comprensible Mínimo grado de error los alumnos Variables Técnicas de minería de datos Asignaturas Refinar y limpiar datos Cumple con los objetivos
ARIABLES QUE INFLUYEN EN LA DESERCIÓN UNIVERSITAR Colegio Edad Créditos de la materia Créditos semestre Cantidad de alumnos por curso Departamento de la asignatura Docente Cantidad de materias repetidas Sostenimiento del colegio Estado civil Etnia Género Cantidad de materias aprobadas Nivel Parroquia de residencia Tipo del período Promedio del alumno del semestre anterior Militar Tipo del alumno Tipo de horario de la materia Tipo de matrícula Tipo de sostenimiento del colegio Régimen escolar del colegio
ARIABLES QUE INFLUYEN EN LA DESERCIÓN UNIVERSITAR Colegio Edad Créditos de la materia Créditos semestre Cantidad de alumnos por curso Departamento de la asignatura Docente Cantidad de materias repetidas Sostenimiento del colegio Estado civil Etnia Género Cantidad de materias aprobadas Nivel Parroquia de residencia Tipo del período Promedio del alumno del semestre anterior Militar Tipo del alumno Tipo de horario de la materia Tipo de matrícula Tipo de sostenimiento del colegio Régimen escolar del colegio
Modelo 1: Reprueban asignatura - Árbol de decisión - J 48
FASE VI: IMPLANTACIÓN
FASE VI: IMPLANTACIÓN
AGENDA ¿Cómo surge nuestro proyecto? • Antecedentes • Problema y Justificación • Objetivos ¿Cómo solucionamos el problema? • Minería de Datos • Metodología CRISPDM ¿Qué modelo predictivo fue seleccionado? • J 48 • Regresión Lineal • Clasificadores Lazy ¿Qué concluimos? • Conclusiones • Recomendaciones • Trabajos Futuros
CONCLUSIONES Panorama completo Algoritmo de árboles de decisión J 48 Factores que incidentes Ignoran clases con menor frecuencia Balance de datos Limpieza de datos WEKA CRISPM DM
RECOMENDACIONES Selección de la técnica de minería de datos debe ir acorde con los objetivos del proyecto y con el tipo de datos que se utilizarán. Preparación de datos es recomendable buscar un software que facilite Autoridades de la Universidad de las Fuerzas Armadas – ESPE tomen en cuenta los resultados obtenido UTIC’s tome como referencia este proyecto de tesis para mejorar su bodega de datos a fin de que soporte futuros proyectos de DM y BI
TRABAJOS FUTUROS Sistema online de alerta temprana Generar nuevos modelos Nuevas tendencias de modelos de predicción Enfocar esfuerzos a otras problemáticas
GRACIAS
- Slides: 59