Please use this identifier to cite or link to this item: https://repositorio.uleam.edu.ec/handle/123456789/10519
Title: Minería de datos educacional para la detección temprana de barreras en el aprovechamiento estudiantil en la Unidad Educativa Fiscomisional Juan Montalvo.
Authors: Campozano López, Samuel Segundo
Vera Parrales, Jonathan Marcos
Issue Date: 2025
Citation: Campozano López, S. S. y Vera Parrales, J. J. (2025). Minería de datos educacional para la detección temprana de barreras en el aprovechamiento estudiantil en la Unidad Educativa Fiscomisional Juan Montalvo. (Proyecto Integrador). Universidad Laica Eloy Alfaro de Manabí, Manta, Ecuador.
Series/Report no.: ULEAM-TEC-INF;146
Abstract: La presente investigación desarrolla e implementa un modelo integral de Minería de Datos Educacional (EDM) para la detección temprana de barreras académicas en la Unidad Educativa Fiscomisional Juan Montalvo. El estudio adopta la metodología CRISP-DM como marco metodológico principal, analizando 687 estudiantes con 47 variables socioeconómicas para la predicción del riesgo académico. El desarrollo del modelo no fue lineal, sino que pasó por dos etapas bien diferenciadas. En una primera fase, se trabajó con un modelo CatBoost aplicado al nivel materia–estudiante, con el cual se obtuvo un desempeño alto, alcanzando un ROC-AUC de 0.934 y un Recall del 75%. Pero luego de identificar puntos débiles respecto a esa primera etapa, en una segunda fase se optó por simplificar el enfoque, teniendo que replantear de nuevo el problema como una clasificación binaria a nivel de estudiante (en riesgo y no en riesgo) para comparar luego el rendimiento de 7 algoritmos de aprendizaje de máquina. Donde la Regresión Logística logró mejores resultados que los modelos de ensamble, obteniendo el mayor puntaje de validación cruzada (CV 0.681 ± 0.033). Este resultado evidencia que, cuando se trabaja con conjuntos de datos pequeños, los modelos más simples y con regularización suelen generalizar mejor que los algoritmos más complejos. Del total de estudiantes analizados, el 37% fue identificado como en riesgo académico, considerando como criterio cualquier calificación igual o menor a 7.5. Al optimizar el umbral de decisión en 0.25, el modelo logró un Recall del 92.2%, identificando correctamente a 47 de los 51 estudiantes en riesgo dentro del conjunto de prueba, con únicamente 4 casos no detectados. Para garantizar la validez del sistema, se aplicaron medidas estrictas para evitar la fuga de datos, excluyendo las calificaciones del conjunto de variables predictoras, porque estas componen la variable objetivo.
URI: https://repositorio.uleam.edu.ec/handle/123456789/10519
Appears in Collections:TECNOLOGIAS DE LA INFORMACIÓN

Files in This Item:
File Description SizeFormat 
ULEAM-TEC.INF-146.pdfPROYECTO INTEGRADOR28,81 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.