La predicción del rendimiento académico universitario mediante técnicas de minería de datos ha emergido como una herramienta para optimizar los procesos educativos y mejorar los resultados estudiantiles. El objetivo del estudio es utilizar minería de datos para predecir el rendimiento académico en estudiantes de estadística de la Universidad Nacional de Piura, 2010-2018. La metodología es tipo aplicada, enfoque cuantitativo, diseño no experimental, longitudinal retrospectivo, población de 510 registros académicos, muestra censal, instrumentos: Sistema Integrado de Gestión Académica y IBM SPSS v.27, procedimientos de depuración, normalización y partición de datos, análisis mediante redes neuronales artificiales y regresión lineal múltiple con validación de supuestos. Los resultados muestran que la regresión lineal múltiple fue más efectiva para promedio ponderado (CME = 0.761, R² = 95.3%), mientras las redes neuronales demostraron mayor eficacia para notas específicas (CME = 1.095). El grado de dificultad 1 del curso fue la variable más importante (100% importancia normalizada). Se concluye que, ambas técnicas son complementarias y viables para la predicción del rendimiento académico, proporcionando evidencia empírica para sistemas de apoyo estudiantil basados en analítica educativa.
Predicting university academic performance using data mining techniques has emerged as a tool to optimize educational processes and improve student outcomes. The objective of this study is to use data mining to predict the academic performance of statistics students at the National University of Piura, from 2010 to 2018. The methodology is applied, with a quantitative approach, a non-experimental, retrospective longitudinal design, a population of 510 academic records, a census sample, and the instruments used were the Integrated Academic Management System and IBM SPSS v.27. Data cleaning, normalization, and partitioning procedures were employed, followed by analysis using artificial neural networks and multiple linear regression with assumption validation. The results show that multiple linear regression was more effective for weighted averages (CME = 0.761, R² = 95.3%), while neural networks demonstrated greater effectiveness for specific grades (CME = 1.095). The course difficulty level (level 1) was the most important variable (100% normalized importance). It is concluded that both techniques are complementary and viable for predicting academic performance, providing empirical evidence for student support systems based on educational analytics.