ANALISIS DEL APROVECHAMIENTO ACAD EMICO DE LOS...
Transcript of ANALISIS DEL APROVECHAMIENTO ACAD EMICO DE LOS...
TECNOLOGICO NACIONAL DE MEXICOInstituto Tecnologico de La Paz
INSTITUTO TECNOLOGICO DE LA PAZDIVISION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN SISTEMAS COMPUTACIONALES
ANALISIS DEL APROVECHAMIENTO ACADEMICO DE
LOS ESTUDIANTES DEL INSTITUTO TECNOLOGICO DE
LA PAZ APLICANDO MODELOS DE MINERIA DE DATOS
QUE PARA OBTENER EL GRADO DE
MAESTRO EN SISTEMAS COMPUTACIONALES
PRESENTA:
BLANCA CECILIA ROSAS BURGOIN
DIRECTORES DE TESIS:
MATI. LUIS ARMANDO CARDENAS FLORIDO
LA PAZ, BAJA CALIFORNIA SUR, MEXICO, DICIEMBRE 2017.
Blvd. Forjadores de B. C. S. #4720, Col. 8 de Oct. 1era. Seccion C. P. 23080La Paz, B. C. S. Conmutador (612) 121-04-24, Fax: (612) 121-12-95
www.itlp.edu.mx
Dedicatoria
Dedico esta tesis principalmente a mis padres, motor indispensable en mi vida. En especial a
mi padre quien no esta mas conmigo, por ser quien me inculco el amor a los libros, por quien
comence a estudiar mi posgrado, y quien creıa ciegamente en mı que lo lograrıa. Dedico este
trabajo a mi madre que me enseno a tener siempre la fortaleza para salir adelante, para nunca
rendirme y luchar por mis suenos.
GRACIAS PAPAS.
i
Agradecimientos
Agradezco a Dios por darme la fuerza necesaria para poder concluir un objetivo mas en mi desa-
rrollo profesional. A quienes creyeron en mı y me apoyaron incondicionalmente. A mi hermana
Guadalupe por su apoyo en los momentos mas difıciles para completar este sueno.
Agradezco Gerardo Olea, un companero que sin el no hubiera ni empezado con buen paso este
camino.
Agradezco a mi director de tesis M.A.T.I. Luis Armando Cardenas Florido quien fue parte
fundamental en la redaccion de ella, al comite tutorial del cual formaron parte la M.S.C. Iliana
Castro Liera y el M.C. Jesus Antonio Castro.
Agradezco de manera especial a la Coordinadora Iliana, ya que con su apoyo, ejemplo y guıa,
me fue posible a completar mi tesis.
Agradezco al Instituto Tecnologico de La Paz por permitirme realizar mis estudios de Maestrıa
en Sistemas Computacionales, a todo el departamento de Estudios de Posgrado y en especial,
a mis maestros que compartieron su conocimiento durante el desarrollo del posgrado.
Agradezco al Consejo Nacional de Ciencia y Tecnologıa por su apoyo economico con el otorga-
miento de una beca para el estudio del posgrado.
ii
Resumen
En este trabajo de tesis, se busca, a traves de la aplicacion de tecnicas de minerıa de datos, encon-
trar un modelo de analisis de informacion que permita determinar los patrones y caracterısticas
del comportamiento de las variables que inciden en los ındices del rendimiento academico de los
alumnos del Instituto Tecnologico de La Paz, para poder coadyuvar a la toma de decisiones y
realizar acciones pertinentes.
Para la implantacion se utilizo la metodologıa CRISP-DM que estructura el proceso en seis
fases. Se aplicaron los modelos de asociacion como Apriori, K-medianas y Maxima Expectacion
(EM), para analizar el comportamiento de los estudiantes.
Mediante este proceso fue posible identificar los variables que caracterizan a los casos de repro-
bacion y su relacion con el desempeno academico, especialmente en los primeros semestres de
la carrera.
iii
Abstract
In this thesis work, it is sought, through the application of data mining techniques, to find
a model of information analysis that allows to determine the patterns and characteristics of
the behavior of the variables that affect the academic performance indexes of the students of
Isntituto Tecnologico La Paz, to be able to contribute to the decision making and take pertinent
actions.
For the implementation, the CRISP-DM methodology was used, which structures the process
into six phases. The association models such as Apriori, K-medians and Maximum Expectation
(EM) were applied to analyze the behavior of the students.
Through this process it was possible to identify the variables that characterize the cases of
failure and its relationship with academic performance, especially in the first semesters of the
career.
iv
Indice general
1. Introduccion 1
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Descripcion del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2. Objetivos especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Justificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.2. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Marco teorico 7
2.1. Descripcion del seguimiento academico . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Base de datos relacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
v
INDICE GENERAL vi
2.3. Bodega de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Modelos de bases de datos multidimensionales . . . . . . . . . . . . . . . . . . . 9
2.4.1. Tabla de Hechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.2. Tabla de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.3. Mercados de datos (Data Marts) . . . . . . . . . . . . . . . . . . . . . . 10
2.5. Minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1. Tipos de minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.2. Funciones de la minerıa de datos. . . . . . . . . . . . . . . . . . . . . . . 13
2.5.3. Tecnicas en minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5.4. Clasificacion minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5.5. Metodologıas de minerıa de datos. . . . . . . . . . . . . . . . . . . . . . . 17
3. Diseno de la solucion. 24
3.1. Seleccion de metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2. Comprension del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1. Determinacion de los objetivos del problema . . . . . . . . . . . . . . . . 25
3.2.2. Evaluacion de la situacion. . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.3. Objetivos de minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.4. Evaluacion inicial de Funciones y Algoritmos. . . . . . . . . . . . . . . . 27
3.3. Recoleccion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.1. Recoleccion de datos iniciales. . . . . . . . . . . . . . . . . . . . . . . . . 28
INDICE GENERAL vii
3.3.2. Descripcion de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Preparacion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1. Seleccionar y verificar los datos. . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.2. Limpiar los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.3. Integracion de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.4. Dar formato a los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1. Seleccionar la tecnica del modelado. . . . . . . . . . . . . . . . . . . . . . 33
3.5.2. Generar el diseno de pruebas. . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.3. Construccion de los modelos. . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6. Evaluacion del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.1. Grafico de elevacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.2. Validacion Cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.6.3. Matriz de clasificacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4. Interpretacion de Resultados 59
4.1. Comprension e interpretacion de los resultados obtenidos. . . . . . . . . . . . . . 59
4.2. Evaluar el impacto de los resultados. . . . . . . . . . . . . . . . . . . . . . . . . 65
5. Conclusiones y recomendaciones 67
5.1. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2. Recomendaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
INDICE GENERAL viii
5.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A. Diccionario de datos 70
B. Resultados de algoritmo Apriori 75
Referencias 86
Indice de figuras
2.1. cubo multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2. tareas de minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. clasificacion de metodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4. encuesta CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5. Fases SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6. Etapas de KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7. Fases CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1. Metodologıa Crisp-DM modificada . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2. Tablas de la Base de datos Escolar . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3. Proceso ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4. Modelo multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5. esctructura Minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.6. parametros de estructura MD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.7. Datos Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
ix
INDICE DE FIGURAS x
3.8. Columnas Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.9. Reglas Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.10. diagrama kmedias prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.11. Perfil kmedias prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.12. diagrama kmedias prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.13. Perfil kmedias prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.14. Diagrama kmedias prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.15. Perfil kmedias prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.16. Diagrama EM prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.17. Perfil EM prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.18. Diagrama EM prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.19. Perfil EM prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.20. Diagrama EM prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.21. Perfil EM prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.22. Grafico de elevacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.23. Leyenda modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1. Resultado EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2. Resultado Cluster1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3. Resultado Cluster2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4. Resultado Kmedianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
INDICE DE FIGURAS xi
4.5. Resultado Kmedianas acredito . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.6. Resultado Kmedianas Curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.7. Resultado Kmedianas Maestro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.8. Resultado Kmedianas Materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.9. Resultado Kmedianas cluster2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.10. Script Consulta SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
A.1. Tabla Alumnos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.2. Tabla Cardex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.3. Tabla Personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.4. Tabla Personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.5. Tabla Materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
A.6. Tabla Departamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
A.7. Tabla Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
A.8. Tabla Carreras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
A.9. Tabla Planes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
A.10.Tabla Escuelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
B.1. Parametros Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
B.2. Reglas Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
B.3. Items Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
B.4. Dependencias Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . 77
INDICE DE FIGURAS xii
B.5. Reglas Apriori Bioquımica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B.6. Items Apriori Bioquımica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B.7. Dependencias Apriori Bioquımica . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B.8. Reglas Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
B.9. Items Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
B.10.Dependencias Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
B.11.Reglas Apriori Electromecanica . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
B.12.Items Apriori Electromecanica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
B.13.Reglas Apriori Gestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
B.14.Items Apriori Gestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
B.15.Reglas Apriori Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
B.16.Items Apriori Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
B.17.Reglas Apriori Admon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
B.18.Items Apriori Admon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
B.19.Reglas Apriori CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
B.20.Items Apriori CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Indice de tablas
3.1. Tabla de resultados de la Validacion cruzada. . . . . . . . . . . . . . . . . . . . 51
3.2. Tabla de clasificacion modelo Cluster EM. . . . . . . . . . . . . . . . . . . . . . 56
3.3. Tabla de clasificacion modelo K-medianas. . . . . . . . . . . . . . . . . . . . . . 57
3.4. Tabla de clasificacion modelo Apriori. . . . . . . . . . . . . . . . . . . . . . . . . 58
xiii
Capıtulo 1
Introduccion
La aplicacion de tecnicas de minerıa de datos en el analisis de indicadores y estadıstica de
los procesos educativos tiene como objetivo obtener una mejor comprension del metodo de
aprendizaje de los estudiantes y de su participacion global en el proceso, orientado a la mejora
de la calidad y rentabilidad del sistema educativo.
La desercion, el rezago estudiantil y los bajos ındices de eficiencia terminal se encuentran entre
los problemas mas complejos y frecuentes que enfrentan las Instituciones de Educacion Superior
del paıs, en la actualidad son reconocidos practicamente por todas ellas (ANUIES, 2001). En el
sector educativo las tecnicas de minerıa de datos se han implementado para realizar un estudio
y analisis detallado del comportamiento de los alumnos. Esta nueva area de investigacion se
ocupa del desarrollo de metodos para explorar los datos que se dan en el ambito educativo, ası
como de la utilizacion de estos metodos para entender mejor a los estudiantes y los contextos
en que ellos aprenden.
El aprovechamiento academico, ası como la desercion de los alumnos es una preocupacion cons-
tante y uno de los principales objetivos es determinar los multiples factores que pueden influir
en ellos[7].
Con el objeto de mejorar los ındices de egresados y de titulacion, se hace necesario tener un
mecanismo que permita determinar en etapas tempranas, el riesgo de desercion de los alumnos
y que se apliquen medidas para mejorar el rendimiento academico de los estudiantes.
1
1.1. ANTECEDENTES 2
Para contribuir con la solucion del problema del desempeno academico, se plantea la aplicacion
de tecnicas de minerıa de datos, para ayudar a comprender cuales son los posibles factores que
afectan al alumno en su aprovechamiento academico.
Los clasificadores, agrupamiento y reglas de asociacion son algoritmos de las tecnicas de la
minerıa de datos educativa, estos permiten identificar la informacion oculta para los diferentes
actores dentro de las instituciones educativas.
El desarrollo de las tecnicas de la minerıa de datos educativa puede darse a partir de modelos
supervisados o no-supervisados, esto es, la minerıa de datos supervisada; consiste en utilizar
registros de los resultados que se conocen, por ejemplo, una base de datos de graduaciones
que contienen registros de alumnos que han finalizado sus estudios y de los que aun siguen
inscritos, esto lleva a vincular los patrones de conducta a los historiales academicos u otra
informacion registrada, de manera que los ejemplos de entrada van acompanados por una clase
o salida correcta. La minerıa de datos no-supervisada; (aprendizaje por observacion) consiste
en situaciones en las cuales se desconocen los patrones o agrupaciones en particular.
Con la capacidad de almacenamiento de los equipos de computo actuales se puede aprovechar
informacion de los alumnos, utilizando bodegas de datos y aplicando las diferentes tecnicas de
minerıa de datos, para encontrar patrones en los resultados de los datos relevantes que se pueden
presentar.
En este trabajo se busca identificar las variables que inciden en el aprovechamiento escolar de los
alumnos del Instituto Tecnologico de La Paz, con el fin de identificar a aquellos que presentan
mayor riesgo de fallo o abandono.
1.1. Antecedentes
En el ambito educativo se realizan trabajos e investigaciones para determinar cuales son los
factores que afectan al rendimiento academico de los alumnos en diferentes niveles educativos
(ANUIES).Estos estudios estan enfocados en determinar cuales son los factores que mas afectan
al rendimiento de los estudiantes (abandono y fracaso).
1.2. DESCRIPCION DEL PROBLEMA 3
La minerıa de datos es una de las tecnicas que mas se utilizan para analizar el desempeno
academico en los estudiantes y se ha aplica en la educacion para la obtencion de modelos,
tareas, metodos y algoritmos para la exploracion de datos y tiene como funcion encontrar,
analizar patrones que caractericen los comportamientos en base a sus logros, evaluaciones y el
dominio de contenido de conocimiento que tienen los alumnos[1].
Se ha intentado, a partir de ciertos estudios y usando distintas metodologıas, identificar el
proceso de un alumno con riesgo de fracaso escolar [3]. Una vision general de las tecnicas de
minerıa de datos que se han utilizado para predecir el rendimiento de los estudiantes[9]. Donde
se analiza informacion academica con el objetivo de identificar los factores que influyen en el
desempeno academico del estudiante[10].
Algunos estudios han encontrado patrones ocultos de acuerdo a la clasificacion de los estu-
diantes en base a sus caracterısticas demograficas y academicas[6]. Otros trabajos toman en
cuenta factores socioeconomicos, factores familiares[5] [7]. Sea identificado que existe una rela-
cion importante entre el desempeno academico y los casos de desercion escolar[4]. Los factores
predominantes academicos, son especialmente un promedio bajo y la perdida de materias en los
primeros semestres de la carrera [9]. Tambien se encontro que las notas anteriormente obtenidas
por los estudiantes son un factor importante para predecir el desempeno academico [10].
El trabajo de analisis e investigacion nos sirve para determinar cuales son los factores que afectan
al rendimiento academico de los alumnos y ayudar a los estudiantes con bajo rendimiento, a
evaluar el curso o modulo idoneo, y adoptar las intervenciones necesarias para aumentar el
rendimiento academico de los estudiantes.
1.2. Descripcion del problema
En el Instituto Tecnologico de la Paz, existe un alto ındice de reprobacion y desercion escolar.
Resulta evidente que abordar el tema del rendimiento academico o su contraparte, el fracaso
escolar, no puede concebirse desde una perspectiva unilateral. Su condicion multifactorial por
ende su complejidad, alento la realizacion de esta investigacion; que variables se asocian al
1.3. OBJETIVOS 4
rendimiento academico de alumnos que es en el Instituto Tecnologico de la Paz, cuales son
los patrones de comportamiento que presenta la materia en que se da el ındice mas alto de
reprobacion.
Con el incremento del volumen de informacion, se incrementa la dificultad de corroborar los
altos ındices de reprobacion y de desercion, lo cual hace mas complejo el analisis de los mismos
por lo que no se tienen las acciones necesarias para determinar las causas que los promueven.
Para conocer el aprovechamiento academico de los alumnos, cada coordinador academico es
el que, por medio de reportes tabulares, analiza los ındices de reprobacion. Este estudio solo
realiza simples analisis de la informacion basados en metodos estadısticos. La complejidad al
corroborar los distintos reportes, donde el volumen de la informacion es cada vez mayor, hace
mas difıcil identificar las variables que inciden en el mismo, ası como identificar los patrones
de comportamiento que estos tienen. Lo anterior complica conocer de manera clara las posibles
causas que lo ocasionan, dificultando la labor del personal docente y administrativo para llevar
a cabo un adecuado seguimiento academico de los alumnos.
El principal objetivo es construir un modelo de minerıa de datos para el analisis relacionado
con el aprovechamiento academico, que permita identificar las variables y los multiples factores
que pueden influir en este.
1.3. Objetivos
1.3.1. Objetivo general
Construir un modelo de minerıa de datos para la obtencion de patrones de comportamiento
relacionados con el aprovechamiento academico de los alumnos en el Instituto Tecnologico de
La Paz.
1.4. JUSTIFICACION 5
1.3.2. Objetivos especıficos
Analisis y diseno de una bodega de datos, con la base de datos de los alumnos del ITLP,
aplicando tecnicas de ETL y Data Warehouse.
Analisis e identificacion de variables e indicadores que influyen en el aprovechamiento
escolar.
Analisis y seleccion de los algoritmos de minerıa de datos para la prueba de las hipotesis.
Analisis y desarrollo de un modelo de minerıa de datos.
Seleccion y aplicacion de procesos de busqueda de patrones.
Determinar las variables que afectan el desempeno academico de los alumnos.
1.4. Justificacion
En el Instituto Tecnologico de la Paz, existe un alto ındice de reprobacion y de desercion
escolar. El alto volumen de la informacion necesaria para llevar un analisis del aprovechamiento
academico de cada alumno, dificulta la labor del personal de poder identificar a tiempo. Las
variables o los factores que afectan el rendimiento de los alumnos en cuanto a sus calificaciones,
por lo que los docentes y personal administrativo poco pueden hacer para detectar a los alumnos
con bajo rendimiento.
En este trabajo se pretende saber cuales son las caracterısticas y patrones de comporta-
miento que provocan el bajo rendimiento escolar del alumno en esta institucion, imple-
mentando tecnicas de minerıa de datos.
Obtener un indicador que permita identificar a los alumnos con mayor riesgo de fallo o
abandono del instituto, ası como los diferentes factores que puedan estar influyendo. Este
indicador servira de apoyo en el seguimiento del aprovechamiento escolar, y para establecer
estrategias necesarias para disminuir el bajo rendimiento academico.
1.5. ALCANCES Y LIMITACIONES 6
1.5. Alcances y Limitaciones
1.5.1. Alcances
Generar modelos de minerıa de datos que se puedan aplicar al aprovechamiento academico de
los alumnos del Instituto Tecnologico de la Paz.
1.5.2. Limitaciones
• La base de datos con la que cuenta el ITLP no contiene informacion o datos Socioeconomicos
Correctos o vigentes.
• La base de datos con que se realizara la investigacion, es la correspondiente a los perıodos
del 2006 al 2015, donde vienen comprendidas todas las materias de las nueve carreras a nivel
licenciatura con que cuenta el Instituto Tecnologico de La Paz.
1.6. Hipotesis
Con la base de datos del ITLP y la construccion de un modelo de minerıa de datos, podremos
identificar los factores que intervienen en el ındice de reprobacion escolar de los alumnos del
Instituto Tecnologico de la Paz.
Capıtulo 2
Marco teorico
2.1. Descripcion del seguimiento academico
El seguimiento academico que se le da a cada alumno del Instituto Tecnologico de La Paz es
individual y cada coordinador academico es quien lo lleva a cabo. Cada coordinador tiene acceso
a tres tipos de reportes, los cuales son:
Reporte de reprobacion por materia.
Reporte de reprobacion por carrera.
Reporte de reprobacion por ciclo escolar (primer periodo, segundo periodo o ambos)
Estos reportes son generados en Excel, y en ellos se muestra: ano, periodo, especialidad, la
materia, el grupo, el maestro, el numero de alumnos inscritos, cuantos reprobaron.
Se invita a los alumnos para que revisen su historial academico (Kardex), y en caso de contar
una o varias materias reprobadas, deberan acudir con su coordinador de carrera, para que les
oriente en la solucion de su problema.
El Instituto Tecnologico de La Paz cuenta con un programa de asesorıas, aunque estas son
voluntarias para los alumnos. Cuando el alumno presenta una o varias materias reprobadas,
7
2.2. BASE DE DATOS RELACIONAL 8
debe de acudir con su coordinador para que este vea si existe la posibilidad de abrir un grupo
especial, la cual va a depender de la cantidad de alumnos que soliciten la misma materia, ya
que para abrir los grupos especiales se necesita un mınimo de 15 alumnos. Ademas, se cuenta
con los cursos de verano, en los cuales el cupo mınimo es de 20 alumnos. A diferencia de los
grupos especiales, los cursos de verano tienen costo extra para el estudiante, ya que se contrata
al docente que impartira la clase.
2.2. Base de datos relacional
Es una coleccion de relaciones(tablas). Cada tabla consta de un conjunto de atributos (columnas
o campos) y puede contener un gran numero de tuplas (registros o columnas), las cuales repre-
sentan un objeto y se caracterizan por poseer una clave unica o primaria que los identifica[8].
2.3. Bodega de Datos
En 1997 William H. Inmon define una bodega de datos o Data Warehouse, como una coleccion
de datos integrados orientados a temas, no-volatiles y variables en el tiempo, organizados para
soportar necesidades empresariales. Segun esta definicion, es un sistema de informacion donde
los datos de una empresa son recolectados, organizados y agrupados con respecto a los hechos o
las actividades del negocio. Ademas, el uso del atributo tiempo permite mantener y referenciar
informacion tanto historica como reciente, y es no volatil, porque despues de que los datos son
cargados a la bodega, los cambios sobre ellos son poco frecuentes y se pueden mantener por
largos perıodos de tiempo .
La caracterıstica mas importante de la bodega de datos es la integracion. Datos tomados de
diferentes fuentes, cargados en el almacen de datos. Los datos capturados seran transformados,
limpiados, reorganizados, y resumidos.
2.4. MODELOS DE BASES DE DATOS MULTIDIMENSIONALES 9
2.4. Modelos de bases de datos multidimensionales
Es una tecnica de diseno que busca presentar los datos en un estandar, que permita una recu-
peracion adecuada de estos. Los elementos basicos del modelo multidimensional son las tablas
y los esquemas.
La informacion se representa como matrices multidimensionales, cuadros de multiples entradas
o funciones de varias variables sobre conjuntos finitos. Cada una de estas matrices se denomina
Cubo. A los ejes se les llama Dimensiones y al dato que se presenta en la matriz, se le llama
Medida. A los elementos del producto cartesiano de los ejes (dimensiones) se le llama Coorde-
nadas. Un hipercubo, por tanto, debera ser reestructurado cada vez que se le agreguen datos
o se modifiquen los ya existentes, ya que la informacion no esta en tablas, sino organizada de
manera dimensional.
2.4.1. Tabla de Hechos
Corresponde a lo que se desea medir a partir de los datos presentes en el Sistema. Es el objeto a
analizar, ademas posee atributos llamados atributos de hechos o sıntesis, estos atributos son de
tipo cuantitativo, cuyos valores (cantidades) se obtienen, generalmente por aplicacion de una
funcion estadıstica que resume un conjunto de valores en un unico valor.
2.4.2. Tabla de dimensiones
La dimension de un hecho determina la granularidad con que el hecho podra ser analizado. Las
tablas de dimensiones representan cada uno de los ejes en un espacio multidimensional. Como
todas las tablas, tambien poseen atributos llamados dimension o de clasificacion, los que son de
tipo cualitativo (sus valores son modalidades) que suministran el contexto en que se obtienen las
medidas en un esquema de hecho. Las dimensiones poseen jerarquıas, que son varios atributos
unidos mediante una relacion de tipo jerarquico. Por ejemplo, la dimension tiempo puede tener
niveles dıa, mes y ano.
2.5. MINERIA DE DATOS 10
2.4.3. Mercados de datos (Data Marts)
Un cubo multidimensional o cubo, representa o convierte los datos planos que se encuentran en
filas y columnas, en una matriz de N dimensiones, como se muestra en la figura 2.1.
Los objetos mas importantes que se pueden incluir en un cubo multidimensional son los si-
guientes: Los indicadores o sumas que se efectuan sobre algun hecho pertenecientes a una tabla
de hechos, los atributos (Campos o criterios de analisis de las tablas de dimensiones) y las
jerarquıas (relaciones logicas entre dos o mas atributos)[11].
Figura 2.1: Ejemplo de un cubo multidimensional.
2.5. Minerıa de datos
La minerıa de datos es un conjunto de tecnicas y herramientas aplicadas al proceso no trivial
de extraer y presentar conocimiento implıcito, previamente desconocido, potencialmente util y
humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de
forma automatizada tendencias y comportamientos.
La minerıa de datos tiene como objetivo analizar los datos para extraer conocimiento. Este
conocimiento puede ser en forma de relaciones, patrones o reglas inferidos de los datos y (pre-
viamente) desconocidos, o bien en forma de una descripcion mas concisa (un resumen de los
mismos). Estas relaciones constituyen el modelo de los datos analizados. Existen muchas formas
2.5. MINERIA DE DATOS 11
de representar modelos (predictivos y descriptivos) y cada una determina el tipo de tecnica que
puede usarse para inferirlos.
Existen terminos que se utilizan como sinonimos de la minerıa de datos, y uno de ellos es el
de la extraccion o “descubrimiento de conocimiento en base de datos” (Knowledge Discovery in
Databases, KDD).
La minerıa de datos es una fase del proceso completo de descubrimiento de conocimiento que
involucra varios pasos:
1 Entender el dominio de aplicacion, el conocimiento relevante a utilizar y las metas del usuario.
2 Seleccionar un conjunto de datos en donde realizar el proceso de descubrimiento.
3 Limpiar y pre-procesar los datos, disenando una estrategia adecuada para manejar ruido,
valores incompletos, valores fuera de rango, valores inconsistentes, etc.
4 Seleccionar la tarea de descubrimiento a realizar. Por ejemplo: clasificacion, agrupamiento o
“clustering”, reglas de asociacion, etc.
5 Seleccionar los algoritmos a utilizar.
6 Transformar los datos al formato requerido por el algoritmo especıfico de explotacion de datos,
hallando los atributos utiles, reduciendo las dimensiones de los datos, etc.
7 Llevar a cabo el procesamiento de minerıa de datos para encontrar patrones interesantes.
8 Evaluar los patrones descubiertos y presentacion de los mismos mediante tecnicas de visua-
lizacion. Quizas sea necesario eliminar patrones redundantes o no interesantes, o se necesite
repetir algun paso anterior con otros datos, con otros algoritmos, con otras metas o con otras
estrategias
9 Utilizar el conocimiento descubierto, incorporandolo dentro de un sistema o simplemente para
almacenarlo y reportarlo a las personas interesadas.
2.5. MINERIA DE DATOS 12
2.5.1. Tipos de minerıa de datos
Modelos predictivos.
Pretenden estimar valores futuros o desconocidos de variables de interes, que denominamos
variables objetivo o dependientes, usando otras variables o campos de la base de datos,
a las que nos referiremos como variables independientes o predictivas. Entre las tareas
predictivas encontramos la clasificacion y la regresion[8].
Modelos descriptivos.
Identifican patrones que explican o resumen los datos, es decir, sirven para explorar las
propiedades de los datos examinados, no para predecir nuevos datos. Entre las tareas des-
criptivas esta el agrupamiento (clustering), las reglas de asociacion, las reglas de asociacion
secuenciales y las correlaciones[8].
Figura 2.2: Tareas o tecnicas.
2.5. MINERIA DE DATOS 13
En la figura 2.2, informacion sacada de [8]se muestra una tabla con algunas tareas y algunas
tecnicas o algoritmos que pueden aplicarse a los modelos predictivos y descriptivos.
2.5.2. Funciones de la minerıa de datos.
Las funciones de minerıa de datos se dividen en dos categorıas, supervisadas y no supervisadas.
Minerıa de datos supervisada.
El aprendizaje supervisado es tambien conocido como aprendizaje dirigido. El proceso
de aprendizaje es dirigido por un atributo u objetivo dependiente previamente conoci-
do. El aprendizaje supervisado generalmente resulta en modelos predictivos. Siendo este
el contraste para el aprendizaje no supervisado, donde la meta es la deteccion de patrones.
La construccion de un modelo supervisado involucra el entrenamiento, un proceso me-
diante el cual el software analiza muchos casos donde el valor objetivo ya es conocido.
En el proceso de entrenamiento, el modelo “aprende” la logica de hacer la prediccion. Por
ejemplo, un modelo que busca identificar los clientes que probablemente respondan a una
promocion, debe ser entrenado para que analice las caracterısticas de muchos clientes que
ya se sabe que respondieron o no respondieron a una promocion en el pasado [2].
Minerıa de datos no supervisada.
El aprendizaje no supervisado es no dirigido. No hay distincion entre atributos depen-
dientes e independientes. Es decir, no hay un resultado previamente conocido que guie al
algoritmo en la construccion del modelo. Por lo tanto, la minerıa de datos no supervisada
puede ser usada para propositos descriptivos. Aunque tambien puede ser usada para hacer
predicciones [2].
2.5. MINERIA DE DATOS 14
2.5.3. Tecnicas en minerıa de datos
Los hay de dos tipos de tecnicas en funcion de si se obtiene un modelo o no: retardados y
anticipados. Los metodos sin modelo y con modelo reciben generalmente el nombre de metodos
retardados o perezosos (lazzy) y metodos anticipativos o impacientes (eager).
1 Metodos retardados:
El metodo responde solo cuando es requerido.
No se construye un modelo.
La optimizacion es local.
Los datos de entrada deben preservarse para toda prediccion.
Si hay una gran cantidad de datos el calculo de cada instancia nueva es costoso.
No se requiere entrenar al modelo.
Algunas opciones son: Vecinos mas proximos, regresion lineal.
2 Metodos anticipados:
Se obtiene un modelo a partir de los datos de entrada.
Los datos de entrada no son necesarios para responder a las nuevas instancias.
La optimizacion es global.
El tiempo de entrenamiento es grande.
Puede responder eficientemente a las nuevas instancias.
Algunos casos donde el modelo es claro son:
Reglas difusas, arboles de decision.
Sistemas basados en reglas.
En la figura 2.3, se muestra algunos algoritmos de acuerdo a las tecnicas[8]:
2.5. MINERIA DE DATOS 15
Figura 2.3: Clasificacion de metodos.
2.5.4. Clasificacion minerıa de datos
Las principales tecnicas de minerıa de datos se suelen clasificar segun su tarea de descubrimiento
en:
Agrupacion.
La agrupacion o clustering es la tarea descriptiva y consiste en obtener grupos “natura-
les” a partir de los datos. Los datos son agrupados basandose en el principio de maximizar
la similitud entre los elementos de un grupo minimizando la similitud entre los distintos
grupos. Al agrupamiento se le suele llamar segmentacion, ya que parten o segmenta los
datos en grupos que pueden ser o no disjuntos [14]. Dos de los algoritmos de clustering
mas utilizados son SELF ORGANIZING MAPS (SOM) y K-MEANS[8].
Algoritmo de agrupacion EM:
Refina de forma iteractiva un modelo de clusteres inicial para ajustar los datos y deter-
mina la probabilidad de que un punto de datos exista en un cluster.El algoritmo EM,
procede en dos pasos que se repiten de forma iterativa:
2.5. MINERIA DE DATOS 16
1 Expectacion Utiliza los valores de los parametros, iniciales o proporcionados por el
paso Maximizacion , obteniendo diferentes formas de la FDP (Funcion de Densidad
de Probabilidad) buscada. La funcion usada para determinar el ajuste es el logaritmo
de la probabilidad de los datos dado el modelo.
2 Maximizacion Obtiene nuevos valores de los parametros a partir de los datos propor-
cionados.
Despues de una serie de iteraciones, el algoritmo EM tiende a un maximo local. Finalmen-
te se obtendra un conjunto de clusteres que agrupan el conjunto de proyectos original.
Clasificacion.
Se utiliza para predecir la clase de nuevas instancias (registro en la base de datos) de las
que se desconoce la clase. El objetivo del algoritmo es maximizar la razon de precision
de la clasificacion de las nuevas instancias, la cual se calcula como el cociente entre las
predicciones correctas y el numero total de predicciones (correctas e incorrectas) [8].
Los algoritmos mayormente utilizados para las tareas de clasificacion son los algoritmos
de induccion. Uno de los enfoques mas utilizados en este tipo de algoritmos son los arboles
de decision.
Reglas de asociacion.
Tienen por objetivo identificar relaciones no explıcitas entre atributos categoricos. Pueden
ser de muchas formas, aunque la formulacion mas comun es del estilo “si el atributo X
toma un valor d entonces el atributo Y toma el valor de b”. Las reglas de asociacion no
implican una relacion causa-efecto, es decir, puede o no existir una causa para que los
datos esten asociados. Este tipo se utiliza frecuentemente en el analisis de la cesta de la
compra, para identificar productos que son frecuentemente comprados juntos[8].
Existen varios algoritmos que realizan el descubrimiento de reglas de asociacion, uno de
los mas utilizados es APRIORI. Cada una de las tareas, requiere metodos, tecnicas o
algoritmos para resolverlas.
2.5. MINERIA DE DATOS 17
2.5.5. Metodologıas de minerıa de datos.
Las metodologıas de minerıa de datos nos permiten llevar a cabo el proceso de forma sistemati-
ca y estructurada para obtener resultados exitosos. La utilizacion de una metodologıa facilita
la planeacion y direccion del proyecto, lo que nos permite realizar un mejor seguimiento del
mismo. En la figura 2.4 se observan las principales metodologıas que se pueden emplear para la
elaboracion de la presente investigacion.
Figura 2.4: Encuesta realizada por KDnuggets en el ano 2007
Las principales metodologıas de planificacion de proyectos de minerıa de datos son:
2.5. MINERIA DE DATOS 18
Metodologıa SEMMA.
Es una metodologıa de minerıa de datos desarrollada por SAS (Statical Analysis System).
Su nombre corresponde a las iniciales de sus cinco fases principales y se define como “el
proceso de seleccion, exploracion y modelado de grandes volumenes de datos para descubrir
patrones de negocio desconocidos. Las cinco fases basicas del proceso: Sample (Muestreo),
Explore (Exploracion), Modify (Modificacion), Model (Modelado), Assess (Valoracion),
las cuales se muestran en la figura 2.5.
Figura 2.5: Fases metodologıa SEMMA
La metodologıa SEMMA se encuentra enfocada especialmente en aspectos tecnicos, ex-
cluyendo actividades de analisis y comprension del problema que se esta abordando. Fue
propuesta especialmente para trabajar con el software de minerıa de datos de la companıa
SAS. Este producto organiza sus herramientas (llamadas “nodos”) en base a las distintas
fases que componen la metodologıa[? ].
1 Sample(Extraccion de una muestra representativa).
En esta primera fase de la metodologıa, se realiza la extraccion de un conjunto de
datos que sean una buena representacion de la poblacion a analizar, esto se hace con
el objetivo de facilitar los procesos de minado sobre los datos, reduciendo los tiempos
que se necesita para determinar la informacion valiosa para el negocio.
2 Explore (Exploracion de los datos en la muestra).
En esta fase, se hace un recorrido a traves de los datos extraıdos en la muestra para
detectar, identificar y eliminar datos anomalos, ayudando a refinar los procesos de
descubrimiento de informacion en fases siguientes del proceso.
2.5. MINERIA DE DATOS 19
En este punto del proceso, la exploracion se puede realizar a traves de medios vi-
suales, aunque muchas veces no es suficiente este metodo, es por eso, que ademas de
la visualizacion se pueden manejar diferentes tecnicas estadısticas como analisis de
factores, analisis de correspondencias, entre otros.
3 Modify (Modificacion de los datos).
Esta modificacion de los datos se puede realizar creando, seleccionando y transfor-
mando las variables en las cuales se va a enfocar el proceso de seleccion del modelo.
Muchas veces se tendra la necesidad de realizar modificaciones cuando los datos que
se estan analizando cambien. Esto se debe a que el entorno en el que se trabaja la
minerıa de datos es dinamico e iterativo.
4 Model (Modelacion de los datos).
En esta fase, las herramientas de software se encargan de realizar una busqueda com-
pleta de combinaciones de datos que juntos predeciran de una manera confiable los
resultados buscados. Es en esta parte donde las tecnicas y metodos de minerıa de da-
tos entran a jugar un papel importante para la solucion de los problemas que fueron
identificados al iniciar el proyecto de minerıa de datos.
5 Assess (Evaluacion de los datos obtenidos).
Despues de que la fase de modelacion presente los resultados obtenidos de la aplica-
cion de los metodos de minerıa de datos al conjunto de datos. Se debera realizar un
analisis de los resultados para ver si estos fueron exitosos de acuerdo a las entradas
que se tuvieron para analizar el problema.
Una buena practica para identificar si los resultados con el modelo creado son los
esperados, es aplicar este modelo a una porcion de datos diferente. Si el modelo
funciona correctamente para esta muestra y para la muestra utilizada para el proce-
so de creacion del modelo, se tiene una buena probabilidad de tener un modelo valido.
2.5. MINERIA DE DATOS 20
Metodologıa KDD.(Knowledge Discovery in Databases)
El proceso de extraccion de conocimiento (siglas en ingles KDD), consiste en extraer o
identificar lo que se considera como conocimiento de acuerdo a la especificacion de ciertos
parametros, usando una base de datos. Esta metodologıa consiste en cinco etapas, las
cuales se muestran en la figura 2.6. y son:
1. Seleccion de datos.
En esta etapa se determinan las fuentes de datos y el tipo de informacion a utilizar.
Es la etapa donde los datos relevantes para el analisis son extraıdos desde la o las
fuentes de datos.
2. Pre-procesamiento.
Esta etapa consiste en la preparacion y limpieza de los datos extraıdos desde las
distintas fuentes de datos en una forma manejable, necesaria para las fases poste-
riores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o
en blanco, datos inconsistentes o que estan fuera de rango, obteniendose al final una
estructura de datos adecuada para su posterior transformacion.
3. Transformacion.
Consiste en el tratamiento preliminar de los datos, transformacion y generacion de
nuevas variables a partir de las ya existentes con una estructura de datos apropiada.
Aquı se realizan operaciones de agregacion o normalizacion, consolidando los datos
de una forma necesaria para la fase siguiente.
4. Minerıa de datos.
Es la fase de modelamiento propiamente tal, en donde metodos inteligentes son apli-
cados con el objetivo de extraer patrones previamente desconocidos, validos, nuevos,
potencialmente utiles y comprensibles y que estan contenidos u “ocultos” en los datos.
2.5. MINERIA DE DATOS 21
5. Interpretacion y Evaluacion.
Se identifican los patrones obtenidos y que son realmente interesantes, basandose en
algunas medidas y se realiza una evaluacion de los resultados obtenidos.
Figura 2.6: Etapas del proceso KDD
Metodologıa CRISP-DM.
La metodologıa CRISP–DM, fue creada por el grupo de empresas SPSS, NCR y Daimer
Chrysler en el ano 2000, y es una guıa de referencia que mas se utiliza en el desarrollo de
proyectos de minerıa de datos.
Su proceso se estructura en seis fases: Comprension del negocio, Comprension de los datos,
Preparacion de los datos, Modelado, Evaluacion e Implantacion. La figura 2.7. muestra
las fases que la componen y como interactuan unas con otras.
La sucesion de fases es flexible y se componen en varias tareas generales de segundo ni-
vel. Las tareas generales se proyectan a tareas especıficas, las cuales son una guıa para
determinar que actividades desarrollar en cada etapa. Es decir, CRISP-DM establece un
conjunto de tareas y actividades para cada fase del proyecto [15].
Fases de la metodologıa CRISP-DM:
2.5. MINERIA DE DATOS 22
Figura 2.7: Metodologıa CRISP-DM.
1 Comprension del negocio (Objetivos y requerimientos desde una perspectiva no tecni-
ca):
• Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios
de exito).
• Evaluacion de la situacion (Inventario de recursos, requerimientos, supuestos,
terminologıas propias del negocio).
• Establecimiento de los objetivos de la minerıa de datos (objetivos y criterios de
exito).
• Generacion del plan del proyecto (plan, herramientas, equipo y tecnicas).
2 Comprension de los datos (Familiarizarse con los datos teniendo presente los objetivos
del negocio):
• Recopilacion inicial de datos.
• Descripcion de los datos.
• Exploracion de los datos.
• Verificacion de calidad de datos.
3 Preparacion de los datos (Obtener la vista minable o dataset):
2.5. MINERIA DE DATOS 23
• Seleccion de los datos.
• Limpieza de datos.
• Construccion de datos.
• Integracion de datos.
• Formateo de datos.
4 Modelado (Aplicar las tecnicas de minerıa de datos a los dataset):
• Seleccion de la tecnica de modelado.
• Diseno de la evaluacion.
• Construccion del modelo.
• Evaluacion del modelo.
5 Evaluacion (De los modelos de la fase anteriores para determinar si son utiles a las
necesidades del negocio):
• Evaluacion de resultados.
• Revisar el proceso.
• Establecimiento de los siguientes pasos o acciones.
6 Despliegue (Explotar utilidad de los modelos, integrandolos en las tareas de toma de
decisiones de la organizacion):
• Planificacion de despliegue.
• Planificacion de la monitorizacion y del mantenimiento.
• Generacion de informe final.
• Revision del proyecto.
Capıtulo 3
Diseno de la solucion.
3.1. Seleccion de metodologıa
Para la eleccion de la metodologıa se hizo con base a la comparacion de las metodologıas
existentes. Para realizar este proyecto, la metodologıa CRISP-DM, es la adecuada ya que es
mas flexible a la hora de seguir las distintas fases.
La metodologıa CRISP-DM tienen un conjunto de actividades ordenadas en seis fases, algunas
son bidireccionales, lo que significa que algunas fases permitiran revisar parcial o totalmente las
fases anteriores, por lo que implementamos en la fase de evaluacion, poder regresar al modelado
de los datos, y que nos permitiera corregir o adecuar los modelos para alcanzar los objetivos
finales del proyecto, quedando como resultado la figura 3.1, en la que se observa la lınea que se
agrego en la fase de evaluacion y que nos permite regresar a la fase de modelado.
24
3.2. COMPRENSION DEL PROBLEMA 25
Figura 3.1: Metodologıa CRISP-DM modificada
3.2. Comprension del problema
3.2.1. Determinacion de los objetivos del problema
3.2.1.1. Contexto.
Este punto es importante para comprender el problema y lo que se busca obtener. Por lo tanto,
lo primero que se debe hacer, es registrar toda la informacion conocida al respecto.
Con el objeto de buscar los factores en el desempeno academico de los alumnos del Instituto
Tecnologico de la Paz, la principal fuente de datos para llevar acabo esta investigacion la consti-
tuyen los registros historicos de la base de datos academica, registrados del nivel de licenciatura,
correspondientes a los periodos 2006 al 2015.
3.2.1.2. Objetivos.
Los objetivos son:
Cumplir con los contenidos de los planes y Programas de estudio, alcanzando altos ni-
3.2. COMPRENSION DEL PROBLEMA 26
veles en el ındice de titulados, ademas de brindar clases de calidad para la formacion de
profesionistas de excelencia, capaces de responder de manera efectiva y especıfica a las
necesidades regionales, con calidad, productividad y una vision nacional e internacional.
Fomentar la participacion en actividades academicas, culturales y deportivas (Concursos
de Ciencias Basicas, Creatividad, Emprendedores: Actividades Deportivas y Culturales).
3.2.1.3. Criterios de exito.
Al cumplir con los objetivos podremos identificar patrones de comportamiento en el aprove-
chamiento academico de los alumnos del Instituto, para determinar cuales alumnos necesitaran
mas apoyo o establecer algun seguimiento academico, que mejore su desempeno academico.
3.2.2. Evaluacion de la situacion.
El Instituto Tecnologico de la Paz cuenta con las herramientas necesarias para el desarrollo
de este proyecto, ademas de contar con un sistema de bases de datos que permite aplicar las
herramientas de minerıa de datos, ası como un sistema para analizar la informacion.
Las pruebas de los modelos de minerıa de datos se realizaran dentro del Instituto Tecnologico
de La Paz en el area de Posgrado, donde cuenta con servidores y software necesarios para la
aplicacion de las diversas tecnicas de minerıa de datos.
Se diseno y desarrollo una bodega de datos mediante el cual se generan cubos multidimensionales
para consultas directas.
Para realizar las pruebas e implementacion de los modelos de minerıa de datos se tiene la opcion
de utilizar una version para investigacion de SQL Server 2012 con licencia.
3.2. COMPRENSION DEL PROBLEMA 27
3.2.3. Objetivos de minerıa de datos
Implementar un modelo de minerıa de datos que nos ayude a agrupar y asociar las variables de
los alumnos en que muestren posibles tendencias o patrones de comportamiento relacionadas
con su desempeno academico.
Para garantizar el exito del objetivo mencionado, se realizara un plan de acuerdo a la metodo-
logıa en la que se definiran las funciones de minerıa de datos a utilizar.
3.2.4. Evaluacion inicial de Funciones y Algoritmos.
3.2.4.1. Tecnicas de Minerıa de Datos.
Para llevar a cabo el proyecto se utilizo la herramienta SQL Server 2012 de Microsoft, donde se
comparan los siguientes algoritmos:
Reglas de Asociacion.
Los modelos de asociacion se generan basandose en conjuntos de datos que contienen
identificadores para casos individuales y para los elementos que contienen los casos. Un
grupo de elementos de un caso se denomina un conjunto de elementos. Un modelo de
asociacion se compone de una serie de conjuntos de elementos y de las reglas que describen
como estos elementos se agrupan dentro de los casos[2].
Para efectos de la realizacion del proyecto, este algoritmo es de utilidad ya que podemos
identificar los elementos de asociacion entre los alumnos que reprobaron o aprobaron, en
determinada materia, es decir, identificar lo que tienen en comun cada uno de ellos con el
resto de los registros que cumplen con el parametro deseado.
Algoritmo de Clusteres.
El algoritmo de agrupamiento de Microsoft es un algoritmo de segmentacion que itera en
los casos de un conjunto de datos para agruparlos en grupos que contengan caracterısticas
3.3. RECOLECCION DE LOS DATOS 28
similares. Estas agrupaciones son utiles para la exploracion de datos, la identificacion de
anomalıas en los datos y la creacion de predicciones[2].
La aplicacion de este algoritmo nos permite agrupar y clasificar a los alumnos que repro-
baron cierta materia, y segmentarlos de acuerdo a la coincidencia en diferentes parametros
e ir formando diversos grupos de los mismos, ademas de crear relaciones entre cada uno
de los alumnos que integran el grupo.
3.3. Recoleccion de los datos
3.3.1. Recoleccion de datos iniciales.
En esta etapa se recolectaron los datos de los alumnos del Instituto Tecnologico de La Paz,
que se van a cargar al modelo de minerıa de datos. Se hace uso de las herramientas para la
visualizacion y/o manipulacion de los datos de origen.
La base de datos del Instituto Tecnologico de la Paz esta desarrollada o generada en MySQL,
para la realizacion de nuestro proyecto fue necesario exportarla a SQL Server mediante el uso
de la herramienta llamada SQL Server Migration Assistant for MySql, ya que SQL Server tiene
Herramientas para el uso y creacion de modelos Multidimensionales.
Este proyecto se basa en una bodega de datos que previamente se construyo y valido en SQL
Server 2012.
El origen de los datos esta dividido por una tabla de hechos que se genero a partir de una tabla
llamada Kardex, con sus tablas relacionadas que son: alumnos, materias, grupos, maestros,
especialidades.
3.3.2. Descripcion de los datos.
En esta etapa se genero un reporte con las propiedades de las tablas y el formato de los datos, ası
como la cantidad de registros y campos de cada tabla que se utilizaran para nuestro proyecto.
3.4. PREPARACION DE LOS DATOS 29
La base de datos llamada “escolar” es con la que se trabaja en el proyecto. Cuenta con 535671
registros historicos de las notas de los 19766 alumnos en el Instituto Tecnologico de La Paz,
cuenta con 79 tablas, que se muestran en la figura 3.2.
Figura 3.2: Tablas con que cuenta la base de datos escolar.
Las tablas que se requieren para el analisis del proyecto se detallan en el anexo A.
3.4. Preparacion de los datos
En esta fase se llevan a cabo todas las tareas para construir una bodega de datos que seran utili-
zados en las herramientas de modelado, donde se llevo el proceso de extraccion, transformacion
y carga (ETL). Las cuales son ejecutadas en multiples oportunidades y sin orden e incluyen
seleccion de tablas, registros y atributos, ası como la transformacion y limpieza de datos para
las herramientas de modelado.
3.4. PREPARACION DE LOS DATOS 30
3.4.1. Seleccionar y verificar los datos.
Para este proyecto solo se va a utilizar un origen de datos y en el cual se seleccionaron 9 de
las 79 tablas con que cuenta la base de datos “escolar”, que nos servıan para el desarrollo de
nuestro proyecto. Las tablas seleccionadas son:
Tablas seleccionadas
Tabla Registros
Kardex 535,671
Alumnos 19,766
Materias 3,316
Grupos 22,106
Personal 206
Especialidades 47
Planes 81
Escuelas 70
Departamentos 26
Se verifico que los datos de la base de datos, no hubiera incongruencias y se valido que los
registros de las materias de los alumnos que estan dados de alta en la tabla Kardex, existieran
sus registros en las tablas de alumnos.
3.4.2. Limpiar los datos.
En esta fase se unificaron criterios para empezar el proceso ETL propiamente dicho. Es impor-
tante tener la informacion consolidada, es decir, todos los datos sean correctos y tener una sola
vision para todos los usuarios.
3.4. PREPARACION DE LOS DATOS 31
Ademas, se removieron los valores inconsistentes y se usaron los mismos valores estandar para
todos los datos. Tambien se debe mencionar que estos datos estan siendo utilizados para mostrar
informacion mediante cubos multidimensionales y son cien por ciento confiables, homogeneos y
sin datos nulos.
3.4.3. Integracion de los datos.
En este proyecto fue necesario integrar la clave de maestro y de especialidad a la tabla de
Kardex, ya que desde esta tabla no se podıa obtener los datos relacionados del maestro que
impartio la materia al alumno, ası como la especialidad del alumno. Por lo tanto, de acuerdo
a su clave, se obtuvo e integro el nombre del maestro que impartio la materia, ası como a la
especialidad a la que pertenece el alumno.
Se agregaron nuevos campos, como es el de ‘curso’, ‘acredito’, y ‘rangocalificacion’, los cuales
son las claves para acceder a sus respectivas tablas, que fueron creadas a partir de los datos que
se encuentran en la tabla Kardex.
Para llevar a cabo el proceso de ETL (Extraccion, Transformacion y Carga), se hizo uso de la
herramienta de Microsoft Visual Studio 2010, quedando como resultado el siguiente proyecto
que se muestra en la figura 3.3.
3.4.4. Dar formato a los datos.
En este punto, la metodologıa nos indica la posibilidad de verificar o dar nuevamente formato
a la tabla de datos que va ser la entrada del modelo de minerıa de datos. Revisar los ultimos
cambios que se hicieron y/o reorganizar las columnas de la tabla. Todo esto con la finalidad de
preparar el origen de datos para lo que sera la siguiente etapa de la metodologıa, la etapa de
modelado de los datos.
En este caso se hizo una verificacion de los cambios descritos anteriormente, validando que
hayan sido correctos. El resultado del paso anterior, nos queda un modelo multidimensional que
3.5. MODELADO 32
Figura 3.3: Modulo del Proceso ETL en SQL Server 2012.
se muestra en la figura 3.4., y que es la base para la construccion de nuestro almacen de datos.
3.5. Modelado
De acuerdo a las tareas que se deben seguir en la metodologıa CRISP-DM, sigue la etapa del
modelado, la cual establece que dentro de las tareas a seguir son: seleccionar la tecnica que se
va a utilizar, generar el diseno de pruebas, la construccion del modelo (definir sus parametros,
modelos y su descripcion) y por ultimo la evaluacion del mismo, en la cual se confirma o se
modifican los parametros.
3.5. MODELADO 33
Figura 3.4: Modelo multidimensional tipo constelacion.
3.5.1. Seleccionar la tecnica del modelado.
En esta actividad, se da el primer paso del modelado en el cual se selecciona la tecnica o
algoritmo que se va a utilizar.
3.5.1.1. Tecnica del modelado.
Las tecnicas o algoritmos que se seleccionaron despues de un analisis de la informacion y en base
al objetivo de nuestra investigacion, se concluyo que son los que generan modelos descriptivos,
que nos sirven para identificar patrones que expliquen o resuman los datos, es decir, para explorar
las propiedades de los datos examinados, no para predecir nuevos datos.
Los algoritmos para realizar nuestras pruebas son: la tecnica de reglas de asociacion con el
algoritmo A priori, y la tecnica de agrupamiento con los algoritmos de clusteres K-Medias y
EM (Maxima Expectacion).
Se decidio por que son tecnicas que nos permiten analizar la informacion historica, y que nos
3.5. MODELADO 34
ayudan a encontrar patrones que describan la informacion, ademas permiten establecer relevan-
cia de factores y si aquella es positiva o negativa respecto a otro factor o variable a estudiar.
3.5.2. Generar el diseno de pruebas.
Para construir el modelo, primero se genero un mecanismo para poder probar su calidad y
veracidad. Primero se establecio la estructura de minerıa de datos en la que se define los datos
a partir de la cual se generan los modelos de minerıa de datos y que se muestra en la figura 3.5.
En la estructura se especifica el origen de los datos, el numero y el tipo de columnas. Una
misma estructura de minerıa de datos puede admitir varios modelos de minerıa de datos que
compartan el mismo dominio.
Figura 3.5: Estructura de minerıa de datos
En la figura 3.6 Se presenta los parametros asociados para la base de datos de alumnos.
HoldoutMaxCases = 0;
Especifica el porcentaje maximo de casos en el origen de datos que se van a usar en la
particion de exclusion que contiene el conjunto de pruebas para la estructura de minerıa
de datos DWEscolar. Los casos restantes en el conjunto de datos se usan para el entre-
namiento. El valor cero indica que no hay ningun lımite con respecto al numero de casos
que se pueden considerar como el conjunto de pruebas.
3.5. MODELADO 35
Figura 3.6: Parametros de la estructura de minerıa de datos DWEscolar
HoldoutMaxPercent = 30;
Especifica el porcentaje maximo de casos de exclusion para la estructura de minerıa de
datos DWEscolar. Los casos restantes se usan para aprendizaje.
Ya que se establecio la estructura de minerıa de datos, se procede a definir los modelos que se
llevaran a cabo para la presente investigacion, los cuales son: asociacion A priori, De agrupa-
miento (K-medias y EM).
Para poder llevar a cabo el analisis en menor tiempo, se tomo como objeto de estudio los datos
correspondientes a los alumnos de la carrera de Ingenierıa en Sistemas Computacionales. Las
pruebas para el modelo que se utilizaron para analizar la calidad y el porcentaje de error, se
establecieron de la siguiente manera:
1 Se tomo como objeto de estudio solo los datos correspondientes a los alumnos de la Especia-
lidad de Ingenierıa en Sistemas computacionales con 26,658 registros.
2 Se realizan pruebas con las siguientes variables de entrada: alumno, maestro, materia, es-
pecialidad, curso, tiempo y semestre. Para la variable predictiva se selecciono la variable Id
Acredito.
3.5. MODELADO 36
3 Posteriormente se validan los resultados y se ajustan los parametros del algoritmo.
3.5.3. Construccion de los modelos.
Dado que se establecio la tecnica de modelado y se diseno el modelo de pruebas, se procede a rea-
lizar la construccion del modelo. La implementacion y ejecucion de los algoritmos seleccionados,
se describen a continuacion:
3.5.3.1. Algoritmo de Asociacion A priori.
Prueba #1. Como primera prueba se especifico el contenido y el tipo de datos de entrada,
como se muestra en la figura 3.7.
Figura 3.7: Tipo de datos de las columnas del algoritmo A priori.
3.5. MODELADO 37
Como paso siguiente se especifico las columnas de entrada de datos, ası como la columna o
variable para la prediccion que se usaran en la aplicacion del analisis y las cuales se muestran
en la figura 3.8.
Figura 3.8: Columnas a analizar del algoritmo A priori.
Una vez que se establecio una probabilidad mınima de 80 % y un soporte mınimo de 67 %,
se llevo acabo el primer analisis con la anterior configuracion de variables de entrada y la va-
riable de prediccion, se genero las siguientes reglas de asociacion que se muestran en la figura 3.9.
Se muestra que hay una asociacion fuerte de las materias con los alumnos, y nos indican las
materias que tienen mayor incidencia en el nivel de reprobacion en la carrera de ingenierıa en
sistemas computacionales.
3.5. MODELADO 38
Figura 3.9: Reglas generadas en la ejecucion del algoritmo A priori.
Como segundo analisis se aplico el algoritmo de asociacion A priori a las siguientes carreras:
Arquitectura
Ingenierıa Civil
Ingenierıa Bioquımica
Ingenierıa en Gestion Empresarial
Ingenierıa Electromecanica
Ingenierıa Industrial
Licenciatura en Administracion
Contador Publico
Los resultados de cada una se muestran en el anexo B.
Prueba #3.
Como tercer analisis se aplico el algoritmo de asociacion A priori a todo el conjunto de datos
contenidos en la bodega de datos DWEscolar, y que comprende las 9 especialidades (carreras)
que ofrece el Instituto.
3.5. MODELADO 39
Como resultado se observo que no mostraba informacion clara al asociar los conjuntos de los
elementos y en la generacion de reglas que nos permitieran identificar los elementos de asociacion
entre los alumnos que reprobaron o aprobaron en determinada materia.
3.5.3.2. Algoritmo de agrupamiento K-medianas.
Prueba #1.
La primera prueba se aplico el algoritmo de clusteres de Microsoft, dicho algoritmo nos pro-
porciona dos diferentes metodos para crear clusteres, el primero es el K-medianas, el cual es
un metodo en los que los datos pueden pertenecer a un solo cluster y en el que se calcula una
probabilidad de pertenencia de cada punto de datos a ese cluster. El algoritmo K-medianas
cuenta con dos metodos: escalable, donde solo se usa en los primeros 50000 casos y no escalable,
donde se aplica a todos los datos de nuestro modelo.
Como primera prueba se establecio las columnas de entradas de los datos (IdAlumno, IdMa-
teria, IdMaestro, IdCurso), ası como la variable de prediccion (IdAcredito). Los valores de los
parametros utilizados en el algoritmo de cluster que establecimos para seleccionar el K-medianas
escalable (CLUSTERING METHOD=3) y el numero de cluster (CLUSTER COUNT=7).
Figura 3.10: Diagrama de cluster obtenido en la prueba #1 del algoritmo K-medianas.
3.5. MODELADO 40
Una vez que se realizo el primer analisis con el algoritmo seleccionado, se genero un diagrama de
grupos como se muestra en la figura 3.10, los conjuntos generados muestran informacion a partir
de las variables de entrada, y nos indican que son muy similares en los niveles de probabilidad
de la desviacion tıpica de las distancias de cada uno de ellos.
Como resultado tambien se genero un resumen de los perfiles de grupos, que se muestra en la
figura 3.11. y muestra que las variables curso, materia y maestro, tienen relacion en el aprove-
chamiento academico de los alumnos.
Figura 3.11: Perfil de cluster obtenido en la prueba #1 del algoritmo K-medianas.
Los resultados de este primer analisis, es que las variables, materia y maestro tienen una fuerte
relacion en la aprobacion y reprobacion de los alumnos, sin embargo, para determinar con mayor
precision el grado de influencia de cada variable se procede a ejecutar una segunda prueba.
Prueba #2
Como segunda prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-
Materia, IdMaestro, IdCurso), ası como la variable de prediccion (Id Acredito). Se selecciono el
mismo metodo de agrupamiento, el K-Medianas escalable (CLUSTERING METHOD=3), pero
modificamos el numero de grupos (CLUSTER COUNT) por un valor de 5.
Se modifico el numero de grupos, ya que se busca que agrupe en un conjunto de datos de acuerdo
3.5. MODELADO 41
al estado de prediccion, que son acredito o no.
Una vez que se llevo acabo el analisis con el algoritmo seleccionado, se genero un nuevo diagrama
de grupos como se muestra en la figura 3.12. Observamos que el diagrama resultante muestra
informacion mas clara y que los grupos generados, tienen una densidad muy similar, es decir
que los vınculos son mas fuertes al agrupar las variables, e indican que es similar en la mayorıa
de ellos.
Figura 3.12: Diagrama de cluster obtenido en la prueba #2 del algoritmo K-medianas.
Figura 3.13: Perfil de cluster obtenido en la prueba #2 del algoritmo K-medianas.
El resultado que se observo al generar los perfiles del grupo se muestran en la figura 3.13, se
puede apreciar que los grupos generados no se distingue una diferencia.
3.5. MODELADO 42
Prueba #3
Como tercera prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-
Materia, IdMaestro, IdCurso), ası como la variable de prediccion (Id Acredito). Se selecciono el
mismo metodo de agrupamiento, el K-Medianas escalable (CLUSTERING METHOD=3), pero
modificamos el numero de grupos (CLUSTER COUNT) por un valor de 2.
Una vez que se llevo acabo el analisis con el algoritmo seleccionado, se genero un nuevo diagrama
de grupos como se muestra en la figura 3.14. Observamos que el diagrama resultante muestra
informacion mas clara y que los grupos generados, es decir que los vınculos son mas fuertes al
agrupar las variables.
Figura 3.14: Diagrama de cluster obtenido en la prueba #3 del algoritmo K-medianas.
El resultado que se observo al generar los perfiles del grupo se muestran en la figura 3.15, se
puede apreciar que los grupos generados ya muestra informacion clara y precisa. Por lo tanto, ya
se pueden identificar las tendencias o patrones de comportamiento entre los grupos generados.
3.5.3.3. Algoritmo de agrupamiento Maxima Expectacion (EM).
Prueba #1.
Como primera prueba se establecio las columnas de entradas de los datos (IdAlumno, IdMateria,
IdMaestro, IdCurso), ası como la variable de prediccion (Id Acredito).
3.5. MODELADO 43
Figura 3.15: Perfil de cluster obtenido en la prueba #3 del algoritmo K-medianas.
Los valores de los parametros utilizados en el algoritmo de cluster que establecimos para
seleccionar el EM escalable (CLUSTERING METHOD=1) y el numero de cluster (CLUS-
TER COUNT=7).
Figura 3.16: Diagrama de cluster obtenido en la prueba #1 del algoritmo EM.
Una vez que se realizo el primer analisis con el algoritmo seleccionado, se genero un diagrama
de grupos como se muestra en la figura 3.16, los conjuntos generados muestran informacion a
partir de las variables de entrada.
3.5. MODELADO 44
Figura 3.17: Perfil de cluster obtenido en la prueba #1 del algoritmo EM.
Como resultado tambien se genero un resumen de los perfiles de grupos, que se muestra en la
figura 3.17. y muestra que las variables curso, materia y maestro, tienen relacion en el aprove-
chamiento academico de los alumnos.
Como resultado no se puede apreciar un agrupamiento claro de los alumnos que aprobaron y
los que reprobaron.
Prueba #2
Como segunda prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-
Materia, IdMaestro, IdCurso), ası como la variable de prediccion (Id Acredito). Se selecciono el
mismo metodo de agrupamiento, el EM escalable (CLUSTERING METHOD=1), pero modifi-
camos el numero de grupos (CLUSTER COUNT) por un valor de 5.
Una vez que se llevo acabo el segundo analisis, genero un nuevo diagrama de grupos como se
muestra en la figura 3.18. Observamos que el diagrama resultante muestra informacion mas
clara y que los grupos generados, tienen una densidad muy similar, es decir que los vınculos son
mas fuertes al agrupar las variables, e indican que es similar en la mayorıa de ellos.
En la figura 3.19. Se muestra el resumen de los perfiles de los clusteres generados en el analisis
de la informacion.
3.5. MODELADO 45
Figura 3.18: Diagrama de cluster obtenido en la prueba #2 del algoritmo EM.
Figura 3.19: Perfil de cluster obtenido en la prueba #2 del algoritmo EM.
3.5. MODELADO 46
Prueba #3
Como tercera prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-
Materia, IdMaestro, IdCurso), ası como la variable de prediccion (Id Acredito). Se selecciono el
mismo metodo de agrupamiento, el EM escalable (CLUSTERING METHOD=1), pero modifi-
camos el numero de grupos (CLUSTER COUNT) por un valor de 2.
Realizado el tercer analisis se genero un nuevo diagrama de grupos, como se muestra en la figura
3.20. El diagrama resultante nos da informacion de los grupos generados, pero observamos que
los grupos tienen una densidad muy similar.
Figura 3.20: Diagrama de cluster obtenido en la prueba #3 del algoritmo EM.
Figura 3.21: Perfil de cluster obtenido en la prueba #3 del algoritmo EM.
Como se puede observar en la figura 3.21, los perfiles de grupos resultantes no muestran infor-
macion clara, ya que siguen existiendo similitudes entre ellos.
3.6. EVALUACION DEL MODELO. 47
3.6. Evaluacion del modelo.
Llegados a esta fase, cabe preguntarse como saber sı los modelos son suficientemente validos
para nuestros propositos. Para ello, existen varios metodos para evaluar la calidad de un modelo
a partir de datos reales.
3.6.1. Grafico de elevacion.
Un Grafico de mejora respecto al modelo predictivo representa graficamente la mejora que
proporciona un modelo de minerıa de datos en comparacion con una estimacion aleatoria, y
mide el cambio en terminos de puntuacion de la mejora respecto al modelo predictivo. Al
comparar las puntuaciones de mejora respecto al modelo predictivo para las distintas partes del
conjunto de datos y para los distintos modelos, puede determinar cual es el mejor modelo y que
porcentaje de casos del conjunto de datos se beneficiarıa de aplicar las predicciones del modelo.
Con un grafico de mejora respecto al modelo predictivo, puede comparar la precision de las
predicciones para varios modelos que tienen el mismo atributo de prediccion. Tambien puede
evaluar la exactitud de la prediccion para un unico resultado (un unico valor del atributo de
prediccion) o para todos los resultados (todos los valores del atributo especificado).
El grafico de elevacion para los modelos en estudio, se muestra en la figura 3.22. Acredito =
1 (Reprobado), el atributo de destino es (Acredito) y el valor de destino es 1 (Reprobado), lo
que representa que el estudiante es probable que repruebe. El grafico de elevacion muestra la
mejora que el modelo proporciona al identificar a los alumnos que es probable que reprueben.
El eje X del grafico representa el porcentaje del conjunto de datos de prueba que se usa para
comparar las predicciones. El eje Y del grafico representa el porcentaje de valores de prediccion.
La lınea recta diagonal, mostrada aquı en gris representa los resultados de la estimacion aleatoria
y es la lınea base con la que evaluar la mejora respecto al modelo predictivo. Con cada modelo
que agrega a un grafico de mejora respecto al modelo predictivo, obtiene dos lıneas adicionales:
una muestra los resultados ideales para los conjuntos de datos de entrenamiento establecidos,
si pudiera crear un modelo que siempre predijera perfectamente; y la segunda lınea muestra la
3.6. EVALUACION DEL MODELO. 48
Figura 3.22: Grafico de elevacion de los modelos de estudio.
mejora respecto al modelo predictivo real, o mejora en los resultados, para el modelo.
La lınea ideal para el modelo filtrado se muestra en rosa y la lınea para la elevacion real en
morado. Puede deducir del grafico que la lınea ideal alcanza el maximo cerca del 30 por ciento,
lo que significa que, si tuviera un modelo perfecto, podrıa llegar al 100 por ciento de los alumnos
reprobados unicamente al 30 por ciento de la poblacion total. La elevacion real para el modelo
filtrado al destinarse al 30 por ciento de la poblacion esta entre el 60 y el 70 por ciento, lo que
significa que se podrıa llegar al 60 o 70 por ciento de los alumnos de destino no acreditando al
30 por ciento de la poblacion total de alumnos.
la poblacion total. La elevacion real para el modelo filtrado al destinarse al 30 por ciento de
la poblacion esta entre el 60 y el 70 por ciento, lo que significa que se podrıa llegar al 60 o 70
por ciento de los alumnos de destino no acreditando al 30 por ciento de la poblacion total de
alumnos.
En la figura 3.23. muestra los valores de probabilidad de prediccion de cada uno de los modelos
e indica el valor que representa el indicio necesario para incluir un estudiante entre los casos con
probabilidad de reprobar. En estos resultados se puede observar que, cuando se mide el 40 por
ciento de todos los casos, el modelo K-mediana puede predecir el comportamiento de alumnos
reprobados en el 60 % de la poblacion destino.
3.6. EVALUACION DEL MODELO. 49
Figura 3.23: Leyenda de elevacion de los modelos de estudio.
El valor de Probabilidad de prediccion representa el umbral necesario para incluir un alumno
entre los casos con probabilidad de reprobar.
El valor de Puntuacion ayuda a comparar los modelos calculando la efectividad del modelo a
traves de una poblacion normalizada. Una mayor puntuacion es mejor, de modo que en este
caso se podrıa decidir que seleccionar a los alumnos con el modelo K-medianas es la estrategia
mas eficiente con un puntaje de 0.70, siguiendo el modelo EM con 0.66 y el modelo A priori con
0.61.
3.6.2. Validacion Cruzada.
Uno de los metodos es la validacion cruzada que se usa despues de crear una estructura de
minerıa de datos y los modelos de minerıa de datos relacionados para determinar la validez del
modelo. La validacion cruzada tiene las aplicaciones siguientes:
Validar la solidez de un modelo de minerıa de datos determinado.
Evaluar varios modelos de una instruccion unica.
Generar varios modelos e identificar a continuacion el mejor modelo basandose en es-
tadısticas.
La validacion cruzada es un metodo establecido para evaluar la exactitud de los modelos de
minerıa de datos. La validacion cruzada divide sucesivamente los datos de la estructura de
3.6. EVALUACION DEL MODELO. 50
minerıa de datos en subconjuntos, genera modelos en los subconjuntos y mide la exactitud del
modelo para cada particion.
Ademas, la informacion basica acerca del numero de plegamientos en los datos y de la cantidad
de datos en cada plegamiento, Analysis Services muestra un conjunto de metricas sobre cada
modelo, clasificadas por tipo. A continuacion, se muestra una lista con las pruebas y las metricas,
junto con una explicacion del significado de las metricas.
Agrupacion en clusteres
Probabilidad de casos. Indica la probabilidad de que un caso pertenezca a un cluster determi-
nado.
1. Clasificacion
Verdadero positivo. Recuento de casos que cumplen estas condiciones:
• El caso contiene el valor de destino.
• El modelo predijo que ese caso contenıa el valor de destino.
Falso positivo. Recuento de casos que cumplen estas condiciones:
• El valor real es igual al valor de destino.
• El modelo predijo que ese caso contenıa el valor de destino.
Verdadero negativo. Recuento de casos que cumplen estas condiciones:
• El caso no contiene el valor de destino.
• El modelo predijo que el caso no contiene el valor de destino.
Falso negativo. Recuento de casos que cumplen estas condiciones:
• El valor real no es igual al valor de destino.
• El modelo predijo que el caso no contiene el valor de destino.
2. Probabilidad
Puntuacion del registro. El logaritmo de la probabilidad real para cada caso, sumada
y, a continuacion, dividida por el numero de filas del conjunto de datos, excepto las
3.6. EVALUACION DEL MODELO. 51
filas con valores ausentes. Dado que la probabilidad se representa como una fraccion
decimal, las puntuaciones de registro siempre son numeros negativos. Un resultado
mas cercano a 0 indica una mejor prediccion.
Elevacion. La proporcion entre la probabilidad de prediccion real y la probabilidad
marginal en los casos de prueba. Esta metrica muestra hasta que punto mejora la
probabilidad cuando se utiliza el modelo.
Error cuadratico medio. La raız cuadrada del error promedio para todos los casos
de particion, dividido por el numero de casos en la particion, excepto las filas con
valores ausentes.
3. Agregados
Las medidas agregadas proporcionan una indicacion acerca de la varianza en los resultados
para cada particion.
Promedio. La media de los valores de la particion para una medida determinada.
Desviacion estandar. La media de la desviacion desde el promedio para una medida
concreta, para todas las particiones de un modelo.
En la tabla 3.1. Se muestra el resultado de las medidas de precision para cada particion para los
modelos cluster EM, cluster k-medianas, A priori. Los parametros utilizados en la validacion
cruzada son: Recuento de plegamientos = 5, Atributo destino = IdAcredito, Estado de destino=
1, Maximo de casos = 100 y el umbral de destino de 0.6.
Tabla 3.1: Tabla de resultados de la Validacion cruzada.
Validacion Cruzada
Indice
particion
Tamano
particion
Prueba Medida Cluster EM K-medias A priori
2 20 Clasificacion Verdadero posi-
tivo
4 4 1
3 21 Clasificacion Verdadero posi-
tivo
4 6 2
3.6. EVALUACION DEL MODELO. 52
Continuacion Tabla 3.1
Indice
particion
Tamano
particion
Prueba Medida Cluster EM K-mediana A priori
4 20 Clasificacion Verdadero posi-
tivo
3 7 1
5 20 Clasificacion Verdadero posi-
tivo
1 0,000e+000 1
Promedio 3,01 4,22 1,4
Desviacion
estandar
1,1 2,4066 0,4899
1 19 Clasificacion Falso positivo 5 8 3
2 20 Clasificacion Falso positivo 3 8 2
3 21 Clasificacion Falso positivo 6 9 2
4 20 Clasificacion Falso positivo 4 9 2
5 20 Clasificacion Falso positivo 2 0,000e+000 2
Promedio 4,01 6,81 2,19
Desviacion
estandar
1,4247 3,4342 0,3923
1 19 Clasificacion Verdadero Ne-
gativo
7 4 9
2 20 Clasificacion Verdadero Ne-
gativo
9 4 10
3 21 Clasificacion Verdadero Ne-
gativo
7 4 11
4 20 Clasificacion Verdadero Ne-
gativo
8 3 10
5 20 Clasificacion Verdadero Ne-
gativo
10 12 10
Promedio 8,2 5,4 10,02
3.6. EVALUACION DEL MODELO. 53
Continuacion Tabla 3.1
Indice
particion
Tamano
particion
Prueba Medida Cluster EM K-mediana A priori
Desviacion
estandar
1,1662 3,3226 0,6321
1 19 Clasificacion Falso Negativo 4 3 5
2 20 Clasificacion Negativo 4 4 7
3 21 Clasificacion Falso Negativo 4 2 6
4 20 Clasificacion Falso Negativo 5 1 7
5 20 Clasificacion Falso Negativo 7 8 7
Promedio 4,8 3,59 6,41
Desviacion
estandar
1,1662 2,4211 0,7886
1 19 Probabilidad Puntuacion de
registro
-0,8273 0,000e+000 -0,4178
2 20 Probabilidad Puntuacion de
registro
-0,7835 0,000e+000 -0,563
3 21 Probabilidad Puntuacion de
registro
-0,8799 0,000e+000 -0,4795
4 20 Probabilidad Puntuacion de
registro
-0,684 0,000e+000 -0,5871
5 20 Probabilidad Puntuacion de
registro
-0,8249 -0,6684 -0,5168
Promedio -0,8004 -0,1337 -0,5135
Desviacion
estandar
0,066 0,2674 0,0596
1 19 Probabilidad Elevacion -0,1691 0,729 0,2403
2 20 Probabilidad Elevacion -0,1105 0,7136 0,11
3 21 Probabilidad Elevacion -0,2154 0,7709 0,185
4 20 Probabilidad Elevacion -0,011 0,7947 0,0859
3.6. EVALUACION DEL MODELO. 54
Continuacion Tabla 3.1
Indice
particion
Tamano
particion
Prueba Medida Cluster EM K-mediana A priori
5 20 Probabilidad Elevacion -0,1519 0,0046 0,1562
Promedio -0,1321 0,603 0,1549
Desviacion
estandar
0,0695 0,3006 0,0541
1 19 Probabilidad Error
Cuadratico
medio
0,2575 0,000e+000 0,2742
2 20 Probabilidad Error
Cuadratico
medio
0,1896 0,000e+000 0,3052
3 21 Probabilidad Error
Cuadratico
medio
0,2423 0,000e+000 0,3092
4 20 Probabilidad Error
Cuadratico
medio
0,4179 0,000e+000 0,3207
5 20 Probabilidad Error
Cuadratico
medio
0,233 0,4048 0,3043
Promedio 0,2679 0,081 0,3031
Desviacion
estandar
0,0783 0,1619 0,0152
Fin de la Tabla
Clasificacion:
Verdadero positivo. Los resultados obtenidos, indican que el modelo K-mediana tiene un
promedio mejor con 4,22, sin embargo, presenta la desviacion estandar mas alta con 2,4066,
3.6. EVALUACION DEL MODELO. 55
seguida del modelo EM (1,1) y el modelo A priori que tiene un mejor resultado con 0,4899.
Falso positivo. Esta metrica nos muestra que, de los valores reales, el mejor promedio es
el modelo K-mediana con 6,81, pero la desviacion estandar (3,4342) es mas alta que la
obtenida por el modelo A priori con 0,3923.
Verdadero negativo. De los valores obtenidos, el modelo A priori es el que tiene el promedio
mas alto con 10,02 que el modelo K-mediana (5,4), pero tiene una menor desviacion
estandar de 0,6321.
Falso negativo. De los valores reales que no presentan el valor destino, el modelo K-mediana
presenta menos promedio con 3,59, seguido del modelo EM (4,8) y por ultimo el modelo
A priori con 6,4. Sin embargo, el modelo que tiene la desviacion estandar mas baja, es el
modelo A priori con 0,7886.
Probabilidad:
Puntuacion de registro. Los tres modelos presentan valores negativos para esta metrica.
Un resultado mas cercano a 0 indica una mejor prediccion, y el modelo K-mediana es el
mejor promedio con una estimacion de -0,1337, seguido del modelo A priori con -0,5135 y
el modelo EM con -0,8004.
Elevacion. La metrica muestra hasta que punto mejora la probabilidad cuando se utiliza el
modelo. De los resultados obtenidos, se tiene que el modelo K-mediana (0,6), presenta en
promedio una mejor estimacion entre la probabilidad de prediccion real y la probabilidad
marginal en los casos de prueba, respecto a los modelos A priori (0,1549) y el modelo EM
(-0,1321).
Error cuadratico medio. De acuerdo a los resultados obtenidos, el modelo que tiene el
mejor indicador es el modelo K-mediana con 0,081, seguido del modelo EM con 0,2679 y
el modelo A priori con 0,3031. Sin embargo, el modelo que tiene una menor desviacion
estandar es el modelo A priori con 0,0152.
3.6. EVALUACION DEL MODELO. 56
3.6.3. Matriz de clasificacion.
Una matriz de clasificacion ordena todos los casos del modelo en categorıas, determinando si el
valor de prediccion coincide con el valor real. A continuacion, se cuentan todos los casos de cada
categorıa y los totales se muestran en la matriz. La matriz de clasificacion es una herramienta
estandar de evaluacion de modelos estadısticos a la que a veces se denomina matriz de confusion.
El grafico compara los valores reales con los valores de prediccion para cada estado de prediccion
especificado. Las filas de la matriz representan los valores de prediccion para el modelo, mientras
que las columnas representan los valores reales. Las categorıas usadas en el analisis son falso
positivo, verdadero positivo, falso negativo y verdadero negativo.
Una matriz de clasificacion es una herramienta importante para evaluar los resultados de la pre-
diccion, ya que hace que resulte facil entender y explicar los efectos de las predicciones erroneas.
Al ver la cantidad y los porcentajes en cada celda de la matriz, podra saber rapidamente en
cuantas ocasiones ha sido exacta la prediccion del modelo.
Interpretacion de los resultados.
En la tabla 3.2. se muestra la matriz de clasificacion para el modelo Cluster EM. Recuerde que,
para este atributo de prediccion, 1 significa “Reprobado” y 2 significa “Aprobado”.
Previsto 1(Real) 2(Real)
1 0 0
2 2370 5708
Tabla 3.2: Tabla de clasificacion modelo Cluster EM.
La primera celda de resultados, que contiene el valor 0, indica el numero de verdaderos positivos
para el valor 1. Dado que 1 indica que el alumno no aprobo, esta estadıstica indica que el modelo
predijo el valor correcto para quienes no aprobaron en 0 casos.
La celda situada directamente debajo de esa, que contiene el valor 2370, indica el numero de
falsos positivos, o numero de veces que el modelo predijo que alguien aprobarıa cuando en
realidad no lo hizo.
3.6. EVALUACION DEL MODELO. 57
La celda que contiene el valor 0 indica el numero de falsos positivos para el valor 2. Dado que
2 significa que el alumno aprobo, esta estadıstica indica que, en 0 casos, el modelo predijo que
alguien no aprobarıa cuando sı lo hizo.
Finalmente, la celda que contiene el valor 5708 indica el numero de verdaderos positivos para
el valor de destino 2. En otras palabras, en 5708 casos el modelo predijo correctamente que el
alumno aprobo.
Previsto 1(Real) 2(Real)
1 1494 1909
2 876 3799
Tabla 3.3: Tabla de clasificacion modelo K-medianas.
En la tabla 3.3. Se observan los siguientes resultados para el modelo K-medianas, y en la primera
celda contiene el valor 1494, indica el numero de verdaderos positivos para el valor 1. Dado que
1 indica que el alumno no aprobo, esta estadıstica indica que el modelo predijo el valor correcto
para quienes no aprobaron en 1494 casos.
La celda situada directamente debajo de esa, que contiene el valor 876, indica el numero de falsos
positivos, o numero de veces que el modelo predijo que alguien aprobarıa cuando en realidad
no lo hizo.
La celda que contiene el valor 1909 indica el numero de falsos positivos para el valor 2. Dado que
2 significa que el alumno aprobo, esta estadıstica indica que, en 1909 casos, el modelo predijo
que alguien no aprobarıa cuando sı lo hizo.
Finalmente, la celda que contiene el valor 3799 indica el numero de verdaderos positivos para
el valor de destino 2. En otras palabras, en 3799 casos el modelo predijo correctamente que el
alumno aprobo.
En la tabla 3.4. Se observan los siguientes resultados para el modelo A priori, en la primera
celda contiene el valor 49, indica el numero de verdaderos positivos para el valor 1. Dado que 1
indica que el alumno no aprobo, esta estadıstica indica que el modelo predijo el valor correcto
para quienes no aprobaron en 49 casos.
3.6. EVALUACION DEL MODELO. 58
Previsto 1(Real) 2(Real)
1 49 32
2 2321 5676
Tabla 3.4: Tabla de clasificacion modelo Apriori.
La celda situada directamente debajo de esa, que contiene el valor 2321, indica el numero de
falsos positivos, o numero de veces que el modelo predijo que alguien aprobarıa cuando en
realidad no lo hizo.
La celda que contiene el valor 32 indica el numero de falsos positivos para el valor 2. Dado que
2 significa que el alumno aprobo, esta estadıstica indica que, en 32 casos, el modelo predijo que
alguien no aprobarıa cuando sı lo hizo.
Finalmente, la celda que contiene el valor 5676 indica el numero de verdaderos positivos para
el valor de destino 2. En otras palabras, en 5676 casos el modelo predijo correctamente que el
alumno aprobo.
Sumando los valores de las celdas contiguas diagonalmente, se puede determinar la exactitud
total del modelo. Una diagonal indica el numero total de predicciones exactas y la otra indica
el numero total de predicciones erroneas. Los valores de los numeros totales de predicciones
exactas de nuestros modelos son los siguientes: cluster EM, con un valor de 5708, el modelo
K-medianas con 5293 y el modelo A priori con 5725. Para el total de predicciones erroneas, los
valores fueron: cluster EM, con un valor de 2370, el modelo K-medianas con 2785 y el modelo
A priori con 2353.
Capıtulo 4
Interpretacion de Resultados
Despues de haber probado y evaluado los modelos de minerıa de datos, el paso siguiente, es
describir de forma mas entendible los resultados obtenidos en las pruebas. Los resultados fueron
evaluados por la comprension e interpretacion de los resultados de los modelos, ası como se
evaluacion del impacto de los mismos para los objetivos del negocio.
4.1. Comprension e interpretacion de los resultados ob-
tenidos.
Las variables que se consideraron en la utilizacion de la estructura de los modelos de minerıa
de datos que se muestran en la figura 7.1., dependieron de la tecnica de minerıa de datos que
se utilizo. Para la identificacion de variables e indicadores que influyen en el aprovechamiento
escolar, que se establecieron en el capıtulo 1.4, como parte de los objetivos especıficos.
Como resultado de las pruebas realizadas en nuestros modelos de minerıa de datos, observamos
que en la ejecucion de los mismos no identificaban de manera clara las materias con mayor ındice
de reprobacion, por lo que se procedio a reducir el universo de la muestra de datos, aplicando
el filtro por especialidad. De esta forma se logro identificar de acuerdo al estado de prediccion
(aprobo o no aprobo) las materias que afectan el desempeno academico de los alumnos por
59
4.1. COMPRENSION E INTERPRETACION DE LOS RESULTADOS OBTENIDOS. 60
especialidad.
Primero utilizando la tecnica de asociacion con el algoritmo A priori, podemos identificar los
elementos de asociacion entre los alumnos que reprobaron o aprobaron, en determinada materia,
es decir, identificar lo que tienen en comun cada uno de ellos con el resto de los registros que
cumplen con el parametro deseado.
Observamos que existe una fuerte correlacion entre las variables materia, curso y acredito.
El algoritmo A priori genero reglas, en las que observamos que, modificando el parametro de
soporte mınimo y de probabilidad mınima, nos muestra las materias que mas inciden el ındice
de reprobacion y de acuerdo con los conjuntos de elementos que se generaron, vemos que existe
una alta probabilidad que un alumno repruebe en los primeros dos semestres de la carrera.
Un punto importante es que al encontrar los parametros optimos y ejecutar el algoritmo sin
el filtro de la especialidad (carrera), no mostraba informacion clara, ya que cada especialidad
cuenta con materias muy diversas, afectando el desempeno del algoritmo por lo que este modelo
solo es factible si se aplica el filtro por carrera para generar las reglas y conjunto de elementos
para cada especialidad.
Como segundo caso utilizamos la seleccion e implementacion de los algoritmos de agrupamiento
o clusteres, los cuales permiten crear grupos (clusteres) con caracterısticas similares (columnas
de entrada) entre los datos a evaluar. De este modo con la deteccion de grupos de alumnos con
caracterısticas muy parecidas o iguales, se pueden detectar patrones de comportamiento entre
los alumnos que aprobaron o no, segun sea el caso.
Como resultado de las ejecuciones del algoritmo de agrupamiento de Microsoft de Maxima
Expectacion, tomando en cuenta las variables mas representativas y donde en cada ejecucion se
modificaban las columnas de entrada y el numero de grupos (clusteres) a generar, se obtuvieron
los resultados finales que se muestran en la figura 4.1.
En la ejecucion final del algoritmo de agrupamiento EM, como se muestra en la Figura 4.1,
se generaron 2 grupos (clusteres). Los grupos generados en esta prueba aun sigue mostrando
similitudes entre grupos, en los que no se muestra de forma clara la distribucion de los distintos
estados de la columna de prediccion.
4.1. COMPRENSION E INTERPRETACION DE LOS RESULTADOS OBTENIDOS. 61
Figura 4.1: Resultados de atributos del modelo de cluster EM de Arquitectura.
Al analizar los dos grupos generados observamos que en las caracterısticas de cada uno de los
grupos (clusteres) que se muestran en la figura 4.2. y la figura 4.3., no se logra identificar de
manera clara y precisa las diferencias en la probabilidad de que favorezcan a un estado de
acredito o no.
Figura 4.2: Caracterısticas Cluster #1.
4.1. COMPRENSION E INTERPRETACION DE LOS RESULTADOS OBTENIDOS. 62
Figura 4.3: Caracterısticas Cluster #2.
El resultado final de las ejecuciones del algoritmo de agrupamiento de Microsoft de K-medianas,
en donde se modifico el numero de grupos (clusteres), se muestra en la figura 4.4. teniendo como
filtro la especialidad = Arquitectura.
Figura 4.4: Resultados de atributos del modelo K-medianas.
Los dos grupos generados en esta prueba muestran de forma clara la distribucion de los distin-
tos estados de la columna de prediccion. El grupo (cluster) #2 agrupa a los alumnos que no
acreditaron las materias, como se puede observar en la figura 4.5.
4.1. COMPRENSION E INTERPRETACION DE LOS RESULTADOS OBTENIDOS. 63
Figura 4.5: Cluster #2 y la columna de entrada IdAcredito agrupado por el valor.
Posteriormente observamos que la columna IdCurso, se establece que la mayorıa pertenecen al
valor 1, el cual corresponde al curso “NORMAL”. Por lo que podemos concluir que la mayorıa
de alumnos que reprobaron lo hicieron en el curso normal. El resultado se muestra en la figura
4.6.
Figura 4.6: Cluster #2 y la columna de entrada IdCurso.
Continuando con el analisis del cluster #2, en la figura 4.7., observamos ahora la columna de
4.1. COMPRENSION E INTERPRETACION DE LOS RESULTADOS OBTENIDOS. 64
entrada de IdMaestro, muestra los maestros que tienen mayor incidencia en el ındice de no
acreditados de los alumnos. Al igual que en la figura 4.8. que nos muestra el resultado de la
columna Materia, en la que podemos observar las materias que inciden en el estado de prediccion
de no aprobados.
Figura 4.7: Cluster #2 y la columna de entrada IdMaestro.
Figura 4.8: Cluster #2 y la columna de entrada IdMateria.
Al analizar las caracterısticas del cluster de interes, que se muestran en la figura 4.9., observamos
que existe una fuerte correlacion entre las variables materia y maestro.
4.2. EVALUAR EL IMPACTO DE LOS RESULTADOS. 65
Figura 4.9: Caracterısticas del Cluster #2.
4.2. Evaluar el impacto de los resultados.
Para corroborar la validez de los resultados obtenidos en las diversas tecnicas, fue necesario
realizar una validacion de estos, con el objetivo de tener la certeza de que los datos arrojados por
los algoritmos eran correctos, por lo que se decidio evaluar estos resultados mediante consultas
SQL aplicadas al mismo origen de datos.
Mediante consultas SQL, se pudo comparar y validar cada uno de los resultados. En la figura
4.10, se muestran un ejemplo del script de la consulta SQL realizada, que muestra las mate-
rias que se encuentran con mayor ındice de reprobacion. Para verificar los resultados en cada
especialidad, se modifico el campo IdEspecialidad en la consulta SQL y se comparo con cada
algoritmo, para determinar la veracidad de los resultados.
Despues del analisis de los resultados de los modelos de minerıa de datos que se evaluaron,
se destaca las variables que tienen mayor factor para el desempeno de los alumnos, son las de
materia, maestro y curso.
Se puede etiquetar un capıtulo y seccion para hacer referencia al mismo en otra parte del
documento.
4.2. EVALUAR EL IMPACTO DE LOS RESULTADOS. 66
Figura 4.10: Script y ejecucion de la consulta en SQL sobre las materias.
Capıtulo 5
Conclusiones y recomendaciones
5.1. Conclusiones.
En el presente trabajo el objetivo principal fue el de construir un modelo de minerıa de datos,
con la capacidad de detectar patrones de comportamiento y la identificacion de las variables
mas representativas en el aprovechamiento academico de los alumnos en el Instituto Tecnologico
de La Paz.
Para la realizacion de este trabajo se aplico la metodologıa CRISP-DM, con una pequena ade-
cuacion. Eligiendo los algoritmos mas adecuados para la realizacion de la minerıa de datos y
evaluandolos mediante las tecnicas de evaluacion, como graficos de elevacion, matrices de clasifi-
cacion y validaciones cruzadas, que nos permitieran obtener el modelo necesario que permitiera
cumplir con los objetivos antes expresados.
Del resultado la evaluacion de los modelos, se determino que el modelo mas efectivo para esta
investigacion es el modelo K-mediana, observamos que tiene un mejor desempeno con respecto
a los modelos A priori y el modelo de Maxima Expectacion (EM), dado por el resultado de los
indicadores y atributos que se presentaron en la seccion de la evaluacion de los algoritmos.
Se observo que, de los valores obtenidos, no se pudo validar positivamente al modelo EM y
A priori ya que su capacidad de prediccion de la estimacion aleatoria es menor. Ademas, se
67
5.2. RECOMENDACIONES. 68
detectaron errores de prediccion, al dar la probabilidad de que cierto grupo o conjunto de
elemento, contenga las materias con mayor ındice de reprobacion.
Se demostro que en la ejecucion de los modelos no se puede aplicar al conjunto total de las
especialidades (carreras) con que cuenta el Instituto Tecnologico de La Paz, ya que mostraba
datos erroneos al clasificar las materias, ya que cada especialidad cuenta con materias muy
diversas y es difıcil encontrar un indicador que clasificara los grupos de alumnos con mas riesgo
a un mal desempeno escolar.
Con base a los resultados se demostro que existen patrones que afectan el desempeno academico
de los alumnos y al hacer la comparacion de resultados de los alumnos que no acreditaron se
encontro que la variable de IdCurso es la mas relevante y que las variables de IdMateria y
IdMaestro tienen una fuerte correlacion.
Un factor importante que se identifico es que, en cada especialidad, las materias con el mayor
ındice de reprobacion, son materias exclusivas de cada carrera. Ademas, se identifico que en las
especialidades de ingenierıa las materias del area de ciencias basicas (matematicas, probabilidad
y estadıstica) presentan altos ındices de reprobacion.
5.2. Recomendaciones.
Mejorar el proceso de toma de datos al momento de iniciar los alumnos sus estudios en la
institucion.
Incluir informacion socioeconomica del alumno en la base de datos de la institucion.
Incluir mas variables o metricas en el modelo establecido como datos de entrada.
Generar nuevos modelos de minerıa de datos para el descubrimiento de nueva informacion
y/o conocimiento en el proceso de deteccion de alumnos con baja desempeno academico.
5.3. TRABAJO FUTURO 69
5.3. Trabajo futuro
Se propone que el presente modelo ayude en la aplicacion de medidas que ayuden a analizar
y evaluar los factores que influyen en el aprovechamiento academico.
El departamento de desarrollo academico y servicios escolares, podran usar el modelo
propuesto para identificar y establecer procedimientos que permitan en etapas tempranas
la informacion de las variables relevantes para trabajar con programas focalizados con el
objeto de mejorar los ındices de desempeno academico de los estudiantes.
Desarrollar e implementar, una aplicacion en un servidor Web, que permita la interpreta-
cion y visualizacion de los modelos propuestos.
Como trabajos futuros estan el continuar con el estudio del desempeno estudiantil apli-
cando otras tecnicas de minerıa de datos como la clasificacion (redes bayesianas, arboles
de decision, etc.), entre otras.
Generar e implementar modelos de metodos predictivos, en los que se pueda predecir
con un porcentaje muy alto de confiabilidad, la probabilidad de desertar de cualquier
estudiante.
Apendice A
Diccionario de datos
Estructura de las tablas requeridas para el analisis son:
Figura A.1: Tabla Alumnos
70
APENDICE A. DICCIONARIO DE DATOS 71
Figura A.2: Tabla Cardex
Figura A.3: Tabla Personal Figura A.4: Tabla Personal
APENDICE A. DICCIONARIO DE DATOS 72
Figura A.5: Tabla Materias
Figura A.6: Tabla Departamentos
APENDICE A. DICCIONARIO DE DATOS 73
Figura A.7: Tabla Grupos
Figura A.8: Tabla Carreras
APENDICE A. DICCIONARIO DE DATOS 74
Figura A.9: Tabla Planes
Figura A.10: Tabla Escuelas
Apendice B
Resultados de algoritmo Apriori
A continuacion, se muestran los resultados obtenidos al ejecutar el algoritmo A priori, separados
por especialidad. Parametros utilizados en el algoritmo:
Figura B.1: Parametros usados en Algoritmo Apriori
A continuacion, se muestran las reglas, los conjuntos de elementos y red de dependencias gene-
radas con los vınculos mas fuertes:
75
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 76
Figura B.2: Reglas generadas por Algoritmo Apriori para Arquitectura
Figura B.3: Elementos generados por Algoritmo Apriori para Arquitectura
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 77
Figura B.4: Dependencias mas fuertes Arquitectura
Figura B.5: Reglas generadas por Algoritmo Apriori para Bioquımica
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 78
Figura B.6: Elementos generados por Algoritmo Apriori para Bioquımica
Figura B.7: Dependencias mas fuertes Bioquımica
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 79
Figura B.8: Reglas generadas por Algoritmo Apriori para Ing. Civil
Figura B.9: Elementos generados por Algoritmo Apriori para Ing. Civil
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 80
Figura B.10: Dependencias mas fuertes Ing. Civil
Figura B.11: Reglas generadas por Algoritmo Apriori para Ing. Electromecanica
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 81
Figura B.12: Elementos generados por Algoritmo Apriori para Ing. Electromecanica
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 82
Figura B.13: Reglas generadas por Algoritmo Apriori para Gestion Empresarial
Figura B.14: Elementos generados por Algoritmo Apriori para Gestion Empresarial
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 83
Figura B.15: Reglas generadas por Algoritmo Apriori para Ing. Industrial
Figura B.16: Elementos generados por Algoritmo Apriori para Ing. Industrial
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 84
Figura B.17: Reglas generadas por Algoritmo Apriori para Administracion
Figura B.18: Elementos generados por Algoritmo Apriori para Administracion
APENDICE B. RESULTADOS DE ALGORITMO APRIORI 85
Figura B.19: Reglas generadas por Algoritmo Apriori para Contador Publico
Figura B.20: Elementos generados por Algoritmo Apriori para Contador Publico
Bibliografıa
[1] Alejandro Ballesteros Roman, Daniel Guzman and Ricardo Garcıa Salcedo. Minerıa de
datos educativa: Una herramienta para la investigacion de patrones de aprendizaje sobre
un contexto educativo, Latin-American Journal of Physics Education, 2013.
[2] Ricardo Timaran Pereira, A.C.R. Descrubrimiento de perfiles de desercion estudiantil con
tecnicas de minerıa de datos. Revista Vinculos, 2013.
[3] Galindo Alvaro Jimenez and Hugo Alvarez Garcıa. Minerıa de Datos en la Educacion.
Inteligencia en Redes de Comunicacion, 2010.
[4] Karina B. Eckert and Roberto Suenaga. Analisis de desercion-permanencia de estudiantes
universitarios utilizando tecnica de clasificacion en minerıa de datos. Formacion Universi-
taria, 8(5):3–12, 2015.
[5] Hina Gulati. Predictive Analytics Using Data Mining Technique. Computing for Sus-
tainable Global Development (INDIACom), 2015 2nd International Conference on, pages
713–716, 2015.
[6] Harwati, Ardita Permata Alfiani, and Febriana Ayu Wulandari. Mapping Student’s Per-
formance Based on Data Mining Approach (A Case Study). Agriculture and Agricultural
Science Procedia, 3:173–177, 2015.
[7] Jesus. Mc Jaime Angel Hernandez Cedano and Antonio Castro. MODELO DE MINERIA
DE DATOS PARA IDENTIFICACION DE PATRONES QUE INFLUYEN EN EL APRO-
VECHAMIENTO ACADEMICO. PhD thesis, Instituto Tecnologico de la Paz, 2015.
[8] C. Ferri Ramırez J.Hernandez Orallo, M.Ramırez Quintana. Introduccion a la Minerıa de
datos. Pearson Educacion, Madrid, 2004.
86
BIBLIOGRAFIA 87
[9] Amirah Mohamed Shahiri, Wahidah Husain, and aini Abdul Rashid. ScienceDirect The
Third Information Systems International Conference A Review on Predicting Student’s
Performance using Data Mining Techniques. Procedia Computer Science, 72:414–422, 2015.
[10] Srecko Natek and Moti Zwilling. Student data mining solution–knowledge management
system related to higher education institutions.
[11] Darıo B. R. Metodologıa para la construccion de un Data Warehouse.