ANALISIS DEL APROVECHAMIENTO ACAD EMICO DE LOS...

TECNOLOGICO NACIONAL DE MEXICOInstituto Tecnologico de La Paz

INSTITUTO TECNOLOGICO DE LA PAZDIVISION DE ESTUDIOS DE POSGRADO E INVESTIGACION

MAESTRIA EN SISTEMAS COMPUTACIONALES

ANALISIS DEL APROVECHAMIENTO ACADEMICO DE

LOS ESTUDIANTES DEL INSTITUTO TECNOLOGICO DE

LA PAZ APLICANDO MODELOS DE MINERIA DE DATOS

QUE PARA OBTENER EL GRADO DE

MAESTRO EN SISTEMAS COMPUTACIONALES

PRESENTA:

BLANCA CECILIA ROSAS BURGOIN

DIRECTORES DE TESIS:

MATI. LUIS ARMANDO CARDENAS FLORIDO

LA PAZ, BAJA CALIFORNIA SUR, MEXICO, DICIEMBRE 2017.

Blvd. Forjadores de B. C. S. #4720, Col. 8 de Oct. 1era. Seccion C. P. 23080La Paz, B. C. S. Conmutador (612) 121-04-24, Fax: (612) 121-12-95

www.itlp.edu.mx

Dedicatoria

Dedico esta tesis principalmente a mis padres, motor indispensable en mi vida. En especial a

mi padre quien no esta mas conmigo, por ser quien me inculco el amor a los libros, por quien

comence a estudiar mi posgrado, y quien creıa ciegamente en mı que lo lograrıa. Dedico este

trabajo a mi madre que me enseno a tener siempre la fortaleza para salir adelante, para nunca

rendirme y luchar por mis suenos.

GRACIAS PAPAS.

i

Agradecimientos

Agradezco a Dios por darme la fuerza necesaria para poder concluir un objetivo mas en mi desa-

rrollo profesional. A quienes creyeron en mı y me apoyaron incondicionalmente. A mi hermana

Guadalupe por su apoyo en los momentos mas difıciles para completar este sueno.

Agradezco Gerardo Olea, un companero que sin el no hubiera ni empezado con buen paso este

camino.

Agradezco a mi director de tesis M.A.T.I. Luis Armando Cardenas Florido quien fue parte

fundamental en la redaccion de ella, al comite tutorial del cual formaron parte la M.S.C. Iliana

Castro Liera y el M.C. Jesus Antonio Castro.

Agradezco de manera especial a la Coordinadora Iliana, ya que con su apoyo, ejemplo y guıa,

me fue posible a completar mi tesis.

Agradezco al Instituto Tecnologico de La Paz por permitirme realizar mis estudios de Maestrıa

en Sistemas Computacionales, a todo el departamento de Estudios de Posgrado y en especial,

a mis maestros que compartieron su conocimiento durante el desarrollo del posgrado.

Agradezco al Consejo Nacional de Ciencia y Tecnologıa por su apoyo economico con el otorga-

miento de una beca para el estudio del posgrado.

ii

Resumen

En este trabajo de tesis, se busca, a traves de la aplicacion de tecnicas de minerıa de datos, encon-

trar un modelo de analisis de informacion que permita determinar los patrones y caracterısticas

del comportamiento de las variables que inciden en los ındices del rendimiento academico de los

alumnos del Instituto Tecnologico de La Paz, para poder coadyuvar a la toma de decisiones y

realizar acciones pertinentes.

Para la implantacion se utilizo la metodologıa CRISP-DM que estructura el proceso en seis

fases. Se aplicaron los modelos de asociacion como Apriori, K-medianas y Maxima Expectacion

(EM), para analizar el comportamiento de los estudiantes.

Mediante este proceso fue posible identificar los variables que caracterizan a los casos de repro-

bacion y su relacion con el desempeno academico, especialmente en los primeros semestres de

la carrera.

iii

Abstract

In this thesis work, it is sought, through the application of data mining techniques, to find

a model of information analysis that allows to determine the patterns and characteristics of

the behavior of the variables that affect the academic performance indexes of the students of

Isntituto Tecnologico La Paz, to be able to contribute to the decision making and take pertinent

actions.

For the implementation, the CRISP-DM methodology was used, which structures the process

into six phases. The association models such as Apriori, K-medians and Maximum Expectation

(EM) were applied to analyze the behavior of the students.

Through this process it was possible to identify the variables that characterize the cases of

failure and its relationship with academic performance, especially in the first semesters of the

career.

iv

Indice general

1. Introduccion 1

1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Descripcion del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3.2. Objetivos especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4. Justificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.5.1. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.5.2. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.6. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Marco teorico 7

2.1. Descripcion del seguimiento academico . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Base de datos relacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

v

INDICE GENERAL vi

2.3. Bodega de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4. Modelos de bases de datos multidimensionales . . . . . . . . . . . . . . . . . . . 9

2.4.1. Tabla de Hechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.2. Tabla de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.3. Mercados de datos (Data Marts) . . . . . . . . . . . . . . . . . . . . . . 10

2.5. Minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.5.1. Tipos de minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.5.2. Funciones de la minerıa de datos. . . . . . . . . . . . . . . . . . . . . . . 13

2.5.3. Tecnicas en minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5.4. Clasificacion minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 15

2.5.5. Metodologıas de minerıa de datos. . . . . . . . . . . . . . . . . . . . . . . 17

3. Diseno de la solucion. 24

3.1. Seleccion de metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2. Comprension del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2.1. Determinacion de los objetivos del problema . . . . . . . . . . . . . . . . 25

3.2.2. Evaluacion de la situacion. . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2.3. Objetivos de minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2.4. Evaluacion inicial de Funciones y Algoritmos. . . . . . . . . . . . . . . . 27

3.3. Recoleccion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.3.1. Recoleccion de datos iniciales. . . . . . . . . . . . . . . . . . . . . . . . . 28

INDICE GENERAL vii

3.3.2. Descripcion de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.4. Preparacion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.4.1. Seleccionar y verificar los datos. . . . . . . . . . . . . . . . . . . . . . . . 30

3.4.2. Limpiar los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4.3. Integracion de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.4.4. Dar formato a los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.5. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.5.1. Seleccionar la tecnica del modelado. . . . . . . . . . . . . . . . . . . . . . 33

3.5.2. Generar el diseno de pruebas. . . . . . . . . . . . . . . . . . . . . . . . . 34

3.5.3. Construccion de los modelos. . . . . . . . . . . . . . . . . . . . . . . . . 36

3.6. Evaluacion del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.6.1. Grafico de elevacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.6.2. Validacion Cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.6.3. Matriz de clasificacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4. Interpretacion de Resultados 59

4.1. Comprension e interpretacion de los resultados obtenidos. . . . . . . . . . . . . . 59

4.2. Evaluar el impacto de los resultados. . . . . . . . . . . . . . . . . . . . . . . . . 65

5. Conclusiones y recomendaciones 67

5.1. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.2. Recomendaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

INDICE GENERAL viii

5.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

A. Diccionario de datos 70

B. Resultados de algoritmo Apriori 75

Referencias 86

Indice de figuras

2.1. cubo multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2. tareas de minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3. clasificacion de metodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4. encuesta CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.5. Fases SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.6. Etapas de KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.7. Fases CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1. Metodologıa Crisp-DM modificada . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2. Tablas de la Base de datos Escolar . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3. Proceso ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.4. Modelo multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.5. esctructura Minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.6. parametros de estructura MD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.7. Datos Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

ix

INDICE DE FIGURAS x

3.8. Columnas Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.9. Reglas Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.10. diagrama kmedias prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.11. Perfil kmedias prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.12. diagrama kmedias prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41


3.14. Diagrama kmedias prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42


3.16. Diagrama EM prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.17. Perfil EM prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44


3.19. Perfil EM prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45


3.21. Perfil EM prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.22. Grafico de elevacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.23. Leyenda modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.1. Resultado EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.2. Resultado Cluster1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.3. Resultado Cluster2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.4. Resultado Kmedianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

INDICE DE FIGURAS xi

4.5. Resultado Kmedianas acredito . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.6. Resultado Kmedianas Curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.7. Resultado Kmedianas Maestro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.8. Resultado Kmedianas Materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.9. Resultado Kmedianas cluster2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.10. Script Consulta SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

A.1. Tabla Alumnos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

A.2. Tabla Cardex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

A.3. Tabla Personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

A.4. Tabla Personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

A.5. Tabla Materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

A.6. Tabla Departamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

A.7. Tabla Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

A.8. Tabla Carreras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

A.9. Tabla Planes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

A.10.Tabla Escuelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

B.1. Parametros Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

B.2. Reglas Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

B.3. Items Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

B.4. Dependencias Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . 77

INDICE DE FIGURAS xii

B.5. Reglas Apriori Bioquımica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

B.6. Items Apriori Bioquımica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

B.7. Dependencias Apriori Bioquımica . . . . . . . . . . . . . . . . . . . . . . . . . . 78

B.8. Reglas Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

B.9. Items Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

B.10.Dependencias Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

B.11.Reglas Apriori Electromecanica . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

B.12.Items Apriori Electromecanica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

B.13.Reglas Apriori Gestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

B.14.Items Apriori Gestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

B.15.Reglas Apriori Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

B.16.Items Apriori Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

B.17.Reglas Apriori Admon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

B.18.Items Apriori Admon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

B.19.Reglas Apriori CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

B.20.Items Apriori CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Indice de tablas

3.1. Tabla de resultados de la Validacion cruzada. . . . . . . . . . . . . . . . . . . . 51

3.2. Tabla de clasificacion modelo Cluster EM. . . . . . . . . . . . . . . . . . . . . . 56

3.3. Tabla de clasificacion modelo K-medianas. . . . . . . . . . . . . . . . . . . . . . 57

3.4. Tabla de clasificacion modelo Apriori. . . . . . . . . . . . . . . . . . . . . . . . . 58

xiii

Capıtulo 1

Introduccion

La aplicacion de tecnicas de minerıa de datos en el analisis de indicadores y estadıstica de

los procesos educativos tiene como objetivo obtener una mejor comprension del metodo de

aprendizaje de los estudiantes y de su participacion global en el proceso, orientado a la mejora

de la calidad y rentabilidad del sistema educativo.

La desercion, el rezago estudiantil y los bajos ındices de eficiencia terminal se encuentran entre

los problemas mas complejos y frecuentes que enfrentan las Instituciones de Educacion Superior

del paıs, en la actualidad son reconocidos practicamente por todas ellas (ANUIES, 2001). En el

sector educativo las tecnicas de minerıa de datos se han implementado para realizar un estudio

y analisis detallado del comportamiento de los alumnos. Esta nueva area de investigacion se

ocupa del desarrollo de metodos para explorar los datos que se dan en el ambito educativo, ası

como de la utilizacion de estos metodos para entender mejor a los estudiantes y los contextos

en que ellos aprenden.

El aprovechamiento academico, ası como la desercion de los alumnos es una preocupacion cons-

tante y uno de los principales objetivos es determinar los multiples factores que pueden influir

en ellos[7].

Con el objeto de mejorar los ındices de egresados y de titulacion, se hace necesario tener un

mecanismo que permita determinar en etapas tempranas, el riesgo de desercion de los alumnos

y que se apliquen medidas para mejorar el rendimiento academico de los estudiantes.

1

1.1. ANTECEDENTES 2

Para contribuir con la solucion del problema del desempeno academico, se plantea la aplicacion

de tecnicas de minerıa de datos, para ayudar a comprender cuales son los posibles factores que

afectan al alumno en su aprovechamiento academico.

Los clasificadores, agrupamiento y reglas de asociacion son algoritmos de las tecnicas de la

minerıa de datos educativa, estos permiten identificar la informacion oculta para los diferentes

actores dentro de las instituciones educativas.

El desarrollo de las tecnicas de la minerıa de datos educativa puede darse a partir de modelos

supervisados o no-supervisados, esto es, la minerıa de datos supervisada; consiste en utilizar

registros de los resultados que se conocen, por ejemplo, una base de datos de graduaciones

que contienen registros de alumnos que han finalizado sus estudios y de los que aun siguen

inscritos, esto lleva a vincular los patrones de conducta a los historiales academicos u otra

informacion registrada, de manera que los ejemplos de entrada van acompanados por una clase

o salida correcta. La minerıa de datos no-supervisada; (aprendizaje por observacion) consiste

en situaciones en las cuales se desconocen los patrones o agrupaciones en particular.

Con la capacidad de almacenamiento de los equipos de computo actuales se puede aprovechar

informacion de los alumnos, utilizando bodegas de datos y aplicando las diferentes tecnicas de

minerıa de datos, para encontrar patrones en los resultados de los datos relevantes que se pueden

presentar.

En este trabajo se busca identificar las variables que inciden en el aprovechamiento escolar de los

alumnos del Instituto Tecnologico de La Paz, con el fin de identificar a aquellos que presentan

mayor riesgo de fallo o abandono.

1.1. Antecedentes

En el ambito educativo se realizan trabajos e investigaciones para determinar cuales son los

factores que afectan al rendimiento academico de los alumnos en diferentes niveles educativos

(ANUIES).Estos estudios estan enfocados en determinar cuales son los factores que mas afectan

al rendimiento de los estudiantes (abandono y fracaso).

1.2. DESCRIPCION DEL PROBLEMA 3

La minerıa de datos es una de las tecnicas que mas se utilizan para analizar el desempeno

academico en los estudiantes y se ha aplica en la educacion para la obtencion de modelos,

tareas, metodos y algoritmos para la exploracion de datos y tiene como funcion encontrar,

analizar patrones que caractericen los comportamientos en base a sus logros, evaluaciones y el

dominio de contenido de conocimiento que tienen los alumnos[1].

Se ha intentado, a partir de ciertos estudios y usando distintas metodologıas, identificar el

proceso de un alumno con riesgo de fracaso escolar [3]. Una vision general de las tecnicas de

minerıa de datos que se han utilizado para predecir el rendimiento de los estudiantes[9]. Donde

se analiza informacion academica con el objetivo de identificar los factores que influyen en el

desempeno academico del estudiante[10].

Algunos estudios han encontrado patrones ocultos de acuerdo a la clasificacion de los estu-

diantes en base a sus caracterısticas demograficas y academicas[6]. Otros trabajos toman en

cuenta factores socioeconomicos, factores familiares[5] [7]. Sea identificado que existe una rela-

cion importante entre el desempeno academico y los casos de desercion escolar[4]. Los factores

predominantes academicos, son especialmente un promedio bajo y la perdida de materias en los

primeros semestres de la carrera [9]. Tambien se encontro que las notas anteriormente obtenidas

por los estudiantes son un factor importante para predecir el desempeno academico [10].

El trabajo de analisis e investigacion nos sirve para determinar cuales son los factores que afectan

al rendimiento academico de los alumnos y ayudar a los estudiantes con bajo rendimiento, a

evaluar el curso o modulo idoneo, y adoptar las intervenciones necesarias para aumentar el

rendimiento academico de los estudiantes.

1.2. Descripcion del problema

En el Instituto Tecnologico de la Paz, existe un alto ındice de reprobacion y desercion escolar.

Resulta evidente que abordar el tema del rendimiento academico o su contraparte, el fracaso

escolar, no puede concebirse desde una perspectiva unilateral. Su condicion multifactorial por

ende su complejidad, alento la realizacion de esta investigacion; que variables se asocian al

1.3. OBJETIVOS 4

rendimiento academico de alumnos que es en el Instituto Tecnologico de la Paz, cuales son

los patrones de comportamiento que presenta la materia en que se da el ındice mas alto de

reprobacion.

Con el incremento del volumen de informacion, se incrementa la dificultad de corroborar los

altos ındices de reprobacion y de desercion, lo cual hace mas complejo el analisis de los mismos

por lo que no se tienen las acciones necesarias para determinar las causas que los promueven.

Para conocer el aprovechamiento academico de los alumnos, cada coordinador academico es

el que, por medio de reportes tabulares, analiza los ındices de reprobacion. Este estudio solo

realiza simples analisis de la informacion basados en metodos estadısticos. La complejidad al

corroborar los distintos reportes, donde el volumen de la informacion es cada vez mayor, hace

mas difıcil identificar las variables que inciden en el mismo, ası como identificar los patrones

de comportamiento que estos tienen. Lo anterior complica conocer de manera clara las posibles

causas que lo ocasionan, dificultando la labor del personal docente y administrativo para llevar

a cabo un adecuado seguimiento academico de los alumnos.

El principal objetivo es construir un modelo de minerıa de datos para el analisis relacionado

con el aprovechamiento academico, que permita identificar las variables y los multiples factores

que pueden influir en este.

1.3. Objetivos

1.3.1. Objetivo general

Construir un modelo de minerıa de datos para la obtencion de patrones de comportamiento

relacionados con el aprovechamiento academico de los alumnos en el Instituto Tecnologico de

La Paz.

1.4. JUSTIFICACION 5

1.3.2. Objetivos especıficos

Analisis y diseno de una bodega de datos, con la base de datos de los alumnos del ITLP,

aplicando tecnicas de ETL y Data Warehouse.

Analisis e identificacion de variables e indicadores que influyen en el aprovechamiento

escolar.

Analisis y seleccion de los algoritmos de minerıa de datos para la prueba de las hipotesis.

Analisis y desarrollo de un modelo de minerıa de datos.

Seleccion y aplicacion de procesos de busqueda de patrones.

Determinar las variables que afectan el desempeno academico de los alumnos.

1.4. Justificacion

En el Instituto Tecnologico de la Paz, existe un alto ındice de reprobacion y de desercion

escolar. El alto volumen de la informacion necesaria para llevar un analisis del aprovechamiento

academico de cada alumno, dificulta la labor del personal de poder identificar a tiempo. Las

variables o los factores que afectan el rendimiento de los alumnos en cuanto a sus calificaciones,

por lo que los docentes y personal administrativo poco pueden hacer para detectar a los alumnos

con bajo rendimiento.

En este trabajo se pretende saber cuales son las caracterısticas y patrones de comporta-

miento que provocan el bajo rendimiento escolar del alumno en esta institucion, imple-

mentando tecnicas de minerıa de datos.

Obtener un indicador que permita identificar a los alumnos con mayor riesgo de fallo o

abandono del instituto, ası como los diferentes factores que puedan estar influyendo. Este

indicador servira de apoyo en el seguimiento del aprovechamiento escolar, y para establecer

estrategias necesarias para disminuir el bajo rendimiento academico.

1.5. ALCANCES Y LIMITACIONES 6

1.5. Alcances y Limitaciones

1.5.1. Alcances

Generar modelos de minerıa de datos que se puedan aplicar al aprovechamiento academico de

los alumnos del Instituto Tecnologico de la Paz.

1.5.2. Limitaciones

• La base de datos con la que cuenta el ITLP no contiene informacion o datos Socioeconomicos

Correctos o vigentes.

• La base de datos con que se realizara la investigacion, es la correspondiente a los perıodos

del 2006 al 2015, donde vienen comprendidas todas las materias de las nueve carreras a nivel

licenciatura con que cuenta el Instituto Tecnologico de La Paz.

1.6. Hipotesis

Con la base de datos del ITLP y la construccion de un modelo de minerıa de datos, podremos

identificar los factores que intervienen en el ındice de reprobacion escolar de los alumnos del

Instituto Tecnologico de la Paz.

Capıtulo 2

Marco teorico

2.1. Descripcion del seguimiento academico

El seguimiento academico que se le da a cada alumno del Instituto Tecnologico de La Paz es

individual y cada coordinador academico es quien lo lleva a cabo. Cada coordinador tiene acceso

a tres tipos de reportes, los cuales son:

Reporte de reprobacion por materia.

Reporte de reprobacion por carrera.

Reporte de reprobacion por ciclo escolar (primer periodo, segundo periodo o ambos)

Estos reportes son generados en Excel, y en ellos se muestra: ano, periodo, especialidad, la

materia, el grupo, el maestro, el numero de alumnos inscritos, cuantos reprobaron.

Se invita a los alumnos para que revisen su historial academico (Kardex), y en caso de contar

una o varias materias reprobadas, deberan acudir con su coordinador de carrera, para que les

oriente en la solucion de su problema.

El Instituto Tecnologico de La Paz cuenta con un programa de asesorıas, aunque estas son

voluntarias para los alumnos. Cuando el alumno presenta una o varias materias reprobadas,

7

2.2. BASE DE DATOS RELACIONAL 8

debe de acudir con su coordinador para que este vea si existe la posibilidad de abrir un grupo

especial, la cual va a depender de la cantidad de alumnos que soliciten la misma materia, ya

que para abrir los grupos especiales se necesita un mınimo de 15 alumnos. Ademas, se cuenta

con los cursos de verano, en los cuales el cupo mınimo es de 20 alumnos. A diferencia de los

grupos especiales, los cursos de verano tienen costo extra para el estudiante, ya que se contrata

al docente que impartira la clase.

2.2. Base de datos relacional

Es una coleccion de relaciones(tablas). Cada tabla consta de un conjunto de atributos (columnas

o campos) y puede contener un gran numero de tuplas (registros o columnas), las cuales repre-

sentan un objeto y se caracterizan por poseer una clave unica o primaria que los identifica[8].

2.3. Bodega de Datos

En 1997 William H. Inmon define una bodega de datos o Data Warehouse, como una coleccion

de datos integrados orientados a temas, no-volatiles y variables en el tiempo, organizados para

soportar necesidades empresariales. Segun esta definicion, es un sistema de informacion donde

los datos de una empresa son recolectados, organizados y agrupados con respecto a los hechos o

las actividades del negocio. Ademas, el uso del atributo tiempo permite mantener y referenciar

informacion tanto historica como reciente, y es no volatil, porque despues de que los datos son

cargados a la bodega, los cambios sobre ellos son poco frecuentes y se pueden mantener por

largos perıodos de tiempo .

La caracterıstica mas importante de la bodega de datos es la integracion. Datos tomados de

diferentes fuentes, cargados en el almacen de datos. Los datos capturados seran transformados,

limpiados, reorganizados, y resumidos.

2.4. MODELOS DE BASES DE DATOS MULTIDIMENSIONALES 9

2.4. Modelos de bases de datos multidimensionales

Es una tecnica de diseno que busca presentar los datos en un estandar, que permita una recu-

peracion adecuada de estos. Los elementos basicos del modelo multidimensional son las tablas

y los esquemas.

La informacion se representa como matrices multidimensionales, cuadros de multiples entradas

o funciones de varias variables sobre conjuntos finitos. Cada una de estas matrices se denomina

Cubo. A los ejes se les llama Dimensiones y al dato que se presenta en la matriz, se le llama

Medida. A los elementos del producto cartesiano de los ejes (dimensiones) se le llama Coorde-

nadas. Un hipercubo, por tanto, debera ser reestructurado cada vez que se le agreguen datos

o se modifiquen los ya existentes, ya que la informacion no esta en tablas, sino organizada de

manera dimensional.

2.4.1. Tabla de Hechos

Corresponde a lo que se desea medir a partir de los datos presentes en el Sistema. Es el objeto a

analizar, ademas posee atributos llamados atributos de hechos o sıntesis, estos atributos son de

tipo cuantitativo, cuyos valores (cantidades) se obtienen, generalmente por aplicacion de una

funcion estadıstica que resume un conjunto de valores en un unico valor.

2.4.2. Tabla de dimensiones

La dimension de un hecho determina la granularidad con que el hecho podra ser analizado. Las

tablas de dimensiones representan cada uno de los ejes en un espacio multidimensional. Como

todas las tablas, tambien poseen atributos llamados dimension o de clasificacion, los que son de

tipo cualitativo (sus valores son modalidades) que suministran el contexto en que se obtienen las

medidas en un esquema de hecho. Las dimensiones poseen jerarquıas, que son varios atributos

unidos mediante una relacion de tipo jerarquico. Por ejemplo, la dimension tiempo puede tener

niveles dıa, mes y ano.

2.5. MINERIA DE DATOS 10

2.4.3. Mercados de datos (Data Marts)

Un cubo multidimensional o cubo, representa o convierte los datos planos que se encuentran en

filas y columnas, en una matriz de N dimensiones, como se muestra en la figura 2.1.

Los objetos mas importantes que se pueden incluir en un cubo multidimensional son los si-

guientes: Los indicadores o sumas que se efectuan sobre algun hecho pertenecientes a una tabla

de hechos, los atributos (Campos o criterios de analisis de las tablas de dimensiones) y las

jerarquıas (relaciones logicas entre dos o mas atributos)[11].

Figura 2.1: Ejemplo de un cubo multidimensional.

2.5. Minerıa de datos

La minerıa de datos es un conjunto de tecnicas y herramientas aplicadas al proceso no trivial

de extraer y presentar conocimiento implıcito, previamente desconocido, potencialmente util y

humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de

forma automatizada tendencias y comportamientos.

La minerıa de datos tiene como objetivo analizar los datos para extraer conocimiento. Este

conocimiento puede ser en forma de relaciones, patrones o reglas inferidos de los datos y (pre-

viamente) desconocidos, o bien en forma de una descripcion mas concisa (un resumen de los

mismos). Estas relaciones constituyen el modelo de los datos analizados. Existen muchas formas


de representar modelos (predictivos y descriptivos) y cada una determina el tipo de tecnica que

puede usarse para inferirlos.

Existen terminos que se utilizan como sinonimos de la minerıa de datos, y uno de ellos es el

de la extraccion o “descubrimiento de conocimiento en base de datos” (Knowledge Discovery in

Databases, KDD).

La minerıa de datos es una fase del proceso completo de descubrimiento de conocimiento que

involucra varios pasos:

1 Entender el dominio de aplicacion, el conocimiento relevante a utilizar y las metas del usuario.

2 Seleccionar un conjunto de datos en donde realizar el proceso de descubrimiento.

3 Limpiar y pre-procesar los datos, disenando una estrategia adecuada para manejar ruido,

valores incompletos, valores fuera de rango, valores inconsistentes, etc.

4 Seleccionar la tarea de descubrimiento a realizar. Por ejemplo: clasificacion, agrupamiento o

“clustering”, reglas de asociacion, etc.

5 Seleccionar los algoritmos a utilizar.

6 Transformar los datos al formato requerido por el algoritmo especıfico de explotacion de datos,

hallando los atributos utiles, reduciendo las dimensiones de los datos, etc.

7 Llevar a cabo el procesamiento de minerıa de datos para encontrar patrones interesantes.

8 Evaluar los patrones descubiertos y presentacion de los mismos mediante tecnicas de visua-

lizacion. Quizas sea necesario eliminar patrones redundantes o no interesantes, o se necesite

repetir algun paso anterior con otros datos, con otros algoritmos, con otras metas o con otras

estrategias

9 Utilizar el conocimiento descubierto, incorporandolo dentro de un sistema o simplemente para

almacenarlo y reportarlo a las personas interesadas.


2.5.1. Tipos de minerıa de datos

Modelos predictivos.

Pretenden estimar valores futuros o desconocidos de variables de interes, que denominamos

variables objetivo o dependientes, usando otras variables o campos de la base de datos,

a las que nos referiremos como variables independientes o predictivas. Entre las tareas

predictivas encontramos la clasificacion y la regresion[8].

Modelos descriptivos.

Identifican patrones que explican o resumen los datos, es decir, sirven para explorar las

propiedades de los datos examinados, no para predecir nuevos datos. Entre las tareas des-

criptivas esta el agrupamiento (clustering), las reglas de asociacion, las reglas de asociacion

secuenciales y las correlaciones[8].

Figura 2.2: Tareas o tecnicas.


En la figura 2.2, informacion sacada de [8]se muestra una tabla con algunas tareas y algunas

tecnicas o algoritmos que pueden aplicarse a los modelos predictivos y descriptivos.

2.5.2. Funciones de la minerıa de datos.

Las funciones de minerıa de datos se dividen en dos categorıas, supervisadas y no supervisadas.

Minerıa de datos supervisada.

El aprendizaje supervisado es tambien conocido como aprendizaje dirigido. El proceso

de aprendizaje es dirigido por un atributo u objetivo dependiente previamente conoci-

do. El aprendizaje supervisado generalmente resulta en modelos predictivos. Siendo este

el contraste para el aprendizaje no supervisado, donde la meta es la deteccion de patrones.

La construccion de un modelo supervisado involucra el entrenamiento, un proceso me-

diante el cual el software analiza muchos casos donde el valor objetivo ya es conocido.

En el proceso de entrenamiento, el modelo “aprende” la logica de hacer la prediccion. Por

ejemplo, un modelo que busca identificar los clientes que probablemente respondan a una

promocion, debe ser entrenado para que analice las caracterısticas de muchos clientes que

ya se sabe que respondieron o no respondieron a una promocion en el pasado [2].

Minerıa de datos no supervisada.

El aprendizaje no supervisado es no dirigido. No hay distincion entre atributos depen-

dientes e independientes. Es decir, no hay un resultado previamente conocido que guie al

algoritmo en la construccion del modelo. Por lo tanto, la minerıa de datos no supervisada

puede ser usada para propositos descriptivos. Aunque tambien puede ser usada para hacer

predicciones [2].


2.5.3. Tecnicas en minerıa de datos

Los hay de dos tipos de tecnicas en funcion de si se obtiene un modelo o no: retardados y

anticipados. Los metodos sin modelo y con modelo reciben generalmente el nombre de metodos

retardados o perezosos (lazzy) y metodos anticipativos o impacientes (eager).

1 Metodos retardados:

El metodo responde solo cuando es requerido.

No se construye un modelo.

La optimizacion es local.

Los datos de entrada deben preservarse para toda prediccion.

Si hay una gran cantidad de datos el calculo de cada instancia nueva es costoso.

No se requiere entrenar al modelo.

Algunas opciones son: Vecinos mas proximos, regresion lineal.

2 Metodos anticipados:

Se obtiene un modelo a partir de los datos de entrada.

Los datos de entrada no son necesarios para responder a las nuevas instancias.

La optimizacion es global.

El tiempo de entrenamiento es grande.

Puede responder eficientemente a las nuevas instancias.

Algunos casos donde el modelo es claro son:

Reglas difusas, arboles de decision.

Sistemas basados en reglas.

En la figura 2.3, se muestra algunos algoritmos de acuerdo a las tecnicas[8]:


Figura 2.3: Clasificacion de metodos.

2.5.4. Clasificacion minerıa de datos

Las principales tecnicas de minerıa de datos se suelen clasificar segun su tarea de descubrimiento

en:

Agrupacion.

La agrupacion o clustering es la tarea descriptiva y consiste en obtener grupos “natura-

les” a partir de los datos. Los datos son agrupados basandose en el principio de maximizar

la similitud entre los elementos de un grupo minimizando la similitud entre los distintos

grupos. Al agrupamiento se le suele llamar segmentacion, ya que parten o segmenta los

datos en grupos que pueden ser o no disjuntos [14]. Dos de los algoritmos de clustering

mas utilizados son SELF ORGANIZING MAPS (SOM) y K-MEANS[8].

Algoritmo de agrupacion EM:

Refina de forma iteractiva un modelo de clusteres inicial para ajustar los datos y deter-

mina la probabilidad de que un punto de datos exista en un cluster.El algoritmo EM,

procede en dos pasos que se repiten de forma iterativa:


1 Expectacion Utiliza los valores de los parametros, iniciales o proporcionados por el

paso Maximizacion , obteniendo diferentes formas de la FDP (Funcion de Densidad

de Probabilidad) buscada. La funcion usada para determinar el ajuste es el logaritmo

de la probabilidad de los datos dado el modelo.

2 Maximizacion Obtiene nuevos valores de los parametros a partir de los datos propor-

cionados.

Despues de una serie de iteraciones, el algoritmo EM tiende a un maximo local. Finalmen-

te se obtendra un conjunto de clusteres que agrupan el conjunto de proyectos original.

Clasificacion.

Se utiliza para predecir la clase de nuevas instancias (registro en la base de datos) de las

que se desconoce la clase. El objetivo del algoritmo es maximizar la razon de precision

de la clasificacion de las nuevas instancias, la cual se calcula como el cociente entre las

predicciones correctas y el numero total de predicciones (correctas e incorrectas) [8].

Los algoritmos mayormente utilizados para las tareas de clasificacion son los algoritmos

de induccion. Uno de los enfoques mas utilizados en este tipo de algoritmos son los arboles

de decision.

Reglas de asociacion.

Tienen por objetivo identificar relaciones no explıcitas entre atributos categoricos. Pueden

ser de muchas formas, aunque la formulacion mas comun es del estilo “si el atributo X

toma un valor d entonces el atributo Y toma el valor de b”. Las reglas de asociacion no

implican una relacion causa-efecto, es decir, puede o no existir una causa para que los

datos esten asociados. Este tipo se utiliza frecuentemente en el analisis de la cesta de la

compra, para identificar productos que son frecuentemente comprados juntos[8].

Existen varios algoritmos que realizan el descubrimiento de reglas de asociacion, uno de

los mas utilizados es APRIORI. Cada una de las tareas, requiere metodos, tecnicas o

algoritmos para resolverlas.


2.5.5. Metodologıas de minerıa de datos.

Las metodologıas de minerıa de datos nos permiten llevar a cabo el proceso de forma sistemati-

ca y estructurada para obtener resultados exitosos. La utilizacion de una metodologıa facilita

la planeacion y direccion del proyecto, lo que nos permite realizar un mejor seguimiento del

mismo. En la figura 2.4 se observan las principales metodologıas que se pueden emplear para la

elaboracion de la presente investigacion.

Figura 2.4: Encuesta realizada por KDnuggets en el ano 2007

Las principales metodologıas de planificacion de proyectos de minerıa de datos son:


Metodologıa SEMMA.

Es una metodologıa de minerıa de datos desarrollada por SAS (Statical Analysis System).

Su nombre corresponde a las iniciales de sus cinco fases principales y se define como “el

proceso de seleccion, exploracion y modelado de grandes volumenes de datos para descubrir

patrones de negocio desconocidos. Las cinco fases basicas del proceso: Sample (Muestreo),

Explore (Exploracion), Modify (Modificacion), Model (Modelado), Assess (Valoracion),

las cuales se muestran en la figura 2.5.

Figura 2.5: Fases metodologıa SEMMA

La metodologıa SEMMA se encuentra enfocada especialmente en aspectos tecnicos, ex-

cluyendo actividades de analisis y comprension del problema que se esta abordando. Fue

propuesta especialmente para trabajar con el software de minerıa de datos de la companıa

SAS. Este producto organiza sus herramientas (llamadas “nodos”) en base a las distintas

fases que componen la metodologıa[? ].

1 Sample(Extraccion de una muestra representativa).

En esta primera fase de la metodologıa, se realiza la extraccion de un conjunto de

datos que sean una buena representacion de la poblacion a analizar, esto se hace con

el objetivo de facilitar los procesos de minado sobre los datos, reduciendo los tiempos

que se necesita para determinar la informacion valiosa para el negocio.

2 Explore (Exploracion de los datos en la muestra).

En esta fase, se hace un recorrido a traves de los datos extraıdos en la muestra para

detectar, identificar y eliminar datos anomalos, ayudando a refinar los procesos de

descubrimiento de informacion en fases siguientes del proceso.


En este punto del proceso, la exploracion se puede realizar a traves de medios vi-

suales, aunque muchas veces no es suficiente este metodo, es por eso, que ademas de

la visualizacion se pueden manejar diferentes tecnicas estadısticas como analisis de

factores, analisis de correspondencias, entre otros.

3 Modify (Modificacion de los datos).

Esta modificacion de los datos se puede realizar creando, seleccionando y transfor-

mando las variables en las cuales se va a enfocar el proceso de seleccion del modelo.

Muchas veces se tendra la necesidad de realizar modificaciones cuando los datos que

se estan analizando cambien. Esto se debe a que el entorno en el que se trabaja la

minerıa de datos es dinamico e iterativo.

4 Model (Modelacion de los datos).

En esta fase, las herramientas de software se encargan de realizar una busqueda com-

pleta de combinaciones de datos que juntos predeciran de una manera confiable los

resultados buscados. Es en esta parte donde las tecnicas y metodos de minerıa de da-

tos entran a jugar un papel importante para la solucion de los problemas que fueron

identificados al iniciar el proyecto de minerıa de datos.

5 Assess (Evaluacion de los datos obtenidos).

Despues de que la fase de modelacion presente los resultados obtenidos de la aplica-

cion de los metodos de minerıa de datos al conjunto de datos. Se debera realizar un

analisis de los resultados para ver si estos fueron exitosos de acuerdo a las entradas

que se tuvieron para analizar el problema.

Una buena practica para identificar si los resultados con el modelo creado son los

esperados, es aplicar este modelo a una porcion de datos diferente. Si el modelo

funciona correctamente para esta muestra y para la muestra utilizada para el proce-

so de creacion del modelo, se tiene una buena probabilidad de tener un modelo valido.


Metodologıa KDD.(Knowledge Discovery in Databases)

El proceso de extraccion de conocimiento (siglas en ingles KDD), consiste en extraer o

identificar lo que se considera como conocimiento de acuerdo a la especificacion de ciertos

parametros, usando una base de datos. Esta metodologıa consiste en cinco etapas, las

cuales se muestran en la figura 2.6. y son:

1. Seleccion de datos.

En esta etapa se determinan las fuentes de datos y el tipo de informacion a utilizar.

Es la etapa donde los datos relevantes para el analisis son extraıdos desde la o las

fuentes de datos.

2. Pre-procesamiento.

Esta etapa consiste en la preparacion y limpieza de los datos extraıdos desde las

distintas fuentes de datos en una forma manejable, necesaria para las fases poste-

riores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o

en blanco, datos inconsistentes o que estan fuera de rango, obteniendose al final una

estructura de datos adecuada para su posterior transformacion.

3. Transformacion.

Consiste en el tratamiento preliminar de los datos, transformacion y generacion de

nuevas variables a partir de las ya existentes con una estructura de datos apropiada.

Aquı se realizan operaciones de agregacion o normalizacion, consolidando los datos

de una forma necesaria para la fase siguiente.

4. Minerıa de datos.

Es la fase de modelamiento propiamente tal, en donde metodos inteligentes son apli-

cados con el objetivo de extraer patrones previamente desconocidos, validos, nuevos,

potencialmente utiles y comprensibles y que estan contenidos u “ocultos” en los datos.


5. Interpretacion y Evaluacion.

Se identifican los patrones obtenidos y que son realmente interesantes, basandose en

algunas medidas y se realiza una evaluacion de los resultados obtenidos.

Figura 2.6: Etapas del proceso KDD

Metodologıa CRISP-DM.

La metodologıa CRISP–DM, fue creada por el grupo de empresas SPSS, NCR y Daimer

Chrysler en el ano 2000, y es una guıa de referencia que mas se utiliza en el desarrollo de

proyectos de minerıa de datos.

Su proceso se estructura en seis fases: Comprension del negocio, Comprension de los datos,

Preparacion de los datos, Modelado, Evaluacion e Implantacion. La figura 2.7. muestra

las fases que la componen y como interactuan unas con otras.

La sucesion de fases es flexible y se componen en varias tareas generales de segundo ni-

vel. Las tareas generales se proyectan a tareas especıficas, las cuales son una guıa para

determinar que actividades desarrollar en cada etapa. Es decir, CRISP-DM establece un

conjunto de tareas y actividades para cada fase del proyecto [15].

Fases de la metodologıa CRISP-DM:


Figura 2.7: Metodologıa CRISP-DM.

1 Comprension del negocio (Objetivos y requerimientos desde una perspectiva no tecni-

ca):

• Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios

de exito).

• Evaluacion de la situacion (Inventario de recursos, requerimientos, supuestos,

terminologıas propias del negocio).

• Establecimiento de los objetivos de la minerıa de datos (objetivos y criterios de

exito).

• Generacion del plan del proyecto (plan, herramientas, equipo y tecnicas).

2 Comprension de los datos (Familiarizarse con los datos teniendo presente los objetivos

del negocio):

• Recopilacion inicial de datos.

• Descripcion de los datos.

• Exploracion de los datos.

• Verificacion de calidad de datos.

3 Preparacion de los datos (Obtener la vista minable o dataset):


• Seleccion de los datos.

• Limpieza de datos.

• Construccion de datos.

• Integracion de datos.

• Formateo de datos.

4 Modelado (Aplicar las tecnicas de minerıa de datos a los dataset):

• Seleccion de la tecnica de modelado.

• Diseno de la evaluacion.

• Construccion del modelo.

• Evaluacion del modelo.

5 Evaluacion (De los modelos de la fase anteriores para determinar si son utiles a las

necesidades del negocio):

• Evaluacion de resultados.

• Revisar el proceso.

• Establecimiento de los siguientes pasos o acciones.

6 Despliegue (Explotar utilidad de los modelos, integrandolos en las tareas de toma de

decisiones de la organizacion):

• Planificacion de despliegue.

• Planificacion de la monitorizacion y del mantenimiento.

• Generacion de informe final.

• Revision del proyecto.

Capıtulo 3

Diseno de la solucion.

3.1. Seleccion de metodologıa

Para la eleccion de la metodologıa se hizo con base a la comparacion de las metodologıas

existentes. Para realizar este proyecto, la metodologıa CRISP-DM, es la adecuada ya que es

mas flexible a la hora de seguir las distintas fases.

La metodologıa CRISP-DM tienen un conjunto de actividades ordenadas en seis fases, algunas

son bidireccionales, lo que significa que algunas fases permitiran revisar parcial o totalmente las

fases anteriores, por lo que implementamos en la fase de evaluacion, poder regresar al modelado

de los datos, y que nos permitiera corregir o adecuar los modelos para alcanzar los objetivos

finales del proyecto, quedando como resultado la figura 3.1, en la que se observa la lınea que se

agrego en la fase de evaluacion y que nos permite regresar a la fase de modelado.

24

3.2. COMPRENSION DEL PROBLEMA 25

Figura 3.1: Metodologıa CRISP-DM modificada

3.2. Comprension del problema

3.2.1. Determinacion de los objetivos del problema

3.2.1.1. Contexto.

Este punto es importante para comprender el problema y lo que se busca obtener. Por lo tanto,

lo primero que se debe hacer, es registrar toda la informacion conocida al respecto.

Con el objeto de buscar los factores en el desempeno academico de los alumnos del Instituto

Tecnologico de la Paz, la principal fuente de datos para llevar acabo esta investigacion la consti-

tuyen los registros historicos de la base de datos academica, registrados del nivel de licenciatura,

correspondientes a los periodos 2006 al 2015.

3.2.1.2. Objetivos.

Los objetivos son:

Cumplir con los contenidos de los planes y Programas de estudio, alcanzando altos ni-


veles en el ındice de titulados, ademas de brindar clases de calidad para la formacion de

profesionistas de excelencia, capaces de responder de manera efectiva y especıfica a las

necesidades regionales, con calidad, productividad y una vision nacional e internacional.

Fomentar la participacion en actividades academicas, culturales y deportivas (Concursos

de Ciencias Basicas, Creatividad, Emprendedores: Actividades Deportivas y Culturales).

3.2.1.3. Criterios de exito.

Al cumplir con los objetivos podremos identificar patrones de comportamiento en el aprove-

chamiento academico de los alumnos del Instituto, para determinar cuales alumnos necesitaran

mas apoyo o establecer algun seguimiento academico, que mejore su desempeno academico.

3.2.2. Evaluacion de la situacion.

El Instituto Tecnologico de la Paz cuenta con las herramientas necesarias para el desarrollo

de este proyecto, ademas de contar con un sistema de bases de datos que permite aplicar las

herramientas de minerıa de datos, ası como un sistema para analizar la informacion.

Las pruebas de los modelos de minerıa de datos se realizaran dentro del Instituto Tecnologico

de La Paz en el area de Posgrado, donde cuenta con servidores y software necesarios para la

aplicacion de las diversas tecnicas de minerıa de datos.

Se diseno y desarrollo una bodega de datos mediante el cual se generan cubos multidimensionales

para consultas directas.

Para realizar las pruebas e implementacion de los modelos de minerıa de datos se tiene la opcion

de utilizar una version para investigacion de SQL Server 2012 con licencia.


3.2.3. Objetivos de minerıa de datos

Implementar un modelo de minerıa de datos que nos ayude a agrupar y asociar las variables de

los alumnos en que muestren posibles tendencias o patrones de comportamiento relacionadas

con su desempeno academico.

Para garantizar el exito del objetivo mencionado, se realizara un plan de acuerdo a la metodo-

logıa en la que se definiran las funciones de minerıa de datos a utilizar.

3.2.4. Evaluacion inicial de Funciones y Algoritmos.

3.2.4.1. Tecnicas de Minerıa de Datos.

Para llevar a cabo el proyecto se utilizo la herramienta SQL Server 2012 de Microsoft, donde se

comparan los siguientes algoritmos:

Reglas de Asociacion.

Los modelos de asociacion se generan basandose en conjuntos de datos que contienen

identificadores para casos individuales y para los elementos que contienen los casos. Un

grupo de elementos de un caso se denomina un conjunto de elementos. Un modelo de

asociacion se compone de una serie de conjuntos de elementos y de las reglas que describen

como estos elementos se agrupan dentro de los casos[2].

Para efectos de la realizacion del proyecto, este algoritmo es de utilidad ya que podemos

identificar los elementos de asociacion entre los alumnos que reprobaron o aprobaron, en

determinada materia, es decir, identificar lo que tienen en comun cada uno de ellos con el

resto de los registros que cumplen con el parametro deseado.

Algoritmo de Clusteres.

El algoritmo de agrupamiento de Microsoft es un algoritmo de segmentacion que itera en

los casos de un conjunto de datos para agruparlos en grupos que contengan caracterısticas

3.3. RECOLECCION DE LOS DATOS 28

similares. Estas agrupaciones son utiles para la exploracion de datos, la identificacion de

anomalıas en los datos y la creacion de predicciones[2].

La aplicacion de este algoritmo nos permite agrupar y clasificar a los alumnos que repro-

baron cierta materia, y segmentarlos de acuerdo a la coincidencia en diferentes parametros

e ir formando diversos grupos de los mismos, ademas de crear relaciones entre cada uno

de los alumnos que integran el grupo.

3.3. Recoleccion de los datos

3.3.1. Recoleccion de datos iniciales.

En esta etapa se recolectaron los datos de los alumnos del Instituto Tecnologico de La Paz,

que se van a cargar al modelo de minerıa de datos. Se hace uso de las herramientas para la

visualizacion y/o manipulacion de los datos de origen.

La base de datos del Instituto Tecnologico de la Paz esta desarrollada o generada en MySQL,

para la realizacion de nuestro proyecto fue necesario exportarla a SQL Server mediante el uso

de la herramienta llamada SQL Server Migration Assistant for MySql, ya que SQL Server tiene

Herramientas para el uso y creacion de modelos Multidimensionales.

Este proyecto se basa en una bodega de datos que previamente se construyo y valido en SQL

Server 2012.

El origen de los datos esta dividido por una tabla de hechos que se genero a partir de una tabla

llamada Kardex, con sus tablas relacionadas que son: alumnos, materias, grupos, maestros,

especialidades.

3.3.2. Descripcion de los datos.

En esta etapa se genero un reporte con las propiedades de las tablas y el formato de los datos, ası

como la cantidad de registros y campos de cada tabla que se utilizaran para nuestro proyecto.

3.4. PREPARACION DE LOS DATOS 29

La base de datos llamada “escolar” es con la que se trabaja en el proyecto. Cuenta con 535671

registros historicos de las notas de los 19766 alumnos en el Instituto Tecnologico de La Paz,

cuenta con 79 tablas, que se muestran en la figura 3.2.

Figura 3.2: Tablas con que cuenta la base de datos escolar.

Las tablas que se requieren para el analisis del proyecto se detallan en el anexo A.

3.4. Preparacion de los datos

En esta fase se llevan a cabo todas las tareas para construir una bodega de datos que seran utili-

zados en las herramientas de modelado, donde se llevo el proceso de extraccion, transformacion

y carga (ETL). Las cuales son ejecutadas en multiples oportunidades y sin orden e incluyen

seleccion de tablas, registros y atributos, ası como la transformacion y limpieza de datos para

las herramientas de modelado.


3.4.1. Seleccionar y verificar los datos.

Para este proyecto solo se va a utilizar un origen de datos y en el cual se seleccionaron 9 de

las 79 tablas con que cuenta la base de datos “escolar”, que nos servıan para el desarrollo de

nuestro proyecto. Las tablas seleccionadas son:

Tablas seleccionadas

Tabla Registros

Kardex 535,671

Alumnos 19,766

Materias 3,316

Grupos 22,106

Personal 206

Especialidades 47

Planes 81

Escuelas 70

Departamentos 26

Se verifico que los datos de la base de datos, no hubiera incongruencias y se valido que los

registros de las materias de los alumnos que estan dados de alta en la tabla Kardex, existieran

sus registros en las tablas de alumnos.

3.4.2. Limpiar los datos.

En esta fase se unificaron criterios para empezar el proceso ETL propiamente dicho. Es impor-

tante tener la informacion consolidada, es decir, todos los datos sean correctos y tener una sola

vision para todos los usuarios.


Ademas, se removieron los valores inconsistentes y se usaron los mismos valores estandar para

todos los datos. Tambien se debe mencionar que estos datos estan siendo utilizados para mostrar

informacion mediante cubos multidimensionales y son cien por ciento confiables, homogeneos y

sin datos nulos.

3.4.3. Integracion de los datos.

En este proyecto fue necesario integrar la clave de maestro y de especialidad a la tabla de

Kardex, ya que desde esta tabla no se podıa obtener los datos relacionados del maestro que

impartio la materia al alumno, ası como la especialidad del alumno. Por lo tanto, de acuerdo

a su clave, se obtuvo e integro el nombre del maestro que impartio la materia, ası como a la

especialidad a la que pertenece el alumno.

Se agregaron nuevos campos, como es el de ‘curso’, ‘acredito’, y ‘rangocalificacion’, los cuales

son las claves para acceder a sus respectivas tablas, que fueron creadas a partir de los datos que

se encuentran en la tabla Kardex.

Para llevar a cabo el proceso de ETL (Extraccion, Transformacion y Carga), se hizo uso de la

herramienta de Microsoft Visual Studio 2010, quedando como resultado el siguiente proyecto

que se muestra en la figura 3.3.

3.4.4. Dar formato a los datos.

En este punto, la metodologıa nos indica la posibilidad de verificar o dar nuevamente formato

a la tabla de datos que va ser la entrada del modelo de minerıa de datos. Revisar los ultimos

cambios que se hicieron y/o reorganizar las columnas de la tabla. Todo esto con la finalidad de

preparar el origen de datos para lo que sera la siguiente etapa de la metodologıa, la etapa de

modelado de los datos.

En este caso se hizo una verificacion de los cambios descritos anteriormente, validando que

hayan sido correctos. El resultado del paso anterior, nos queda un modelo multidimensional que

3.5. MODELADO 32

Figura 3.3: Modulo del Proceso ETL en SQL Server 2012.

se muestra en la figura 3.4., y que es la base para la construccion de nuestro almacen de datos.

3.5. Modelado

De acuerdo a las tareas que se deben seguir en la metodologıa CRISP-DM, sigue la etapa del

modelado, la cual establece que dentro de las tareas a seguir son: seleccionar la tecnica que se

va a utilizar, generar el diseno de pruebas, la construccion del modelo (definir sus parametros,

modelos y su descripcion) y por ultimo la evaluacion del mismo, en la cual se confirma o se

modifican los parametros.

3.5. MODELADO 33

Figura 3.4: Modelo multidimensional tipo constelacion.

3.5.1. Seleccionar la tecnica del modelado.

En esta actividad, se da el primer paso del modelado en el cual se selecciona la tecnica o

algoritmo que se va a utilizar.

3.5.1.1. Tecnica del modelado.

Las tecnicas o algoritmos que se seleccionaron despues de un analisis de la informacion y en base

al objetivo de nuestra investigacion, se concluyo que son los que generan modelos descriptivos,

que nos sirven para identificar patrones que expliquen o resuman los datos, es decir, para explorar

las propiedades de los datos examinados, no para predecir nuevos datos.

Los algoritmos para realizar nuestras pruebas son: la tecnica de reglas de asociacion con el

algoritmo A priori, y la tecnica de agrupamiento con los algoritmos de clusteres K-Medias y

EM (Maxima Expectacion).

Se decidio por que son tecnicas que nos permiten analizar la informacion historica, y que nos

3.5. MODELADO 34

ayudan a encontrar patrones que describan la informacion, ademas permiten establecer relevan-

cia de factores y si aquella es positiva o negativa respecto a otro factor o variable a estudiar.

3.5.2. Generar el diseno de pruebas.

Para construir el modelo, primero se genero un mecanismo para poder probar su calidad y

veracidad. Primero se establecio la estructura de minerıa de datos en la que se define los datos

a partir de la cual se generan los modelos de minerıa de datos y que se muestra en la figura 3.5.

En la estructura se especifica el origen de los datos, el numero y el tipo de columnas. Una

misma estructura de minerıa de datos puede admitir varios modelos de minerıa de datos que

compartan el mismo dominio.

Figura 3.5: Estructura de minerıa de datos

En la figura 3.6 Se presenta los parametros asociados para la base de datos de alumnos.

HoldoutMaxCases = 0;

Especifica el porcentaje maximo de casos en el origen de datos que se van a usar en la

particion de exclusion que contiene el conjunto de pruebas para la estructura de minerıa

de datos DWEscolar. Los casos restantes en el conjunto de datos se usan para el entre-

namiento. El valor cero indica que no hay ningun lımite con respecto al numero de casos

que se pueden considerar como el conjunto de pruebas.

3.5. MODELADO 35

Figura 3.6: Parametros de la estructura de minerıa de datos DWEscolar

HoldoutMaxPercent = 30;

Especifica el porcentaje maximo de casos de exclusion para la estructura de minerıa de

datos DWEscolar. Los casos restantes se usan para aprendizaje.

Ya que se establecio la estructura de minerıa de datos, se procede a definir los modelos que se

llevaran a cabo para la presente investigacion, los cuales son: asociacion A priori, De agrupa-

miento (K-medias y EM).

Para poder llevar a cabo el analisis en menor tiempo, se tomo como objeto de estudio los datos

correspondientes a los alumnos de la carrera de Ingenierıa en Sistemas Computacionales. Las

pruebas para el modelo que se utilizaron para analizar la calidad y el porcentaje de error, se

establecieron de la siguiente manera:

1 Se tomo como objeto de estudio solo los datos correspondientes a los alumnos de la Especia-

lidad de Ingenierıa en Sistemas computacionales con 26,658 registros.

2 Se realizan pruebas con las siguientes variables de entrada: alumno, maestro, materia, es-

pecialidad, curso, tiempo y semestre. Para la variable predictiva se selecciono la variable Id

Acredito.

3.5. MODELADO 36

3 Posteriormente se validan los resultados y se ajustan los parametros del algoritmo.

3.5.3. Construccion de los modelos.

Dado que se establecio la tecnica de modelado y se diseno el modelo de pruebas, se procede a rea-

lizar la construccion del modelo. La implementacion y ejecucion de los algoritmos seleccionados,

se describen a continuacion:

3.5.3.1. Algoritmo de Asociacion A priori.

Prueba #1. Como primera prueba se especifico el contenido y el tipo de datos de entrada,

como se muestra en la figura 3.7.

Figura 3.7: Tipo de datos de las columnas del algoritmo A priori.

3.5. MODELADO 37

Como paso siguiente se especifico las columnas de entrada de datos, ası como la columna o

variable para la prediccion que se usaran en la aplicacion del analisis y las cuales se muestran

en la figura 3.8.

Figura 3.8: Columnas a analizar del algoritmo A priori.

Una vez que se establecio una probabilidad mınima de 80 % y un soporte mınimo de 67 %,

se llevo acabo el primer analisis con la anterior configuracion de variables de entrada y la va-

riable de prediccion, se genero las siguientes reglas de asociacion que se muestran en la figura 3.9.

Se muestra que hay una asociacion fuerte de las materias con los alumnos, y nos indican las

materias que tienen mayor incidencia en el nivel de reprobacion en la carrera de ingenierıa en

sistemas computacionales.

3.5. MODELADO 38

Figura 3.9: Reglas generadas en la ejecucion del algoritmo A priori.

Como segundo analisis se aplico el algoritmo de asociacion A priori a las siguientes carreras:

Arquitectura

Ingenierıa Civil

Ingenierıa Bioquımica

Ingenierıa en Gestion Empresarial

Ingenierıa Electromecanica

Ingenierıa Industrial

Licenciatura en Administracion

Contador Publico

Los resultados de cada una se muestran en el anexo B.

Prueba #3.

Como tercer analisis se aplico el algoritmo de asociacion A priori a todo el conjunto de datos

contenidos en la bodega de datos DWEscolar, y que comprende las 9 especialidades (carreras)

que ofrece el Instituto.

3.5. MODELADO 39

Como resultado se observo que no mostraba informacion clara al asociar los conjuntos de los

elementos y en la generacion de reglas que nos permitieran identificar los elementos de asociacion

entre los alumnos que reprobaron o aprobaron en determinada materia.

3.5.3.2. Algoritmo de agrupamiento K-medianas.

Prueba #1.

La primera prueba se aplico el algoritmo de clusteres de Microsoft, dicho algoritmo nos pro-

porciona dos diferentes metodos para crear clusteres, el primero es el K-medianas, el cual es

un metodo en los que los datos pueden pertenecer a un solo cluster y en el que se calcula una

probabilidad de pertenencia de cada punto de datos a ese cluster. El algoritmo K-medianas

cuenta con dos metodos: escalable, donde solo se usa en los primeros 50000 casos y no escalable,

donde se aplica a todos los datos de nuestro modelo.

Como primera prueba se establecio las columnas de entradas de los datos (IdAlumno, IdMa-

teria, IdMaestro, IdCurso), ası como la variable de prediccion (IdAcredito). Los valores de los

parametros utilizados en el algoritmo de cluster que establecimos para seleccionar el K-medianas

escalable (CLUSTERING METHOD=3) y el numero de cluster (CLUSTER COUNT=7).

Figura 3.10: Diagrama de cluster obtenido en la prueba #1 del algoritmo K-medianas.

3.5. MODELADO 40

Una vez que se realizo el primer analisis con el algoritmo seleccionado, se genero un diagrama de

grupos como se muestra en la figura 3.10, los conjuntos generados muestran informacion a partir

de las variables de entrada, y nos indican que son muy similares en los niveles de probabilidad

de la desviacion tıpica de las distancias de cada uno de ellos.

Como resultado tambien se genero un resumen de los perfiles de grupos, que se muestra en la

figura 3.11. y muestra que las variables curso, materia y maestro, tienen relacion en el aprove-

chamiento academico de los alumnos.

Figura 3.11: Perfil de cluster obtenido en la prueba #1 del algoritmo K-medianas.

Los resultados de este primer analisis, es que las variables, materia y maestro tienen una fuerte

relacion en la aprobacion y reprobacion de los alumnos, sin embargo, para determinar con mayor

precision el grado de influencia de cada variable se procede a ejecutar una segunda prueba.

Prueba #2

Como segunda prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-

Materia, IdMaestro, IdCurso), ası como la variable de prediccion (Id Acredito). Se selecciono el

mismo metodo de agrupamiento, el K-Medianas escalable (CLUSTERING METHOD=3), pero

modificamos el numero de grupos (CLUSTER COUNT) por un valor de 5.

Se modifico el numero de grupos, ya que se busca que agrupe en un conjunto de datos de acuerdo

3.5. MODELADO 41

al estado de prediccion, que son acredito o no.

Una vez que se llevo acabo el analisis con el algoritmo seleccionado, se genero un nuevo diagrama

de grupos como se muestra en la figura 3.12. Observamos que el diagrama resultante muestra

informacion mas clara y que los grupos generados, tienen una densidad muy similar, es decir

que los vınculos son mas fuertes al agrupar las variables, e indican que es similar en la mayorıa

de ellos.



El resultado que se observo al generar los perfiles del grupo se muestran en la figura 3.13, se

puede apreciar que los grupos generados no se distingue una diferencia.

3.5. MODELADO 42

Prueba #3

Como tercera prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-


mismo metodo de agrupamiento, el K-Medianas escalable (CLUSTERING METHOD=3), pero

modificamos el numero de grupos (CLUSTER COUNT) por un valor de 2.

Una vez que se llevo acabo el analisis con el algoritmo seleccionado, se genero un nuevo diagrama

de grupos como se muestra en la figura 3.14. Observamos que el diagrama resultante muestra

informacion mas clara y que los grupos generados, es decir que los vınculos son mas fuertes al

agrupar las variables.


El resultado que se observo al generar los perfiles del grupo se muestran en la figura 3.15, se

puede apreciar que los grupos generados ya muestra informacion clara y precisa. Por lo tanto, ya

se pueden identificar las tendencias o patrones de comportamiento entre los grupos generados.

3.5.3.3. Algoritmo de agrupamiento Maxima Expectacion (EM).

Prueba #1.

Como primera prueba se establecio las columnas de entradas de los datos (IdAlumno, IdMateria,

IdMaestro, IdCurso), ası como la variable de prediccion (Id Acredito).

3.5. MODELADO 43


Los valores de los parametros utilizados en el algoritmo de cluster que establecimos para

seleccionar el EM escalable (CLUSTERING METHOD=1) y el numero de cluster (CLUS-

TER COUNT=7).

Figura 3.16: Diagrama de cluster obtenido en la prueba #1 del algoritmo EM.

Una vez que se realizo el primer analisis con el algoritmo seleccionado, se genero un diagrama

de grupos como se muestra en la figura 3.16, los conjuntos generados muestran informacion a

partir de las variables de entrada.

3.5. MODELADO 44

Figura 3.17: Perfil de cluster obtenido en la prueba #1 del algoritmo EM.

Como resultado tambien se genero un resumen de los perfiles de grupos, que se muestra en la

figura 3.17. y muestra que las variables curso, materia y maestro, tienen relacion en el aprove-

chamiento academico de los alumnos.

Como resultado no se puede apreciar un agrupamiento claro de los alumnos que aprobaron y

los que reprobaron.

Prueba #2

Como segunda prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-


mismo metodo de agrupamiento, el EM escalable (CLUSTERING METHOD=1), pero modifi-

camos el numero de grupos (CLUSTER COUNT) por un valor de 5.

Una vez que se llevo acabo el segundo analisis, genero un nuevo diagrama de grupos como se

muestra en la figura 3.18. Observamos que el diagrama resultante muestra informacion mas

clara y que los grupos generados, tienen una densidad muy similar, es decir que los vınculos son

mas fuertes al agrupar las variables, e indican que es similar en la mayorıa de ellos.

En la figura 3.19. Se muestra el resumen de los perfiles de los clusteres generados en el analisis

de la informacion.

3.5. MODELADO 45



3.5. MODELADO 46

Prueba #3

Como tercera prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-


mismo metodo de agrupamiento, el EM escalable (CLUSTERING METHOD=1), pero modifi-

camos el numero de grupos (CLUSTER COUNT) por un valor de 2.

Realizado el tercer analisis se genero un nuevo diagrama de grupos, como se muestra en la figura

3.20. El diagrama resultante nos da informacion de los grupos generados, pero observamos que

los grupos tienen una densidad muy similar.



Como se puede observar en la figura 3.21, los perfiles de grupos resultantes no muestran infor-

macion clara, ya que siguen existiendo similitudes entre ellos.

3.6. EVALUACION DEL MODELO. 47

3.6. Evaluacion del modelo.

Llegados a esta fase, cabe preguntarse como saber sı los modelos son suficientemente validos

para nuestros propositos. Para ello, existen varios metodos para evaluar la calidad de un modelo

a partir de datos reales.

3.6.1. Grafico de elevacion.

Un Grafico de mejora respecto al modelo predictivo representa graficamente la mejora que

proporciona un modelo de minerıa de datos en comparacion con una estimacion aleatoria, y

mide el cambio en terminos de puntuacion de la mejora respecto al modelo predictivo. Al

comparar las puntuaciones de mejora respecto al modelo predictivo para las distintas partes del

conjunto de datos y para los distintos modelos, puede determinar cual es el mejor modelo y que

porcentaje de casos del conjunto de datos se beneficiarıa de aplicar las predicciones del modelo.

Con un grafico de mejora respecto al modelo predictivo, puede comparar la precision de las

predicciones para varios modelos que tienen el mismo atributo de prediccion. Tambien puede

evaluar la exactitud de la prediccion para un unico resultado (un unico valor del atributo de

prediccion) o para todos los resultados (todos los valores del atributo especificado).

El grafico de elevacion para los modelos en estudio, se muestra en la figura 3.22. Acredito =

1 (Reprobado), el atributo de destino es (Acredito) y el valor de destino es 1 (Reprobado), lo

que representa que el estudiante es probable que repruebe. El grafico de elevacion muestra la

mejora que el modelo proporciona al identificar a los alumnos que es probable que reprueben.

El eje X del grafico representa el porcentaje del conjunto de datos de prueba que se usa para

comparar las predicciones. El eje Y del grafico representa el porcentaje de valores de prediccion.

La lınea recta diagonal, mostrada aquı en gris representa los resultados de la estimacion aleatoria

y es la lınea base con la que evaluar la mejora respecto al modelo predictivo. Con cada modelo

que agrega a un grafico de mejora respecto al modelo predictivo, obtiene dos lıneas adicionales:

una muestra los resultados ideales para los conjuntos de datos de entrenamiento establecidos,

si pudiera crear un modelo que siempre predijera perfectamente; y la segunda lınea muestra la


Figura 3.22: Grafico de elevacion de los modelos de estudio.

mejora respecto al modelo predictivo real, o mejora en los resultados, para el modelo.

La lınea ideal para el modelo filtrado se muestra en rosa y la lınea para la elevacion real en

morado. Puede deducir del grafico que la lınea ideal alcanza el maximo cerca del 30 por ciento,

lo que significa que, si tuviera un modelo perfecto, podrıa llegar al 100 por ciento de los alumnos

reprobados unicamente al 30 por ciento de la poblacion total. La elevacion real para el modelo

filtrado al destinarse al 30 por ciento de la poblacion esta entre el 60 y el 70 por ciento, lo que

significa que se podrıa llegar al 60 o 70 por ciento de los alumnos de destino no acreditando al

30 por ciento de la poblacion total de alumnos.

la poblacion total. La elevacion real para el modelo filtrado al destinarse al 30 por ciento de

la poblacion esta entre el 60 y el 70 por ciento, lo que significa que se podrıa llegar al 60 o 70

por ciento de los alumnos de destino no acreditando al 30 por ciento de la poblacion total de

alumnos.

En la figura 3.23. muestra los valores de probabilidad de prediccion de cada uno de los modelos

e indica el valor que representa el indicio necesario para incluir un estudiante entre los casos con

probabilidad de reprobar. En estos resultados se puede observar que, cuando se mide el 40 por

ciento de todos los casos, el modelo K-mediana puede predecir el comportamiento de alumnos

reprobados en el 60 % de la poblacion destino.


Figura 3.23: Leyenda de elevacion de los modelos de estudio.

El valor de Probabilidad de prediccion representa el umbral necesario para incluir un alumno

entre los casos con probabilidad de reprobar.

El valor de Puntuacion ayuda a comparar los modelos calculando la efectividad del modelo a

traves de una poblacion normalizada. Una mayor puntuacion es mejor, de modo que en este

caso se podrıa decidir que seleccionar a los alumnos con el modelo K-medianas es la estrategia

mas eficiente con un puntaje de 0.70, siguiendo el modelo EM con 0.66 y el modelo A priori con

0.61.

3.6.2. Validacion Cruzada.

Uno de los metodos es la validacion cruzada que se usa despues de crear una estructura de

minerıa de datos y los modelos de minerıa de datos relacionados para determinar la validez del

modelo. La validacion cruzada tiene las aplicaciones siguientes:

Validar la solidez de un modelo de minerıa de datos determinado.

Evaluar varios modelos de una instruccion unica.

Generar varios modelos e identificar a continuacion el mejor modelo basandose en es-

tadısticas.

La validacion cruzada es un metodo establecido para evaluar la exactitud de los modelos de

minerıa de datos. La validacion cruzada divide sucesivamente los datos de la estructura de


minerıa de datos en subconjuntos, genera modelos en los subconjuntos y mide la exactitud del

modelo para cada particion.

Ademas, la informacion basica acerca del numero de plegamientos en los datos y de la cantidad

de datos en cada plegamiento, Analysis Services muestra un conjunto de metricas sobre cada

modelo, clasificadas por tipo. A continuacion, se muestra una lista con las pruebas y las metricas,

junto con una explicacion del significado de las metricas.

Agrupacion en clusteres

Probabilidad de casos. Indica la probabilidad de que un caso pertenezca a un cluster determi-

nado.

1. Clasificacion

Verdadero positivo. Recuento de casos que cumplen estas condiciones:

• El caso contiene el valor de destino.

• El modelo predijo que ese caso contenıa el valor de destino.

Falso positivo. Recuento de casos que cumplen estas condiciones:

• El valor real es igual al valor de destino.

• El modelo predijo que ese caso contenıa el valor de destino.

Verdadero negativo. Recuento de casos que cumplen estas condiciones:

• El caso no contiene el valor de destino.

• El modelo predijo que el caso no contiene el valor de destino.

Falso negativo. Recuento de casos que cumplen estas condiciones:

• El valor real no es igual al valor de destino.

• El modelo predijo que el caso no contiene el valor de destino.

2. Probabilidad

Puntuacion del registro. El logaritmo de la probabilidad real para cada caso, sumada

y, a continuacion, dividida por el numero de filas del conjunto de datos, excepto las


filas con valores ausentes. Dado que la probabilidad se representa como una fraccion

decimal, las puntuaciones de registro siempre son numeros negativos. Un resultado

mas cercano a 0 indica una mejor prediccion.

Elevacion. La proporcion entre la probabilidad de prediccion real y la probabilidad

marginal en los casos de prueba. Esta metrica muestra hasta que punto mejora la

probabilidad cuando se utiliza el modelo.

Error cuadratico medio. La raız cuadrada del error promedio para todos los casos

de particion, dividido por el numero de casos en la particion, excepto las filas con

valores ausentes.

3. Agregados

Las medidas agregadas proporcionan una indicacion acerca de la varianza en los resultados

para cada particion.

Promedio. La media de los valores de la particion para una medida determinada.

Desviacion estandar. La media de la desviacion desde el promedio para una medida

concreta, para todas las particiones de un modelo.

En la tabla 3.1. Se muestra el resultado de las medidas de precision para cada particion para los

modelos cluster EM, cluster k-medianas, A priori. Los parametros utilizados en la validacion

cruzada son: Recuento de plegamientos = 5, Atributo destino = IdAcredito, Estado de destino=

1, Maximo de casos = 100 y el umbral de destino de 0.6.

Tabla 3.1: Tabla de resultados de la Validacion cruzada.

Validacion Cruzada

Indice

particion

Tamano

particion

Prueba Medida Cluster EM K-medias A priori

2 20 Clasificacion Verdadero posi-

tivo

4 4 1


tivo

4 6 2


Continuacion Tabla 3.1

Indice

particion

Tamano

particion

Prueba Medida Cluster EM K-mediana A priori


tivo

3 7 1


tivo

1 0,000e+000 1

Promedio 3,01 4,22 1,4

Desviacion

estandar

1,1 2,4066 0,4899

1 19 Clasificacion Falso positivo 5 8 3




5 20 Clasificacion Falso positivo 2 0,000e+000 2

Promedio 4,01 6,81 2,19

Desviacion

estandar

1,4247 3,4342 0,3923

1 19 Clasificacion Verdadero Ne-

gativo

7 4 9


gativo

9 4 10


gativo

7 4 11


gativo

8 3 10


gativo

10 12 10

Promedio 8,2 5,4 10,02



Indice

particion

Tamano

particion


Desviacion

estandar

1,1662 3,3226 0,6321

1 19 Clasificacion Falso Negativo 4 3 5

2 20 Clasificacion Negativo 4 4 7




Promedio 4,8 3,59 6,41

Desviacion

estandar

1,1662 2,4211 0,7886

1 19 Probabilidad Puntuacion de

registro

-0,8273 0,000e+000 -0,4178


registro

-0,7835 0,000e+000 -0,563


registro

-0,8799 0,000e+000 -0,4795


registro

-0,684 0,000e+000 -0,5871


registro

-0,8249 -0,6684 -0,5168

Promedio -0,8004 -0,1337 -0,5135

Desviacion

estandar

0,066 0,2674 0,0596

1 19 Probabilidad Elevacion -0,1691 0,729 0,2403






Indice

particion

Tamano

particion



Promedio -0,1321 0,603 0,1549

Desviacion

estandar

0,0695 0,3006 0,0541

1 19 Probabilidad Error

Cuadratico

medio

0,2575 0,000e+000 0,2742


Cuadratico

medio

0,1896 0,000e+000 0,3052


Cuadratico

medio

0,2423 0,000e+000 0,3092


Cuadratico

medio

0,4179 0,000e+000 0,3207


Cuadratico

medio

0,233 0,4048 0,3043

Promedio 0,2679 0,081 0,3031

Desviacion

estandar

0,0783 0,1619 0,0152

Fin de la Tabla

Clasificacion:

Verdadero positivo. Los resultados obtenidos, indican que el modelo K-mediana tiene un

promedio mejor con 4,22, sin embargo, presenta la desviacion estandar mas alta con 2,4066,


seguida del modelo EM (1,1) y el modelo A priori que tiene un mejor resultado con 0,4899.

Falso positivo. Esta metrica nos muestra que, de los valores reales, el mejor promedio es

el modelo K-mediana con 6,81, pero la desviacion estandar (3,4342) es mas alta que la

obtenida por el modelo A priori con 0,3923.

Verdadero negativo. De los valores obtenidos, el modelo A priori es el que tiene el promedio

mas alto con 10,02 que el modelo K-mediana (5,4), pero tiene una menor desviacion

estandar de 0,6321.

Falso negativo. De los valores reales que no presentan el valor destino, el modelo K-mediana

presenta menos promedio con 3,59, seguido del modelo EM (4,8) y por ultimo el modelo

A priori con 6,4. Sin embargo, el modelo que tiene la desviacion estandar mas baja, es el

modelo A priori con 0,7886.

Probabilidad:

Puntuacion de registro. Los tres modelos presentan valores negativos para esta metrica.

Un resultado mas cercano a 0 indica una mejor prediccion, y el modelo K-mediana es el

mejor promedio con una estimacion de -0,1337, seguido del modelo A priori con -0,5135 y

el modelo EM con -0,8004.

Elevacion. La metrica muestra hasta que punto mejora la probabilidad cuando se utiliza el

modelo. De los resultados obtenidos, se tiene que el modelo K-mediana (0,6), presenta en

promedio una mejor estimacion entre la probabilidad de prediccion real y la probabilidad

marginal en los casos de prueba, respecto a los modelos A priori (0,1549) y el modelo EM

(-0,1321).

Error cuadratico medio. De acuerdo a los resultados obtenidos, el modelo que tiene el

mejor indicador es el modelo K-mediana con 0,081, seguido del modelo EM con 0,2679 y

el modelo A priori con 0,3031. Sin embargo, el modelo que tiene una menor desviacion

estandar es el modelo A priori con 0,0152.


3.6.3. Matriz de clasificacion.

Una matriz de clasificacion ordena todos los casos del modelo en categorıas, determinando si el

valor de prediccion coincide con el valor real. A continuacion, se cuentan todos los casos de cada

categorıa y los totales se muestran en la matriz. La matriz de clasificacion es una herramienta

estandar de evaluacion de modelos estadısticos a la que a veces se denomina matriz de confusion.

El grafico compara los valores reales con los valores de prediccion para cada estado de prediccion

especificado. Las filas de la matriz representan los valores de prediccion para el modelo, mientras

que las columnas representan los valores reales. Las categorıas usadas en el analisis son falso

positivo, verdadero positivo, falso negativo y verdadero negativo.

Una matriz de clasificacion es una herramienta importante para evaluar los resultados de la pre-

diccion, ya que hace que resulte facil entender y explicar los efectos de las predicciones erroneas.

Al ver la cantidad y los porcentajes en cada celda de la matriz, podra saber rapidamente en

cuantas ocasiones ha sido exacta la prediccion del modelo.

Interpretacion de los resultados.

En la tabla 3.2. se muestra la matriz de clasificacion para el modelo Cluster EM. Recuerde que,

para este atributo de prediccion, 1 significa “Reprobado” y 2 significa “Aprobado”.

Previsto 1(Real) 2(Real)

1 0 0

2 2370 5708

Tabla 3.2: Tabla de clasificacion modelo Cluster EM.

La primera celda de resultados, que contiene el valor 0, indica el numero de verdaderos positivos

para el valor 1. Dado que 1 indica que el alumno no aprobo, esta estadıstica indica que el modelo

predijo el valor correcto para quienes no aprobaron en 0 casos.

La celda situada directamente debajo de esa, que contiene el valor 2370, indica el numero de

falsos positivos, o numero de veces que el modelo predijo que alguien aprobarıa cuando en

realidad no lo hizo.


La celda que contiene el valor 0 indica el numero de falsos positivos para el valor 2. Dado que

2 significa que el alumno aprobo, esta estadıstica indica que, en 0 casos, el modelo predijo que

alguien no aprobarıa cuando sı lo hizo.

Finalmente, la celda que contiene el valor 5708 indica el numero de verdaderos positivos para

el valor de destino 2. En otras palabras, en 5708 casos el modelo predijo correctamente que el

alumno aprobo.


1 1494 1909

2 876 3799

Tabla 3.3: Tabla de clasificacion modelo K-medianas.

En la tabla 3.3. Se observan los siguientes resultados para el modelo K-medianas, y en la primera

celda contiene el valor 1494, indica el numero de verdaderos positivos para el valor 1. Dado que

1 indica que el alumno no aprobo, esta estadıstica indica que el modelo predijo el valor correcto

para quienes no aprobaron en 1494 casos.

La celda situada directamente debajo de esa, que contiene el valor 876, indica el numero de falsos

positivos, o numero de veces que el modelo predijo que alguien aprobarıa cuando en realidad

no lo hizo.


2 significa que el alumno aprobo, esta estadıstica indica que, en 1909 casos, el modelo predijo

que alguien no aprobarıa cuando sı lo hizo.



alumno aprobo.

En la tabla 3.4. Se observan los siguientes resultados para el modelo A priori, en la primera

celda contiene el valor 49, indica el numero de verdaderos positivos para el valor 1. Dado que 1

indica que el alumno no aprobo, esta estadıstica indica que el modelo predijo el valor correcto

para quienes no aprobaron en 49 casos.



1 49 32

2 2321 5676

Tabla 3.4: Tabla de clasificacion modelo Apriori.

La celda situada directamente debajo de esa, que contiene el valor 2321, indica el numero de

falsos positivos, o numero de veces que el modelo predijo que alguien aprobarıa cuando en

realidad no lo hizo.


2 significa que el alumno aprobo, esta estadıstica indica que, en 32 casos, el modelo predijo que

alguien no aprobarıa cuando sı lo hizo.



alumno aprobo.

Sumando los valores de las celdas contiguas diagonalmente, se puede determinar la exactitud

total del modelo. Una diagonal indica el numero total de predicciones exactas y la otra indica

el numero total de predicciones erroneas. Los valores de los numeros totales de predicciones

exactas de nuestros modelos son los siguientes: cluster EM, con un valor de 5708, el modelo

K-medianas con 5293 y el modelo A priori con 5725. Para el total de predicciones erroneas, los

valores fueron: cluster EM, con un valor de 2370, el modelo K-medianas con 2785 y el modelo

A priori con 2353.

Capıtulo 4

Interpretacion de Resultados

Despues de haber probado y evaluado los modelos de minerıa de datos, el paso siguiente, es

describir de forma mas entendible los resultados obtenidos en las pruebas. Los resultados fueron

evaluados por la comprension e interpretacion de los resultados de los modelos, ası como se

evaluacion del impacto de los mismos para los objetivos del negocio.

4.1. Comprension e interpretacion de los resultados ob-

tenidos.

Las variables que se consideraron en la utilizacion de la estructura de los modelos de minerıa

de datos que se muestran en la figura 7.1., dependieron de la tecnica de minerıa de datos que

se utilizo. Para la identificacion de variables e indicadores que influyen en el aprovechamiento

escolar, que se establecieron en el capıtulo 1.4, como parte de los objetivos especıficos.

Como resultado de las pruebas realizadas en nuestros modelos de minerıa de datos, observamos

que en la ejecucion de los mismos no identificaban de manera clara las materias con mayor ındice

de reprobacion, por lo que se procedio a reducir el universo de la muestra de datos, aplicando

el filtro por especialidad. De esta forma se logro identificar de acuerdo al estado de prediccion

(aprobo o no aprobo) las materias que afectan el desempeno academico de los alumnos por

59

4.1. COMPRENSION E INTERPRETACION DE LOS RESULTADOS OBTENIDOS. 60

especialidad.

Primero utilizando la tecnica de asociacion con el algoritmo A priori, podemos identificar los

elementos de asociacion entre los alumnos que reprobaron o aprobaron, en determinada materia,

es decir, identificar lo que tienen en comun cada uno de ellos con el resto de los registros que

cumplen con el parametro deseado.

Observamos que existe una fuerte correlacion entre las variables materia, curso y acredito.

El algoritmo A priori genero reglas, en las que observamos que, modificando el parametro de

soporte mınimo y de probabilidad mınima, nos muestra las materias que mas inciden el ındice

de reprobacion y de acuerdo con los conjuntos de elementos que se generaron, vemos que existe

una alta probabilidad que un alumno repruebe en los primeros dos semestres de la carrera.

Un punto importante es que al encontrar los parametros optimos y ejecutar el algoritmo sin

el filtro de la especialidad (carrera), no mostraba informacion clara, ya que cada especialidad

cuenta con materias muy diversas, afectando el desempeno del algoritmo por lo que este modelo

solo es factible si se aplica el filtro por carrera para generar las reglas y conjunto de elementos

para cada especialidad.

Como segundo caso utilizamos la seleccion e implementacion de los algoritmos de agrupamiento

o clusteres, los cuales permiten crear grupos (clusteres) con caracterısticas similares (columnas

de entrada) entre los datos a evaluar. De este modo con la deteccion de grupos de alumnos con

caracterısticas muy parecidas o iguales, se pueden detectar patrones de comportamiento entre

los alumnos que aprobaron o no, segun sea el caso.

Como resultado de las ejecuciones del algoritmo de agrupamiento de Microsoft de Maxima

Expectacion, tomando en cuenta las variables mas representativas y donde en cada ejecucion se

modificaban las columnas de entrada y el numero de grupos (clusteres) a generar, se obtuvieron

los resultados finales que se muestran en la figura 4.1.

En la ejecucion final del algoritmo de agrupamiento EM, como se muestra en la Figura 4.1,

se generaron 2 grupos (clusteres). Los grupos generados en esta prueba aun sigue mostrando

similitudes entre grupos, en los que no se muestra de forma clara la distribucion de los distintos

estados de la columna de prediccion.


Figura 4.1: Resultados de atributos del modelo de cluster EM de Arquitectura.

Al analizar los dos grupos generados observamos que en las caracterısticas de cada uno de los

grupos (clusteres) que se muestran en la figura 4.2. y la figura 4.3., no se logra identificar de

manera clara y precisa las diferencias en la probabilidad de que favorezcan a un estado de

acredito o no.

Figura 4.2: Caracterısticas Cluster #1.


Figura 4.3: Caracterısticas Cluster #2.

El resultado final de las ejecuciones del algoritmo de agrupamiento de Microsoft de K-medianas,

en donde se modifico el numero de grupos (clusteres), se muestra en la figura 4.4. teniendo como

filtro la especialidad = Arquitectura.

Figura 4.4: Resultados de atributos del modelo K-medianas.

Los dos grupos generados en esta prueba muestran de forma clara la distribucion de los distin-

tos estados de la columna de prediccion. El grupo (cluster) #2 agrupa a los alumnos que no

acreditaron las materias, como se puede observar en la figura 4.5.


Figura 4.5: Cluster #2 y la columna de entrada IdAcredito agrupado por el valor.

Posteriormente observamos que la columna IdCurso, se establece que la mayorıa pertenecen al

valor 1, el cual corresponde al curso “NORMAL”. Por lo que podemos concluir que la mayorıa

de alumnos que reprobaron lo hicieron en el curso normal. El resultado se muestra en la figura

4.6.

Figura 4.6: Cluster #2 y la columna de entrada IdCurso.

Continuando con el analisis del cluster #2, en la figura 4.7., observamos ahora la columna de


entrada de IdMaestro, muestra los maestros que tienen mayor incidencia en el ındice de no

acreditados de los alumnos. Al igual que en la figura 4.8. que nos muestra el resultado de la

columna Materia, en la que podemos observar las materias que inciden en el estado de prediccion

de no aprobados.

Figura 4.7: Cluster #2 y la columna de entrada IdMaestro.

Figura 4.8: Cluster #2 y la columna de entrada IdMateria.

Al analizar las caracterısticas del cluster de interes, que se muestran en la figura 4.9., observamos

que existe una fuerte correlacion entre las variables materia y maestro.

4.2. EVALUAR EL IMPACTO DE LOS RESULTADOS. 65

Figura 4.9: Caracterısticas del Cluster #2.

4.2. Evaluar el impacto de los resultados.

Para corroborar la validez de los resultados obtenidos en las diversas tecnicas, fue necesario

realizar una validacion de estos, con el objetivo de tener la certeza de que los datos arrojados por

los algoritmos eran correctos, por lo que se decidio evaluar estos resultados mediante consultas

SQL aplicadas al mismo origen de datos.

Mediante consultas SQL, se pudo comparar y validar cada uno de los resultados. En la figura

4.10, se muestran un ejemplo del script de la consulta SQL realizada, que muestra las mate-

rias que se encuentran con mayor ındice de reprobacion. Para verificar los resultados en cada

especialidad, se modifico el campo IdEspecialidad en la consulta SQL y se comparo con cada

algoritmo, para determinar la veracidad de los resultados.

Despues del analisis de los resultados de los modelos de minerıa de datos que se evaluaron,

se destaca las variables que tienen mayor factor para el desempeno de los alumnos, son las de

materia, maestro y curso.

Se puede etiquetar un capıtulo y seccion para hacer referencia al mismo en otra parte del

documento.

4.2. EVALUAR EL IMPACTO DE LOS RESULTADOS. 66

Figura 4.10: Script y ejecucion de la consulta en SQL sobre las materias.

Capıtulo 5

Conclusiones y recomendaciones

5.1. Conclusiones.

En el presente trabajo el objetivo principal fue el de construir un modelo de minerıa de datos,

con la capacidad de detectar patrones de comportamiento y la identificacion de las variables

mas representativas en el aprovechamiento academico de los alumnos en el Instituto Tecnologico

de La Paz.

Para la realizacion de este trabajo se aplico la metodologıa CRISP-DM, con una pequena ade-

cuacion. Eligiendo los algoritmos mas adecuados para la realizacion de la minerıa de datos y

evaluandolos mediante las tecnicas de evaluacion, como graficos de elevacion, matrices de clasifi-

cacion y validaciones cruzadas, que nos permitieran obtener el modelo necesario que permitiera

cumplir con los objetivos antes expresados.

Del resultado la evaluacion de los modelos, se determino que el modelo mas efectivo para esta

investigacion es el modelo K-mediana, observamos que tiene un mejor desempeno con respecto

a los modelos A priori y el modelo de Maxima Expectacion (EM), dado por el resultado de los

indicadores y atributos que se presentaron en la seccion de la evaluacion de los algoritmos.

Se observo que, de los valores obtenidos, no se pudo validar positivamente al modelo EM y

A priori ya que su capacidad de prediccion de la estimacion aleatoria es menor. Ademas, se

67

5.2. RECOMENDACIONES. 68

detectaron errores de prediccion, al dar la probabilidad de que cierto grupo o conjunto de

elemento, contenga las materias con mayor ındice de reprobacion.

Se demostro que en la ejecucion de los modelos no se puede aplicar al conjunto total de las

especialidades (carreras) con que cuenta el Instituto Tecnologico de La Paz, ya que mostraba

datos erroneos al clasificar las materias, ya que cada especialidad cuenta con materias muy

diversas y es difıcil encontrar un indicador que clasificara los grupos de alumnos con mas riesgo

a un mal desempeno escolar.

Con base a los resultados se demostro que existen patrones que afectan el desempeno academico

de los alumnos y al hacer la comparacion de resultados de los alumnos que no acreditaron se

encontro que la variable de IdCurso es la mas relevante y que las variables de IdMateria y

IdMaestro tienen una fuerte correlacion.

Un factor importante que se identifico es que, en cada especialidad, las materias con el mayor

ındice de reprobacion, son materias exclusivas de cada carrera. Ademas, se identifico que en las

especialidades de ingenierıa las materias del area de ciencias basicas (matematicas, probabilidad

y estadıstica) presentan altos ındices de reprobacion.

5.2. Recomendaciones.

Mejorar el proceso de toma de datos al momento de iniciar los alumnos sus estudios en la

institucion.

Incluir informacion socioeconomica del alumno en la base de datos de la institucion.

Incluir mas variables o metricas en el modelo establecido como datos de entrada.

Generar nuevos modelos de minerıa de datos para el descubrimiento de nueva informacion

y/o conocimiento en el proceso de deteccion de alumnos con baja desempeno academico.

5.3. TRABAJO FUTURO 69

5.3. Trabajo futuro

Se propone que el presente modelo ayude en la aplicacion de medidas que ayuden a analizar

y evaluar los factores que influyen en el aprovechamiento academico.

El departamento de desarrollo academico y servicios escolares, podran usar el modelo

propuesto para identificar y establecer procedimientos que permitan en etapas tempranas

la informacion de las variables relevantes para trabajar con programas focalizados con el

objeto de mejorar los ındices de desempeno academico de los estudiantes.

Desarrollar e implementar, una aplicacion en un servidor Web, que permita la interpreta-

cion y visualizacion de los modelos propuestos.

Como trabajos futuros estan el continuar con el estudio del desempeno estudiantil apli-

cando otras tecnicas de minerıa de datos como la clasificacion (redes bayesianas, arboles

de decision, etc.), entre otras.

Generar e implementar modelos de metodos predictivos, en los que se pueda predecir

con un porcentaje muy alto de confiabilidad, la probabilidad de desertar de cualquier

estudiante.

Apendice A

Diccionario de datos

Estructura de las tablas requeridas para el analisis son:

Figura A.1: Tabla Alumnos

70

APENDICE A. DICCIONARIO DE DATOS 71

Figura A.2: Tabla Cardex

Figura A.3: Tabla Personal Figura A.4: Tabla Personal


Figura A.5: Tabla Materias

Figura A.6: Tabla Departamentos


Figura A.7: Tabla Grupos

Figura A.8: Tabla Carreras


Figura A.9: Tabla Planes

Figura A.10: Tabla Escuelas

Apendice B

Resultados de algoritmo Apriori

A continuacion, se muestran los resultados obtenidos al ejecutar el algoritmo A priori, separados

por especialidad. Parametros utilizados en el algoritmo:

Figura B.1: Parametros usados en Algoritmo Apriori

A continuacion, se muestran las reglas, los conjuntos de elementos y red de dependencias gene-

radas con los vınculos mas fuertes:

75

APENDICE B. RESULTADOS DE ALGORITMO APRIORI 76

Figura B.2: Reglas generadas por Algoritmo Apriori para Arquitectura

Figura B.3: Elementos generados por Algoritmo Apriori para Arquitectura


Figura B.4: Dependencias mas fuertes Arquitectura

Figura B.5: Reglas generadas por Algoritmo Apriori para Bioquımica


Figura B.6: Elementos generados por Algoritmo Apriori para Bioquımica

Figura B.7: Dependencias mas fuertes Bioquımica


Figura B.8: Reglas generadas por Algoritmo Apriori para Ing. Civil

Figura B.9: Elementos generados por Algoritmo Apriori para Ing. Civil


Figura B.10: Dependencias mas fuertes Ing. Civil

Figura B.11: Reglas generadas por Algoritmo Apriori para Ing. Electromecanica


Figura B.12: Elementos generados por Algoritmo Apriori para Ing. Electromecanica


Figura B.13: Reglas generadas por Algoritmo Apriori para Gestion Empresarial

Figura B.14: Elementos generados por Algoritmo Apriori para Gestion Empresarial


Figura B.15: Reglas generadas por Algoritmo Apriori para Ing. Industrial

Figura B.16: Elementos generados por Algoritmo Apriori para Ing. Industrial


Figura B.17: Reglas generadas por Algoritmo Apriori para Administracion

Figura B.18: Elementos generados por Algoritmo Apriori para Administracion


Figura B.19: Reglas generadas por Algoritmo Apriori para Contador Publico

Figura B.20: Elementos generados por Algoritmo Apriori para Contador Publico

Bibliografıa

[1] Alejandro Ballesteros Roman, Daniel Guzman and Ricardo Garcıa Salcedo. Minerıa de

datos educativa: Una herramienta para la investigacion de patrones de aprendizaje sobre

un contexto educativo, Latin-American Journal of Physics Education, 2013.

[2] Ricardo Timaran Pereira, A.C.R. Descrubrimiento de perfiles de desercion estudiantil con

tecnicas de minerıa de datos. Revista Vinculos, 2013.

[3] Galindo Alvaro Jimenez and Hugo Alvarez Garcıa. Minerıa de Datos en la Educacion.

Inteligencia en Redes de Comunicacion, 2010.

[4] Karina B. Eckert and Roberto Suenaga. Analisis de desercion-permanencia de estudiantes

universitarios utilizando tecnica de clasificacion en minerıa de datos. Formacion Universi-

taria, 8(5):3–12, 2015.

[5] Hina Gulati. Predictive Analytics Using Data Mining Technique. Computing for Sus-

tainable Global Development (INDIACom), 2015 2nd International Conference on, pages

713–716, 2015.

[6] Harwati, Ardita Permata Alfiani, and Febriana Ayu Wulandari. Mapping Student’s Per-

formance Based on Data Mining Approach (A Case Study). Agriculture and Agricultural

Science Procedia, 3:173–177, 2015.

[7] Jesus. Mc Jaime Angel Hernandez Cedano and Antonio Castro. MODELO DE MINERIA

DE DATOS PARA IDENTIFICACION DE PATRONES QUE INFLUYEN EN EL APRO-

VECHAMIENTO ACADEMICO. PhD thesis, Instituto Tecnologico de la Paz, 2015.

[8] C. Ferri Ramırez J.Hernandez Orallo, M.Ramırez Quintana. Introduccion a la Minerıa de

datos. Pearson Educacion, Madrid, 2004.

86

BIBLIOGRAFIA 87

[9] Amirah Mohamed Shahiri, Wahidah Husain, and aini Abdul Rashid. ScienceDirect The

Third Information Systems International Conference A Review on Predicting Student’s

Performance using Data Mining Techniques. Procedia Computer Science, 72:414–422, 2015.

[10] Srecko Natek and Moti Zwilling. Student data mining solution–knowledge management

system related to higher education institutions.

[11] Darıo B. R. Metodologıa para la construccion de un Data Warehouse.

ANALISIS DEL APROVECHAMIENTO ACAD EMICO DE LOS...

Documents

Transcript of ANALISIS DEL APROVECHAMIENTO ACAD EMICO DE LOS...