ANALISIS DEL APROVECHAMIENTO ACAD EMICO DE LOS...

of 103 /103
TECNOL ´ OGICO NACIONAL DE M ´ EXICO Instituto Tecnol´ogico de La Paz INSTITUTO TECNOL ´ OGICO DE LA PAZ DIVISI ´ ON DE ESTUDIOS DE POSGRADO E INVESTIGACI ´ ON MAESTR ´ IA EN SISTEMAS COMPUTACIONALES AN ´ ALISIS DEL APROVECHAMIENTO ACAD ´ EMICO DE LOS ESTUDIANTES DEL INSTITUTO TECNOL ´ OGICO DE LA PAZ APLICANDO MODELOS DE MINER ´ IA DE DATOS QUE PARA OBTENER EL GRADO DE MAESTRO EN SISTEMAS COMPUTACIONALES PRESENTA: BLANCA CECILIA ROSAS BURGOIN DIRECTORES DE TESIS: MATI. LUIS ARMANDO CARDENAS FLORIDO LA PAZ, BAJA CALIFORNIA SUR, M ´ EXICO, DICIEMBRE 2017. Blvd. Forjadores de B. C. S. #4720, Col. 8 de Oct. 1era. Secci´ on C. P. 23080 La Paz, B. C. S. Conmutador (612) 121-04-24, Fax: (612) 121-12-95 www.itlp.edu.mx

Embed Size (px)

Transcript of ANALISIS DEL APROVECHAMIENTO ACAD EMICO DE LOS...

  • TECNOLÓGICO NACIONAL DE MÉXICOInstituto Tecnológico de La Paz

    INSTITUTO TECNOLÓGICO DE LA PAZDIVISIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN

    MAESTŔIA EN SISTEMAS COMPUTACIONALES

    ANÁLISIS DEL APROVECHAMIENTO ACADÉMICO DE

    LOS ESTUDIANTES DEL INSTITUTO TECNOLÓGICO DE

    LA PAZ APLICANDO MODELOS DE MINEŔIA DE DATOS

    QUE PARA OBTENER EL GRADO DE

    MAESTRO EN SISTEMAS COMPUTACIONALES

    PRESENTA:

    BLANCA CECILIA ROSAS BURGOIN

    DIRECTORES DE TESIS:

    MATI. LUIS ARMANDO CARDENAS FLORIDO

    LA PAZ, BAJA CALIFORNIA SUR, MÉXICO, DICIEMBRE 2017.

    Blvd. Forjadores de B. C. S. #4720, Col. 8 de Oct. 1era. Sección C. P. 23080La Paz, B. C. S. Conmutador (612) 121-04-24, Fax: (612) 121-12-95

    www.itlp.edu.mx

  • Dedicatoria

    Dedico esta tesis principalmente a mis padres, motor indispensable en mi vida. En especial a

    mi padre quien no esta más conmigo, por ser quien me inculcó el amor a los libros, por quien

    comencé a estudiar mi posgrado, y quien créıa ciegamente en mı́ que lo lograŕıa. Dedico este

    trabajo a mi madre que me enseñó a tener siempre la fortaleza para salir adelante, para nunca

    rendirme y luchar por mis sueños.

    GRACIAS PAPÁS.

    i

  • Agradecimientos

    Agradezco a Dios por darme la fuerza necesaria para poder concluir un objetivo más en mi desa-

    rrollo profesional. A quienes creyeron en mı́ y me apoyaron incondicionalmente. A mi hermana

    Guadalupe por su apoyo en los momentos más dif́ıciles para completar este sueño.

    Agradezco Gerardo Olea, un compañero que sin él no hubiera ni empezado con buen paso este

    camino.

    Agradezco a mi director de tesis M.A.T.I. Luis Armando Cárdenas Florido quien fue parte

    fundamental en la redacción de ella, al comité tutorial del cual formaron parte la M.S.C. Iliana

    Castro Liera y el M.C. Jesús Antonio Castro.

    Agradezco de manera especial a la Coordinadora Iliana, ya que con su apoyo, ejemplo y gúıa,

    me fue posible a completar mi tesis.

    Agradezco al Instituto Tecnológico de La Paz por permitirme realizar mis estudios de Maestŕıa

    en Sistemas Computacionales, a todo el departamento de Estudios de Posgrado y en especial,

    a mis maestros que compartieron su conocimiento durante el desarrollo del posgrado.

    Agradezco al Consejo Nacional de Ciencia y Tecnoloǵıa por su apoyo económico con el otorga-

    miento de una beca para el estudio del posgrado.

    ii

  • Resumen

    En este trabajo de tesis, se busca, a través de la aplicación de técnicas de mineŕıa de datos, encon-

    trar un modelo de análisis de información que permita determinar los patrones y caracteŕısticas

    del comportamiento de las variables que inciden en los ı́ndices del rendimiento académico de los

    alumnos del Instituto Tecnológico de La Paz, para poder coadyuvar a la toma de decisiones y

    realizar acciones pertinentes.

    Para la implantación se utilizó la metodoloǵıa CRISP-DM que estructura el proceso en seis

    fases. Se aplicaron los modelos de asociación como Apriori, K-medianas y Máxima Expectación

    (EM), para analizar el comportamiento de los estudiantes.

    Mediante este proceso fue posible identificar los variables que caracterizan a los casos de repro-

    bación y su relación con el desempeño académico, especialmente en los primeros semestres de

    la carrera.

    iii

  • Abstract

    In this thesis work, it is sought, through the application of data mining techniques, to find

    a model of information analysis that allows to determine the patterns and characteristics of

    the behavior of the variables that affect the academic performance indexes of the students of

    Isntituto Tecnológico La Paz, to be able to contribute to the decision making and take pertinent

    actions.

    For the implementation, the CRISP-DM methodology was used, which structures the process

    into six phases. The association models such as Apriori, K-medians and Maximum Expectation

    (EM) were applied to analyze the behavior of the students.

    Through this process it was possible to identify the variables that characterize the cases of

    failure and its relationship with academic performance, especially in the first semesters of the

    career.

    iv

  • Índice general

    1. Introducción 1

    1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.2. Descripción del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.3.2. Objetivos espećıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.4. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.5. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.5.1. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.5.2. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.6. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2. Marco teórico 7

    2.1. Descripción del seguimiento académico . . . . . . . . . . . . . . . . . . . . . . . 7

    2.2. Base de datos relacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    v

  • ÍNDICE GENERAL vi

    2.3. Bodega de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2.4. Modelos de bases de datos multidimensionales . . . . . . . . . . . . . . . . . . . 9

    2.4.1. Tabla de Hechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.4.2. Tabla de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.4.3. Mercados de datos (Data Marts) . . . . . . . . . . . . . . . . . . . . . . 10

    2.5. Mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.5.1. Tipos de mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.5.2. Funciones de la mineŕıa de datos. . . . . . . . . . . . . . . . . . . . . . . 13

    2.5.3. Técnicas en mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.5.4. Clasificación mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.5.5. Metodoloǵıas de mineŕıa de datos. . . . . . . . . . . . . . . . . . . . . . . 17

    3. Diseño de la solución. 24

    3.1. Selección de metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.2. Comprensión del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.2.1. Determinación de los objetivos del problema . . . . . . . . . . . . . . . . 25

    3.2.2. Evaluación de la situación. . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.2.3. Objetivos de mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.2.4. Evaluación inicial de Funciones y Algoritmos. . . . . . . . . . . . . . . . 27

    3.3. Recolección de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.3.1. Recolección de datos iniciales. . . . . . . . . . . . . . . . . . . . . . . . . 28

  • ÍNDICE GENERAL vii

    3.3.2. Descripción de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.4. Preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3.4.1. Seleccionar y verificar los datos. . . . . . . . . . . . . . . . . . . . . . . . 30

    3.4.2. Limpiar los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    3.4.3. Integración de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.4.4. Dar formato a los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.5. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    3.5.1. Seleccionar la técnica del modelado. . . . . . . . . . . . . . . . . . . . . . 33

    3.5.2. Generar el diseño de pruebas. . . . . . . . . . . . . . . . . . . . . . . . . 34

    3.5.3. Construcción de los modelos. . . . . . . . . . . . . . . . . . . . . . . . . 36

    3.6. Evaluación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    3.6.1. Gráfico de elevación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    3.6.2. Validación Cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    3.6.3. Matriz de clasificación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    4. Interpretación de Resultados 59

    4.1. Comprensión e interpretación de los resultados obtenidos. . . . . . . . . . . . . . 59

    4.2. Evaluar el impacto de los resultados. . . . . . . . . . . . . . . . . . . . . . . . . 65

    5. Conclusiones y recomendaciones 67

    5.1. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    5.2. Recomendaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

  • ÍNDICE GENERAL viii

    5.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    A. Diccionario de datos 70

    B. Resultados de algoritmo Apriori 75

    Referencias 86

  • Índice de figuras

    2.1. cubo multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.2. tareas de mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.3. clasificacion de métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.4. encuesta CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.5. Fases SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.6. Etapas de KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.7. Fases CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.1. Metodoloǵıa Crisp-DM modificada . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.2. Tablas de la Base de datos Escolar . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3.3. Proceso ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    3.4. Modelo multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    3.5. esctructura Mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    3.6. parametros de estructura MD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    3.7. Datos Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    ix

  • ÍNDICE DE FIGURAS x

    3.8. Columnas Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    3.9. Reglas Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    3.10. diagrama kmedias prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    3.11. Perfil kmedias prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    3.12. diagrama kmedias prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    3.13. Perfil kmedias prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    3.14. Diagrama kmedias prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    3.15. Perfil kmedias prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    3.16. Diagrama EM prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    3.17. Perfil EM prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    3.18. Diagrama EM prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    3.19. Perfil EM prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    3.20. Diagrama EM prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    3.21. Perfil EM prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    3.22. Gráfico de elevación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    3.23. Leyenda modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    4.1. Resultado EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    4.2. Resultado Clúster1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    4.3. Resultado Clúster2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    4.4. Resultado Kmedianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

  • ÍNDICE DE FIGURAS xi

    4.5. Resultado Kmedianas acredito . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    4.6. Resultado Kmedianas Curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    4.7. Resultado Kmedianas Maestro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    4.8. Resultado Kmedianas Materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    4.9. Resultado Kmedianas clúster2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    4.10. Script Consulta SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    A.1. Tabla Alumnos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    A.2. Tabla Cardex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    A.3. Tabla Personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    A.4. Tabla Personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    A.5. Tabla Materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    A.6. Tabla Departamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    A.7. Tabla Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    A.8. Tabla Carreras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    A.9. Tabla Planes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    A.10.Tabla Escuelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    B.1. Parametros Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    B.2. Reglas Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    B.3. Items Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    B.4. Dependencias Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . 77

  • ÍNDICE DE FIGURAS xii

    B.5. Reglas Apriori Bioqúımica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    B.6. Items Apriori Bioqúımica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    B.7. Dependencias Apriori Bioqúımica . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    B.8. Reglas Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    B.9. Items Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    B.10.Dependencias Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    B.11.Reglas Apriori Electromecanica . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    B.12.Items Apriori Electromecanica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    B.13.Reglas Apriori Gestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    B.14.Items Apriori Gestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    B.15.Reglas Apriori Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    B.16.Items Apriori Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    B.17.Reglas Apriori Admon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    B.18.Items Apriori Admon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    B.19.Reglas Apriori CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    B.20.Items Apriori CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

  • Índice de tablas

    3.1. Tabla de resultados de la Validación cruzada. . . . . . . . . . . . . . . . . . . . 51

    3.2. Tabla de clasificación modelo Clúster EM. . . . . . . . . . . . . . . . . . . . . . 56

    3.3. Tabla de clasificación modelo K-medianas. . . . . . . . . . . . . . . . . . . . . . 57

    3.4. Tabla de clasificación modelo Apriori. . . . . . . . . . . . . . . . . . . . . . . . . 58

    xiii

  • Caṕıtulo 1

    Introducción

    La aplicación de técnicas de mineŕıa de datos en el análisis de indicadores y estad́ıstica de

    los procesos educativos tiene como objetivo obtener una mejor comprensión del método de

    aprendizaje de los estudiantes y de su participación global en el proceso, orientado a la mejora

    de la calidad y rentabilidad del sistema educativo.

    La deserción, el rezago estudiantil y los bajos ı́ndices de eficiencia terminal se encuentran entre

    los problemas más complejos y frecuentes que enfrentan las Instituciones de Educación Superior

    del páıs, en la actualidad son reconocidos prácticamente por todas ellas (ANUIES, 2001). En el

    sector educativo las técnicas de mineŕıa de datos se han implementado para realizar un estudio

    y análisis detallado del comportamiento de los alumnos. Esta nueva área de investigación se

    ocupa del desarrollo de métodos para explorar los datos que se dan en el ámbito educativo, aśı

    como de la utilización de estos métodos para entender mejor a los estudiantes y los contextos

    en que ellos aprenden.

    El aprovechamiento académico, aśı como la deserción de los alumnos es una preocupación cons-

    tante y uno de los principales objetivos es determinar los múltiples factores que pueden influir

    en ellos[7].

    Con el objeto de mejorar los ı́ndices de egresados y de titulación, se hace necesario tener un

    mecanismo que permita determinar en etapas tempranas, el riesgo de deserción de los alumnos

    y que se apliquen medidas para mejorar el rendimiento académico de los estudiantes.

    1

  • 1.1. ANTECEDENTES 2

    Para contribuir con la solución del problema del desempeño académico, se plantea la aplicación

    de técnicas de mineŕıa de datos, para ayudar a comprender cuáles son los posibles factores que

    afectan al alumno en su aprovechamiento académico.

    Los clasificadores, agrupamiento y reglas de asociación son algoritmos de las técnicas de la

    mineŕıa de datos educativa, estos permiten identificar la información oculta para los diferentes

    actores dentro de las instituciones educativas.

    El desarrollo de las técnicas de la mineŕıa de datos educativa puede darse a partir de modelos

    supervisados o no-supervisados, esto es, la mineŕıa de datos supervisada; consiste en utilizar

    registros de los resultados que se conocen, por ejemplo, una base de datos de graduaciones

    que contienen registros de alumnos que han finalizado sus estudios y de los que aún siguen

    inscritos, esto lleva a vincular los patrones de conducta a los historiales académicos u otra

    información registrada, de manera que los ejemplos de entrada van acompañados por una clase

    o salida correcta. La mineŕıa de datos no-supervisada; (aprendizaje por observación) consiste

    en situaciones en las cuales se desconocen los patrones o agrupaciones en particular.

    Con la capacidad de almacenamiento de los equipos de cómputo actuales se puede aprovechar

    información de los alumnos, utilizando bodegas de datos y aplicando las diferentes técnicas de

    mineŕıa de datos, para encontrar patrones en los resultados de los datos relevantes que se pueden

    presentar.

    En este trabajo se busca identificar las variables que inciden en el aprovechamiento escolar de los

    alumnos del Instituto Tecnológico de La Paz, con el fin de identificar a aquellos que presentan

    mayor riesgo de fallo o abandono.

    1.1. Antecedentes

    En el ámbito educativo se realizan trabajos e investigaciones para determinar cuáles son los

    factores que afectan al rendimiento académico de los alumnos en diferentes niveles educativos

    (ANUIES).Estos estudios están enfocados en determinar cuáles son los factores que más afectan

    al rendimiento de los estudiantes (abandono y fracaso).

  • 1.2. DESCRIPCIÓN DEL PROBLEMA 3

    La mineŕıa de datos es una de las técnicas que más se utilizan para analizar el desempeño

    académico en los estudiantes y se ha aplica en la educación para la obtención de modelos,

    tareas, métodos y algoritmos para la exploración de datos y tiene como función encontrar,

    analizar patrones que caractericen los comportamientos en base a sus logros, evaluaciones y el

    dominio de contenido de conocimiento que tienen los alumnos[1].

    Se ha intentado, a partir de ciertos estudios y usando distintas metodoloǵıas, identificar el

    proceso de un alumno con riesgo de fracaso escolar [3]. Una visión general de las técnicas de

    mineŕıa de datos que se han utilizado para predecir el rendimiento de los estudiantes[9]. Donde

    se analiza información académica con el objetivo de identificar los factores que influyen en el

    desempeño académico del estudiante[10].

    Algunos estudios han encontrado patrones ocultos de acuerdo a la clasificación de los estu-

    diantes en base a sus caracteŕısticas demográficas y académicas[6]. Otros trabajos toman en

    cuenta factores socioeconómicos, factores familiares[5] [7]. Sea identificado que existe una rela-

    ción importante entre el desempeño académico y los casos de deserción escolar[4]. Los factores

    predominantes académicos, son especialmente un promedio bajo y la pérdida de materias en los

    primeros semestres de la carrera [9]. También se encontró que las notas anteriormente obtenidas

    por los estudiantes son un factor importante para predecir el desempeño académico [10].

    El trabajo de análisis e investigación nos sirve para determinar cuáles son los factores que afectan

    al rendimiento académico de los alumnos y ayudar a los estudiantes con bajo rendimiento, a

    evaluar el curso o módulo idóneo, y adoptar las intervenciones necesarias para aumentar el

    rendimiento académico de los estudiantes.

    1.2. Descripción del problema

    En el Instituto Tecnológico de la Paz, existe un alto ı́ndice de reprobación y deserción escolar.

    Resulta evidente que abordar el tema del rendimiento académico o su contraparte, el fracaso

    escolar, no puede concebirse desde una perspectiva unilateral. Su condición multifactorial por

    ende su complejidad, alentó la realización de esta investigación; qué variables se asocian al

  • 1.3. OBJETIVOS 4

    rendimiento académico de alumnos que es en el Instituto Tecnológico de la Paz, cuáles son

    los patrones de comportamiento que presenta la materia en que se da el ı́ndice más alto de

    reprobación.

    Con el incremento del volumen de información, se incrementa la dificultad de corroborar los

    altos ı́ndices de reprobación y de deserción, lo cual hace más complejo el análisis de los mismos

    por lo que no se tienen las acciones necesarias para determinar las causas que los promueven.

    Para conocer el aprovechamiento académico de los alumnos, cada coordinador académico es

    el que, por medio de reportes tabulares, analiza los ı́ndices de reprobación. Este estudio solo

    realiza simples análisis de la información basados en métodos estad́ısticos. La complejidad al

    corroborar los distintos reportes, donde el volumen de la información es cada vez mayor, hace

    más dif́ıcil identificar las variables que inciden en el mismo, aśı como identificar los patrones

    de comportamiento que estos tienen. Lo anterior complica conocer de manera clara las posibles

    causas que lo ocasionan, dificultando la labor del personal docente y administrativo para llevar

    a cabo un adecuado seguimiento académico de los alumnos.

    El principal objetivo es construir un modelo de mineŕıa de datos para el análisis relacionado

    con el aprovechamiento académico, que permita identificar las variables y los múltiples factores

    que pueden influir en este.

    1.3. Objetivos

    1.3.1. Objetivo general

    Construir un modelo de mineŕıa de datos para la obtención de patrones de comportamiento

    relacionados con el aprovechamiento académico de los alumnos en el Instituto Tecnológico de

    La Paz.

  • 1.4. JUSTIFICACIÓN 5

    1.3.2. Objetivos espećıficos

    Análisis y diseño de una bodega de datos, con la base de datos de los alumnos del ITLP,

    aplicando técnicas de ETL y Data Warehouse.

    Análisis e identificación de variables e indicadores que influyen en el aprovechamiento

    escolar.

    Análisis y selección de los algoritmos de mineŕıa de datos para la prueba de las hipótesis.

    Análisis y desarrollo de un modelo de mineŕıa de datos.

    Selección y aplicación de procesos de búsqueda de patrones.

    Determinar las variables que afectan el desempeño académico de los alumnos.

    1.4. Justificación

    En el Instituto Tecnológico de la Paz, existe un alto ı́ndice de reprobación y de deserción

    escolar. El alto volumen de la información necesaria para llevar un análisis del aprovechamiento

    académico de cada alumno, dificulta la labor del personal de poder identificar a tiempo. Las

    variables o los factores que afectan el rendimiento de los alumnos en cuanto a sus calificaciones,

    por lo que los docentes y personal administrativo poco pueden hacer para detectar a los alumnos

    con bajo rendimiento.

    En este trabajo se pretende saber cuáles son las caracteŕısticas y patrones de comporta-

    miento que provocan el bajo rendimiento escolar del alumno en esta institución, imple-

    mentando técnicas de mineŕıa de datos.

    Obtener un indicador que permita identificar a los alumnos con mayor riesgo de fallo o

    abandono del instituto, aśı como los diferentes factores que puedan estar influyendo. Este

    indicador servirá de apoyo en el seguimiento del aprovechamiento escolar, y para establecer

    estrategias necesarias para disminuir el bajo rendimiento académico.

  • 1.5. ALCANCES Y LIMITACIONES 6

    1.5. Alcances y Limitaciones

    1.5.1. Alcances

    Generar modelos de mineŕıa de datos que se puedan aplicar al aprovechamiento académico de

    los alumnos del Instituto Tecnológico de la Paz.

    1.5.2. Limitaciones

    • La base de datos con la que cuenta el ITLP no contiene información o datos Socioeconómicos

    Correctos o vigentes.

    • La base de datos con que se realizará la investigación, es la correspondiente a los peŕıodos

    del 2006 al 2015, donde vienen comprendidas todas las materias de las nueve carreras a nivel

    licenciatura con que cuenta el Instituto Tecnológico de La Paz.

    1.6. Hipotesis

    Con la base de datos del ITLP y la construcción de un modelo de mineŕıa de datos, podremos

    identificar los factores que intervienen en el ı́ndice de reprobación escolar de los alumnos del

    Instituto Tecnológico de la Paz.

  • Caṕıtulo 2

    Marco teórico

    2.1. Descripción del seguimiento académico

    El seguimiento académico que se le da a cada alumno del Instituto Tecnológico de La Paz es

    individual y cada coordinador académico es quien lo lleva a cabo. Cada coordinador tiene acceso

    a tres tipos de reportes, los cuales son:

    Reporte de reprobación por materia.

    Reporte de reprobación por carrera.

    Reporte de reprobación por ciclo escolar (primer periodo, segundo periodo ó ambos)

    Estos reportes son generados en Excel, y en ellos se muestra: año, periodo, especialidad, la

    materia, el grupo, el maestro, el número de alumnos inscritos, cuantos reprobaron.

    Se invita a los alumnos para que revisen su historial académico (Kardex), y en caso de contar

    una o varias materias reprobadas, deberán acudir con su coordinador de carrera, para que les

    oriente en la solución de su problema.

    El Instituto Tecnológico de La Paz cuenta con un programa de asesoŕıas, aunque estas son

    voluntarias para los alumnos. Cuando el alumno presenta una o varias materias reprobadas,

    7

  • 2.2. BASE DE DATOS RELACIONAL 8

    debe de acudir con su coordinador para que esté vea si existe la posibilidad de abrir un grupo

    especial, la cual va a depender de la cantidad de alumnos que soliciten la misma materia, ya

    que para abrir los grupos especiales se necesita un mı́nimo de 15 alumnos. Además, se cuenta

    con los cursos de verano, en los cuales el cupo mı́nimo es de 20 alumnos. A diferencia de los

    grupos especiales, los cursos de verano tienen costo extra para el estudiante, ya que se contrata

    al docente que impartirá la clase.

    2.2. Base de datos relacional

    Es una colección de relaciones(tablas). Cada tabla consta de un conjunto de atributos (columnas

    o campos) y puede contener un gran número de tuplas (registros o columnas), las cuales repre-

    sentan un objeto y se caracterizan por poseer una clave única o primaria que los identifica[8].

    2.3. Bodega de Datos

    En 1997 William H. Inmon define una bodega de datos o Data Warehouse, como una colección

    de datos integrados orientados a temas, no-volátiles y variables en el tiempo, organizados para

    soportar necesidades empresariales. Según esta definición, es un sistema de información donde

    los datos de una empresa son recolectados, organizados y agrupados con respecto a los hechos o

    las actividades del negocio. Además, el uso del atributo tiempo permite mantener y referenciar

    información tanto histórica como reciente, y es no volátil, porque después de que los datos son

    cargados a la bodega, los cambios sobre ellos son poco frecuentes y se pueden mantener por

    largos peŕıodos de tiempo .

    La caracteŕıstica más importante de la bodega de datos es la integración. Datos tomados de

    diferentes fuentes, cargados en el almacén de datos. Los datos capturados serán transformados,

    limpiados, reorganizados, y resumidos.

  • 2.4. MODELOS DE BASES DE DATOS MULTIDIMENSIONALES 9

    2.4. Modelos de bases de datos multidimensionales

    Es una técnica de diseño que busca presentar los datos en un estándar, que permita una recu-

    peración adecuada de éstos. Los elementos básicos del modelo multidimensional son las tablas

    y los esquemas.

    La información se representa como matrices multidimensionales, cuadros de múltiples entradas

    o funciones de varias variables sobre conjuntos finitos. Cada una de estas matrices se denomina

    Cubo. A los ejes se les llama Dimensiones y al dato que se presenta en la matriz, se le llama

    Medida. A los elementos del producto cartesiano de los ejes (dimensiones) se le llama Coorde-

    nadas. Un hipercubo, por tanto, deberá ser reestructurado cada vez que se le agreguen datos

    o se modifiquen los ya existentes, ya que la información no está en tablas, sino organizada de

    manera dimensional.

    2.4.1. Tabla de Hechos

    Corresponde a lo que se desea medir a partir de los datos presentes en el Sistema. Es el objeto a

    analizar, además posee atributos llamados atributos de hechos o śıntesis, estos atributos son de

    tipo cuantitativo, cuyos valores (cantidades) se obtienen, generalmente por aplicación de una

    función estad́ıstica que resume un conjunto de valores en un único valor.

    2.4.2. Tabla de dimensiones

    La dimensión de un hecho determina la granularidad con que el hecho podrá ser analizado. Las

    tablas de dimensiones representan cada uno de los ejes en un espacio multidimensional. Como

    todas las tablas, también poseen atributos llamados dimensión o de clasificación, los que son de

    tipo cualitativo (sus valores son modalidades) que suministran el contexto en que se obtienen las

    medidas en un esquema de hecho. Las dimensiones poseen jerarqúıas, que son varios atributos

    unidos mediante una relación de tipo jerárquico. Por ejemplo, la dimensión tiempo puede tener

    niveles d́ıa, mes y año.

  • 2.5. MINERÍA DE DATOS 10

    2.4.3. Mercados de datos (Data Marts)

    Un cubo multidimensional o cubo, representa o convierte los datos planos que se encuentran en

    filas y columnas, en una matriz de N dimensiones, como se muestra en la figura 2.1.

    Los objetos más importantes que se pueden incluir en un cubo multidimensional son los si-

    guientes: Los indicadores o sumas que se efectúan sobre algún hecho pertenecientes a una tabla

    de hechos, los atributos (Campos o criterios de análisis de las tablas de dimensiones) y las

    jerarqúıas (relaciones lógicas entre dos o más atributos)[11].

    Figura 2.1: Ejemplo de un cubo multidimensional.

    2.5. Mineŕıa de datos

    La mineŕıa de datos es un conjunto de técnicas y herramientas aplicadas al proceso no trivial

    de extraer y presentar conocimiento impĺıcito, previamente desconocido, potencialmente útil y

    humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de

    forma automatizada tendencias y comportamientos.

    La mineŕıa de datos tiene como objetivo analizar los datos para extraer conocimiento. Este

    conocimiento puede ser en forma de relaciones, patrones o reglas inferidos de los datos y (pre-

    viamente) desconocidos, o bien en forma de una descripción más concisa (un resumen de los

    mismos). Estas relaciones constituyen el modelo de los datos analizados. Existen muchas formas

  • 2.5. MINERÍA DE DATOS 11

    de representar modelos (predictivos y descriptivos) y cada una determina el tipo de técnica que

    puede usarse para inferirlos.

    Existen términos que se utilizan como sinónimos de la mineŕıa de datos, y uno de ellos es el

    de la extracción o “descubrimiento de conocimiento en base de datos” (Knowledge Discovery in

    Databases, KDD).

    La mineŕıa de datos es una fase del proceso completo de descubrimiento de conocimiento que

    involucra varios pasos:

    1 Entender el dominio de aplicación, el conocimiento relevante a utilizar y las metas del usuario.

    2 Seleccionar un conjunto de datos en donde realizar el proceso de descubrimiento.

    3 Limpiar y pre-procesar los datos, diseñando una estrategia adecuada para manejar ruido,

    valores incompletos, valores fuera de rango, valores inconsistentes, etc.

    4 Seleccionar la tarea de descubrimiento a realizar. Por ejemplo: clasificación, agrupamiento o

    “clustering”, reglas de asociación, etc.

    5 Seleccionar los algoritmos a utilizar.

    6 Transformar los datos al formato requerido por el algoritmo espećıfico de explotación de datos,

    hallando los atributos útiles, reduciendo las dimensiones de los datos, etc.

    7 Llevar a cabo el procesamiento de mineŕıa de datos para encontrar patrones interesantes.

    8 Evaluar los patrones descubiertos y presentación de los mismos mediante técnicas de visua-

    lización. Quizás sea necesario eliminar patrones redundantes o no interesantes, o se necesite

    repetir algún paso anterior con otros datos, con otros algoritmos, con otras metas o con otras

    estrategias

    9 Utilizar el conocimiento descubierto, incorporándolo dentro de un sistema o simplemente para

    almacenarlo y reportarlo a las personas interesadas.

  • 2.5. MINERÍA DE DATOS 12

    2.5.1. Tipos de mineŕıa de datos

    Modelos predictivos.

    Pretenden estimar valores futuros o desconocidos de variables de interés, que denominamos

    variables objetivo o dependientes, usando otras variables o campos de la base de datos,

    a las que nos referiremos como variables independientes o predictivas. Entre las tareas

    predictivas encontramos la clasificación y la regresión[8].

    Modelos descriptivos.

    Identifican patrones que explican o resumen los datos, es decir, sirven para explorar las

    propiedades de los datos examinados, no para predecir nuevos datos. Entre las tareas des-

    criptivas está el agrupamiento (clustering), las reglas de asociación, las reglas de asociación

    secuenciales y las correlaciones[8].

    Figura 2.2: Tareas o técnicas.

  • 2.5. MINERÍA DE DATOS 13

    En la figura 2.2, información sacada de [8]se muestra una tabla con algunas tareas y algunas

    técnicas o algoritmos que pueden aplicarse a los modelos predictivos y descriptivos.

    2.5.2. Funciones de la mineŕıa de datos.

    Las funciones de mineŕıa de datos se dividen en dos categoŕıas, supervisadas y no supervisadas.

    Mineŕıa de datos supervisada.

    El aprendizaje supervisado es también conocido como aprendizaje dirigido. El proceso

    de aprendizaje es dirigido por un atributo u objetivo dependiente previamente conoci-

    do. El aprendizaje supervisado generalmente resulta en modelos predictivos. Siendo este

    el contraste para el aprendizaje no supervisado, donde la meta es la detección de patrones.

    La construcción de un modelo supervisado involucra el entrenamiento, un proceso me-

    diante el cual el software analiza muchos casos donde el valor objetivo ya es conocido.

    En el proceso de entrenamiento, el modelo “aprende” la lógica de hacer la predicción. Por

    ejemplo, un modelo que busca identificar los clientes que probablemente respondan a una

    promoción, debe ser entrenado para que analice las caracteŕısticas de muchos clientes que

    ya se sabe que respondieron o no respondieron a una promoción en el pasado [2].

    Mineŕıa de datos no supervisada.

    El aprendizaje no supervisado es no dirigido. No hay distinción entre atributos depen-

    dientes e independientes. Es decir, no hay un resultado previamente conocido que guie al

    algoritmo en la construcción del modelo. Por lo tanto, la mineŕıa de datos no supervisada

    puede ser usada para propósitos descriptivos. Aunque también puede ser usada para hacer

    predicciones [2].

  • 2.5. MINERÍA DE DATOS 14

    2.5.3. Técnicas en mineŕıa de datos

    Los hay de dos tipos de técnicas en función de si se obtiene un modelo o no: retardados y

    anticipados. Los métodos sin modelo y con modelo reciben generalmente el nombre de métodos

    retardados o perezosos (lazzy) y métodos anticipativos o impacientes (eager).

    1 Métodos retardados:

    El método responde sólo cuando es requerido.

    No se construye un modelo.

    La optimización es local.

    Los datos de entrada deben preservarse para toda predicción.

    Si hay una gran cantidad de datos el cálculo de cada instancia nueva es costoso.

    No se requiere entrenar al modelo.

    Algunas opciones son: Vecinos más próximos, regresión lineal.

    2 Métodos anticipados:

    Se obtiene un modelo a partir de los datos de entrada.

    Los datos de entrada no son necesarios para responder a las nuevas instancias.

    La optimización es global.

    El tiempo de entrenamiento es grande.

    Puede responder eficientemente a las nuevas instancias.

    Algunos casos donde el modelo es claro son:

    Reglas difusas, arboles de decisión.

    Sistemas basados en reglas.

    En la figura 2.3, se muestra algunos algoritmos de acuerdo a las técnicas[8]:

  • 2.5. MINERÍA DE DATOS 15

    Figura 2.3: Clasificación de métodos.

    2.5.4. Clasificación mineŕıa de datos

    Las principales técnicas de mineŕıa de datos se suelen clasificar según su tarea de descubrimiento

    en:

    Agrupación.

    La agrupación o clustering es la tarea descriptiva y consiste en obtener grupos “natura-

    les” a partir de los datos. Los datos son agrupados basándose en el principio de maximizar

    la similitud entre los elementos de un grupo minimizando la similitud entre los distintos

    grupos. Al agrupamiento se le suele llamar segmentación, ya que parten o segmenta los

    datos en grupos que pueden ser o no disjuntos [14]. Dos de los algoritmos de clustering

    más utilizados son SELF ORGANIZING MAPS (SOM) y K-MEANS[8].

    Algoritmo de agrupación EM:

    Refina de forma iteractiva un modelo de clústeres inicial para ajustar los datos y deter-

    mina la probabilidad de que un punto de datos exista en un clúster.El algoritmo EM,

    procede en dos pasos que se repiten de forma iterativa:

  • 2.5. MINERÍA DE DATOS 16

    1 Expectación Utiliza los valores de los parámetros, iniciales o proporcionados por el

    paso Maximización , obteniendo diferentes formas de la FDP (Función de Densidad

    de Probabilidad) buscada. La función usada para determinar el ajuste es el logaritmo

    de la probabilidad de los datos dado el modelo.

    2 Maximización Obtiene nuevos valores de los parámetros a partir de los datos propor-

    cionados.

    Después de una serie de iteraciones, el algoritmo EM tiende a un máximo local. Finalmen-

    te se obtendrá un conjunto de clústeres que agrupan el conjunto de proyectos original.

    Clasificación.

    Se utiliza para predecir la clase de nuevas instancias (registro en la base de datos) de las

    que se desconoce la clase. El objetivo del algoritmo es maximizar la razón de precisión

    de la clasificación de las nuevas instancias, la cual se calcula como el cociente entre las

    predicciones correctas y el número total de predicciones (correctas e incorrectas) [8].

    Los algoritmos mayormente utilizados para las tareas de clasificación son los algoritmos

    de inducción. Uno de los enfoques más utilizados en este tipo de algoritmos son los arboles

    de decisión.

    Reglas de asociación.

    Tienen por objetivo identificar relaciones no expĺıcitas entre atributos categóricos. Pueden

    ser de muchas formas, aunque la formulación más común es del estilo “si el atributo X

    toma un valor d entonces el atributo Y toma el valor de b”. Las reglas de asociación no

    implican una relación causa-efecto, es decir, puede o no existir una causa para que los

    datos estén asociados. Este tipo se utiliza frecuentemente en el análisis de la cesta de la

    compra, para identificar productos que son frecuentemente comprados juntos[8].

    Existen varios algoritmos que realizan el descubrimiento de reglas de asociación, uno de

    los más utilizados es APRIORI. Cada una de las tareas, requiere métodos, técnicas o

    algoritmos para resolverlas.

  • 2.5. MINERÍA DE DATOS 17

    2.5.5. Metodoloǵıas de mineŕıa de datos.

    Las metodoloǵıas de mineŕıa de datos nos permiten llevar a cabo el proceso de forma sistemáti-

    ca y estructurada para obtener resultados exitosos. La utilización de una metodoloǵıa facilita

    la planeación y dirección del proyecto, lo que nos permite realizar un mejor seguimiento del

    mismo. En la figura 2.4 se observan las principales metodoloǵıas que se pueden emplear para la

    elaboración de la presente investigación.

    Figura 2.4: Encuesta realizada por KDnuggets en el año 2007

    Las principales metodoloǵıas de planificación de proyectos de mineŕıa de datos son:

  • 2.5. MINERÍA DE DATOS 18

    Metodoloǵıa SEMMA.

    Es una metodoloǵıa de mineŕıa de datos desarrollada por SAS (Statical Analysis System).

    Su nombre corresponde a las iniciales de sus cinco fases principales y se define como “el

    proceso de selección, exploración y modelado de grandes volúmenes de datos para descubrir

    patrones de negocio desconocidos. Las cinco fases básicas del proceso: Sample (Muestreo),

    Explore (Exploración), Modify (Modificación), Model (Modelado), Assess (Valoración),

    las cuales se muestran en la figura 2.5.

    Figura 2.5: Fases metodoloǵıa SEMMA

    La metodoloǵıa SEMMA se encuentra enfocada especialmente en aspectos técnicos, ex-

    cluyendo actividades de análisis y comprensión del problema que se está abordando. Fue

    propuesta especialmente para trabajar con el software de mineŕıa de datos de la compañ́ıa

    SAS. Este producto organiza sus herramientas (llamadas “nodos”) en base a las distintas

    fases que componen la metodoloǵıa[? ].

    1 Sample(Extracción de una muestra representativa).

    En esta primera fase de la metodoloǵıa, se realiza la extracción de un conjunto de

    datos que sean una buena representación de la población a analizar, esto se hace con

    el objetivo de facilitar los procesos de minado sobre los datos, reduciendo los tiempos

    que se necesita para determinar la información valiosa para el negocio.

    2 Explore (Exploración de los datos en la muestra).

    En esta fase, se hace un recorrido a través de los datos extráıdos en la muestra para

    detectar, identificar y eliminar datos anómalos, ayudando a refinar los procesos de

    descubrimiento de información en fases siguientes del proceso.

  • 2.5. MINERÍA DE DATOS 19

    En este punto del proceso, la exploración se puede realizar a través de medios vi-

    suales, aunque muchas veces no es suficiente este método, es por eso, que además de

    la visualización se pueden manejar diferentes técnicas estad́ısticas como análisis de

    factores, análisis de correspondencias, entre otros.

    3 Modify (Modificación de los datos).

    Esta modificación de los datos se puede realizar creando, seleccionando y transfor-

    mando las variables en las cuales se va a enfocar el proceso de selección del modelo.

    Muchas veces se tendrá la necesidad de realizar modificaciones cuando los datos que

    se están analizando cambien. Esto se debe a que el entorno en el que se trabaja la

    mineŕıa de datos es dinámico e iterativo.

    4 Model (Modelación de los datos).

    En esta fase, las herramientas de software se encargan de realizar una búsqueda com-

    pleta de combinaciones de datos que juntos predecirán de una manera confiable los

    resultados buscados. Es en esta parte donde las técnicas y métodos de mineŕıa de da-

    tos entran a jugar un papel importante para la solución de los problemas que fueron

    identificados al iniciar el proyecto de mineŕıa de datos.

    5 Assess (Evaluación de los datos obtenidos).

    Después de que la fase de modelación presente los resultados obtenidos de la aplica-

    ción de los métodos de mineŕıa de datos al conjunto de datos. Se deberá realizar un

    análisis de los resultados para ver si estos fueron exitosos de acuerdo a las entradas

    que se tuvieron para analizar el problema.

    Una buena práctica para identificar si los resultados con el modelo creado son los

    esperados, es aplicar este modelo a una porción de datos diferente. Si el modelo

    funciona correctamente para esta muestra y para la muestra utilizada para el proce-

    so de creación del modelo, se tiene una buena probabilidad de tener un modelo valido.

  • 2.5. MINERÍA DE DATOS 20

    Metodoloǵıa KDD.(Knowledge Discovery in Databases)

    El proceso de extracción de conocimiento (siglas en ingles KDD), consiste en extraer o

    identificar lo que se considera como conocimiento de acuerdo a la especificación de ciertos

    parámetros, usando una base de datos. Esta metodoloǵıa consiste en cinco etapas, las

    cuales se muestran en la figura 2.6. y son:

    1. Selección de datos.

    En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar.

    Es la etapa donde los datos relevantes para el análisis son extráıdos desde la o las

    fuentes de datos.

    2. Pre-procesamiento.

    Esta etapa consiste en la preparación y limpieza de los datos extráıdos desde las

    distintas fuentes de datos en una forma manejable, necesaria para las fases poste-

    riores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o

    en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una

    estructura de datos adecuada para su posterior transformación.

    3. Transformación.

    Consiste en el tratamiento preliminar de los datos, transformación y generación de

    nuevas variables a partir de las ya existentes con una estructura de datos apropiada.

    Aqúı se realizan operaciones de agregación o normalización, consolidando los datos

    de una forma necesaria para la fase siguiente.

    4. Mineŕıa de datos.

    Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son apli-

    cados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,

    potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.

  • 2.5. MINERÍA DE DATOS 21

    5. Interpretación y Evaluación.

    Se identifican los patrones obtenidos y que son realmente interesantes, basándose en

    algunas medidas y se realiza una evaluación de los resultados obtenidos.

    Figura 2.6: Etapas del proceso KDD

    Metodoloǵıa CRISP-DM.

    La metodoloǵıa CRISP–DM, fue creada por el grupo de empresas SPSS, NCR y Daimer

    Chrysler en el año 2000, y es una gúıa de referencia que más se utiliza en el desarrollo de

    proyectos de mineŕıa de datos.

    Su proceso se estructura en seis fases: Comprensión del negocio, Comprensión de los datos,

    Preparación de los datos, Modelado, Evaluación e Implantación. La figura 2.7. muestra

    las fases que la componen y cómo interactúan unas con otras.

    La sucesión de fases es flexible y se componen en varias tareas generales de segundo ni-

    vel. Las tareas generales se proyectan a tareas espećıficas, las cuales son una gúıa para

    determinar qué actividades desarrollar en cada etapa. Es decir, CRISP-DM establece un

    conjunto de tareas y actividades para cada fase del proyecto [15].

    Fases de la metodoloǵıa CRISP-DM:

  • 2.5. MINERÍA DE DATOS 22

    Figura 2.7: Metodoloǵıa CRISP-DM.

    1 Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técni-

    ca):

    • Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios

    de éxito).

    • Evaluación de la situación (Inventario de recursos, requerimientos, supuestos,

    terminoloǵıas propias del negocio).

    • Establecimiento de los objetivos de la mineŕıa de datos (objetivos y criterios de

    éxito).

    • Generación del plan del proyecto (plan, herramientas, equipo y técnicas).

    2 Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos

    del negocio):

    • Recopilación inicial de datos.

    • Descripción de los datos.

    • Exploración de los datos.

    • Verificación de calidad de datos.

    3 Preparación de los datos (Obtener la vista minable o dataset):

  • 2.5. MINERÍA DE DATOS 23

    • Selección de los datos.

    • Limpieza de datos.

    • Construcción de datos.

    • Integración de datos.

    • Formateo de datos.

    4 Modelado (Aplicar las técnicas de mineŕıa de datos a los dataset):

    • Selección de la técnica de modelado.

    • Diseño de la evaluación.

    • Construcción del modelo.

    • Evaluación del modelo.

    5 Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las

    necesidades del negocio):

    • Evaluación de resultados.

    • Revisar el proceso.

    • Establecimiento de los siguientes pasos o acciones.

    6 Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de

    decisiones de la organización):

    • Planificación de despliegue.

    • Planificación de la monitorización y del mantenimiento.

    • Generación de informe final.

    • Revisión del proyecto.

  • Caṕıtulo 3

    Diseño de la solución.

    3.1. Selección de metodoloǵıa

    Para la elección de la metodoloǵıa se hizo con base a la comparación de las metodoloǵıas

    existentes. Para realizar este proyecto, la metodoloǵıa CRISP-DM, es la adecuada ya que es

    más flexible a la hora de seguir las distintas fases.

    La metodoloǵıa CRISP-DM tienen un conjunto de actividades ordenadas en seis fases, algunas

    son bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las

    fases anteriores, por lo que implementamos en la fase de evaluación, poder regresar al modelado

    de los datos, y que nos permitiera corregir o adecuar los modelos para alcanzar los objetivos

    finales del proyecto, quedando como resultado la figura 3.1, en la que se observa la ĺınea que se

    agregó en la fase de evaluación y que nos permite regresar a la fase de modelado.

    24

  • 3.2. COMPRENSIÓN DEL PROBLEMA 25

    Figura 3.1: Metodoloǵıa CRISP-DM modificada

    3.2. Comprensión del problema

    3.2.1. Determinación de los objetivos del problema

    3.2.1.1. Contexto.

    Este punto es importante para comprender el problema y lo que se busca obtener. Por lo tanto,

    lo primero que se debe hacer, es registrar toda la información conocida al respecto.

    Con el objeto de buscar los factores en el desempeño académico de los alumnos del Instituto

    Tecnológico de la Paz, la principal fuente de datos para llevar acabo está investigación la consti-

    tuyen los registros históricos de la base de datos académica, registrados del nivel de licenciatura,

    correspondientes a los periodos 2006 al 2015.

    3.2.1.2. Objetivos.

    Los objetivos son:

    Cumplir con los contenidos de los planes y Programas de estudio, alcanzando altos ni-

  • 3.2. COMPRENSIÓN DEL PROBLEMA 26

    veles en el ı́ndice de titulados, además de brindar clases de calidad para la formación de

    profesionistas de excelencia, capaces de responder de manera efectiva y espećıfica a las

    necesidades regionales, con calidad, productividad y una visión nacional e internacional.

    Fomentar la participación en actividades académicas, culturales y deportivas (Concursos

    de Ciencias Básicas, Creatividad, Emprendedores: Actividades Deportivas y Culturales).

    3.2.1.3. Criterios de exito.

    Al cumplir con los objetivos podremos identificar patrones de comportamiento en el aprove-

    chamiento académico de los alumnos del Instituto, para determinar cuáles alumnos necesitarán

    más apoyo o establecer algún seguimiento académico, que mejore su desempeño académico.

    3.2.2. Evaluación de la situación.

    El Instituto Tecnológico de la Paz cuenta con las herramientas necesarias para el desarrollo

    de este proyecto, además de contar con un sistema de bases de datos que permite aplicar las

    herramientas de mineŕıa de datos, aśı como un sistema para analizar la información.

    Las pruebas de los modelos de mineŕıa de datos se realizarán dentro del Instituto Tecnológico

    de La Paz en el área de Posgrado, donde cuenta con servidores y software necesarios para la

    aplicación de las diversas técnicas de mineŕıa de datos.

    Se diseñó y desarrollo una bodega de datos mediante el cual se generan cubos multidimensionales

    para consultas directas.

    Para realizar las pruebas e implementación de los modelos de mineŕıa de datos se tiene la opción

    de utilizar una versión para investigación de SQL Server 2012 con licencia.

  • 3.2. COMPRENSIÓN DEL PROBLEMA 27

    3.2.3. Objetivos de mineŕıa de datos

    Implementar un modelo de mineŕıa de datos que nos ayude a agrupar y asociar las variables de

    los alumnos en que muestren posibles tendencias o patrones de comportamiento relacionadas

    con su desempeño académico.

    Para garantizar el éxito del objetivo mencionado, se realizará un plan de acuerdo a la metodo-

    loǵıa en la que se definirán las funciones de mineŕıa de datos a utilizar.

    3.2.4. Evaluación inicial de Funciones y Algoritmos.

    3.2.4.1. Técnicas de Mineŕıa de Datos.

    Para llevar a cabo el proyecto se utilizó la herramienta SQL Server 2012 de Microsoft, donde se

    comparan los siguientes algoritmos:

    Reglas de Asociación.

    Los modelos de asociación se generan basándose en conjuntos de datos que contienen

    identificadores para casos individuales y para los elementos que contienen los casos. Un

    grupo de elementos de un caso se denomina un conjunto de elementos. Un modelo de

    asociación se compone de una serie de conjuntos de elementos y de las reglas que describen

    cómo estos elementos se agrupan dentro de los casos[2].

    Para efectos de la realización del proyecto, este algoritmo es de utilidad ya que podemos

    identificar los elementos de asociación entre los alumnos que reprobaron o aprobaron, en

    determinada materia, es decir, identificar lo que tienen en común cada uno de ellos con el

    resto de los registros que cumplen con el parámetro deseado.

    Algoritmo de Clústeres.

    El algoritmo de agrupamiento de Microsoft es un algoritmo de segmentación que itera en

    los casos de un conjunto de datos para agruparlos en grupos que contengan caracteŕısticas

  • 3.3. RECOLECCIÓN DE LOS DATOS 28

    similares. Estas agrupaciones son útiles para la exploración de datos, la identificación de

    anomaĺıas en los datos y la creación de predicciones[2].

    La aplicación de este algoritmo nos permite agrupar y clasificar a los alumnos que repro-

    baron cierta materia, y segmentarlos de acuerdo a la coincidencia en diferentes parámetros

    e ir formando diversos grupos de los mismos, además de crear relaciones entre cada uno

    de los alumnos que integran el grupo.

    3.3. Recolección de los datos

    3.3.1. Recolección de datos iniciales.

    En esta etapa se recolectaron los datos de los alumnos del Instituto Tecnológico de La Paz,

    que se van a cargar al modelo de mineŕıa de datos. Se hace uso de las herramientas para la

    visualización y/o manipulación de los datos de origen.

    La base de datos del Instituto Tecnológico de la Paz está desarrollada o generada en MySQL,

    para la realización de nuestro proyecto fue necesario exportarla a SQL Server mediante el uso

    de la herramienta llamada SQL Server Migration Assistant for MySql, ya que SQL Server tiene

    Herramientas para el uso y creación de modelos Multidimensionales.

    Este proyecto se basa en una bodega de datos que previamente se construyó y validó en SQL

    Server 2012.

    El origen de los datos está dividido por una tabla de hechos que se generó a partir de una tabla

    llamada Kardex, con sus tablas relacionadas que son: alumnos, materias, grupos, maestros,

    especialidades.

    3.3.2. Descripción de los datos.

    En esta etapa se generó un reporte con las propiedades de las tablas y el formato de los datos, aśı

    como la cantidad de registros y campos de cada tabla que se utilizarán para nuestro proyecto.

  • 3.4. PREPARACIÓN DE LOS DATOS 29

    La base de datos llamada “escolar” es con la que se trabaja en el proyecto. Cuenta con 535671

    registros históricos de las notas de los 19766 alumnos en el Instituto Tecnológico de La Paz,

    cuenta con 79 tablas, que se muestran en la figura 3.2.

    Figura 3.2: Tablas con que cuenta la base de datos escolar.

    Las tablas que se requieren para el análisis del proyecto se detallan en el anexo A.

    3.4. Preparación de los datos

    En esta fase se llevan a cabo todas las tareas para construir una bodega de datos que serán utili-

    zados en las herramientas de modelado, donde se llevó el proceso de extracción, transformación

    y carga (ETL). Las cuales son ejecutadas en múltiples oportunidades y sin orden e incluyen

    selección de tablas, registros y atributos, aśı como la transformación y limpieza de datos para

    las herramientas de modelado.

  • 3.4. PREPARACIÓN DE LOS DATOS 30

    3.4.1. Seleccionar y verificar los datos.

    Para este proyecto solo se va a utilizar un origen de datos y en el cual se seleccionaron 9 de

    las 79 tablas con que cuenta la base de datos “escolar”, que nos serv́ıan para el desarrollo de

    nuestro proyecto. Las tablas seleccionadas son:

    Tablas seleccionadas

    Tabla Registros

    Kardex 535,671

    Alumnos 19,766

    Materias 3,316

    Grupos 22,106

    Personal 206

    Especialidades 47

    Planes 81

    Escuelas 70

    Departamentos 26

    Se verificó que los datos de la base de datos, no hubiera incongruencias y se validó que los

    registros de las materias de los alumnos que están dados de alta en la tabla Kardex, existieran

    sus registros en las tablas de alumnos.

    3.4.2. Limpiar los datos.

    En esta fase se unificaron criterios para empezar el proceso ETL propiamente dicho. Es impor-

    tante tener la información consolidada, es decir, todos los datos sean correctos y tener una sola

    visión para todos los usuarios.

  • 3.4. PREPARACIÓN DE LOS DATOS 31

    Además, se removieron los valores inconsistentes y se usaron los mismos valores estándar para

    todos los datos. También se debe mencionar que estos datos están siendo utilizados para mostrar

    información mediante cubos multidimensionales y son cien por ciento confiables, homogéneos y

    sin datos nulos.

    3.4.3. Integración de los datos.

    En este proyecto fue necesario integrar la clave de maestro y de especialidad a la tabla de

    Kardex, ya que desde esta tabla no se pod́ıa obtener los datos relacionados del maestro que

    impartió la materia al alumno, aśı como la especialidad del alumno. Por lo tanto, de acuerdo

    a su clave, se obtuvo e integró el nombre del maestro que impartió la materia, aśı como a la

    especialidad a la que pertenece el alumno.

    Se agregaron nuevos campos, como es el de ‘curso’, ‘acredito’, y ‘rangocalificación’, los cuales

    son las claves para acceder a sus respectivas tablas, que fueron creadas a partir de los datos que

    se encuentran en la tabla Kardex.

    Para llevar a cabo el proceso de ETL (Extracción, Transformación y Carga), se hizo uso de la

    herramienta de Microsoft Visual Studio 2010, quedando como resultado el siguiente proyecto

    que se muestra en la figura 3.3.

    3.4.4. Dar formato a los datos.

    En este punto, la metodoloǵıa nos indica la posibilidad de verificar o dar nuevamente formato

    a la tabla de datos que va ser la entrada del modelo de mineŕıa de datos. Revisar los últimos

    cambios que se hicieron y/o reorganizar las columnas de la tabla. Todo esto con la finalidad de

    preparar el origen de datos para lo que será la siguiente etapa de la metodoloǵıa, la etapa de

    modelado de los datos.

    En este caso se hizo una verificación de los cambios descritos anteriormente, validando que

    hayan sido correctos. El resultado del paso anterior, nos queda un modelo multidimensional que

  • 3.5. MODELADO 32

    Figura 3.3: Modulo del Proceso ETL en SQL Server 2012.

    se muestra en la figura 3.4., y que es la base para la construcción de nuestro almacén de datos.

    3.5. Modelado

    De acuerdo a las tareas que se deben seguir en la metodoloǵıa CRISP-DM, sigue la etapa del

    modelado, la cual establece que dentro de las tareas a seguir son: seleccionar la técnica que se

    va a utilizar, generar el diseño de pruebas, la construcción del modelo (definir sus parámetros,

    modelos y su descripción) y por último la evaluación del mismo, en la cual se confirma o se

    modifican los parámetros.

  • 3.5. MODELADO 33

    Figura 3.4: Modelo multidimensional tipo constelación.

    3.5.1. Seleccionar la técnica del modelado.

    En esta actividad, se da el primer paso del modelado en el cual se selecciona la técnica o

    algoritmo que se va a utilizar.

    3.5.1.1. Técnica del modelado.

    Las técnicas o algoritmos que se seleccionaron después de un análisis de la información y en base

    al objetivo de nuestra investigación, se concluyó que son los que generan modelos descriptivos,

    que nos sirven para identificar patrones que expliquen o resuman los datos, es decir, para explorar

    las propiedades de los datos examinados, no para predecir nuevos datos.

    Los algoritmos para realizar nuestras pruebas son: la técnica de reglas de asociación con el

    algoritmo A priori, y la técnica de agrupamiento con los algoritmos de clústeres K-Medias y

    EM (Máxima Expectación).

    Se decidió por que son técnicas que nos permiten analizar la información histórica, y que nos

  • 3.5. MODELADO 34

    ayudan a encontrar patrones que describan la información, además permiten establecer relevan-

    cia de factores y si aquélla es positiva o negativa respecto a otro factor o variable a estudiar.

    3.5.2. Generar el diseño de pruebas.

    Para construir el modelo, primero se generó un mecanismo para poder probar su calidad y

    veracidad. Primero se estableció la estructura de mineŕıa de datos en la que se define los datos

    a partir de la cual se generan los modelos de mineŕıa de datos y que se muestra en la figura 3.5.

    En la estructura se especifica el origen de los datos, el número y el tipo de columnas. Una

    misma estructura de mineŕıa de datos puede admitir varios modelos de mineŕıa de datos que

    compartan el mismo dominio.

    Figura 3.5: Estructura de mineŕıa de datos

    En la figura 3.6 Se presenta los parámetros asociados para la base de datos de alumnos.

    HoldoutMaxCases = 0;

    Especifica el porcentaje máximo de casos en el origen de datos que se van a usar en la

    partición de exclusión que contiene el conjunto de pruebas para la estructura de mineŕıa

    de datos DWEscolar. Los casos restantes en el conjunto de datos se usan para el entre-

    namiento. El valor cero indica que no hay ningún ĺımite con respecto al número de casos

    que se pueden considerar como el conjunto de pruebas.

  • 3.5. MODELADO 35

    Figura 3.6: Parametros de la estructura de mineŕıa de datos DWEscolar

    HoldoutMaxPercent = 30;

    Especifica el porcentaje máximo de casos de exclusión para la estructura de mineŕıa de

    datos DWEscolar. Los casos restantes se usan para aprendizaje.

    Ya que se estableció la estructura de mineŕıa de datos, se procede a definir los modelos que se

    llevaran a cabo para la presente investigación, los cuales son: asociación A priori, De agrupa-

    miento (K-medias y EM).

    Para poder llevar a cabo el análisis en menor tiempo, se tomó como objeto de estudio los datos

    correspondientes a los alumnos de la carrera de Ingenieŕıa en Sistemas Computacionales. Las

    pruebas para el modelo que se utilizaron para analizar la calidad y el porcentaje de error, se

    establecieron de la siguiente manera:

    1 Se tomó como objeto de estudio solo los datos correspondientes a los alumnos de la Especia-

    lidad de Ingenieŕıa en Sistemas computacionales con 26,658 registros.

    2 Se realizan pruebas con las siguientes variables de entrada: alumno, maestro, materia, es-

    pecialidad, curso, tiempo y semestre. Para la variable predictiva se seleccionó la variable Id

    Acredito.

  • 3.5. MODELADO 36

    3 Posteriormente se validan los resultados y se ajustan los parámetros del algoritmo.

    3.5.3. Construcción de los modelos.

    Dado que se estableció la técnica de modelado y se diseñó el modelo de pruebas, se procede a rea-

    lizar la construcción del modelo. La implementación y ejecución de los algoritmos seleccionados,

    se describen a continuación:

    3.5.3.1. Algoritmo de Asociación A priori.

    Prueba #1. Como primera prueba se especificó el contenido y el tipo de datos de entrada,

    como se muestra en la figura 3.7.

    Figura 3.7: Tipo de datos de las columnas del algoritmo A priori.

  • 3.5. MODELADO 37

    Como paso siguiente se especificó las columnas de entrada de datos, aśı como la columna o

    variable para la predicción que se usarán en la aplicación del análisis y las cuales se muestran

    en la figura 3.8.

    Figura 3.8: Columnas a analizar del algoritmo A priori.

    Una vez que se estableció una probabilidad mı́nima de 80 % y un soporte mı́nimo de 67 %,

    se llevó acabo el primer análisis con la anterior configuración de variables de entrada y la va-

    riable de predicción, se generó las siguientes reglas de asociación que se muestran en la figura 3.9.

    Se muestra que hay una asociación fuerte de las materias con los alumnos, y nos indican las

    materias que tienen mayor incidencia en el nivel de reprobación en la carrera de ingenieŕıa en

    sistemas computacionales.

  • 3.5. MODELADO 38

    Figura 3.9: Reglas generadas en la ejecución del algoritmo A priori.

    Como segundo análisis se aplicó el algoritmo de asociación A priori a las siguientes carreras:

    Arquitectura

    Ingenieŕıa Civil

    Ingenieŕıa Bioqúımica

    Ingenieŕıa en Gestión Empresarial

    Ingenieŕıa Electromecánica

    Ingenieŕıa Industrial

    Licenciatura en Administración

    Contador Público

    Los resultados de cada una se muestran en el anexo B.

    Prueba #3.

    Como tercer análisis se aplicó el algoritmo de asociación A priori a todo el conjunto de datos

    contenidos en la bodega de datos DWEscolar, y que comprende las 9 especialidades (carreras)

    que ofrece el Instituto.

  • 3.5. MODELADO 39

    Como resultado se observó que no mostraba información clara al asociar los conjuntos de los

    elementos y en la generación de reglas que nos permitieran identificar los elementos de asociación

    entre los alumnos que reprobaron o aprobaron en determinada materia.

    3.5.3.2. Algoritmo de agrupamiento K-medianas.

    Prueba #1.

    La primera prueba se aplicó el algoritmo de clústeres de Microsoft, dicho algoritmo nos pro-

    porciona dos diferentes métodos para crear clústeres, el primero es el K-medianas, el cual es

    un método en los que los datos pueden pertenecer a un solo clúster y en el que se calcula una

    probabilidad de pertenencia de cada punto de datos a ese clúster. El algoritmo K-medianas

    cuenta con dos métodos: escalable, donde solo se usa en los primeros 50000 casos y no escalable,

    donde se aplica a todos los datos de nuestro modelo.

    Como primera prueba se estableció las columnas de entradas de los datos (IdAlumno, IdMa-

    teria, IdMaestro, IdCurso), aśı como la variable de predicción (IdAcredito). Los valores de los

    parámetros utilizados en el algoritmo de clúster que establecimos para seleccionar el K-medianas

    escalable (CLUSTERING METHOD=3) y el número de clúster (CLUSTER COUNT=7).

    Figura 3.10: Diagrama de clúster obtenido en la prueba #1 del algoritmo K-medianas.

  • 3.5. MODELADO 40

    Una vez que se realizó el primer análisis con el algoritmo seleccionado, se generó un diagrama de

    grupos como se muestra en la figura 3.10, los conjuntos generados muestran información a partir

    de las variables de entrada, y nos indican que son muy similares en los niveles de probabilidad

    de la desviación t́ıpica de las distancias de cada uno de ellos.

    Como resultado también se generó un resumen de los perfiles de grupos, que se muestra en la

    figura 3.11. y muestra que las variables curso, materia y maestro, tienen relación en el aprove-

    chamiento académico de los alumnos.

    Figura 3.11: Perfil de clúster obtenido en la prueba #1 del algoritmo K-medianas.

    Los resultados de este primer análisis, es que las variables, materia y maestro tienen una fuerte

    relación en la aprobación y reprobación de los alumnos, sin embargo, para determinar con mayor

    precisión el grado de influencia de cada variable se procede a ejecutar una segunda prueba.

    Prueba #2

    Como segunda prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-

    Materia, IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito). Se seleccionó el

    mismo método de agrupamiento, el K-Medianas escalable (CLUSTERING METHOD=3), pero

    modificamos el número de grupos (CLUSTER COUNT) por un valor de 5.

    Se modificó el número de grupos, ya que se busca que agrupe en un conjunto de datos de acuerdo

  • 3.5. MODELADO 41

    al estado de predicción, que son acredito o no.

    Una vez que se llevó acabo el análisis con el algoritmo seleccionado, se generó un nuevo diagrama

    de grupos como se muestra en la figura 3.12. Observamos que el diagrama resultante muestra

    información más clara y que los grupos generados, tienen una densidad muy similar, es decir

    que los v́ınculos son más fuertes al agrupar las variables, e indican que es similar en la mayoŕıa

    de ellos.

    Figura 3.12: Diagrama de clúster obtenido en la prueba #2 del algoritmo K-medianas.

    Figura 3.13: Perfil de clúster obtenido en la prueba #2 del algoritmo K-medianas.

    El resultado que se observó al generar los perfiles del grupo se muestran en la figura 3.13, se

    puede apreciar que los grupos generados no se distingue una diferencia.

  • 3.5. MODELADO 42

    Prueba #3

    Como tercera prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-

    Materia, IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito). Se seleccionó el

    mismo método de agrupamiento, el K-Medianas escalable (CLUSTERING METHOD=3), pero

    modificamos el número de grupos (CLUSTER COUNT) por un valor de 2.

    Una vez que se llevó acabo el análisis con el algoritmo seleccionado, se generó un nuevo diagrama

    de grupos como se muestra en la figura 3.14. Observamos que el diagrama resultante muestra

    información más clara y que los grupos generados, es decir que los v́ınculos son más fuertes al

    agrupar las variables.

    Figura 3.14: Diagrama de clúster obtenido en la prueba #3 del algoritmo K-medianas.

    El resultado que se observó al generar los perfiles del grupo se muestran en la figura 3.15, se

    puede apreciar que los grupos generados ya muestra información clara y precisa. Por lo tanto, ya

    se pueden identificar las tendencias o patrones de comportamiento entre los grupos generados.

    3.5.3.3. Algoritmo de agrupamiento Máxima Expectación (EM).

    Prueba #1.

    Como primera prueba se estableció las columnas de entradas de los datos (IdAlumno, IdMateria,

    IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito).

  • 3.5. MODELADO 43

    Figura 3.15: Perfil de clúster obtenido en la prueba #3 del algoritmo K-medianas.

    Los valores de los parámetros utilizados en el algoritmo de clúster que establecimos para

    seleccionar el EM escalable (CLUSTERING METHOD=1) y el número de clúster (CLUS-

    TER COUNT=7).

    Figura 3.16: Diagrama de clúster obtenido en la prueba #1 del algoritmo EM.

    Una vez que se realizó el primer análisis con el algoritmo seleccionado, se generó un diagrama

    de grupos como se muestra en la figura 3.16, los conjuntos generados muestran información a

    partir de las variables de entrada.

  • 3.5. MODELADO 44

    Figura 3.17: Perfil de clúster obtenido en la prueba #1 del algoritmo EM.

    Como resultado también se generó un resumen de los perfiles de grupos, que se muestra en la

    figura 3.17. y muestra que las variables curso, materia y maestro, tienen relación en el aprove-

    chamiento académico de los alumnos.

    Como resultado no se puede apreciar un agrupamiento claro de los alumnos que aprobaron y

    los que reprobaron.

    Prueba #2

    Como segunda prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-

    Materia, IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito). Se seleccionó el

    mismo método de agrupamiento, el EM escalable (CLUSTERING METHOD=1), pero modifi-

    camos el número de grupos (CLUSTER COUNT) por un valor de 5.

    Una vez que se llevó acabo el segundo análisis, generó un nuevo diagrama de grupos como se

    muestra en la figura 3.18. Observamos que el diagrama resultante muestra información más

    clara y que los grupos generados, tienen una densidad muy similar, es decir que los v́ınculos son

    más fuertes al agrupar las variables, e indican que es similar en la mayoŕıa de ellos.

    En la figura 3.19. Se muestra el resumen de los perfiles de los clústeres generados en el análisis

    de la información.

  • 3.5. MODELADO 45

    Figura 3.18: Diagrama de clúster obtenido en la prueba #2 del algoritmo EM.

    Figura 3.19: Perfil de clúster obtenido en la prueba #2 del algoritmo EM.

  • 3.5. MODELADO 46

    Prueba #3

    Como tercera prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-

    Materia, IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito). Se seleccionó el

    mismo método de agrupamiento, el EM escalable (CLUSTERING METHOD=1), pero modifi-

    camos el número de grupos (CLUSTER COUNT) por un valor de 2.

    Realizado el tercer análisis se generó un nuevo diagrama de grupos, como se muestra en la figura

    3.20. El diagrama resultante nos da información de los grupos generados, pero observamos que

    los grupos tienen una densidad muy similar.

    Figura 3.20: Diagrama de clúster obtenido en la prueba #3 del algoritmo EM.

    Figura 3.21: Perfil de clúster obtenido en la prueba #3 del algoritmo EM.

    Como se puede observar en la figura 3.21, los perfiles de grupos resultantes no muestran infor-

    mación clara, ya que siguen existiendo similitudes entre ellos.

  • 3.6. EVALUACIÓN DEL MODELO. 47

    3.6. Evaluación del modelo.

    Llegados a esta fase, cabe preguntarse cómo saber śı los modelos son suficientemente válidos

    para nuestros propósitos. Para ello, existen varios métodos para evaluar la calidad de un modelo

    a partir de datos reales.

    3.6.1. Gráfico de elevación.

    Un Gráfico de mejora respecto al modelo predictivo representa gráficamente la mejora que

    proporciona un modelo de mineŕıa de datos en comparación con una estimación aleatoria, y

    mide el cambio en términos de puntuación de la mejora respecto al modelo predictivo. Al

    comparar las puntuaciones de mejora respecto al modelo predictivo para las distintas partes del

    conjunto de datos y para los distintos modelos, puede determinar cuál es el mejor modelo y qué

    porcentaje de casos del conjunto de datos se beneficiaŕıa de aplicar las predicciones del modelo.

    Con un gráfico de mejora respecto al modelo predictivo, puede comparar la precisión de las

    predicciones para varios modelos que tienen el mismo atributo de predicción. También puede

    evaluar la exactitud de la predicción para un único resultado (un único valor del atributo de

    predicción) o para todos los resultados (todos los valores del atributo especificado).

    El gráfico de elevación para los modelos en estudio, se muestra en la figura 3.22. Acredito =

    1 (Reprobado), el atributo de destino es (Acredito) y el valor de destino es 1 (Reprobado), lo

    que representa que el estudiante es probable que repruebe. El gráfico de elevación muestra la

    mejora que el modelo proporciona al identificar a los alumnos que es probable que reprueben.

    El eje X del gráfico representa el porcentaje del conjunto de datos de prueba que se usa para

    comparar las predicciones. El eje Y del gráfico representa el porcentaje de valores de predicción.

    La ĺınea recta diagonal, mostrada aqúı en gris representa los resultados de la estimación aleatoria

    y es la ĺınea base con la que evaluar la mejora respecto al modelo predictivo. Con cada modelo

    que agrega a un gráfico de mejora respecto al modelo predictivo, obtiene dos ĺıneas adicionales:

    una muestra los resultados ideales para los conjuntos de datos de entrenamiento establecidos,

    si pudiera crear un modelo que siempre predijera perfectamente; y la segunda ĺınea muestra la

  • 3.6. EVALUACIÓN DEL MODELO. 48

    Figura 3.22: Gráfico de elevación de los modelos de estudio.

    mejora respecto al modelo predictivo real, o mejora en los resultados, para el modelo.

    La ĺınea ideal para el modelo filtrado se muestra en rosa y la ĺınea para la elevación real en

    morado. Puede deducir del gráfico que la ĺınea ideal alcanza el máximo cerca del 30 por ciento,

    lo que significa que, si tuviera un modelo perfecto, podŕıa llegar al 100 por ciento de los alumnos

    reprobados únicamente al 30 por ciento de la población total. La elevación real para el modelo

    filtrado al destinarse al 30 por ciento de la población está entre el 60 y el 70 por ciento, lo que

    significa que se podŕıa llegar al 60 ó 70 por ciento de los alumnos de destino no acreditando al

    30 por ciento de la población total de alumnos.

    la población total. La elevación real para el modelo filtrado al destinarse al 30 por ciento de

    la población está entre el 60 y el 70 por ciento, lo que significa que se podŕıa llegar al 60 ó 70

    por ciento de los alumnos de destino no acreditando al 30 por ciento de la población total de

    alumnos.

    En la figura 3.23. muestra los valores de probabilidad de predicción de cada uno de los modelos

    e indica el valor que representa el indicio necesario para incluir un estudiante entre los casos con

    probabilidad de reprobar. En estos resultados se puede observar que, cuando se mide el 40 por

    ciento de todos los casos, el modelo K-mediana puede predecir el comportamiento de alumnos

    reprobados en el 60 % de la población destino.

  • 3.6. EVALUACIÓN DEL MODELO. 49

    Figura 3.23: Leyenda de elevación de los modelos de estudio.

    El valor de Probabilidad de predicción representa el umbral necesario para incluir un alumno

    entre los casos con probabilidad de reprobar.

    El valor de Puntuación ayuda a comparar los modelos calculando la efectividad del modelo a

    través de una población normalizada. Una mayor puntuación es mejor, de modo que en este

    caso se podŕıa decidir que seleccionar a los alumnos con el modelo K-medianas es la estrategia

    más eficiente con un puntaje de 0.70, siguiendo el modelo EM con 0.66 y el modelo A priori con

    0.61.

    3.6.2. Validación Cruzada.

    Uno de los métodos es la validación cruzada que se usa después de crear una estructura de

    mineŕıa de datos y los modelos de mineŕıa de datos relacionados para determinar la validez del

    modelo. La validación cruzada tiene las aplicaciones siguientes:

    Validar la solidez de un modelo de mineŕıa de datos determinado.

    Evaluar varios modelos de una instrucción única.

    Generar varios modelos e identificar a continuación el mejor modelo basándose en es-

    tad́ısticas.

    La validación cruzada es un método establecido para evaluar la exactitud de los modelos de

    mineŕıa de datos. La validación cruzada divide sucesivamente los datos de la estructura de

  • 3.6. EVALUACIÓN DEL MODELO. 50

    mineŕıa de datos en subconjuntos, genera modelos en los subconjuntos y mide la exactitud del

    modelo para cada partición.

    Además, la información básica acerca del número de plegamientos en los datos y de la cantidad

    de datos en cada plegamiento, Analysis Services muestra un conjunto de métricas sobre cada

    modelo, clasificadas por tipo. A continuación, se muestra una lista con las pruebas y las métricas,

    junto con una explicación del significado de las métricas.

    Agrupación en clústeres

    Probabilidad de casos. Indica la probabilidad de que un caso pertenezca a un clúster determi-

    nado.

    1. Clasificación

    Verdadero positivo. Recuento de casos que cumplen estas condiciones:

    • El caso contiene el valor de destino.

    • El modelo predijo que ese caso conteńıa el valor de destino.

    Falso positivo. Recuento de casos que cumplen estas condiciones:

    • El valor real es igual al valor de destino.

    • El modelo predijo que ese caso conteńıa el valor de destino.

    Verdadero negativo. Recuento de casos que cumplen estas condiciones:

    • El caso no contiene el valor de destino.

    • El modelo predijo que el caso no contiene el valor de destino.

    Falso negativo. Recuento de casos que cumplen estas condiciones:

    • El valor real no es igual al valor de destino.

    • El modelo predijo que el caso no contiene el valor de destino.

    2. Probabilidad

    Puntuación del registro. El logaritmo de la probabilidad real para cada caso, sumada

    y, a continuación, dividida por el número de filas del conjunto de datos, excepto las

  • 3.6. EVALUACIÓN DEL MODELO. 51

    filas con valores ausentes. Dado que la probabilidad se representa como una fracción

    decimal, las puntuaciones de registro siempre son números n