Data Mining en E Learning

48
Minería de Datos en sistemas educativos Sebastián Ventura Soto Departamento de Informática y Análisis Numérico. Universidad de Córdoba

description

Presentation "Data Mining en E-learning". Author: Sebastián Ventura for the journey "Análisis del comportamiento de los estudiantes de la UOC"

Transcript of Data Mining en E Learning

Page 1: Data Mining en E Learning

Minería de Datos en sistemas educativos

Sebastián Ventura Soto

Departamento de Informática y Análisis Numérico. Universidad de Córdoba

Page 2: Data Mining en E Learning

Contenido de la exposiciónIntroducción

Conceptos básicosObjetivos del proceso de EDM

Técnicas empleadas en EDMVisualizaciónClasificaciónClusteringAsociaciónPatrones de secuenciaMinería de textos

Trabajo futuroReferencias

Page 3: Data Mining en E Learning

Introducción

Page 4: Data Mining en E Learning

IntroducciónEl desarrollo de sistemas de enseñanza basada en webse ha incrementado exponencialmente en los últimos años.

Estos sistemas generan información de gran valor pedagógico, pero suele ser tan abundante que resulta imposible analizarla manualmente.Se necesitan herramientas que sean capaces de analizar esos datos de forma automática.

Las instituciones educativas disponen de sistemas de información con gran cantidad de datos interesantes.

La información disponible en estos sistemas puede utilizarse para mejorar el plan estratégico de la institución.En este caso, también se necesitan herramientas que analicen esos datos de forma automática.

Page 5: Data Mining en E Learning

IntroducciónSe denomina minería de datos educativa (educational data mining, EDM) a la aplicación de técnicas de minería de datos a información generada en los entornos educativos.Las primeras referencias del área datan del 1995.Se ha experimentado un crecimiento notable en las publicaciones sobre el tema en los últimos años:Han aparecido varios workshops específicos del tema, así como un congreso internacional monográfico sobre EDM.

http://www.educationaldatamining.org/EDM2008/Se ha formado un grupo de trabajo internacional sobre investigación en minería de datos educativos

http://www.educationaldatamining.org/index.html

Page 6: Data Mining en E Learning

Introducción Eventos relacionados con EDM en los últimos años

First International Conference on Educational Data Mining (EDM 08). Montreal, Canadá. June 20-21, 2008.Educational Data Mining Workshop, at the 13th International Conference on Artificial Intelligencein Education (AAAI 2007). Los Angeles, California, USA. July 9-10, 2007. Workshop on Educational Data Mining, at the 7th IEEE International Conference on AdvancedLearning Technologies. Niigata, Japan. July 18-20, 2007. Track on Educational Data Mining, at the Workshop on Data Mining for User Modeling, at the 11th International Conference on User Modeling (UM 2007). Corfu, Greece. June 25, 2007.Workshop on Educational Data Mining at the 21st National Conference on Artificial Intelligence(AAAI 2006). Boston, USA. July 16-17, 2006.Workshop on Educational Data Mining at the 8th International Conference on Intelligent TutoringSystems (ITS 2006). Jhongli, Taiwan.Workshop on Educational Data Mining at the 20th National Conference on Artificial Intelligence(AAAI 2005). Pittsburgh, USA.Workshop on Usage Analysis in Learning Systems at the 12th International Conference onArtificial Intelligence in Education (AIED 2005). Amsterdam, Netherlands.Workshop on Analyzing Student-Tutor Interaction Logs to Improve Educational Outcomes at the7th International Conference on Intelligent Tutoring Systems (ITS 2004). Maceio, Brazil.Workshop on Applying Machine Learning to ITS Design/Construction at the 5th InternationalConference on Intelligent Tutoring Systems (ITS 2000). Montreal, Canada.

Second International Conference on Educational Data Mining(EDM 09). Córdoba, Spain. July 1-3, 2009.

Page 7: Data Mining en E Learning

Introducción EDM: Proceso y actores

Page 8: Data Mining en E Learning

Introducción Objetivos del EDM

El conocimiento que puede extraerse de los sistemas educativos es muy diverso.El objetivo que nos marcamos al intentar aplicar técnicas de EDMdepende de:

A quién va dirigido el conocimiento que extraigamosAlumnosProfesoresAutoridades académicas

De qué tipo de información disponemos A prioriA posteriori

Entorno en el que nos situamosEnseñanza presencialEnseñanza a distancia

...

Page 9: Data Mining en E Learning

Introducción Objetivos del EDM – Punto de vista del estudiante

Qué actividades, recursos y tareas podrían mejorar su rendimiento académico.Qué actividades se ajustan mejor al perfil de un determinado alumno.Qué camino recorrer para obtener un resultado concreto:

Basándonos en conocimiento del camino ya recorrido por el alumno y su éxito.Por comparación con lo realizado por otros alumnos de características análogas.

Page 10: Data Mining en E Learning

Introducción Objetivos del EDM – Punto de vista del profesor

Cuantificar la efectividad del proceso de enseñanza-aprendizajeOrganizar los contenidos de un cursoMejorar o corregir la estructura del cursoClasificar o agrupar alumnos en base a sus características

TutorizaciónAsesoramientoDe cara a monitorizar conocimiento interesante

Buscar patrones de comportamiento en alumnosPatrones generalesPatrones anómalos

Evaluar las actividades realizadas en un cursoEfectividadMotivación

Monitorizar actividades:Errores más frecuentes en la realización de actividadesGrado de dificultad de una actividad

Personalizar y adaptar el contenido de cursosDiseñar planes de instrucción

Page 11: Data Mining en E Learning

Introducción Objetivos del EDM – Punto de vista de las instituciones educativas

Mejora de la eficiencia del sitio web y adaptación de este a los hábitos de sus usuarios:

Tamaño de servidor óptimoDistribución de tráfico en la red

Organización de los recursos institucionalesDiseño de horariosAdquisición de material

Mejora de la oferta educativaProgramas orientados a demandaOrientación de alumnos en base a

ObjetivosCapacidades

Page 12: Data Mining en E Learning

Técnicas empleadas en EDM

Page 13: Data Mining en E Learning

Técnicas empleadas en EDMLas técnicas empleadas son las mismas que se utilizan en cualquier campo de aplicación de la minería de datos.Los usuarios finales de las herramientas son los agentes implicados en el proceso educativo:

Algoritmos fáciles de configurarResultados fáciles de interpretar…

Tareas de DM que se han llevado al entorno educativo:Visualización de informaciónClasificaciónRegresiónClusteringAsociación…

Page 14: Data Mining en E Learning

Técnicas empleadas en EDM Visualización de información

Construyen imágenes digitales interactivas o animadas orientadas a que los usuarios puedan comprender grandes cantidades de información.Existen varias herramientas de visualización para los sistemas educativos:

CourseVis (http://www.comp.leeds.ac.uk/vania/umuas/coursevis.html) es una herramienta que permite visualizar información generada en los ficheros de log de WebCT.GISMO (http://gismo.sf.net) es un proyecto análogo al anterior (de hecho, el autor es la misma persona – R. Mazza) pero que extrae la información de las tablas que almacenan la información en el sistema Moodle.

Page 15: Data Mining en E Learning

Técnicas empleadas en EDM Visualización de información – CourseVis

Gráfica realizada con la información de un foro de discusión, mostrando qué persona comienza las dis- cusiones y en qué fecha

Gráfica realizada con la información de un foro de discusión, mostrando las fechas y los temas de discusión

Page 16: Data Mining en E Learning

Técnicas empleadas en EDM Visualización de información - GISMO

Gráfica que muestra la información de acceso a un curso

Page 17: Data Mining en E Learning

Técnicas empleadas en EDM Visualización de información - GISMO

Gráfica que muestra la información de acceso a los recursos por parte del alumnado

Page 18: Data Mining en E Learning

Técnicas empleadas en EDM Visualización de información - GISMO

Gráfica que muestra las discusiones en las que participa cada uno de los estudiantes

Page 19: Data Mining en E Learning

Técnicas empleadas en EDM Visualización de información - GISMO

Gráfica que muestra infor- mación sobre las tareas realizadas por los distintos alumnos del curso

Page 20: Data Mining en E Learning

Técnicas empleadas en EDM Clasificación

A partir de un conjunto de patrones de entrenamiento etiquetadoshemos de ser capaces de etiquetar nuevos patrones.Método de aprendizaje supervisado.Métodos precisos vs. métodos interpretables. Suelen preferirse los segundos, para:

Poder contrastar las conclusiones alcanzadas con el conocimiento de los expertos humanos.Que de los modelos pueda extraerse información útil por parte de los usuarios del proceso de EDM

Algoritmos empleados:C4.5 y C5.0 (Chen et al., 2000)Naive Bayes (Ueno, 2004)Algoritmos evolutivos (Minaei & Punch, 2003)

Page 21: Data Mining en E Learning

Técnicas empleadas en EDM Clasificación – Algunas aplicaciones

Descubrir grupos potenciales de estudiantes con características similares, para definir una determinada estrategia pedagógica (Chen et al, 2000).Predecir el rendimiento de estudiantes y su calificación final (Minaei-Bidgoli & Punch, 2003) Detectar estudiantes que hacen un mal uso de las instalaciones oque juegan (Baker et al., 2004).Agrupar los estudiantes en (a) guiados a través de consejos y (b) a través de fallos y encontrar los conceptos erróneos que presentan con más frecuencia (Yudelson et al., 2006).Identificar alumnos con una motivación baja y encontrar remedio al problema de abandono de los estudios (Cocea & Weibelzahl, 2006).

Page 22: Data Mining en E Learning

Técnicas empleadas en EDM Clustering

Establecer grupos de objetos que presentan características similares.Método no supervisado.Algoritmos principales:

Jerárquicos: single-link, complete-linkBasados en función objetivo: K medias, expectation maximization

Algunas aplicaciones:Descubrir patrones que reflejen comportamientos análogos en los usuarios, de cara a que, cuando se les incluya en espacios de colaboración comunes, se asegurar un incremento de la actividad (Talavera & Gaudioso, 2004).Agrupar estudiantes para establecer itinerarios de educación personalizados (Mor y Minguillon, 2004).Agrupar estudiantes según sus destrezas y otras características, para a realizar tutorías de forma personalizada (Hamalainen et al., 2004).Agrupar alumnos de características similares para promover un aprendizaje colaborativo basado en grupos (Tang & McCalla, 2005).Agrupan test y cuestiones en grupos relacionados basándose en datos de una matriz de puntuaciones (Spacco et al., 2006).

Page 23: Data Mining en E Learning

Técnicas empleadas en EDM Clustering – Un ejemplo con datos de Moodle

Nuestro objetivo es agrupar a los estudiantes de un determinado curso en diferentes grupos, relacionados con las actividades realizadas en el sistema Moodle. También estamos interesados en analizar si esos grupos guardan relación con su calificación final.Para llevar a cabo los experimentos debemos tomar la información de la base de datos y llevarla a una aplicación de minería de datos (Moodle no dispone aún de un sistema de extracción de conocimiento integrado).

Weka (http://www.cs.waikato.ac.nz/ml/weka/) es la herramienta elegida para realizar el clustering con los datos obtenidos

SELECT n_assignment,npost,n_read,n_quiz,n_quiz_a,n_quiz_s,total_time_assignment,total_time_quiz,total_time_forumFROM moodle.mdl_summarization where course = 218

(Comando para extraer la información de la base de datos Moodle)

Page 24: Data Mining en E Learning

Técnicas empleadas en EDM Clustering – Un ejemplo con datos de Moodle

Pantalla de Weka para el algoritmo K medias

Page 25: Data Mining en E Learning

Técnicas empleadas en EDM Clustering – Un ejemplo con datos de Moodle

Grupo 0. Formado por alumnos que no realizan las tareas asignadas, que leen una muy baja proporción de mensajes de los foros, realizan muy pocos cuestionarios, y pasan muy poco tiempoen las actividades tarea, cuestionario y foro (es decir, participan muy poco).Grupo 1. Alumnos que envían bastantes mensajes al foro (1.22 en media), leen alrededor de 3 mensajes, realizan un elevado númerode cuestionarios, acertando un porcentaje elevado de estos y pasan un tiempo elevado en las actividades tarea, cuestionario y foro.Grupo 2. Valores un poco inferiores a los del grupo 1 pero superiores a los del grupo 0.

Se obtienen tres grupos de características distintas:

Page 26: Data Mining en E Learning

Técnicas empleadas en EDM Asociación

El objetivo de la minería de reglas de asociación es establecer reglas que asocian conceptos que se encuentran en columnas (atributos) diferentes de una misma base de datos.Principales algoritmos:

Apriori. Es el primero y más popularVariantes del A priori: A priori-TID, DIC, Eclac, FP-Growth…

Algunas aplicaciones de los algoritmos de asociación:Búsqueda de relaciones entre cada patrón de comportamiento de los estudiantes (Yu et al, 2001).Construcción de agentes que recomiendan y generan de forma inteligente materiales didácticos para los estudiantes (Zaïane, 2002).Guiar la búsqueda de modelos de comportamiento del estudiante más fiables (Freyberger et al., 2004).

Page 27: Data Mining en E Learning

Técnicas empleadas en EDM Asociación

Algunas otras aplicaciones de los algoritmos de asociación:Guiar la actividad del estudiante de forma automática y generar y recomendar automáticamente materiales didácticos (Lu, 2004).Buscar errores de los estudiantes que suelen ocurrir conjuntamente (Merceron & Yacef, 2004).Identificar atributos que caracterizan patrones de disparidad derendimiento entre grupos de estudiantes (Minaei-Bidgoli et al., 2004). Descubrir relaciones interesantes entre la información generada por los estudiantes en un sistema adaptativo (usage information), orientadas a retroalimentar el curso (Romero et al., 2004). Para determinar qué materiales didácticos son los más apropiados para recomendar a los alumnos (Markellou et al, 2005).Para optimizar el contenido de un portal de e-learning determinando qué es lo que más interesa a los usuarios (Ramli, 2005).

Page 28: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de AHA!

El sistema AHA! es un Sistema Hipermedia Adaptativo de propósito general desarrollado en la Universidad Técnica de Eindhoven (Holanda).Sobre esta plataforma se implantó un curso adaptativo sobre el sistema operativo Linux que cursaron 50 de alumnos de la Universidad de Córdoba. Los alumnos pertenecían a distintos niveles de conocimiento sobre el mencionado SO.El objetivo del trabajo era aplicar algoritmos de extracción de reglas de asociación que aportaran conocimiento orientado a la mejora del curso.También se desarrolló una herramienta, denominada EPRules, que extraía información del sistema (fuera de línea) y aplicaba distintos algoritmos de asociación, presentando las reglas obtenidas.

Page 29: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de AHA!

Información disponible: Tiempo de acceso para cada una de las páginasAcierto/fallo en las actividades propuestasNivel de conocimiento que obtenían en los test realizados al final de cada bloque de actividadesPreprocesamiento de información: Discretización de todos los atributos contínuos.

Tipos de algoritmos aplicados sobre los datos:Apriori estándarAlgoritmo de GGGP multiobjetivo:

Usando una función de fitness agregadaUsando varios objetivos independientes: MOGA, NSGA, SPEA

La función de fitness tenía en cuenta: Exactitud: factor de certeza Comprensibilidad: minimizando la longitud de las reglasInterés: medida de interés de Tan & Kumar

Page 30: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de AHA!

<rule>::=“IF” <antecedent> “THEN” <consequent> <antecedent>::=<antecedent> “AND” <condition> | <condition><consequent>::=<condition><condition>::=<level-attribute> “=” <level-value> |

<time-attribute> “=” <time-value> |<success-attribute> “=” <success-value>

<level-attribute>::=“LEVEL” Name of a valid level attribute <success-attribute>::=“SUCCESS” Name of a valid success attribute<time-attribute>::=“TIME” Name of a valid time attribute<level-value> ::= “BEGINNER” | “NORMAL” | “EXPERT”<success-value> ::= “YES” | “NO”<time-value> ::= “HIGH” | “MEDIUM” | “LOW”

Gramática empleada para definir las reglas de asociación

Page 31: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de AHA!

Fuentes de datos

Pantalla de algoritmos de discretización

Page 32: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de AHA!

Configuración del algoritmo de GGGP

Ventana de resultados

Page 33: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de AHA!

Tipo de reglas descubiertas:

IF Level|Time|Success AND … THEN Level|Time|Succes

• Reglas con atributos de tiempo en el consecuente. Muestran qué atributos influyen en la duración de las actividades.

• Reglas con atributos de nivel en el consecuente. Muestra cuáles son los factores que influyen en la clasificación del alumno en un determinado nivel de experiencia.

• Reglas con atributos relacionados con éxito. Indica qué factores son los que más influyen en el éxito de un alumno (es decir, en que supere las pruebas de evaluación a las que es sometido durante el curso.

Page 34: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de AHA!

Interés = 0.57; Factor de certeza = 0.75; Simplicidad = 1

IF (LEVEL.interface-network-high = EXPERT)

THENLEVEL.tcpip-telnet.medium = EXPERT

IF ((SUCCESS.characteristic-introduction-high(2) = NO)AND(TIME.characteristic-introduction-high(2) = HIGH))

THENLEVEL.characteristic-introduction-high = EXPERT

Interés = 0.65; Factor de certeza = 0.87; Simplicidad = 0.5

Page 35: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de Moodle

La distribución estándar de Moodle no dispone de cursos adaptativos.Módulo desarrollado por el grupo EATCO de la Universidad de Córdoba que permite la realización de cursos adaptativosdentro del sistema Moodle.El grupo también ha desarrollado la herramienta INDESHAC, una herramienta autor que permite la construcción de estos cursos de forma muy sencilla.Los cursos diseñados con INDESHAC pueden utilizar todos los recursos disponibles en Moodle, y organizan su contenido por niveles, de forma análoga a como lo hace AHA!

Page 36: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de Moodle

Page 37: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de Moodle

A prioriUtiliza los parámetros soporte y confianza para decidir cuántas reglas se presentan al usuario.A veces no es sencillo elegir los valores de soporte y confianzapara que el número de reglas no sea demasiado amplio o demasiado reducido.

A priori predictivoSe define un único parámetro, el número de reglas que se presentan al usuario.El algoritmo se comporta de forma más reproducible que la versión no predictivaEl algoritmo descubre reglas con muy bajo soporte y muy alta confianza, las cuales son especialmente interesantes en el caso de EDM:

Detección de anomalías/minorías

Page 38: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de Moodle

Cada combinación de parámetros da reglas muy diferentes

A partir de nr =20, se obtienen resultados son muy parecidos en todos los casos

Page 39: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de Moodle

Page 40: Data Mining en E Learning

Técnicas empleadas en EDM Asociación – Ejemplo con datos de Moodle

Ejemplo de regla esperadaIF (E_TIME[25] = HIGH) THEN (E_SCORE[25] = LOW) ACC=0.92

Ejemplo de regla no esperadaIF ((L_CONCEPTS[13] = LOW) AND (L_DIFFIC_LEVEL[13] = LOW)) THEN (L_TIME [13] = HIGH) ACC=0.85

Page 41: Data Mining en E Learning

Técnicas empleadas en EDM Patrones de secuencia

Descubrir patrones entre sesiones. Algoritmos principales: AprioriAll, GSP, SPADE, PrefixSpan, CloSpan, FreSpanAlgunas aplicaciones:

Dar una indicación de cómo organizar mejor el espacio educativo web y ser capaz de hacer sugerencias a los estudiantes que comparten características similares (Ha et al., 2000).Evaluar las actividades del estudiante y personalizar el envío de recursos (Zaïane & Luo, 2001).Llevar a cabo la evaluación y validación de diseños de sitios webeducativos (Machado & Becker, 2003).Comparar los caminos extraídos con otros patrones de comportamiento ideales, especificados por el diseñador del curso o por el educator(Pahl & Donnellan, 2003).Generar actividades personalizadas para distintos grupos de estudiantes (Wang et al., 2004).Identificar secuencias de interacción indicativas de problemas ypatrones que son indicativos de éxito (Kay et al., 2006).

Page 42: Data Mining en E Learning

Técnicas empleadas en EDM Patrones de secuencia – Un ejemplo con datos de Moodle

Módulo de minería de datos para el sistema AHA!

Algoritmo PrefixSpan con un umbral de soporte 30 (al menos 30 alumnos deben cumplir cada uno de los patrones extraídos)

Los patrones de navegación se representan como secuencias lineales de elementos con tres componentes (nombre del módulo : acción : URL).

Page 43: Data Mining en E Learning

Técnicas empleadas en EDM Text Mining

Extensión de las tareas de minería de datos a datos textuales.Conjunto de disciplinas que incluyen la minería de datos, recupera-ción de información y procesamiento del lenguaje natural.Algunas aplicaciones:

Dar soporte a los autores en el desarrollo de materiales (Grobelnik et al, 2002.)Buscar y organizar material utilizando información semántica (Tane et al., 2004)Para evaluar el progreso de un foro de discusión y ver qué contribuciones se están haciendo al debate (Dringus & Ellis, 2005).Agrupar documentos en base a temas y similaridades. Producir resúmenes de documentos (Hammouda & Kamel, 2006).Detectar el foco de la conversación en hilos de discusión, clasificando temas y estimando la profundidad técnica de una contribución (Kim et al., 2006).

Page 44: Data Mining en E Learning

Técnicas empleadas en EDM Text Mining – Un ejemplo con datos de Moodle

Pretendemos extraer términos concretos del contenido de los foros de un determinado curso Moodle.Software KEA http://www.paynter.info/academia/Kea.php para minería de textos. Existen dos tablas relacionadas con los datos de los foros:

forum_read: Relacionada con los mensajes que se han leídoforum_post: Relacionada con los envíos de mensajes

La información extraída se pone en ficheros de texto. El algoritmo extraerá palabras clave analizando la información contenida en estos ficheros (contenido de los foros).Podemos analizar si las palabras clave descubiertas por el algoritmo coinciden con las proporcionadas por el profesor (a través de un fichero aparte).

En caso afirmativo, el uso de los foros es correcto. En otro caso, puede que se estén usando inadecuadamente

SELECT message FROM moodle.mdl_forum_post where discussion=93

Page 45: Data Mining en E Learning

Líneas Futuras

Page 46: Data Mining en E Learning

Líneas FuturasBuscar utilidad educativa para otras tareas de DM:

Análisis de outliersAnálisis de redes socialesDescubrimiento de subgruposClasificación en problemas no balanceados

Estandarización de métodos y datosAdaptar las herramientas a educadores (usuarios no expertos en DM)

Algoritmos con pocos o ningún parámetroInterfaces adaptadas al problema, fáciles de emplear

Integración con los sistemas de e-learningDesarrollo de técnicas de DM específicas para problemas concretos.

Minería de datos hipermedia

Page 47: Data Mining en E Learning

Referencias

Page 48: Data Mining en E Learning

ReferenciasC. Romero & S. Ventura. Educational Data Mining: A surveyfrom 1995 to 2005. Expert Systems with Applications 33(1), 135-146, 2007.C. Romero, S. Ventura & E. García. Data Mining in coursemanagement systems: Moodle case study and tutorial. Computers and Education 51(1), 368-384, 2008.Data Mining in E-Learning. C. Romero & S. Ventura (Eds). Editorial WIT Press, 2006.Más bibliografía sobre EDM en la Web del proyecto KEEL: http://www.keel.es/ (sección Educational Data Mining).Grupo de interés sobre Educational Data Mining en CiteULike: http://www.citeulike.org/group/4318/library