Analisis Cuestionarios Inmaculada Gil

MoodleMoot EuskadiUniversidad de Deusto 2009/05/15

09

ANÁLISIS DE CUESTIONARIOS PARA EVALUAR CONOCIMIENTOS MATEMÁTICOS A TRAVÉS DE LA PLATAFORMA MOODLE Preguntas de opción múltiple Inmaculada Gil Gil

Javier Bilbao Landache

Felipe Jiménez Hernández

“Análisis de cuestionarios para evaluar conocimientos matemáticos a través de la plataforma Moodle”

2

1. Introducción

El objetivo de este estudio es el de analizar los cuestionarios de preguntas de opción múltiple

utilizando las herramientas de calificación y de análisis que la propia plataforma Moodle ofrece al

docente. Estos cuestionarios ofrecen una alternativa al examen tradicional como método de

evaluación, pero también una herramienta de entrenamiento para otro tipo de evaluaciones,

teniendo presente en todo momento qué es y qué conlleva la tarea de evaluación del aprendizaje.

La evaluación del aprendizaje es un proceso mediante el cual, y utilizando diversos

instrumentos de medida, se valora el nivel alcanzado por los estudiantes respecto a los

conocimientos, habilidades y actitudes, en función de los distintos objetivos del aprendizaje. Por

tanto, la evaluación educativa involucra la elaboración, aplicación y análisis de los instrumentos de

medida, creados con la finalidad de inferir las capacidades de los estudiantes y cuya función principal

es la de ofrecer información para la correcta toma de decisiones.

La evaluación del aprendizaje, está integrada en el proceso de formación del estudiante y

responde a los criterios de pertinencia, equidad y responsabilidad compartida.

Dado la dificultad de establecer criterios que permitan la calificación de manera equitativa e

íntegra, y teniendo en cuenta que la evaluación del aprendizaje es un problema aún no resuelto, las

pruebas de opción múltiple (POM) mediante la plataforma Moodle se presentan como una

alternativa a los exámenes tradicionales en algunos casos, y en cualquier caso, como una herramienta

indispensable de autoaprendizaje que ha de estar presente en el diseño del nuevo Marco Europeo de

Educación Superior.

2. Pruebas de opción múltiple

En este apartado se presenta una descripción breve de lo que son las pruebas de opción

múltiple. La técnica en términos generales consiste en plantear una pregunta o problema,

denominado reactivo, que consta de un enunciado y una serie de respuestas, llamadas opciones.

Entre estas respuestas hay una correcta, llamada solución, y otras incorrectas, conocidas como

distractores.

En este estudio, las pruebas realizadas se denominan cuestionarios o galdetegiak y han sido

elaboradas utilizando uno de los muchos recursos que la plataforma Moodle ofrece al docente.


3

Dentro de la amplia gama de preguntas que se pueden incluir en un cuestionario hemos

elegido las de opción múltiple porque son las que mejor se ajustan a los contenidos que deseamos

evaluar (Cálculo para la Ingeniería).

En los cuestionarios de Cálculo para la Ingeniería, que constituyen la base del análisis que se ha

llevado a cabo, se han incluido dos tipos de reactivos: de conocimiento y de aplicación. Los primeros

pretenden evaluar si el estudiante ha logrado una adecuada comprensión de los conceptos y

principios básicos del tema que se evalúa, y los segundos, si posee la habilidad para aplicar dichos

conceptos y principios a la solución de problemas de Cálculo.

Los reactivos de conocimiento se deben poder contestar en un tiempo inferior que los

reactivos de aplicación. Se puede dar una estimación del tiempo en minutos (2 minutos para

reactivos de conocimiento y 5 minutos para los de aplicación), no obstante, es conveniente tener en

cuenta que dependiendo del tema de Cálculo tratado en el cuestionario, esos tiempos pueden variar

ligeramente.

La calidad de los reactivos se mide fundamentalmente a través de dos parámetros: el grado de

dificultad y el índice de discriminación (en el apartado 4 se muestran las definiciones que se manejan

en Moodle). El primero se mide por el porcentaje de estudiantes, p, que responden correctamente al

reactivo. Puesto que la probabilidad de responder bien a un reactivo (se sobreentiende constituido

por 4 respuestas, dado que son los ítems que hemos utilizado en el cuestionario objeto de estudio)

es del 25%, el mínimo de dificultad debe ser por lo menos este valor. Algunos expertos (Backhoff y

otros, 2000) señalan que el nivel medio de dificultad del examen‐prueba debe oscilar entre 0,5 y 0,6

distribuyéndose los valores de p de la siguiente manera: 5% de reactivos fáciles, 20% de reactivos

medianamente fáciles, 50% de dificultad media, 20% medianamente difíciles y 5% difíciles.

El segundo parámetro, el índice de discriminación, permite diferenciar entre un estudiante con

buena preparación y otro que no la tenga. Esto se analiza verificando que el reactivo sea respondido

correctamente por una mayoría de los estudiantes pertenecientes al grupo superior (los que

obtienen mejor calificación) en el conjunto de los reactivos, e incorrectamente por la mayoría de los

estudiantes del grupo inferior en todo el examen. En otras palabras, el poder de discriminación de un

reactivo nos indica hasta qué punto el éxito en contestar ese ítem, está relacionado con el éxito

obtenido en la prueba.

Existen diferentes formas de definir el índice de discriminación, en este estudio se utilizó la

definición que la plataforma Moodle recoge en la herramienta estadística análisis de ítems (ver


4

definición en el apartado 4).

El rango de valores para los índices de discriminación de los reactivos se establece en mayores

que 0,39 (excelente, se recomienda conservar esos reactivos), de 0,30 a 0,39 (bueno, pero con

posibilidades de mejorar la calidad de los items), de 0,20 a 0,29 (regular, se recomienda revisar), de 0

a 0,20 (pobre) y menor que 0 (pésimo).

Sin embargo, además de esos dos índices, hay que tener en cuenta un tercer factor para

determinar la calidad de un cuestionario, la confiabilidad.

La noción de confiabilidad de una prueba hace referencia a dos factores: el primero es la

condición de que los resultados efectivamente obtenidos en ella no difieran en gran medida de los

que obtendrían los mismos participantes en una prueba equivalente; el segundo es que estos

resultados no dependan del azar. La confiabilidad de la prueba resulta estar directamente

relacionada con el valor del coeficiente de Spearman‐Brown (este estadístico no se muestra en la

tabla de análisis de ítems que elabora Moodle).

Un segundo indicador de la confiabilidad lo constituye la desviación estándar de las

puntuaciones obtenidas.

3. Ventajas y desventajas de los exámenes de opción múltiple

Al igual que los exámenes tradicionales, las evaluaciones o pruebas de opción múltiple tienen

ventajas y desventajas. Una de las desventajas es la imposibilidad de indagar si el estudiante domina

un método completo, es decir, si conoce todas las etapas de resolución de un problema y su

vinculación. Otra de ellas es la dificultad de elaborar reactivos de calidad, aún cuando se pueden

reciclar preguntas, y reutilizarlas en próximas ocasiones.

A pesar de estos inconvenientes, las pruebas de opción múltiple ofrecen muchas ventajas. Una

de las principales es que permite averiguar, de manera muy clara, si el estudiante domina los

conceptos y no únicamente la mecanización de un procedimiento. Otra ventaja es que reduce al

mínimo la influencia de errores numéricos cometidos por el estudiante en su calificación final,

frecuentes en los exámenes tradicionales. Y otra ventaja más es que reduce considerablemente el

tiempo necesario para calificar los exámenes (aunque el tiempo de preparación de los reactivos es

mucho mayor que el de elaboración de los exámenes tradicionales), así como la subjetividad de la

prueba que se evalúa.


5

4. Herramientas de análisis de ítems de la plataforma Moodle.

La plataforma Moodle ofrece al docente la posibilidad de realizar análisis de los ítems,

mostrando en una tabla los datos procesados del cuestionario, los cuales permitirán medir la calidad

de los reactivos que conforman el cuestionario.

Los parámetros estadísticos utilizados se calculan aplicando la teoría básica de los tests, y son

los que a continuación se detallan.

Índice de Dificultad (% de ítems respondidos correctamente). Evalúa cuán fácil o difícil resulta una

pregunta a los estudiantes. Se calcula:

á

donde Xpromedio es la media obtenida por todos los estudiantes que contestan el ítem, y Xmáx es la

puntuación máxima obtenida en el ítem.

Desviación Típica (DT). Este parámetro mide la dispersión de las respuestas en la población que

responde. DT se calcula como la desviación estándar para la muestra de puntuaciones fraccionadas

(correctas/máxima) para cada pregunta particular.

Índice de Discriminación (ID). Proporciona un indicador bruto del desempeño en cada ítem por

separado de los estudiantes, que obtienen puntuaciones altas frente a los que obtienen puntuaciones

bajas. El parámetro se calcula dividiendo en primer lugar a los estudiantes que han intentado el

cuestionario en tercios basándose en la puntuación global obtenida en el cuestionario. A

continuación, se calcula la media obtenida en el ítem analizado por los grupos superior e inferior, y se

sustrae la media. La expresión matemática es:

donde X superior es la suma de la nota fraccional (obtenido/máximo) lograda en este ítem por el tercio

de estudiantes que tienen las calificaciones más altas en todo el cuestionario (por ejemplo, número

de respuestas correctas de este grupo), y Xinferior es la suma análoga para el tercio de usuarios que han

obtenido las puntuaciones más bajas en el cuestionario total. El rango de este parámetro abarca

desde +1 a ‐1.


6

Coeficiente de Discriminación (CD). Es otra medida del poder de cada ítem para diferenciar a los

estudiantes eficientes de los menos eficientes. El coeficiente de discriminación es un coeficiente de

correlación entre las puntuaciones en el ítem y la puntuación global en el cuestionario. Se calcula

como:

∑· ·

donde Σ(xy) es la suma de los productos de las desviaciones de las puntuaciones en el ítem y las

puntuaciones en todo el cuestionario, N es el número de respuestas dadas a esta pregunta, Sx es la

desviación típica de las puntuaciones fraccionales para esta pregunta, y Sy es la desviación típica de

las puntuaciones en todo el cuestionario. De nuevo este parámetro adopta valores entre +1 y ‐1.

5. La experiencia

Se realizaron 4 cuestionarios constituidos por preguntas de opción múltiple, al grupo F32 de

primer curso de Ingeniería Industrial (estudiantes matriculados en la Escuela Técnica Superior de

Ingeniería Industrial y de Telecomunicaciones de Bilbao que reciben docencia en euskera), cada uno

de ellos con sus diferentes peculiaridades, y referidos a conceptos matemáticos distintos en función

del tema correspondiente ya determinado en la programación docente de la asignatura, en el caso

que nos ocupa, Cálculo para la Ingeniería.

Los cuatro cuestionarios se realizaron utilizando el recurso de “galdetegiak” de la plataforma

Moodle. Asimismo, la evaluación de las pruebas y el análisis de los ítems, que nos permitió medir la

calidad de los reactivos que se elaboraron, se llevo a cabo descargando de la propia herramienta

Moodle las calificaciones obtenidas (en el único intento permitido ) y las tablas de análisis

correspondientes a las pruebas realizadas

En el primer cuestionario se incluyeron 10 reactivos de 3 opciones de respuesta cada uno, en

su mayoría de carácter cognitivo, siendo las rutinas y la diagnosis los dos niveles taxonómicos de

resolución de problemas utilizados principalmente (Plants 1980). Los contenidos correspondían a

conceptos relativos al cálculo de dominios de definición y al estudio de la continuidad de funciones

de una y dos variables. Para este cuestionario se destino un tiempo máximo de 30 minutos que

ninguno de los estudiantes agotó.


7

Las calificaciones obtenidas por la mayoría de los estudiantes en este primer cuestionario

fueron muy buenas, con índices de dificultad para la mayoría de los reactivos, muy superiores a los

que se consideran óptimos para mantenerlos en el cuestionario, y por tanto, en el banco de

preguntas. Por esta razón, este primer cuestionario no se consideró útil para medir las capacidades

de los estudiantes en el tema evaluado, a pesar de que algunos reactivos pudieron ser retenidos para

posteriores pruebas.

En el segundo cuestionario se incluyeron 12 reactivos de 4 opciones de respuesta cada uno,

referidos al cálculo de derivadas parciales de funciones compuestas y a los conceptos relativos al

gradiente de una función, bien como aplicación directa o como problema a resolver. El tiempo

destinado fue de 45 minutos. Para realizar la prueba los estudiantes se dividieron en dos grupos (de

15 y 18 personas), cada uno de los grupos respondió a los mismos ítems pero ordenados de manera

diferente (gracias al banco de preguntas de Moodle, resultó sencillo).

Los resultados obtenidos en este segundo cuestionario fueron malos. Los índices de dificultad

de la mayoría de los reactivos rondaban el 25% en ambos grupos, y el tiempo estimado fue inferior a

lo necesitado por la mayoría de los estudiantes.

Dado que en gran parte de las preguntas era preciso efectuar cálculos aritméticos, se

desconoce si las respuestas incorrectas fueron debidas al desconocimiento por parte del estudiante

del concepto, o por errores numéricos.

En el tercer y cuarto cuestionario, el planteamiento fue muy similar. En ambos cuestionarios se

elaboraron 10 reactivos de 4 opciones de respuesta, con preguntas relativas al estudio de los

extremos de una función y al cálculo de funciones implícitas (tercer cuestionario), al estudio del

carácter de una integral impropia y al cálculo de áreas y volúmenes a través de integrales (cuarto

cuestionario). Se introdujeron gráficos para facilitar la comprensión de algunos problemas.

Los estudiantes, a su vez, en ambas pruebas, se dividieron en dos grupos (de 16 y de 17

personas en el tercero y de 15 y 15 en el cuarto). El tiempo destinado para las pruebas fue de 45

minutos para el tercer cuestionario y de 38 minutos para el cuarto.

Los resultados fueron buenos y los índices de dificultad de los reactivos se encontraban dentro

del rango considerado como óptimo para aceptar la mayoría de los ítems que constituían ambos

cuestionarios.

Dado que estos dos últimos cuestionarios fueron considerados aceptables (después de un

primer análisis de los índices de dificultad) como pruebas para medir el grado de asimilación y de


8

comprensión de los contenidos evaluados, fue uno de ellos (ambos cuestionarios son de

características muy similares) el que analizamos más en detalle, en concreto el cuarto cuestionario.

En la siguiente tabla se muestran los índices de dificultad de los reactivos medidos en ambos

grupos y en el total, que hemos denotado como p (%zuzena Erraztasuna=% de ítems respondidos

correctamente en Moodle) para relacionarlo con la Teoría Clásica de los Tests, y los coeficientes de

discriminación correspondientes (tabla 5.1).

Tabla 5.1 Índices de dificultad y coeficientes de discriminación de los reactivos del 4º cuestionario por grupo

En la tabla se apreció que los valores de p se distribuían de acuerdo a la norma mencionada

anteriormente en el apartado 2, por lo que los reactivos que integran este cuestionario cumplían la

primera condición que se les exige para ser considerados de calidad y ser reutilizados (se mantienen

en el banco de preguntas de Moodle para próximas pruebas).

Con el objeto de comparar gráficamente los índices de dificultad del grupo A y B se elaboró el

siguiente gráfico (grafico 5.1)

Gráfico 5.1. Índices de dificultad de los reactivos del 4º cuestionario por grupo

ItemGalderaren izena p (Grupo A) p (Grupo B)

p (Grupo A+B)

Disk.<br/>Koef.(A)

Disk.<br/>Koef.(B)

1 p_4_1 0,73 0,93 0,83 0,45 0,2522 p_4_2 0,53 0,80 0,67 0,841 0,4713 p_4_3 0,20 0,33 0,27 0,393 0,2994 p_4_4 0,80 0,67 0,73 0,481 0,5295 p_4_7 0,87 0,80 0,83 ‐0,051 0,5536 p_4_8 0,60 0,47 0,53 0,071 0,2917 p_4_9 0,47 0,73 0,60 0,21 0,4958 p_4_10 0,60 0,60 0,60 0,547 0,6379 p_4_11 0,67 0,73 0,70 0,742 0,20110 p_4_12 0,73 0,87 0,80 0,646 0,465

0,73

0,53

0,20

0,800,87

0,60

0,47

0,600,67

0,73

0,93

0,80

0,33

0,67

0,80

0,47

0,73

0,60

0,73

0,870,83

0,67

0,27

0,73

0,83

0,530,60 0,60

0,70

0,80

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

1 2 3 4 5 6 7 8 9 10

VALO

RESDEP

ÍNDICES DE DIFICULTAD DE LOS ITEMS POR GRUPO

GRUPO A

GRUPO B

GRUPOA+B


9

El gráfico mostró un comportamiento muy parecido en ambos grupos, no obstante en el item 7

(pregunta p_4_9) se apreció un comportamiento inverso, y en los items 3 y 6 (preguntas p_4_3 y

p_4_8, respectivamente) un peor resultado que en el resto de los ítems.

Hacer notar que las preguntas p_4_1 y p_4_8 hacen referencia al mismo concepto, pero en la

primera se muestra un dibujo con el área que delimitan las gráficas y en la 2º no. El grupo A realizó la

prueba con la pregunta p_4_1 en posición previa a la p_4_8 y los del grupo B respondieron en orden

inverso. A tenor de los resultados, se apreció que el índice de dificultad de estas preguntas se

mantuvo estable en el grupo A (0,73 y 0,60) pero en el grupo B disminuyó de manera drástica (0,93 y

0,47).

Para comparar los resultados obtenidos en ambos grupos, se realizó el siguiente gráfico, en el

que se apreciaron diferencias significativas en los índices de discriminación de algunos reactivos

(gráfico 5.2).

Gráfico 5.2. Coeficientes de discriminación de los reactivos por grupo

Se observó que en los ítems 5 (p_4_7) y 9 (p_4_11) un mismo coeficiente discriminaba muy

bien en un grupo y muy mal en el otro.

Para terminar, se elaboró un gráfico con las calificaciones obtenidas en los dos temas de los

que constaba la prueba, y se compararon con la nota final (gráfico 5.3).

Gráfico 5.3.Notas de los estudiantes en los diferentes temas

-0,10

0,10,20,30,40,50,60,70,80,9

1 2 3 4 5 6 7 8 9 10

COEF

ICIEN

TES D

E DI

SCRI

MINA

CIÓN

COEFICIENTES DE DISCRIMINACIÓN DE LOS ITEMS POR GRUPO

Grupo AGrupo B

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Not

ak

Ikasleak

Nota azterketa

Nota impropioak

Nota Azalera+Bolumena


10

A la vista de los resultados del gráfico, se observó que salvo en los casos 7, 18 y 29, los

estudiantes que aprobaban una de las partes aprobaban también el resto. Resultó de interés el caso

15, con una nota muy buena en una parte (integrales impropias) pero con una nota muy inferior en

el resto (áreas y volúmenes).

6. Conclusiones • Los exámenes o pruebas de opción múltiple constituyen una herramienta útil e interesante

para evaluar el aprendizaje de los estudiantes en la asignatura de matemáticas, sobre todo

cuando se quieren evaluar un gran número de contenidos en tiempos razonables. Además,

pueden sustituir a la relación de ejercicios de clase, y servir de entrenamiento y preparación

para otras pruebas, si se permite la realización de varios intentos ó se elige la forma

adaptativa. Falta por comprobar, sin embargo, si los estudiantes que obtienen buenos

resultados en los cuestionarios, también los obtienen en los exámenes tradicionales.

• Diseñar buenos exámenes de opción múltiple no es sencillo. Se requiere de tiempo y de

experiencia, y más en asignaturas de marcado contenido matemático, en las que la escritura

de fórmulas es una dificultad añadida.

• La herramienta de análisis de ítems que ofrece la plataforma Moodle es apropiada para

medir la calidad de los ítems pero no muestra información acerca de la confiabilidad de la

prueba. El coeficiente de Spearman‐Brown es un estadístico que permitiría controlar el azar

en los cuestionarios.

• Sería deseable tener una caracterización de los ítems independiente del grupo de estudiantes

al que se aplican, y al mismo tiempo una medida más fiel de la precisión con que se está

midiendo la habilidad en un tema determinado.

7. Referencias Aiken, L.R. (2003). Tests psicológicos y evaluación. México: Prentice Hall Hispanoamericana. Anderson, T.W. (1996). R.A. Fisher and multivariate analysis. Statistical Sciences, 11, 20‐34. Backhoff, E., Larrazolo, N. y Rosas, M. (2000). Nivel de dificultad y poder de discriminación del Examen de Habilidades y Conocimientos Básicos (EXHCOBA).Revista Electrónica de Investigación Educativa, 2 (1). Consultado el 9 de abril de 2009 en: http://redie.uabc.mx/vol2no1/contenido‐backhoff.html Bartlett, M.S. (1968). R.A. Fisher. In D.L.Sills (Ed.), International Encyclopedia of the Social Sciences, 485‐491, New York: Macmillan.

Haladyna, T. (1994 a). Multiple‐Choice Formats. En Haladyna, T. (1994). Developing and validating multiple‐choice test items, 35‐57. New Jersey: Lawrence Erlbaum Associates.

Haladyna, T. (1994 b). Writing the test item. En Haladyna, T. (1994). Developing and validating multiple‐choice test items , 61‐86. New Jersey: Lawrence Erlbaum Associates.


11

Leuba, Richard J (1986 a). Machine‐Scored Testing, Part I: Purposes, Principles, and Practices. Engineering Education .77 (2), November, pp. 89‐95. Leuba, Richard J. (1986 b). Machine‐Scored Testing, Part II: Creativity and Analysis. Engineering Education. 77 (3), December, pp. 181‐186. Larretxea, X., Ezeiza, J.,Camacho, A.eta Lonbide, P (2007).Moodle irakaskuntza‐ikaskuntzarako plataformaren eskulibura (1.7 eta 1.8 bertsioak). Plants, H. L., Dean, R. K., Sears, J. T., and Venable, W. S. (1980). A taxonomy of problem‐solving activities and its implications for teaching. In Lubkin, J. L. (Ed.), The Teaching of Elementary Problem Solving in Engineering and Related Fields, ASEE, Washington, DC, 21‐34. Prieto, G. y Delgado, A. R. (1996) Construcción de ítems. En Muñiz, J. (1996) Psicometría, 106‐138 . Madrid: Pirámide. Vázquez, A. y Manassero, M. A. (1999 a). Response and scoring models for the “Views on Science‐Technology‐Society” instrument. International Journal of Science Education, 21 (3), 231‐247.

Vázquez, A. y Manassero, M. A.(2002 b). Instrumentos y métodos para la evaluación de las actitudes relacionadas con la ciencia, la tecnología y la sociedad. Enseñanza de las Ciencias, 20 (1), 15‐27. Vázquez Alonso, A., Manassero, M. A., Acevedo y J. A. (2005 c). Análisis cuantitativo de ítems complejos de opción múltiple en ciencia, tecnología y sociedad: Escalamiento de ítems. Revista Electrónica de Investigación Educativa, 7 (1). Consultado el 24 de marzo de 2009 en: http://redie.uabc.mx/vol7no1/contenido‐vazquez.html

Waks, L. J. y Prakash, M. S. (1985). STS education and its three step‐sisters. Bulletin of Science, Technology and Society, 52 (2), 105‐116.

Wareing, C. (1990). A survey of antecedents of attitudes toward science. Journal of Research in Science Teaching, 27 (4), 371‐386.

Williams, R. H., Zumbo, B. D., y Zimmerman, D. W. (2001 a). The Scientific Contributions of R. A. Fisher. (Paper No. ESQESS‐2001‐7). Vancouver, B.C.: University of British Columbia. Edgeworth Laboratory for Quantitative Educational and Social Science. Williams, R. H. y Zimmerman, D. W. (2003 b). A New Look at the Influence of Guessing on the Reliability of Multiple‐Choice Tests. Applied Psychological Measurement, 27, 357–371.

Zeidler, D. L. (1984). Thirty studies involving the “scientific attitude inventory”: what confidence can we have in this instrument. Journal of Research in Science Teaching, 21 (3), 341‐ 342.

Ziman, J. (1994). The rationale of STS. Education is in the approach. En J. Solomon y G. Aikenhead (Eds.), STS education: International perspectives on reform (pp. 21‐31). Nueva York: Teachers College Press.

Esta obra está bajo una licencia de Creative Commons.

Analisis Cuestionarios Inmaculada Gil

Education

Transcript of Analisis Cuestionarios Inmaculada Gil