Análisis estadístico en la elaboración de exámenes.

Post on 24-Jan-2016

230 views 0 download

Transcript of Análisis estadístico en la elaboración de exámenes.

Análisis estadísticoen la elaboración de

exámenes

EL OBJETIVOExplicar los estándares de calidad en la elaboración

de exámenes según los Estándares para la Evaluación Educativa y Psicológica (AERA, APA, NCME; 2014).

Facilitar la comprensión de los requisitos que ACLES exige en su solicitud en los apartados 9 y 10: Características del examen y Control de Calidad.

El taller - 1ª parte

Trataremos la parte más teórica: • Evidencias de validez: contenido, proceso

de respuesta, estructura interna, relación con otras variables y consecuencias • Fiabilidad

Trataremos una parte más aplicada.

Exposición de las fases del análisis:• Pilotaje.• Post-convocatoria.

Descripción de los conceptos estadísticos basados en teoría clásica de test.

Programas estadísticos que podemos emplear.

El taller - 2ª parte

En la última parte del taller repasaremos juntos el modelo ACLES (puntos 9 y 10) para resolver posibles dudas:

• Características del examen• Control de calidad

El taller - 3ª parte

Primera parte

“We have found the following adjectives attached to validity in

discussions of conceptualization and mesurement: a priori,

apparent, assumption, common-sense, conceptual, concurrent,

congruent, consensual, consequential, construct, content,

convergent, criterion related, curricular, definitional, differential,

discriminant, empirical, face, factorial, incremental, instrumental,

intrisic, linguistic, logical, nomological, postdictive, practical,

pragmatic, predictive, rational, response, sampling, status,

subtantive, theorical, and trait.” (Adcock & Collier, p.530, 2001).

VALIDEZ

VALIDEZ

“Grado en que la teoría y los datos disponibles apoyan la interpretación de las puntuaciones de un test para un uso concreto”. (pág.161, Medición en Ciencias Sociales y de la Salud).

Estándares para la Evaluación Educativa

Estándares de 2014La validez puede estar basada en evidencias según …

El contenido del test

El proceso de respuesta

La estructura interna

La relación con otras variables

Las consecuencias de la evaluación

La fiabilidad

La equidad

ContenidoÁmbito: temas, tareas, expresión, formato de los ítems, instrucciones para la administración y puntuación del test.

Las pruebas son de tipo teórico, lógico y empírico.• Revisión bibliográfica.• Opinión de las personas interesadas:

− Expertos del constructo a evaluar.− Población diana.

ContenidoConsideraciones generales sobre escritura de ítems:•Definición clara y precisa del constructo a medir.•Número aproximado y formato de los ítems.•Confeccionar el doble o triple de ítems. •Representación relevante.

Contenidoítems de elección múltiple, las alternativas:•Homogéneas en longitud y relevancia.•Evitar negaciones dobles.•Evitar reiteraciones innecesarias.•Si se utilizan cifras, presentarlas ordenadas.•Evitar usar “todas las anteriores”.•La ubicación de la alternativa correcta se ha de establecer al azar.

Proceso de respuestaPara mejorar el proceso: conocer qué factores influyen, cómo detectar posibles procesos inadecuados, y cómo introducir las correcciones que podamos.

Factores que influyen en el proceso de respuesta:• Contenido de los ítems• Instrucciones para contestar el cuestionario• Longitud del cuestionario

Metodología:• Observar que hacen las personas al responder.• Preguntar a las personas.• Análisis empírico de las respuestas: – Detección de patrones anómalos.

Resultados:Mucha variabilidad en el proceso de respuesta, conlleva

una revisión del formato del test.

Proceso de respuesta

¿Mide nuestro test un constructo coherente o se trata simplemente de un conjunto de ítems no relacionados?

Para estudiarla:• Estudios de dimensionalidad (AFE, AFC).• Funcionamiento diferencial de los ítems

(DIF).

Estructura Interna

Consecuencias de la aplicación del test

• Demostrar que las consecuencias de la avaluación coinciden con las consecuencies previstas

• Indagar sobre la existencia de posibles consecuencias no previstas–debidas a infrarepresentación del constructo–debidas a incluir aspectos irrelevantes

Relación con otras variables

El objetivo es establecer si las relaciones observadas entre las puntuaciones en el test y otras variables externas relevantes son consistentes con la interpretación propuesta para las puntuaciones.

Evidencia convergente, discriminante o referida a un criterio.

Relación con otras variablesVariables externas relevantes:• Otras medidas del mismo constructo

obtenidas con diferentes tests. • Medidas de constructos diferentes pero que

se insertan en el mismo modelo teórico. • Algún tipo de variable que pretendamos

predecir a partir de las puntuaciones en el test.

“ Grado en que una medida es consistente en diferentes aplicaciones del mismo

instrumento de medida”.

(pág.161, Medición en Ciencias Sociales y de la Salud).

FIABILIDAD

FIABILIDAD Confianza

Coherencia Reproductibilidad

Seguridad Precisión

• Teoría clásica de test.

• Teoría de respuesta al ítem.

• Teoría de la generalizabilidad.

¿Cómo estudiar la fiabilidad?

Estrategias

Estrategia Aplicaciones Paso de tiempo entre aplicaciones

Estadísticos

Test-retest Dos aplicaciones Sí Correlación:PearsonSpearmanKappa de Cohen

T. Paralelas Una aplicación No necesaria Igual que en Test-retest

Consistencia interna

Una aplicación No necesaria Homogeneidad y consistencia:Spearman-BrownGlutman-FlaneganAlfa de Cronbach

Consistencia Interna

EQUIDAD

• Ausencia de sesgo.• Tratamiento equitativo durante el proceso.• Igualdad en la exposición de los resultados.• Derechos y responsabilidades de los examinados.• Background de los examinandos.• Atención a los discapacitados.

Segunda parte

Pilotaje – parte cualitativa¿Qué vamos a evaluar? ¿A quién vamos a evaluar?

Tabla de especificaciones para la creación de ítems. (Crear más de los necesarios).– Tipologías– Número– Nivel

Revisión por parte de expertos que no han elaborado los ítems.

“No puede olvidarse que el objetivo esencial es conseguir una muestra de ítems relevante para cada uno de los componentes del constructo,

asegurar que cada componente esté bien representado por los ítems elaborados y en la

proporción adecuada en función de su importancia dentro de la definición adoptada.”

(Desarrollo y revisión de estudios instrumentales, Carretero-Dios y Perez)

Pilotaje

¿Cuántos alumnos necesito? (Muestra)- Número de ítems/ejercicios.- Número de niveles implicados.- Tiempo para llevarlo a cabo.- Población disponible.

¿Necesitamos crear paquetes?

Pilotaje – recogida de datos

Características de los paquetes:

•20 % ítems de anclaje (comunes).•Misma distribución de ítems.– Tipología.– Dificultad.

Pilotaje – recogida de datos

Condiciones de aplicación:•Instrucciones.•Condiciones del aula.•Recogida de datos.Muestra:•Alumnos del nivel inmediatamente inferior y superior.•300 alumnos o 5-10 alumnos por ítem.

Pilotaje – recogida de datos

Control de calidad:•Análisis descriptivo ítem de anclaje por paquete.•Análisis gráfico del comportamiento.

Análisis de ítems: dificultad, discriminación, distractores.

Análisis de validez y fiabilidad:•Evidencias de validez (basadas en las cinco evidencias).•Fiabilidad (consistencia interna).

Pilotaje – análisis cuantitativo

Dificultad• Es la proporción de estudiantes que contestan

correctamente a la pregunta.• Por su interpretacion podría denominarse índice de

éxito.• ¿Qué valores toma el índice de dificultad?

Ejemplo:Una muestra de 130 alumnos si un ítem lo responden

correctamente 80. 0,6153

Dificultad

Valor Calidad0.81 – 1.00 Muy fácil0.61 – 0.80 Fácil0.41 – 0.60 Moderada0.21 – 0.40 Difícil0.00 – 0.20 Muy difícil

Discriminación• Coeficiente de discriminación.• Correlación biserial.• Índice de discriminación.

Dividir la muestra en 3 grupos: 27% (Pa), 46%, 27% (Pb).

Discriminación= Pa – Pb

(Pa: Proporción de respuestas correctas del 27% de los alumnos con mejor nota.)

(Pa: Proporción de respuestas correctas del 27% de los alumnos con peor nota.)

Discriminación

Discriminación Valor Calidad Recomendación> 0.39 Excelente Conservar0.31 – 0.39 Buena Posibilidades de mejorar0.20 – 0.30 Regular Necesita ser revisado0.00 – 0.19 Pobre Descartar o revisar en

profundidadNegativo Pésima Descartar definitivamente

Tabla. Poder de dsicriminación (valor D). Ebel y Frisbie (1986)

Análisis de distractores• Consiste en estudiar las respuestas a las

alternativas incorrectas.

• Al aumentar el número de alternativas, se reduce la probabilidad de aciertos al azar. El número óptimo de alternativas sería 3 (Grier, 1976).

Correlación• Relación entre dos variables cuantitativas.

• Toma valores entre -1 y +1:– Negativo: a mayor valor de una variable, menor

valor de la otra.– Positivo: a mayor valor de la variable, mayor valor

de la otra.

Correlación

Correlación

Análisis descriptivo (media, desviación estándar, cuartiles, gráficos):•De los ejercicios.•Del global.

Análisis de validez y fiabilidad:•Evidencias de validez (contenido, proceso de respuesta, estructura interna, consecuencias y relación con otras variables).•Fiabilidad (consistencia interna).

Post análisis – cuantitativo

Programas informáticos

• Comerciales: SPSS, SAS, STATA BILOG, WINSTEP, PARSCALE

• Gratuitos: TAP (www.ohio.edu/people/brooksg/software.htm) R (R-commander) www.rcommander.com

OpenOffice

Tercera parte

SOLICITUD PUNTO 9

SOLICITUD PUNTO 10

Muchas gracias por su atención.

Rebeca García-RuedaRebeca.Garcia@uab.es

Rebeca García-RuedaRebeca.Garcia@uab.es