Edumetría, Análisis Itemes (JM)

1

EDUMETRIA, ANALISIS DE ITEMES, CONFIABILIDAD Y VALIDEZ

Jorge Manzi

2013

LA EDUMETRA VS LA PSICOMETRA

3

Origen del Enfoque.

Se genera en el mbito educacional como reaccin a la teora psicomtrica a mediados de la dcada del 60. Reaccin contra la distribucin normal.

Como crtica al uso de grupos normativos en pruebas educacionales convencionales.

Como necesidad para obtener informacin ms explcita sobre los aprendizajes efectivos de los alumnos.

4

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

Normal

Esperada

Distribucin Normal versus distribucin esperada en educacin

5

Comparacin entre el enfoque psicomtrico y edumtrico.

Instrumentos con enfoque psicomtrico

Instrumentos con enfoque edumtrico

Interpretacin de resultados con respecto a un grupo de referencia.

Interpretacin de resultados con respecto a criterios o estndares.

6




Amplio rango de dificultad de las preguntas.

Rango de dificultad estrecho.

Congruencia y cobertura curricular difusa, rango de conocimientos, destrezas amplio.

Congruencia y cobertura curricular alta, rango de conocimientos, destrezas claramente especificado.

7




Se derivan diversos tipos de normas (percentiles, estndar, etc.). Las normas son relativas.

Se establecen categoras descriptivas de los aprendizajes logrados y no logrados. Las normas son absolutas.

No permite un juicio acerca del nivel de logro de los aprendizajes especficos.

Permite informar sobre el nivel de logro de los aprendizajes especficos.

Etapas del proceso de construccin de instrumentos edumtricos

Determinacin de propsitos y destinatarios

Establecimiento de formato y longitud del test, tipo de itemes y recursos disponibles para el desarrollo del test.

Preparacin de especificaciones para orientar la redaccin de itemes

Produccin de itemes

8

Etapas del proceso de construccin de instrumentos edumtricos

Evaluacin de la validez de contenido de los itemes

Aplicacin experimental (anlisis de itemes)

Establecimiento de estndares (si corresponde)

Estudios complementarios de validez

9

Anlisis de temes en pruebas edumtricas.

El anlisis de reactivos se realiza con muestras antes y despus de la instruccin, o bien, muestras sin y con instruccin.

Sobre grado de dificultad y capacidad discriminativa de los itemes: La proporcin de respuestas correctas sea baja para la

muestra sin instruccin o antes de la misma y,

La proporcin de respuestas correctas sea alta para la muestra con instruccin o despus de la misma.

Cuando se cumplen ambas condiciones, ello tambin indica que el tem es adecuadamente discriminativo

10

Anlisis de temes en pruebas edumtricas.

Sobre distractores: Cada distractor o respuesta errada debe ser elegido con mayor

frecuencia por el grupo no instruido (o pretest) que por el grupo instruido (o postest).

Ningn distractor es elegido con la misma frecuencia por ambos grupos o en ambas ocasiones.

Sobre omisin: Las omisiones deben ser mayores en el grupo no instruido (o pretest)

que en el grupo instruido o (postest).

11

Especificacin de dominios de aprendizaje para la construccin de itemes.

1. Sector de aprendizaje.

2. Subsector: subconjunto del sector.

3. Objetivo o aprendizaje esperado.

4. Tipo de item.

5. Atributos del enunciado y de los distractores.

6. Ejemplo de item.

12

Taxonoma de Bloom revisada*.

Presenta dos diferencias fundamentales respecto a la taxonoma original: Utiliza dos dimensiones en lugar de una que tena

la taxonoma original.

Designa las categoras de los procesos cognitivos con verbos en lugar de sustantivos.

Clarifica los contenidos de las categoras.

Combina las dos dimensiones slo en las categoras que tienen sentido sustantivo.

13

*Anderson, L. W: y Krathwohl, D. R. Eds..(2001) A taxonomy for Learning, Teaching,

and Assessing.New York, Longman.. .

Taxonoma de Bloom revisada.

14

Dimensin

Tipo de

conocimiento

Dimensin de procesos cognitivos

1.

Recordar

2.

Compren-

der

3.

Aplicar

4.

Analizar

5.

Evaluar

6.

Crear

Conocimiento

factual

Conocimiento

conceptual

Conocimiento

procedimental

Conocimiento

Metacognitivo

Taxonoma de Bloom revisada: Procesos cognitivos.

Recordar: recuperar conocimiento relevante de la memoria a largo plazo.

Reconocer. Ej.: Reconocer las partes del sistema circulatorio en un diagrama.

Evocar. Ej.: Enunciar los principales perodos de la historia de Chile.

15


Comprender: construir el significado a partir de diferentes mensajes, incluye la comunicacin oral, escrita y grfica. Interpretar. Ej.: Parafrasear una definicin de

confiabilidad de un instrumento de medicin educacional.

Ejemplificar. Ej.: Proporcionar ejemplos de trueque. Clasificar. Ej. Clasificar casos de trastornos de lenguaje

observados o descritos. Resumir. Ej.: Redactar una sntesis de los principales

hechos en una noticia. Comparar. Ej. Comparar democracia en la Grecia

antigua con la democracia en Chile contemporneo. Explicar. Ej.: Explicar los principales antecedentes de la

Independencia en Chile.

16


Aplicar: realizar o utilizar un procedimiento en una situacin dada.

Ejecutar. Ej.: Multiplicar dos nmeros de 3 dgitos.

Implementar. Ej.: Determinar en qu situaciones es aplicable la segunda ley de Newton.

17


Analizar: dividir un contenido en sus partes constitutivas, determinar cmo se relacionan estas parte entre s y con la estructura o propsito general. Diferenciar. Ej.: Distinguir entre los datos

relevantes e irrelevantes en un problema matemtico de enunciado verbal.

Organizar. Ej.: Estructurar una argumentacin a partir de evidencia contradictoria en un hecho policial.

Atribuir. Ej.: Determinar el punto de vista del autor de un ensayo en trminos de su perspectiva poltica.

18


Evaluar: emitir juicios basados en criterios o estndares.

Comprobar. Ej.: Determinar si las conclusiones en un artculo cientfico se desprenden de los datos aportados en el mismo.

Criticar. Ej.: Juzgar cual de dos mtodos es la mejor forma de resolver un problema.

19


Crear: reunir elementos para formar un todo coherente o funcional; reorganizar elementos en una estructura o patrn nuevo.

Generar. Ej.: Formular una hiptesis que d cuenta de un fenmeno.

Planificar. Ej.: Preparar un proyecto de investigacin.

Producir. Ej.: Escribir un cuento en la poca actual, basndose en el argumento central de Edipo Rey.

20

Taxonoma de Bloom revisada: Tipos de Conocimiento.

Conocimiento factual: elementos bsicos que los alumnos deben conocer para estar familiarizados con una disciplina y(o) resolver problemas. Conocimiento de terminologa. Ej.: Vocabulario

tcnico bsico; smbologa qumica.

Conocimiento de detalles especficos y elementos. Ej. Fuentes de informacin confiables; principales recursos naturales.

21


Conocimiento conceptual: relaciones entre los elementos bsicos en una estructura de orden mayor que les permite funcionar en conjunto. Conocimiento de clasificaciones y categoras. Ej.

Clasificacin de los cuerpos geomtricos; tipos de sociedades comerciales.

Conocimiento de principios y generalizaciones. Ej.: La ley de la oferta y la demanda; los teoremas de semejanza; conocimiento de los modelos genticos.

Conocimiento de teoras, modelos y estructuras. Ej. La teora celular; la teora de sistemas.

22


Conocimiento procedimental: forma de ejecucin de algo; mtodos de indagacin y criterios para utilizar destrezas, algoritmos, tcnicas y mtodos. Conocimiento de destrezas especficas y algoritmos en una

disciplina. Ej.: Las destrezas necesarias en la pintura al leo; el algoritmo para calcular la sumatoria de una serie.

Conocimiento de tcnicas y mtodos especficos en una disciplina. Ej.: Tcnicas de entrevista; el mtodo cientfico.

Conocimiento de criterios para determinar cundo emplear un procedimiento apropiado. Ej.; Uso de criterios para determinar el procedimiento ms adecuado para determinar la confiabilidad de un test.

23


Conocimiento metacognitivo: conocimiento de la cognicin en general, as como del monitoreo, control y regulacin de su propia cognicin. Conocimiento estratgico: estrategias generales para

aprender, pensar y resolver problemas. Ej.: Construccin de esquemas; heurstica para resolver problemas.

Conocimiento de herramientas para construir significados y comprensin. Ej. Conocimiento de que estrategias como sintetizar y parafrasear contribuyen a una comprensin ms profunda.

Autoconocimiento: de sus fortalezas y debilidades respecto al aprendizaje Ej. Identificacin de los propsitos al realizar una tarea; conocimiento de sus intereses, utilidad de realizar la tarea.

24

Taxonoma de Bloom revisada Ejemplo de plan de combinacin de dimensiones.

25

Dimensin

Tipo de

conocimiento

Dimensin de procesos cognitivos

1.

Recordar

2.

Compren-

der

3.

Aplicar

4.

Analizar

5.

Evaluar

6.

Crear

Conocimiento

factual X X

Conocimiento

conceptual X X X X

Conocimiento

procedimental X X X X

Conocimiento

Metacognitivo X X

Tipos de modelos

26

Modelos continuos

Modelos de estado

Conjunto (relativamente homogneo) de destrezas, habilidades referidas a un mismo dominio de aprendizaje, distribuido en forma continua.

27

No dominio Dominio

Modelos continuos

En el extremo superior de este continuo se identifica un segmento en el que se ubican los individuos que poseen dominio y que constituye una categora de logros de aprendizaje. El puntaje de corte delimita a este segmento.

28

No dominio Dominio

Puntaje de corte

Modelos continuos

Modelos continuos

En algunos modelos es posible identificar una zona intermedia de dominio parcial.

El objetivo de la medicin es obtener informacin para tomar decisiones educacionales; en particular, sobre las acciones que siguen a la medicin.

El puntaje de corte representa un criterio para interpretar el logro de aprendizajes de un alumno.

29

Modelos de estado

Consideran el dominio o logro de aprendizaje como un estado dicotmico.

El puntaje de corte debiera proporcionar una clasificacin con un mnimo de error.

Por lo tanto, en ambas familias de modelos la determinacin del puntaje de corte es fundamental.

30

Determinacin de estndares

Estndares de Desempeo y Puntos de Corte

Estndares de Desempeo: Descripcin escrita del nivel de conocimientos, habilidades o actitudes que los estudiantes deben mostrar para cumplir con un determinado nivel de rendimiento (p.ej., insatisfactorio, bsico, competente, destacado).

Puntos de corte: Puntaje de un test que separa a quienes logran un estndar de rendimiento de aquellos que no lo logran.

Advertencias

Los Estndares (normas, puntos de corte) son siempre parcialmente subjetivos.

En consecuencia: Diferentes jueces pueden establecer distintos puntos de corte empleando el mismo mtodo.

Se debe poner cuidado en basar los puntos de corten en mtodos acadmica y profesionalmente establecidos, de manera de acotar el grado de subjetividad.

Criterios para Standard Setting

Objetividad / Transparencia / Reproducibilidad

Confiabilidad Invarianza a travs de replicaciones.

Consistencia

Robustez Invarianza cuando hay cambios en el las condiciones o materiales

usados, etc. (p. ej.: seleccin de itemes)

Factibilidad

Puntajes de corte

Cualquiera sea el mtodo para determinar el puntaje de corte, existe la posibilidad de dos tipos de decisiones errneas: Un alumno que no haya logrado los

aprendizaje puede obtener un puntaje superior al de corte y,

un alumno que haya logrado los aprendizajes puede obtener un puntaje inferior al del puntaje de corte

35

Errores en la clasificacin de los alumnos.

Ubicacin

respecto al

puntaje de

Corte

Situacin

real de logro

Por debajo

Por encima

No Domina Decisin

correcta

Error

(Falso

positivo)

Domina Error

(falso

negativo)

Decisin

correcta

36

Procedimientos para la implementacin

Definicin de propsitos

Seleccin de participantes

Entrenamiento de participantes

Definicin de Estndares de Rendimiento

Procedimientos de Recoleccin de Datos

Procedimientos para validacin (interna externa)

Principales Mtodos

Mtodos basados en Tests basados en el contenido de los indicadores (suponen el

juicio de expertos. Ej.: Angoff, Nedelsky, Jaeger, y Ebel);

Generalmente son ms apropiados para pruebas breves y de seleccin mltiple.

Mtodos basados en los estudiantes / examinados Basados en los puntajes de los examinados (suponen

aplicaciones empricas. Ej.: mtodo de grupos contrastantes y de grupos lmtrofes);

Generalmente son ms apropiados para formatos de respuesta ms extendidos.

Estudiante limtrofe

Muchos mtodos de Estndar Setting emplean el concepto de estudiante/examinado/candidato limtrofe, tambin denominado:

Candidato Mnimamente Competente

Candidato Apenas Certificado

Es un estudiante o examinado (o grupo) real o ficticio que posee los conocimientos / habilidades mnimos para aprobar el test (para ser certificado, para ser denominado competente, etc.).

Mtodos Clsicos

Desarrollados principalmente para pruebas que miden conocimiento.

Rbricas de puntuacin dicotmicas (p.ej.: seleccin mltiple)

Pruebas tpicamente unidimensionales.

Itemes independientes.

Alta generalizabilidad de los puntajes (buen rendimiento en algunos itemes implica buen rendimiento en otros).

Ejemplos de Mtodos basados en Tests

Nedelsky (solo para pruebas con itemes de seleccin mltiple)

Angoff

Jaeger

Ebel

Mtodo de Angoff (1971)

Puede ser utilizado en cualquier tipo de prueba.

Cada juez debe pensar en un estudiante limtrofe y su estimar la probabilidad de respuesta correcta para cada pregunta.

El puntaje de corte es igual a la suma de probabilidades estimadas.

Si hay ms de un juez se debe calcular el promedio o mediana de ellos.

.%

.%

.%

.%

.%

.%

.%

.%

.%

S u m: .

s i p

Mtodo de Angoff

Mtodo de Angoff

Juez

Item 1 2 3 Promedio

1 0.70 0.60 0.70 0.67 2 0.90 0.50 0.80 0.73 3 0.80 0.50 0.60 0.63 4 0.70 0.80 0.60 0.70 5 0.80 0.80 0.70 0.77 Punto de corte 3.90 3.20 3.40 3.50

A menudo se emplea ms de una vuelta de

juicios: Mtodo Delphi.

Mtodos Modernos Evaluaciones de rendimiento complejas.

Multidimensionalidad. Se requiere que los examinados

realicen tareas que poseen mltiples componentes, cada uno de los cuales es considerado importante para el xito educacional o laboral

Rbricas de puntuacin policotmicas.

Interdependencias (p.ej.: el examinado no puede completar una tarea debido a que no ha realizado otras).

Baja generalizabilidad de puntajes al nivel de las tareas / ejercicios. El rendimiento correcto en una determinada tarea no necesariamente implica un rendimiento alto en otras.

Estndares de Rendimiento para evaluaciones complejas

Mtodo de Angoff Extendido

Mtodo Bookmark (Item-Mapping)

Mtodo de Grupos Contrastados

Cizek, G.J. (2001). Setting Performance Standards: Concepts, Methods and Perspectives. New York: Lawrence Erlbaum Associates, Inc.

Mtodo de Bookmark (item mapping)

Escalamiento de itemes

Entrenamiento de Jueces

Familiarizacin con los itemes (ordenados segn su grado de dificultad)

Jueces juzgan primero individualmente y luego colectivamente los itemes hasta alcanzar un consenso.

Bookmark: mapa de itemes

Escala de Puntajes IRT I34

I30

I4

I15

I11

I9

I18

I25

Ms Fciles

Ms Difciles

I19

I21

Bookmark: Ronda 1

Los participantes revisan, en forma personal, el cuadernillo con los itemes previamente ordenados segn su grado de dificultad. Se les pide que al analizar cada item respondan dos preguntas: qu conocimientos, habilidades y destrezas deben ser aplicados

correctamente para responder un item dado? qu hace a cada item progresivamente ms difcil que el anterior?

En esta etapa se evita que los participantes discutan los itemes en trminos de qu contenido debe ser dominado en cada nivel de desempeo (esto es propio de la 2 y 3 ronda). Con ello se pretende evitar que los juicios personales se contaminen con las opiniones de los otros o con la de algn miembro del grupo cuya opinin sea dominante.

Al trmino de esta fase, los participantes expresan su juicio sobre los puntos de corte, poniendo una seal o marca entre los temes que representan el punto de corte

Bookmark: Ronda 2

En esta fase, se realiza la discusin en grupos pequeos. En esta fase, el encargado de grupo solicita a cada participante que exponga y justifique los puntos de corte establecidos en la primera ronda. Mientras, el encargado del grupo anota esta informacin en una pizarra, de manera que todos puedan ver los puntos de corte de los otros. En este momento se discute qu tipo de contenidos debe dominar un profesor en cada una de las categoras de desempeo, identificando as, qu preguntas resultan crticas para situar a un sujeto dentro de un determinado nivel de logro.

Luego de esta discusin, se les pide a los participantes que vuelvan a establecer sus puntos de corte, y si luego de esta segunda ronda no hay consenso, se calcula la mediana entre los puntos de corte propuestos (analizando el rango entre el cul se sita el punto de corte).

Bookmark: Ronda 3

Se inicia con la presentacin de los resultados de la ronda anterior en plenario. Las personas a cargo del proceso muestran los porcentajes de docentes que clasifican en cada categora de desempeo, segn los puntos de corte sugeridos en la ronda anterior. En esta etapa se intenta promover el consenso del plenario, pidiendo a un representante de cada grupo que explique y justifique las decisiones del grupo. Si el consenso no se produce, se hace una votacin final de los panelistas. Finalmente, se tabulaban los juicios, se calculan las medianas y se presentan los puntos de corte finales y el impacto estimado.

ANLISIS DE ITEMES BASADO EN TEORA CLSICA DE LA MEDICIN

10/8/2013

Plan de anlisis de itemes en estudios de campo

Definir el diseo muestral (tamao y representatividad de la muestra)

Identificar grupos que se desee contemplar en el plan muestral (sexo, condicin socioeconmica, grupos tnicos, etc.). Esto es especialmente relevante para el anlisis del sesgo de itemes.

Establecer la longitud de las formas que se aplicarn

Establecer el tiempo asignado para responder las formas

Incorporar otros instrumentos si se desea incluirlos como criterio para evaluar los itemes.

10/8/2013

Aspectos que se evala en itemes

Grado de Dificultad

Capacidad Discriminativa

Omisin

Distractores

Sesgo de itemes / DIF

10/8/2013

Grado de Dificultad

Porcentaje de respuesta correcta

Porcentaje ajustado de respuestas correctas (considerando respuestas correctas al azar)

El rango de grado de dificultad deseable depende de la naturaleza y uso de la prueba (por ejemplo, temes de mayor grado de dificultad son deseables en pruebas de seleccin).

Lo usual es, en todo caso, excluir temes muy fciles o muy difciles.

El grado de dificultad es dependiente de la distribucin de habilidades de la muestra en que se estima.

10/8/2013

Capacidad discriminativa

Corresponde al grado en que cada pregunta del test permite diferenciar (discriminar) entre examinados con mayor o menor grado de habilidad.

Se puede establecer con respecto a un criterio externo (otro instrumento) o interno (puntaje total en el test) El primer caso maximiza la validez del instrumento El segundo maximiza la consistencia interna

Tcnicas Comparacin de grupos extremos Correlacin item-test

Correlacin biserial Correlacin biserial-puntual (cuyo valor mximo depende del

grado de dificultad)

Omisin Se analiza el porcentaje de casos que deja la pregunta sin

responder, tratando de establecer las razones de la omisin.

Considerar las instrucciones antes de resolver el grado de omisin tolerable. Mayor grado de omisin es esperable cuando se penalizan respuestas incorrectas.

Comparar el patrn de omisiones entre grupos de alta y baja habilidad.

Si la omisin es equivale entre ambos grupos, se puede sospechar ambigedad en el item (descartar)

Si la omisin es mayor en el grupo de menor habilidad, la omisin reflejara el grado de dificultad del item (conservar el item)

Analizar la omisin segn la posicin del item en la prueba. Si se incrementa hacia el final, el tiempo asignado para la prueba puede haber sido insuficiente (por esto es deseable evaluar la omisin cuando un mismo item ocupa diversas posiciones en las formas)

Distractores

Se refiere a la distribucin de las respuestas entre las opciones incorrectas.

Criterios para seleccionar itemes segn la distribucin de respuestas entre los distractores: Que ningn distractor presente proporciones demasiado

bajas de frecuencia (salvo en itemes muy fciles). Que presenten una distribucin relativamente

homognea Que todos presenten una correlacin nula o negativa

con el puntaje total Que la media de quienes los eligen sea inferior a la

media de quienes eligen la opcin correcta

Sesgo de item

Un item es sesgado cuando antecedentes ajenos a la habilidad de los examinados inciden en el desempeo en los itemes.

Los antecedentes ms estudiados han sido la pertenencia a grupos (segn gnero, origen social o tnico).

10/8/2013

Espacio para seleccin de itemes

Capacidad

Discriminativa Grado de Dificultad de los itemes

rbis 0 a 0.1

0.1 a

0.2

0.2 a

0.4

0.4 a

0.6

0.6 a

0.8

0.8 a

0.9

0.9 a

1.0

> 0.4

0.3 a o.4

0.2 a 0.3

0.1 a 0.2

0 a 0.1

ILUSTRACIN CON ITEMES DE PRUEBAS DE ADMISIN A LAS UNIVERSIDADES EN CHILE

Ejemplo de item de Lenguaje

12. La lengua es tambin una fiel representante de la calidad de ser humano en la que queremos convertirnos y hay sntomas que delatan un deterioro, como el predominio del lenguaje periodstico por sobre un lenguaje de expresin. Se perdi el matiz, la metfora, la hiprbole. La gente ahora habla de flujo vehicular y de vacacionar, copindoles a los periodistas y a la publicidad. Marta Blanco, El Mercurio

La consistencia de la argumentacin contenida en el texto ledo se manifiesta en que la autora A) utiliza el deterioro de la lengua como argumento y lo valida a travs de ejemplos. B) emplea una frmula narrativa para presentar una crtica. C) explica que la prdida del uso de figuras literarias empobrece la lengua. D) presenta una opinin slida sobre el deterioro del lenguaje periodstico. E) realiza una valiosa argumentacin basada en el lenguaje periodstico y publicitario.

Ejemplo de resultados del item anterior

Item 12: * is keyed A* B C D E Omit Invalid

i12 Responses 34.5% 10.3% 17.0% 7.5% 6.3% 24.4% 0.0%

Upper 27% 56.7% 5.5% 15.6% 2.3% 4.5% 15.3% 0.0%

Lower 27% 15.3% 12.5% 15.4% 11.9% 9.8% 34.9% 0.0%

Item-Total:

Mean Score 45.459 35.074 38.773 32.016 34.496

Point Bis 0.345 -0.091 -0.002 -0.139 -0.080

Biserial 0.445 -0.154 -0.003 -0.259 -0.158

Distribucin del grado de dificultad y capacidad discriminativa total de itemes

-0.2

0

0.2

0.4

0.6

0.8

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Grado de Dificultad

Ca

pa

cid

ad

Dis

cri

min

ati

va

(rb

is)

Tasa de Omisin segn la posicin de los itemes

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

i1 i4 i7 i10i13i16i19i22i25i28i31i34i37i40i43i46i49i52i55i58i61i64i67i70i73i76i79

Relacin entre Omisin y Dificultad

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Grado de Dificultad

Ta

sa

de

Om

isi

n

Grado de dificultad de itemes de formas paralelas prueba de Matemtica

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

ILUSTRACIN CON SOFTWARE IATA

Validez

Consistente (Confiable)

Consistente y Certero (Vlido)

Definiciones prevalecientes de Validez

Hasta los 80: Mide este test lo que intenta medir?

Desde los 80 (Messick): Qu me dice un puntaje X acerca de la persona?

Qu tipo de inferencias puedo hacer acerca de la persona a partir de sus resultados?

Cun confiado estoy acerca de estas evidencia?

La visin de Messick:

Validity is not a property of the test or assessment as such, but rather of the meaning of the test scores. These scores are a function not only of the items or stimulus conditions, but also of the persons responding as well as the context of the assessment. In particular, what needs to be valid is the meaning or interpretation of the score; as well as any implications for action that this meaning entails.

Messick, 1995

La distincin entre 3 4 tipos de validez fue predominante hasta la publicacin de los Standards for Educational & Psychological Testing de 1999 (producidos por un comit conjunto de la APA, AERA y NCME)

Los tipos clsicos

Validez de contenido

Validez concurrente

Validez predictiva

Antecedentes acerca de la validez: La nocin de tipos de validez

La aparicin del concepto de Validez de Constructo en los aos 50 transform radicalmente la visin tradicional. La validez comenz a ser comprendida como un proceso de

acumulacin de evidencias en torno al significado de los puntajes de un test.

La validacin debiera fundarse en los avances del conocimiento y las teoras en torno a los constructos medidos

La validacin debiera entenderse como un proceso de contrastacin de hiptesis

La validacin debiera recurrir a todas las metodologas cientficas pertinentes (no experimentales y experimentales)

La revolucin en la validez: la Validez de Constructo

La validez dej de entenderse como una pregunta con una respuesta definitiva. Es una cuestin permanentemente abierta a nueva evidencia

La validez dej de entenderse como la obtencin de un indicador clave (como la correlacin con otro test), en favor de la acumulacin de mltiples evidencias

La validez dej de ser un ndice, en favor de una configuracin de resultados esperados

La validez dejo de considerar slo evidencia convergente, considerando tambin evidencia discriminante (ejemplo ms acabado: uso de matrices multirasgo-multimtodo)

Se privilegi la acumulacin de diverso tipo de evidencia (de distinta naturaleza, obtenida con metodologas alternativas).

Los cambios que introdujo la Validez de Constructo

Los cambios de la conceptualizacin de 1999

Desaparecen los tipos de validez

Se promueve la acumulacin de distinto tipo de evidencias acerca de un test

Validity is the degree to which all of the accumulated evidence

supports the intended interpretation of the test scores for the intended purposes.

AERA, APA, & NCME, 1999, p. 11

En consecuencia:

No validamos un test

Validamos el uso que se da a un test

La Validez depende del test, personas evaluadas y las circunstancias en que se lleva a cabo la medicin.

Por tanto, un test puede ser vlido para un grupo o para un contexto determinado, pero invlido en otros grupos o contextos.

Tipos de evidencia acerca de la validez (Standards for Educational & Psychological Testing 1999)

Evidencia basada en el contenido del test

Evidencia basada en Procesos de Respuesta

Evidencia basada en la Estructura Interna

Evidencia basada en relaciones con otras variables

Evidencia basada en las consecuencias de la medicin

Anlisis lgico y evaluacin experta acerca del contenido del test. El juicio apunta a establecer si el contenido del test es representativo del dominio al que apunta temes

Tareas

Formatos

Fraseo

Procedimientos requeridos

Juicio basado en Revisin de la literatura

Opinin de expertos

Evidencia basada en el contenido del test

En qu medida las tareas o tipos de respuesta requeridas activan procesos psicolgicos relacionados con el constructo que se pretende medir

Evidencia: Entrevista o cuestionarios a participantes, indagando su comprensin

de las preguntas estrategias empleadas, etc.

Observacin de examinados

Anlisis del sesgo de medicin

Evidencia basada en procesos de respuesta

En qu medida los componentes de un test (itemes, tareas, etc.) se relacionan en la forma esperada para el constructo medido.

Por ejemplo, si una teora afirma que un constructo es unidimensional, ello debiera verificarse en las interrelaciones entre los componentes del test

Evidencias principales: Anlisis factorial exploratorio de los itemes

Anlisis factorial confirmatorio de los itemes

Anlisis de la invarianza factorial entre grupos

Evidencia basada en la estructura interna del test

El grado en que un test se relaciona con diversas variables aporta evidencia crucial para su validez

Evidencias principales: Validez concurrente: correlacin con otros tests que miden el mismo

constructo

Validez convergente y discriminante: para verificar si correlaciona segn lo esperado con constructos similares, y para demostrar que el test no se asocia con constructos diferentes (evaluada principalmente mediante matrices multirasgo-multimtodo)

Validez predictiva

Comparacin entre grupos

Estudios experimentales

Evidencia basada en la relacin con otras variables

Anlisis de las consecuencias esperadas y no esperadas de las mediciones. Esto es especialmente til para informar la validez de las decisiones basadas en un test.

Especialmente til cuando se pueden identificar diferentes consecuencias para diversos tipos de usuarios.

Esta evidencia sirve para verificar si se producen las consecuencias positivas que normalmente han motivado la creacin o aplicacin de un test

Evidencia: Estudio de las consecuencias a partir de entrevistas, observaciones o registros

disponibles en bases de datos

Evidencia basada en las consecuencias de un test

Validez predictiva de la PSU

Ejemplo con datos nacionales

Correlaciones Factores de Seleccin y

Notas universitarias

Ao Ingreso N carreras Lenguaje Matemtica NEM PSEL

2003 (PAA) 766 0.02 0.13 0.25 0.30

2004 777 0.08 0.29 0.27 0.39

2005 824 0.11 0.25 0.26 0.38

2006 851 0.10 0.24 0.24 0.36

2007 918 0.10 0.25 0.25 0.36

Carreras

Ciencias Ciencias

Carreras

Historia Historia

2003 (PCE) 93* 0,09 29** 0,01

2004 475 0,26 342 0,08

2005 508 0,27 430 0,08

2006 554 0,24 447 0,06

* PCE Biologa ** PCE Ciencias Sociales

Resumen de Correlaciones

Factores Optativos

SESGO DE MEDICIN

Cmo evaluar sesgo de medicin?

(mtodos externos)

Un test es sesgado para los miembros de un

grupo, cuando la prediccin de un criterio a

partir del test se aparta sistemticamente de

la prediccin comn para todos los grupos. En

otras palabras, es sesgado cuando la lnea de

regresin comn resulta muy alta o muy baja

para ese grupo.

Caso 1: Diferencias entre grupos, pero test no sesgado

Predictor bajo alto

Grupo focal

Grupo de referencia Criterio

bajo

alto

Caso 2: Diferencias entre grupos, test sesgado

Predictor bajo alto

Grupo focal

Grupo de referencia

Criterio

bajo

alto

Lnea de regresin comn

Mtodos para estudiar sesgo

Validez diferencial: anlisis comparativo de la

validez predictiva segn subgrupos. Usualmente

se estudia comparando las correlaciones o

coeficientes de regresin entre grupos

Prediccin diferencial: comparacin de los

residuos de distintos grupos una vez que se ha

ajustado una ecuacin de regresin comn. Si los

residuos son diferentes, se produce subprediccin

o sobreprediccin para ciertos grupos

Prediccin diferencial del SAT Sobreprediccin: -; Subprediccin: +

(Fuente: Mattern et al, 2008)

SAT-CR SAT-M SAT-W NEM

Hombres -.14 -.20 -.11 -.08

Mujeres .12 .17 .10 .07

Blancos .04 .05 .04 .06

Negros -.30 -.26 -.26 -.32

Hispnicos -.17 -.16 -.16 -.27

PSUM

-0.09 -0.09 -0.09-0.10 -0.10

0.110.10

0.090.10 0.10

-0.15

-0.10

-0.05

0.00

0.05

0.10

0.15

2003 2004 2005 2006 2007

Hombre Mujer

PSUL

-0.08

-0.06 -0.06 -0.07 -0.07

0.09

0.06 0.07 0.070.07

-0.15

-0.10

-0.05

0.00

0.05

0.10

0.15

2003 2004 2005 2006 2007

Hombre Mujer

NEM

-0.02

0.00

-0.01-0.02

-0.02

0.02

0.000.01

0.020.02

-0.15

-0.10

-0.05

0.00

0.05

0.10

0.15

2003 2004 2005 2006 2007

Hombre Mujer

ESTNDARES DE MEDICIN

Estndares sobre Validez

1. Se debe presentar una justificacin para cada interpretacin recomendada y el uso de los puntajes del test, junto con un resumen comprensivo de la evidencia y teora que subyace a estos usos interpretativos.

2. Quienes desarrollen el test deben establecer claramente cmo se deben interpretar y usar los puntajes. La poblacin para la cual el test es apropiado debe estar claramente delimitada y se debe describir claramente el constructo que el test pretende medir

3. Si la validez de algn tipo de interpretacin no est estudiada o si dicha interpretacin es inconsistente con la evidencia recabada, esto debe ser comunicado a los potenciales usuarios para que sean cautelosos respecto de interpretaciones sin fundamento.

4. Si un test es usado en alguna forma que no ha sido validada, es responsabilidad del usuario justificar este nuevo uso y recabar nueva evidencia en caso de ser necesario.

5. La composicin de cualquier muestra de examinados a partir de la cual se obtenga evidencia de validacin debe ser descrita en detalle, incluyendo los principales aspectos sociodemogrficos y caractersticas de desarrollo.


6. Cuando la validacin descanse en parte en la adecuacin del contenido del test, los procedimientos que se sigan para especificar y generar dichos contenidos deben ser descritos y justificados en funcin del constructo que el test busca medir o el dominio que busca representar.

7. Cuando la validacin descanse en parte en la opinin de jueces expertos u observadores, los procedimientos para seleccionar dichos expertos y para elicitar sus juicios deben ser descritos exhaustivamente. Se deben presentar tambin las calificaciones y experiencia de dichos jueces, as como el entrenamiento que recibieron y el nivel de acuerdo en sus juicios.

8. Si la justificacin para el uso de un test o para la interpretacin de sus puntajes depende de premisas acerca de procesos psicolgicos u operaciones cognitivas que usan los examinados, entonces se debe entregar evidencia emprica o terica que apoye dichas premisas.

9. Si se seala que un test no se ve afectado por la prctica y el entrenamiento, entonces esta condicin debe ser documentada.

10. Cuando se sugieran interpretaciones acerca del desempeo en itemes especficos, o de un pequeo subgrupo de ellos, se debe entregar evidencia relevante para sustentar la adecuacin de dicha interpretacin


11. Si la justificacin para el uso de un test o su interpretacin depende de premisas acerca de las relaciones entre partes del test, debe haber evidencia disponible acerca de la estructura interna del test.

12. Cuando se sugiera la interpretacin de subpuntajes o diferencias de puntajes, se debe entregar evidencia que lo sustente. Cuando se desarrollen puntajes compuestos, se debe entregar la justificacin de cmo se lleg a esta frmula.

13. Cuando la evidencia de validez incluya anlisis estadsticos de los resultados del test, ya sea que incluyan o no otras variables de inters, se debe entregar informacin respecto de las condiciones bajo las cuales se recab la evidencia, describindolas con suficiente detalle como para que los usuarios puedan juzgar la relevancia de los hallazgos estadsticos a la luz de condiciones locales.

14. Cuando la evidencia de validez incluya anlisis empricos de las respuestas junto con otras variables de inters, se debe entregar la justificacin de la seleccin de dichas variables.

15. Cuando se afirme que un determinado nivel de desempeo en el test predice un buen o mal desempeo en el constructo medido, se debe entregar informacin acerca de los niveles del constructo que se asocian con los niveles de puntaje en el test.


16. Cuando la validacin se basa en evidencia acerca de la relacin entre puntajes en el test y otras variables criterio, se debe entregar informacin acerca de la adecuacin y calidad tcnica de dichas variables.

17. Si los puntajes de un test se usan en conjunto con otras variables cuantitativas para predecir alguna otra variable, se deben hacer anlisis de regresin (u otra tcnica equivalente) que incluyan estas otras variables.

18. Cuando se hagan ajustes estadsticos, tanto los coeficientes ajustados como los no ajustados, as como los procedimientos utilizados, deben ser reportados.

19. Cuando se recomienda el uso de un test para asignar personas a tratamientos alternativos, y si los resultados de esos tratamientos pueden ser razonablemente comparados en base a un criterio comn, se debe entregar evidencia que sustente estos efectos diferenciales.

20. Cuando se use el metaanlisis como evidencia de la robustez de la relacin entre los puntajes del test y variables criterio, las caractersticas de stos deben ser comparables con aquellas que se reportan en el metaanlisis. Cualquier diferencia importante debe ser explicitada.


21. Cualquier evidencia metaanaltica que se use para fundamentar el uso sugerido de un test debe ser claramente descrita, incluyendo las opciones metodolgicas al identificar y codificar los estudios y al examinar posibles efectos de variables moderadoras.

22. Cuando se establece claramente o se seala en forma explcita que el uso recomendado de un test determinar outcomes especficos, se debe fundamentar la base que sustenta dicha determinacin.

23. Cuando se recomienda que el uso de un test, adems del fin especfico para el cual fue elaborado puede generar otros beneficios indirectos, se debe presentar la fundamentacin de estos otros beneficios.

24. Cuando resulten consecuencias inesperadas del uso de un test, se debe hacer el esfuerzo de investigar si dichas consecuencias derivan de la sensibilidad del test a caractersticas distintas de aquellas que se buscaba medir, o si el test fracasa en su intento de representar el constructo de inters.

Edumetría, Análisis Itemes (JM)

Documents

Transcript of Edumetría, Análisis Itemes (JM)