Edumetría, Análisis Itemes (JM)

102
1 EDUMETRIA, ANALISIS DE ITEMES, CONFIABILIDAD Y VALIDEZ Jorge Manzi 2013

description

edumetria

Transcript of Edumetría, Análisis Itemes (JM)

  • 1

    EDUMETRIA, ANALISIS DE ITEMES, CONFIABILIDAD Y VALIDEZ

    Jorge Manzi

    2013

  • LA EDUMETRA VS LA PSICOMETRA

  • 3

    Origen del Enfoque.

    Se genera en el mbito educacional como reaccin a la teora psicomtrica a mediados de la dcada del 60. Reaccin contra la distribucin normal.

    Como crtica al uso de grupos normativos en pruebas educacionales convencionales.

    Como necesidad para obtener informacin ms explcita sobre los aprendizajes efectivos de los alumnos.

  • 4

    0

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    0.07

    0.08

    0.09

    Normal

    Esperada

    Distribucin Normal versus distribucin esperada en educacin

  • 5

    Comparacin entre el enfoque psicomtrico y edumtrico.

    Instrumentos con enfoque psicomtrico

    Instrumentos con enfoque edumtrico

    Interpretacin de resultados con respecto a un grupo de referencia.

    Interpretacin de resultados con respecto a criterios o estndares.

  • 6

    Comparacin entre el enfoque psicomtrico y edumtrico.

    Instrumentos con enfoque psicomtrico

    Instrumentos con enfoque edumtrico

    Amplio rango de dificultad de las preguntas.

    Rango de dificultad estrecho.

    Congruencia y cobertura curricular difusa, rango de conocimientos, destrezas amplio.

    Congruencia y cobertura curricular alta, rango de conocimientos, destrezas claramente especificado.

  • 7

    Comparacin entre el enfoque psicomtrico y edumtrico.

    Instrumentos con enfoque psicomtrico

    Instrumentos con enfoque edumtrico

    Se derivan diversos tipos de normas (percentiles, estndar, etc.). Las normas son relativas.

    Se establecen categoras descriptivas de los aprendizajes logrados y no logrados. Las normas son absolutas.

    No permite un juicio acerca del nivel de logro de los aprendizajes especficos.

    Permite informar sobre el nivel de logro de los aprendizajes especficos.

  • Etapas del proceso de construccin de instrumentos edumtricos

    Determinacin de propsitos y destinatarios

    Establecimiento de formato y longitud del test, tipo de itemes y recursos disponibles para el desarrollo del test.

    Preparacin de especificaciones para orientar la redaccin de itemes

    Produccin de itemes

    8

  • Etapas del proceso de construccin de instrumentos edumtricos

    Evaluacin de la validez de contenido de los itemes

    Aplicacin experimental (anlisis de itemes)

    Establecimiento de estndares (si corresponde)

    Estudios complementarios de validez

    9

  • Anlisis de temes en pruebas edumtricas.

    El anlisis de reactivos se realiza con muestras antes y despus de la instruccin, o bien, muestras sin y con instruccin.

    Sobre grado de dificultad y capacidad discriminativa de los itemes: La proporcin de respuestas correctas sea baja para la

    muestra sin instruccin o antes de la misma y,

    La proporcin de respuestas correctas sea alta para la muestra con instruccin o despus de la misma.

    Cuando se cumplen ambas condiciones, ello tambin indica que el tem es adecuadamente discriminativo

    10

  • Anlisis de temes en pruebas edumtricas.

    Sobre distractores: Cada distractor o respuesta errada debe ser elegido con mayor

    frecuencia por el grupo no instruido (o pretest) que por el grupo instruido (o postest).

    Ningn distractor es elegido con la misma frecuencia por ambos grupos o en ambas ocasiones.

    Sobre omisin: Las omisiones deben ser mayores en el grupo no instruido (o pretest)

    que en el grupo instruido o (postest).

    11

  • Especificacin de dominios de aprendizaje para la construccin de itemes.

    1. Sector de aprendizaje.

    2. Subsector: subconjunto del sector.

    3. Objetivo o aprendizaje esperado.

    4. Tipo de item.

    5. Atributos del enunciado y de los distractores.

    6. Ejemplo de item.

    12

  • Taxonoma de Bloom revisada*.

    Presenta dos diferencias fundamentales respecto a la taxonoma original: Utiliza dos dimensiones en lugar de una que tena

    la taxonoma original.

    Designa las categoras de los procesos cognitivos con verbos en lugar de sustantivos.

    Clarifica los contenidos de las categoras.

    Combina las dos dimensiones slo en las categoras que tienen sentido sustantivo.

    13

    *Anderson, L. W: y Krathwohl, D. R. Eds..(2001) A taxonomy for Learning, Teaching,

    and Assessing.New York, Longman.. .

  • Taxonoma de Bloom revisada.

    14

    Dimensin

    Tipo de

    conocimiento

    Dimensin de procesos cognitivos

    1.

    Recordar

    2.

    Compren-

    der

    3.

    Aplicar

    4.

    Analizar

    5.

    Evaluar

    6.

    Crear

    Conocimiento

    factual

    Conocimiento

    conceptual

    Conocimiento

    procedimental

    Conocimiento

    Metacognitivo

  • Taxonoma de Bloom revisada: Procesos cognitivos.

    Recordar: recuperar conocimiento relevante de la memoria a largo plazo.

    Reconocer. Ej.: Reconocer las partes del sistema circulatorio en un diagrama.

    Evocar. Ej.: Enunciar los principales perodos de la historia de Chile.

    15

  • Taxonoma de Bloom revisada: Procesos cognitivos.

    Comprender: construir el significado a partir de diferentes mensajes, incluye la comunicacin oral, escrita y grfica. Interpretar. Ej.: Parafrasear una definicin de

    confiabilidad de un instrumento de medicin educacional.

    Ejemplificar. Ej.: Proporcionar ejemplos de trueque. Clasificar. Ej. Clasificar casos de trastornos de lenguaje

    observados o descritos. Resumir. Ej.: Redactar una sntesis de los principales

    hechos en una noticia. Comparar. Ej. Comparar democracia en la Grecia

    antigua con la democracia en Chile contemporneo. Explicar. Ej.: Explicar los principales antecedentes de la

    Independencia en Chile.

    16

  • Taxonoma de Bloom revisada: Procesos cognitivos.

    Aplicar: realizar o utilizar un procedimiento en una situacin dada.

    Ejecutar. Ej.: Multiplicar dos nmeros de 3 dgitos.

    Implementar. Ej.: Determinar en qu situaciones es aplicable la segunda ley de Newton.

    17

  • Taxonoma de Bloom revisada: Procesos cognitivos.

    Analizar: dividir un contenido en sus partes constitutivas, determinar cmo se relacionan estas parte entre s y con la estructura o propsito general. Diferenciar. Ej.: Distinguir entre los datos

    relevantes e irrelevantes en un problema matemtico de enunciado verbal.

    Organizar. Ej.: Estructurar una argumentacin a partir de evidencia contradictoria en un hecho policial.

    Atribuir. Ej.: Determinar el punto de vista del autor de un ensayo en trminos de su perspectiva poltica.

    18

  • Taxonoma de Bloom revisada: Procesos cognitivos.

    Evaluar: emitir juicios basados en criterios o estndares.

    Comprobar. Ej.: Determinar si las conclusiones en un artculo cientfico se desprenden de los datos aportados en el mismo.

    Criticar. Ej.: Juzgar cual de dos mtodos es la mejor forma de resolver un problema.

    19

  • Taxonoma de Bloom revisada: Procesos cognitivos.

    Crear: reunir elementos para formar un todo coherente o funcional; reorganizar elementos en una estructura o patrn nuevo.

    Generar. Ej.: Formular una hiptesis que d cuenta de un fenmeno.

    Planificar. Ej.: Preparar un proyecto de investigacin.

    Producir. Ej.: Escribir un cuento en la poca actual, basndose en el argumento central de Edipo Rey.

    20

  • Taxonoma de Bloom revisada: Tipos de Conocimiento.

    Conocimiento factual: elementos bsicos que los alumnos deben conocer para estar familiarizados con una disciplina y(o) resolver problemas. Conocimiento de terminologa. Ej.: Vocabulario

    tcnico bsico; smbologa qumica.

    Conocimiento de detalles especficos y elementos. Ej. Fuentes de informacin confiables; principales recursos naturales.

    21

  • Taxonoma de Bloom revisada: Tipos de Conocimiento.

    Conocimiento conceptual: relaciones entre los elementos bsicos en una estructura de orden mayor que les permite funcionar en conjunto. Conocimiento de clasificaciones y categoras. Ej.

    Clasificacin de los cuerpos geomtricos; tipos de sociedades comerciales.

    Conocimiento de principios y generalizaciones. Ej.: La ley de la oferta y la demanda; los teoremas de semejanza; conocimiento de los modelos genticos.

    Conocimiento de teoras, modelos y estructuras. Ej. La teora celular; la teora de sistemas.

    22

  • Taxonoma de Bloom revisada: Tipos de Conocimiento.

    Conocimiento procedimental: forma de ejecucin de algo; mtodos de indagacin y criterios para utilizar destrezas, algoritmos, tcnicas y mtodos. Conocimiento de destrezas especficas y algoritmos en una

    disciplina. Ej.: Las destrezas necesarias en la pintura al leo; el algoritmo para calcular la sumatoria de una serie.

    Conocimiento de tcnicas y mtodos especficos en una disciplina. Ej.: Tcnicas de entrevista; el mtodo cientfico.

    Conocimiento de criterios para determinar cundo emplear un procedimiento apropiado. Ej.; Uso de criterios para determinar el procedimiento ms adecuado para determinar la confiabilidad de un test.

    23

  • Taxonoma de Bloom revisada: Tipos de Conocimiento.

    Conocimiento metacognitivo: conocimiento de la cognicin en general, as como del monitoreo, control y regulacin de su propia cognicin. Conocimiento estratgico: estrategias generales para

    aprender, pensar y resolver problemas. Ej.: Construccin de esquemas; heurstica para resolver problemas.

    Conocimiento de herramientas para construir significados y comprensin. Ej. Conocimiento de que estrategias como sintetizar y parafrasear contribuyen a una comprensin ms profunda.

    Autoconocimiento: de sus fortalezas y debilidades respecto al aprendizaje Ej. Identificacin de los propsitos al realizar una tarea; conocimiento de sus intereses, utilidad de realizar la tarea.

    24

  • Taxonoma de Bloom revisada Ejemplo de plan de combinacin de dimensiones.

    25

    Dimensin

    Tipo de

    conocimiento

    Dimensin de procesos cognitivos

    1.

    Recordar

    2.

    Compren-

    der

    3.

    Aplicar

    4.

    Analizar

    5.

    Evaluar

    6.

    Crear

    Conocimiento

    factual X X

    Conocimiento

    conceptual X X X X

    Conocimiento

    procedimental X X X X

    Conocimiento

    Metacognitivo X X

  • Tipos de modelos

    26

    Modelos continuos

    Modelos de estado

  • Conjunto (relativamente homogneo) de destrezas, habilidades referidas a un mismo dominio de aprendizaje, distribuido en forma continua.

    27

    No dominio Dominio

    Modelos continuos

  • En el extremo superior de este continuo se identifica un segmento en el que se ubican los individuos que poseen dominio y que constituye una categora de logros de aprendizaje. El puntaje de corte delimita a este segmento.

    28

    No dominio Dominio

    Puntaje de corte

    Modelos continuos

  • Modelos continuos

    En algunos modelos es posible identificar una zona intermedia de dominio parcial.

    El objetivo de la medicin es obtener informacin para tomar decisiones educacionales; en particular, sobre las acciones que siguen a la medicin.

    El puntaje de corte representa un criterio para interpretar el logro de aprendizajes de un alumno.

    29

  • Modelos de estado

    Consideran el dominio o logro de aprendizaje como un estado dicotmico.

    El puntaje de corte debiera proporcionar una clasificacin con un mnimo de error.

    Por lo tanto, en ambas familias de modelos la determinacin del puntaje de corte es fundamental.

    30

  • Determinacin de estndares

  • Estndares de Desempeo y Puntos de Corte

    Estndares de Desempeo: Descripcin escrita del nivel de conocimientos, habilidades o actitudes que los estudiantes deben mostrar para cumplir con un determinado nivel de rendimiento (p.ej., insatisfactorio, bsico, competente, destacado).

    Puntos de corte: Puntaje de un test que separa a quienes logran un estndar de rendimiento de aquellos que no lo logran.

  • Advertencias

    Los Estndares (normas, puntos de corte) son siempre parcialmente subjetivos.

    En consecuencia: Diferentes jueces pueden establecer distintos puntos de corte empleando el mismo mtodo.

    Se debe poner cuidado en basar los puntos de corten en mtodos acadmica y profesionalmente establecidos, de manera de acotar el grado de subjetividad.

  • Criterios para Standard Setting

    Objetividad / Transparencia / Reproducibilidad

    Confiabilidad Invarianza a travs de replicaciones.

    Consistencia

    Robustez Invarianza cuando hay cambios en el las condiciones o materiales

    usados, etc. (p. ej.: seleccin de itemes)

    Factibilidad

  • Puntajes de corte

    Cualquiera sea el mtodo para determinar el puntaje de corte, existe la posibilidad de dos tipos de decisiones errneas: Un alumno que no haya logrado los

    aprendizaje puede obtener un puntaje superior al de corte y,

    un alumno que haya logrado los aprendizajes puede obtener un puntaje inferior al del puntaje de corte

    35

  • Errores en la clasificacin de los alumnos.

    Ubicacin

    respecto al

    puntaje de

    Corte

    Situacin

    real de logro

    Por debajo

    Por encima

    No Domina Decisin

    correcta

    Error

    (Falso

    positivo)

    Domina Error

    (falso

    negativo)

    Decisin

    correcta

    36

  • Procedimientos para la implementacin

    Definicin de propsitos

    Seleccin de participantes

    Entrenamiento de participantes

    Definicin de Estndares de Rendimiento

    Procedimientos de Recoleccin de Datos

    Procedimientos para validacin (interna externa)

  • Principales Mtodos

    Mtodos basados en Tests basados en el contenido de los indicadores (suponen el

    juicio de expertos. Ej.: Angoff, Nedelsky, Jaeger, y Ebel);

    Generalmente son ms apropiados para pruebas breves y de seleccin mltiple.

    Mtodos basados en los estudiantes / examinados Basados en los puntajes de los examinados (suponen

    aplicaciones empricas. Ej.: mtodo de grupos contrastantes y de grupos lmtrofes);

    Generalmente son ms apropiados para formatos de respuesta ms extendidos.

  • Estudiante limtrofe

    Muchos mtodos de Estndar Setting emplean el concepto de estudiante/examinado/candidato limtrofe, tambin denominado:

    Candidato Mnimamente Competente

    Candidato Apenas Certificado

    Es un estudiante o examinado (o grupo) real o ficticio que posee los conocimientos / habilidades mnimos para aprobar el test (para ser certificado, para ser denominado competente, etc.).

  • Mtodos Clsicos

    Desarrollados principalmente para pruebas que miden conocimiento.

    Rbricas de puntuacin dicotmicas (p.ej.: seleccin mltiple)

    Pruebas tpicamente unidimensionales.

    Itemes independientes.

    Alta generalizabilidad de los puntajes (buen rendimiento en algunos itemes implica buen rendimiento en otros).

  • Ejemplos de Mtodos basados en Tests

    Nedelsky (solo para pruebas con itemes de seleccin mltiple)

    Angoff

    Jaeger

    Ebel

  • Mtodo de Angoff (1971)

    Puede ser utilizado en cualquier tipo de prueba.

    Cada juez debe pensar en un estudiante limtrofe y su estimar la probabilidad de respuesta correcta para cada pregunta.

    El puntaje de corte es igual a la suma de probabilidades estimadas.

    Si hay ms de un juez se debe calcular el promedio o mediana de ellos.

  • .%

    .%

    .%

    .%

    .%

    .%

    .%

    .%

    .%

    S u m: .

    s i p

    Mtodo de Angoff

  • Mtodo de Angoff

    Juez

    Item 1 2 3 Promedio

    1 0.70 0.60 0.70 0.67 2 0.90 0.50 0.80 0.73 3 0.80 0.50 0.60 0.63 4 0.70 0.80 0.60 0.70 5 0.80 0.80 0.70 0.77 Punto de corte 3.90 3.20 3.40 3.50

    A menudo se emplea ms de una vuelta de

    juicios: Mtodo Delphi.

  • Mtodos Modernos Evaluaciones de rendimiento complejas.

    Multidimensionalidad. Se requiere que los examinados

    realicen tareas que poseen mltiples componentes, cada uno de los cuales es considerado importante para el xito educacional o laboral

    Rbricas de puntuacin policotmicas.

    Interdependencias (p.ej.: el examinado no puede completar una tarea debido a que no ha realizado otras).

    Baja generalizabilidad de puntajes al nivel de las tareas / ejercicios. El rendimiento correcto en una determinada tarea no necesariamente implica un rendimiento alto en otras.

  • Estndares de Rendimiento para evaluaciones complejas

    Mtodo de Angoff Extendido

    Mtodo Bookmark (Item-Mapping)

    Mtodo de Grupos Contrastados

    Cizek, G.J. (2001). Setting Performance Standards: Concepts, Methods and Perspectives. New York: Lawrence Erlbaum Associates, Inc.

  • Mtodo de Bookmark (item mapping)

    Escalamiento de itemes

    Entrenamiento de Jueces

    Familiarizacin con los itemes (ordenados segn su grado de dificultad)

    Jueces juzgan primero individualmente y luego colectivamente los itemes hasta alcanzar un consenso.

  • Bookmark: mapa de itemes

    Escala de Puntajes IRT I34

    I30

    I4

    I15

    I11

    I9

    I18

    I25

    Ms Fciles

    Ms Difciles

    I19

    I21

  • Bookmark: Ronda 1

    Los participantes revisan, en forma personal, el cuadernillo con los itemes previamente ordenados segn su grado de dificultad. Se les pide que al analizar cada item respondan dos preguntas: qu conocimientos, habilidades y destrezas deben ser aplicados

    correctamente para responder un item dado? qu hace a cada item progresivamente ms difcil que el anterior?

    En esta etapa se evita que los participantes discutan los itemes en trminos de qu contenido debe ser dominado en cada nivel de desempeo (esto es propio de la 2 y 3 ronda). Con ello se pretende evitar que los juicios personales se contaminen con las opiniones de los otros o con la de algn miembro del grupo cuya opinin sea dominante.

    Al trmino de esta fase, los participantes expresan su juicio sobre los puntos de corte, poniendo una seal o marca entre los temes que representan el punto de corte

  • Bookmark: Ronda 2

    En esta fase, se realiza la discusin en grupos pequeos. En esta fase, el encargado de grupo solicita a cada participante que exponga y justifique los puntos de corte establecidos en la primera ronda. Mientras, el encargado del grupo anota esta informacin en una pizarra, de manera que todos puedan ver los puntos de corte de los otros. En este momento se discute qu tipo de contenidos debe dominar un profesor en cada una de las categoras de desempeo, identificando as, qu preguntas resultan crticas para situar a un sujeto dentro de un determinado nivel de logro.

    Luego de esta discusin, se les pide a los participantes que vuelvan a establecer sus puntos de corte, y si luego de esta segunda ronda no hay consenso, se calcula la mediana entre los puntos de corte propuestos (analizando el rango entre el cul se sita el punto de corte).

  • Bookmark: Ronda 3

    Se inicia con la presentacin de los resultados de la ronda anterior en plenario. Las personas a cargo del proceso muestran los porcentajes de docentes que clasifican en cada categora de desempeo, segn los puntos de corte sugeridos en la ronda anterior. En esta etapa se intenta promover el consenso del plenario, pidiendo a un representante de cada grupo que explique y justifique las decisiones del grupo. Si el consenso no se produce, se hace una votacin final de los panelistas. Finalmente, se tabulaban los juicios, se calculan las medianas y se presentan los puntos de corte finales y el impacto estimado.

  • ANLISIS DE ITEMES BASADO EN TEORA CLSICA DE LA MEDICIN

  • 10/8/2013

    Plan de anlisis de itemes en estudios de campo

    Definir el diseo muestral (tamao y representatividad de la muestra)

    Identificar grupos que se desee contemplar en el plan muestral (sexo, condicin socioeconmica, grupos tnicos, etc.). Esto es especialmente relevante para el anlisis del sesgo de itemes.

    Establecer la longitud de las formas que se aplicarn

    Establecer el tiempo asignado para responder las formas

    Incorporar otros instrumentos si se desea incluirlos como criterio para evaluar los itemes.

  • 10/8/2013

    Aspectos que se evala en itemes

    Grado de Dificultad

    Capacidad Discriminativa

    Omisin

    Distractores

    Sesgo de itemes / DIF

  • 10/8/2013

    Grado de Dificultad

    Porcentaje de respuesta correcta

    Porcentaje ajustado de respuestas correctas (considerando respuestas correctas al azar)

    El rango de grado de dificultad deseable depende de la naturaleza y uso de la prueba (por ejemplo, temes de mayor grado de dificultad son deseables en pruebas de seleccin).

    Lo usual es, en todo caso, excluir temes muy fciles o muy difciles.

    El grado de dificultad es dependiente de la distribucin de habilidades de la muestra en que se estima.

  • 10/8/2013

    Capacidad discriminativa

    Corresponde al grado en que cada pregunta del test permite diferenciar (discriminar) entre examinados con mayor o menor grado de habilidad.

    Se puede establecer con respecto a un criterio externo (otro instrumento) o interno (puntaje total en el test) El primer caso maximiza la validez del instrumento El segundo maximiza la consistencia interna

    Tcnicas Comparacin de grupos extremos Correlacin item-test

    Correlacin biserial Correlacin biserial-puntual (cuyo valor mximo depende del

    grado de dificultad)

  • Omisin Se analiza el porcentaje de casos que deja la pregunta sin

    responder, tratando de establecer las razones de la omisin.

    Considerar las instrucciones antes de resolver el grado de omisin tolerable. Mayor grado de omisin es esperable cuando se penalizan respuestas incorrectas.

    Comparar el patrn de omisiones entre grupos de alta y baja habilidad.

    Si la omisin es equivale entre ambos grupos, se puede sospechar ambigedad en el item (descartar)

    Si la omisin es mayor en el grupo de menor habilidad, la omisin reflejara el grado de dificultad del item (conservar el item)

    Analizar la omisin segn la posicin del item en la prueba. Si se incrementa hacia el final, el tiempo asignado para la prueba puede haber sido insuficiente (por esto es deseable evaluar la omisin cuando un mismo item ocupa diversas posiciones en las formas)

  • Distractores

    Se refiere a la distribucin de las respuestas entre las opciones incorrectas.

    Criterios para seleccionar itemes segn la distribucin de respuestas entre los distractores: Que ningn distractor presente proporciones demasiado

    bajas de frecuencia (salvo en itemes muy fciles). Que presenten una distribucin relativamente

    homognea Que todos presenten una correlacin nula o negativa

    con el puntaje total Que la media de quienes los eligen sea inferior a la

    media de quienes eligen la opcin correcta

  • Sesgo de item

    Un item es sesgado cuando antecedentes ajenos a la habilidad de los examinados inciden en el desempeo en los itemes.

    Los antecedentes ms estudiados han sido la pertenencia a grupos (segn gnero, origen social o tnico).

  • 10/8/2013

    Espacio para seleccin de itemes

    Capacidad

    Discriminativa Grado de Dificultad de los itemes

    rbis 0 a 0.1

    0.1 a

    0.2

    0.2 a

    0.4

    0.4 a

    0.6

    0.6 a

    0.8

    0.8 a

    0.9

    0.9 a

    1.0

    > 0.4

    0.3 a o.4

    0.2 a 0.3

    0.1 a 0.2

    0 a 0.1

  • ILUSTRACIN CON ITEMES DE PRUEBAS DE ADMISIN A LAS UNIVERSIDADES EN CHILE

  • Ejemplo de item de Lenguaje

    12. La lengua es tambin una fiel representante de la calidad de ser humano en la que queremos convertirnos y hay sntomas que delatan un deterioro, como el predominio del lenguaje periodstico por sobre un lenguaje de expresin. Se perdi el matiz, la metfora, la hiprbole. La gente ahora habla de flujo vehicular y de vacacionar, copindoles a los periodistas y a la publicidad. Marta Blanco, El Mercurio

    La consistencia de la argumentacin contenida en el texto ledo se manifiesta en que la autora A) utiliza el deterioro de la lengua como argumento y lo valida a travs de ejemplos. B) emplea una frmula narrativa para presentar una crtica. C) explica que la prdida del uso de figuras literarias empobrece la lengua. D) presenta una opinin slida sobre el deterioro del lenguaje periodstico. E) realiza una valiosa argumentacin basada en el lenguaje periodstico y publicitario.

  • Ejemplo de resultados del item anterior

    Item 12: * is keyed A* B C D E Omit Invalid

    i12 Responses 34.5% 10.3% 17.0% 7.5% 6.3% 24.4% 0.0%

    Upper 27% 56.7% 5.5% 15.6% 2.3% 4.5% 15.3% 0.0%

    Lower 27% 15.3% 12.5% 15.4% 11.9% 9.8% 34.9% 0.0%

    Item-Total:

    Mean Score 45.459 35.074 38.773 32.016 34.496

    Point Bis 0.345 -0.091 -0.002 -0.139 -0.080

    Biserial 0.445 -0.154 -0.003 -0.259 -0.158

  • Distribucin del grado de dificultad y capacidad discriminativa total de itemes

    -0.2

    0

    0.2

    0.4

    0.6

    0.8

    1

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

    Grado de Dificultad

    Ca

    pa

    cid

    ad

    Dis

    cri

    min

    ati

    va

    (rb

    is)

  • Tasa de Omisin segn la posicin de los itemes

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    i1 i4 i7 i10i13i16i19i22i25i28i31i34i37i40i43i46i49i52i55i58i61i64i67i70i73i76i79

  • Relacin entre Omisin y Dificultad

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

    Grado de Dificultad

    Ta

    sa

    de

    Om

    isi

    n

  • Grado de dificultad de itemes de formas paralelas prueba de Matemtica

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

  • ILUSTRACIN CON SOFTWARE IATA

  • Validez

  • Consistente (Confiable)

  • Consistente y Certero (Vlido)

  • Definiciones prevalecientes de Validez

    Hasta los 80: Mide este test lo que intenta medir?

    Desde los 80 (Messick): Qu me dice un puntaje X acerca de la persona?

    Qu tipo de inferencias puedo hacer acerca de la persona a partir de sus resultados?

    Cun confiado estoy acerca de estas evidencia?

  • La visin de Messick:

    Validity is not a property of the test or assessment as such, but rather of the meaning of the test scores. These scores are a function not only of the items or stimulus conditions, but also of the persons responding as well as the context of the assessment. In particular, what needs to be valid is the meaning or interpretation of the score; as well as any implications for action that this meaning entails.

    Messick, 1995

  • La distincin entre 3 4 tipos de validez fue predominante hasta la publicacin de los Standards for Educational & Psychological Testing de 1999 (producidos por un comit conjunto de la APA, AERA y NCME)

    Los tipos clsicos

    Validez de contenido

    Validez concurrente

    Validez predictiva

    Antecedentes acerca de la validez: La nocin de tipos de validez

  • La aparicin del concepto de Validez de Constructo en los aos 50 transform radicalmente la visin tradicional. La validez comenz a ser comprendida como un proceso de

    acumulacin de evidencias en torno al significado de los puntajes de un test.

    La validacin debiera fundarse en los avances del conocimiento y las teoras en torno a los constructos medidos

    La validacin debiera entenderse como un proceso de contrastacin de hiptesis

    La validacin debiera recurrir a todas las metodologas cientficas pertinentes (no experimentales y experimentales)

    La revolucin en la validez: la Validez de Constructo

  • La validez dej de entenderse como una pregunta con una respuesta definitiva. Es una cuestin permanentemente abierta a nueva evidencia

    La validez dej de entenderse como la obtencin de un indicador clave (como la correlacin con otro test), en favor de la acumulacin de mltiples evidencias

    La validez dej de ser un ndice, en favor de una configuracin de resultados esperados

    La validez dejo de considerar slo evidencia convergente, considerando tambin evidencia discriminante (ejemplo ms acabado: uso de matrices multirasgo-multimtodo)

    Se privilegi la acumulacin de diverso tipo de evidencia (de distinta naturaleza, obtenida con metodologas alternativas).

    Los cambios que introdujo la Validez de Constructo

  • Los cambios de la conceptualizacin de 1999

    Desaparecen los tipos de validez

    Se promueve la acumulacin de distinto tipo de evidencias acerca de un test

    Validity is the degree to which all of the accumulated evidence

    supports the intended interpretation of the test scores for the intended purposes.

    AERA, APA, & NCME, 1999, p. 11

  • En consecuencia:

    No validamos un test

    Validamos el uso que se da a un test

    La Validez depende del test, personas evaluadas y las circunstancias en que se lleva a cabo la medicin.

    Por tanto, un test puede ser vlido para un grupo o para un contexto determinado, pero invlido en otros grupos o contextos.

  • Tipos de evidencia acerca de la validez (Standards for Educational & Psychological Testing 1999)

    Evidencia basada en el contenido del test

    Evidencia basada en Procesos de Respuesta

    Evidencia basada en la Estructura Interna

    Evidencia basada en relaciones con otras variables

    Evidencia basada en las consecuencias de la medicin

  • Anlisis lgico y evaluacin experta acerca del contenido del test. El juicio apunta a establecer si el contenido del test es representativo del dominio al que apunta temes

    Tareas

    Formatos

    Fraseo

    Procedimientos requeridos

    Juicio basado en Revisin de la literatura

    Opinin de expertos

    Evidencia basada en el contenido del test

  • En qu medida las tareas o tipos de respuesta requeridas activan procesos psicolgicos relacionados con el constructo que se pretende medir

    Evidencia: Entrevista o cuestionarios a participantes, indagando su comprensin

    de las preguntas estrategias empleadas, etc.

    Observacin de examinados

    Anlisis del sesgo de medicin

    Evidencia basada en procesos de respuesta

  • En qu medida los componentes de un test (itemes, tareas, etc.) se relacionan en la forma esperada para el constructo medido.

    Por ejemplo, si una teora afirma que un constructo es unidimensional, ello debiera verificarse en las interrelaciones entre los componentes del test

    Evidencias principales: Anlisis factorial exploratorio de los itemes

    Anlisis factorial confirmatorio de los itemes

    Anlisis de la invarianza factorial entre grupos

    Evidencia basada en la estructura interna del test

  • El grado en que un test se relaciona con diversas variables aporta evidencia crucial para su validez

    Evidencias principales: Validez concurrente: correlacin con otros tests que miden el mismo

    constructo

    Validez convergente y discriminante: para verificar si correlaciona segn lo esperado con constructos similares, y para demostrar que el test no se asocia con constructos diferentes (evaluada principalmente mediante matrices multirasgo-multimtodo)

    Validez predictiva

    Comparacin entre grupos

    Estudios experimentales

    Evidencia basada en la relacin con otras variables

  • Anlisis de las consecuencias esperadas y no esperadas de las mediciones. Esto es especialmente til para informar la validez de las decisiones basadas en un test.

    Especialmente til cuando se pueden identificar diferentes consecuencias para diversos tipos de usuarios.

    Esta evidencia sirve para verificar si se producen las consecuencias positivas que normalmente han motivado la creacin o aplicacin de un test

    Evidencia: Estudio de las consecuencias a partir de entrevistas, observaciones o registros

    disponibles en bases de datos

    Evidencia basada en las consecuencias de un test

  • Validez predictiva de la PSU

    Ejemplo con datos nacionales

  • Correlaciones Factores de Seleccin y

    Notas universitarias

    Ao Ingreso N carreras Lenguaje Matemtica NEM PSEL

    2003 (PAA) 766 0.02 0.13 0.25 0.30

    2004 777 0.08 0.29 0.27 0.39

    2005 824 0.11 0.25 0.26 0.38

    2006 851 0.10 0.24 0.24 0.36

    2007 918 0.10 0.25 0.25 0.36

  • Carreras

    Ciencias Ciencias

    Carreras

    Historia Historia

    2003 (PCE) 93* 0,09 29** 0,01

    2004 475 0,26 342 0,08

    2005 508 0,27 430 0,08

    2006 554 0,24 447 0,06

    * PCE Biologa ** PCE Ciencias Sociales

    Resumen de Correlaciones

    Factores Optativos

  • SESGO DE MEDICIN

  • Cmo evaluar sesgo de medicin?

    (mtodos externos)

    Un test es sesgado para los miembros de un

    grupo, cuando la prediccin de un criterio a

    partir del test se aparta sistemticamente de

    la prediccin comn para todos los grupos. En

    otras palabras, es sesgado cuando la lnea de

    regresin comn resulta muy alta o muy baja

    para ese grupo.

  • Caso 1: Diferencias entre grupos, pero test no sesgado

    Predictor bajo alto

    Grupo focal

    Grupo de referencia Criterio

    bajo

    alto

  • Caso 2: Diferencias entre grupos, test sesgado

    Predictor bajo alto

    Grupo focal

    Grupo de referencia

    Criterio

    bajo

    alto

    Lnea de regresin comn

  • Mtodos para estudiar sesgo

    Validez diferencial: anlisis comparativo de la

    validez predictiva segn subgrupos. Usualmente

    se estudia comparando las correlaciones o

    coeficientes de regresin entre grupos

    Prediccin diferencial: comparacin de los

    residuos de distintos grupos una vez que se ha

    ajustado una ecuacin de regresin comn. Si los

    residuos son diferentes, se produce subprediccin

    o sobreprediccin para ciertos grupos

  • Prediccin diferencial del SAT Sobreprediccin: -; Subprediccin: +

    (Fuente: Mattern et al, 2008)

    SAT-CR SAT-M SAT-W NEM

    Hombres -.14 -.20 -.11 -.08

    Mujeres .12 .17 .10 .07

    Blancos .04 .05 .04 .06

    Negros -.30 -.26 -.26 -.32

    Hispnicos -.17 -.16 -.16 -.27

  • PSUM

    -0.09 -0.09 -0.09-0.10 -0.10

    0.110.10

    0.090.10 0.10

    -0.15

    -0.10

    -0.05

    0.00

    0.05

    0.10

    0.15

    2003 2004 2005 2006 2007

    Hombre Mujer

  • PSUL

    -0.08

    -0.06 -0.06 -0.07 -0.07

    0.09

    0.06 0.07 0.070.07

    -0.15

    -0.10

    -0.05

    0.00

    0.05

    0.10

    0.15

    2003 2004 2005 2006 2007

    Hombre Mujer

  • NEM

    -0.02

    0.00

    -0.01-0.02

    -0.02

    0.02

    0.000.01

    0.020.02

    -0.15

    -0.10

    -0.05

    0.00

    0.05

    0.10

    0.15

    2003 2004 2005 2006 2007

    Hombre Mujer

  • ESTNDARES DE MEDICIN

  • Estndares sobre Validez

    1. Se debe presentar una justificacin para cada interpretacin recomendada y el uso de los puntajes del test, junto con un resumen comprensivo de la evidencia y teora que subyace a estos usos interpretativos.

    2. Quienes desarrollen el test deben establecer claramente cmo se deben interpretar y usar los puntajes. La poblacin para la cual el test es apropiado debe estar claramente delimitada y se debe describir claramente el constructo que el test pretende medir

    3. Si la validez de algn tipo de interpretacin no est estudiada o si dicha interpretacin es inconsistente con la evidencia recabada, esto debe ser comunicado a los potenciales usuarios para que sean cautelosos respecto de interpretaciones sin fundamento.

    4. Si un test es usado en alguna forma que no ha sido validada, es responsabilidad del usuario justificar este nuevo uso y recabar nueva evidencia en caso de ser necesario.

    5. La composicin de cualquier muestra de examinados a partir de la cual se obtenga evidencia de validacin debe ser descrita en detalle, incluyendo los principales aspectos sociodemogrficos y caractersticas de desarrollo.

  • Estndares sobre Validez

    6. Cuando la validacin descanse en parte en la adecuacin del contenido del test, los procedimientos que se sigan para especificar y generar dichos contenidos deben ser descritos y justificados en funcin del constructo que el test busca medir o el dominio que busca representar.

    7. Cuando la validacin descanse en parte en la opinin de jueces expertos u observadores, los procedimientos para seleccionar dichos expertos y para elicitar sus juicios deben ser descritos exhaustivamente. Se deben presentar tambin las calificaciones y experiencia de dichos jueces, as como el entrenamiento que recibieron y el nivel de acuerdo en sus juicios.

    8. Si la justificacin para el uso de un test o para la interpretacin de sus puntajes depende de premisas acerca de procesos psicolgicos u operaciones cognitivas que usan los examinados, entonces se debe entregar evidencia emprica o terica que apoye dichas premisas.

    9. Si se seala que un test no se ve afectado por la prctica y el entrenamiento, entonces esta condicin debe ser documentada.

    10. Cuando se sugieran interpretaciones acerca del desempeo en itemes especficos, o de un pequeo subgrupo de ellos, se debe entregar evidencia relevante para sustentar la adecuacin de dicha interpretacin

  • Estndares sobre Validez

    11. Si la justificacin para el uso de un test o su interpretacin depende de premisas acerca de las relaciones entre partes del test, debe haber evidencia disponible acerca de la estructura interna del test.

    12. Cuando se sugiera la interpretacin de subpuntajes o diferencias de puntajes, se debe entregar evidencia que lo sustente. Cuando se desarrollen puntajes compuestos, se debe entregar la justificacin de cmo se lleg a esta frmula.

    13. Cuando la evidencia de validez incluya anlisis estadsticos de los resultados del test, ya sea que incluyan o no otras variables de inters, se debe entregar informacin respecto de las condiciones bajo las cuales se recab la evidencia, describindolas con suficiente detalle como para que los usuarios puedan juzgar la relevancia de los hallazgos estadsticos a la luz de condiciones locales.

    14. Cuando la evidencia de validez incluya anlisis empricos de las respuestas junto con otras variables de inters, se debe entregar la justificacin de la seleccin de dichas variables.

    15. Cuando se afirme que un determinado nivel de desempeo en el test predice un buen o mal desempeo en el constructo medido, se debe entregar informacin acerca de los niveles del constructo que se asocian con los niveles de puntaje en el test.

  • Estndares sobre Validez

    16. Cuando la validacin se basa en evidencia acerca de la relacin entre puntajes en el test y otras variables criterio, se debe entregar informacin acerca de la adecuacin y calidad tcnica de dichas variables.

    17. Si los puntajes de un test se usan en conjunto con otras variables cuantitativas para predecir alguna otra variable, se deben hacer anlisis de regresin (u otra tcnica equivalente) que incluyan estas otras variables.

    18. Cuando se hagan ajustes estadsticos, tanto los coeficientes ajustados como los no ajustados, as como los procedimientos utilizados, deben ser reportados.

    19. Cuando se recomienda el uso de un test para asignar personas a tratamientos alternativos, y si los resultados de esos tratamientos pueden ser razonablemente comparados en base a un criterio comn, se debe entregar evidencia que sustente estos efectos diferenciales.

    20. Cuando se use el metaanlisis como evidencia de la robustez de la relacin entre los puntajes del test y variables criterio, las caractersticas de stos deben ser comparables con aquellas que se reportan en el metaanlisis. Cualquier diferencia importante debe ser explicitada.

  • Estndares sobre Validez

    21. Cualquier evidencia metaanaltica que se use para fundamentar el uso sugerido de un test debe ser claramente descrita, incluyendo las opciones metodolgicas al identificar y codificar los estudios y al examinar posibles efectos de variables moderadoras.

    22. Cuando se establece claramente o se seala en forma explcita que el uso recomendado de un test determinar outcomes especficos, se debe fundamentar la base que sustenta dicha determinacin.

    23. Cuando se recomienda que el uso de un test, adems del fin especfico para el cual fue elaborado puede generar otros beneficios indirectos, se debe presentar la fundamentacin de estos otros beneficios.

    24. Cuando resulten consecuencias inesperadas del uso de un test, se debe hacer el esfuerzo de investigar si dichas consecuencias derivan de la sensibilidad del test a caractersticas distintas de aquellas que se buscaba medir, o si el test fracasa en su intento de representar el constructo de inters.