EQUIPARACIÓN DE PUNTUACIONES CON TRI Y TCT EN … · puntajes de una prueba usando dos métodos...

ISBN: 978-970-92251-2-9

EQUIPARACIÓN DE PUNTUACIONES CON TRI Y TCT EN UNA PRUEBA DE INGENIERÍA1

Olga Rosalba Rodríguez Jiménez Universidad Nacional de Colombia – IEIA

El trabajo tiene como objetivo presentar los resultados de dos procedimientos de equiparación de puntuaciones uno basado en la TRI y el otro en TCT. La prueba utilizada fue la versión piloto del examen EXIM aplicado por Asociación Colombiana de Ingeniería. La muestra estuvo conformada por 261 estudiantes y se presentan los resultados del uso de cada método en la equiparación de dos formas de prueba. Se concluye que el método basado en modelos IRT específicamente en Rasch aporta mayor precisión, sin embargo se reconoce que el uso de uno u otro modelo debe hacerse en función de las necesidades específicas de quien aplica el examen y de la flexibilidad en el cumplimiento de los requerimientos de los modelos.

1 La autora agradece al Doctor Eduardo Silva Director Ejecutivo de la Asociación Colombiana de Facultades de Ingeniería quien autorizó el uso de esta información con fines investigativos.

2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa

2

Introducción Cuando se realizan aplicaciones masivas de pruebas, contar con mútiples versiones de una prueba se hace necesario, la pregunta que se presenta entonces esta referida a la forma de hacer comparables los resultados de las mismas, es decir, garantizar que los resultados de una prueba que se usa para un mismo propósito en dos momentos distintos significan lo mismo. El procedimiento que se ha usado para este propósito se denomina equiparamiento. El equiparamiento hace referencia a los procesos estadísticos que se usan para ajustar los puntajes de las formas de una prueba de manera tal que puedan ser usados de manersa intercambiable, garantizando así su comparabilidad. Se considera como condición necesaria que las pruebas a ser comparadas sean similares en su contenido (Lord , 1980 citado por Harris y Crouse en 1993, hace énfasis en que la pruebas midan el mismo constructo) y en sus parámetros estadísticos. Navas (1996) menciona por ejemplo que para poder hacer una real equivalencia de puntajes se deben cumplir cuatro requisitos: medir el mismo constructo, invarianza en la población, simetría y equidad, esta última entendida como la posibilidad de intercambiar completamente los puntajes de una prueba con los de la otra. Este mismo autor señala que los pasos para realizar el proceso de equiparación deben ser:

1. Elección de un diseño para recoger datos 2. Recogida de datos 3. Selección del método 4. Determinación de la tabla de conversión 5. Evaluación de la equiparación

Autores como Harris y Crouse (1993) señalan como pasos del equiparamiento los propiamente relacionados con el diseño y el método para hacer la comparación. En cuánto al diseño Kolen y Brennan (1995) señala que esencialmente se presentan los siguientes diseños para realizar el equiparamiento, a saber: a. Diseño de grupos al azar: implica la asignación al azar de cada grupo a las formas que van a ser equiparadas. b. Diseño de grupo simple: al mismo grupo de examinado se le aplican las dos formas de la prueba, primero la forma uno y luego la forma dos. c. Diseño de grupo simple con contrabalanceo: se hace la aplicación de las dos formas de la prueba al mismo grupo de examinados siguiendo un orden específico, a la mitad de los examinados se aplica la forma uno y luego la dos y a la otra mitad la forma dos y luego la uno. d. Grupos no equivalentes con ítems comunes: en este diseño las dos formas de la prueba tienen ítems en común y se administran a grupos diferentes de examinandos las dos formas.


3

Cuando los ítems comunes contribuyen al puntaje total se considera interno, de lo contrario se denomina externo. Para esta último diseño es necesario tener en cuenta que los ítems comunes deben ser construidos con las mismas características de la prueba total (Shumacker, R, 2005) y con un porcentaje de ítems comunes cercano al 20% (Angoff, 1971, citado por Kolen y Brennan 1995). Se considera que este diseño podría presentar dificultades en el equiparamiento si las especificaciones de las pruebas cambian y si aparecen en posiciones considerablemente diferente al orden de las preguntas en las pruebas (Kolen y Brennan 1995). Después de hacer la recolección de los datos es importante elegir el método para hacer la transformación, la elección depende del marco en el cual se espera trabajar ya sea desde la Teoría Clásica de los Test o la Teoría de Respuesta al Ítem. Métodos basados en la Teoría Clásica de los Test (TCT) En este grupo se ubican los métodos lineales que pretenden una transformación lineal que consideran: a. Puntuaciones equiparadas a las que corresponden al mismo centil. b. Puntuaciones equiparadas a las que corresponden a la misma puntuación típica. c. Puntuaciones verdaderas equiparadas a las que corresponden al mismo nivel estimado de la característica evaluada por los test. Dentro de los métodos lineales se encuentran los de Levine, Braun-Holland, equipercentil y Tucker entre otros. A continuación se presenta el utilizado en el presente trabajo, el método de Tucker, el cual se basa en la regresión de los puntajes totales a partir de los puntajes de los ítems comunes, y en la varianza condicional estimada a partir los mismos. Este método usado en un diseño de ítems comunes exige que la naturaleza de la regresión sea lineal. Se considera un método adecuado cuando se cuenta con muestras pequeñas y se trabaja con puntajes observados. La construcción de la regresión lineal es

[ ] )()()()()( YXx

XYxly ss

s

ss µµ

σσ

+−=

Donde s indica que corresponde al estadístico de la población sintética, la cual constituye la combinación de la población uno y dos.

−−= )()()()( 21121 VVwXXs µµγµµ

−−= )()()()( 21212 VVwYYs µµγµµ

)(),(

21

1VVX

σσ

γ�

=


4

)(),(

22

22

VVY

σσ

γ =

y W es el peso de la población sintética. Luego de contar con la ecuación de regresión, se expresan los puntajes de una prueba en función de la otra, y se calcula el error estándar, el cual se considera un índice útil que indica la cantidad de error de equiparamiento y se concibe como la desviación estándar de los puntajes igualados sobre réplicas hipotéticas de un procedimiento de equiparamiento en una muestra de una población de examinados y se define como la raíz cuadrada del error de varianza. Error de varianza es

[ ] [ ]

−−+−≅

242

2

)()(),(1),(1(2)()(ˆvar

XXxiVXVX

NtotYXil y

σµ

σ

Métodos basados en la Teoría de Respuesta al Item (TRI) Estos métodos describen como las personas con diferentes niveles de habillidad responden a los ítems de una prueba (Zhu, 2001). Se considera una ventaja inicial de estos métodos la invarianza de los parámetros tanto de personas como de los ítems, lo que significa que a pesar de contestar diferentes pruebas una persona tendrá el mismo nivel de atributo. Además, los parámetros de las preguntas no dependen de la población, sin embargo en la práctica esto no ha sido del todo cierto (Zhu, 2001), lo que ha llevado a que desde la IRT se planteen métodos para garantizar la comparabilidad de los puntajes. Así la equiparación en modelos IRT requiere por lo menos tres pasos (Kolen y Brennan,1995):

1. Estimación de los parámetros. 2. Escalamiento o re-escalamiento de los parámetros a una escala IRT usando una

transformación lineal. 3. Escala de puntajes, los puntajes en la nueva forma son convertidos a la de la vieja

forma. Se considera que el equiparamiento con IRT tiene muchas ventajas sobre la forma tradicional de hacer equiparamiento dado que tiene más exactitud en los puntajes extremos de la escala, mayor flexibilidad a la hora de elegir las versiones previas de las pruebas, mayor facilidad en los distintos momentos de equiparamiento, menor grado de error. Adicionalmente, es posible hacer pre-equiparamiento permitiendo de esta manera preparar las tablas y escalas de conversión (Zhu, 2001). Uno de los métodos usados se basa en el modelo de Rasch, el cual se describirá dado que fue el utilizado en el presente trabajo debido al tamaño de la muestra. En el modelo de Rasch se asume que la discriminación es igual a 1 y la adivinanza es 0 (Kolen y Brennan


5

1995). El equiparamiento basado en este modelo permite determinar la exactitud y la estabilidad de las escalas que se generan, entendiendo por exactitud, el grado en el que la habilidad estimada por una prueba es estadísticamente equivalente a la habilidad estimada con la otra y el grado en el cual una relación estable de equivalencia entre dos pruebas para una muestra puede ser duplicada en otra muestra, por estabilidad, (Zhu, 2001). El modelo de Rasch que permite hacer la calibración de las preguntas se expresa de la siguiente manera:

Después de realizar la calibración de los ítems para cada prueba se procede a realizar el re-escalamiento el cual puede llevarse a cabo utilizando distintos métodos, uno de los cuales se conoce como el método media/sigma y media/media. El primero descrito por Marco en 1997 (Citado por Kolen y Brennan 1995) usa la media y la desviación estándar del parámetro b estimado a partir de los ítems comunes y el segundo descrito por loyd y Hoover en 1980 (Citado por Kolen y Brennan 1995) usa la media del parámetro a de los ítems comunes. El método de media/sigma se define de la siguiente manera:

En donde CTEST −2δ y CTEST −1δ es la media de los ítems comunes de ambas pruebas, siendo A y B constantes. En el modelo de Rasch A y B son iguales de donde B sería igual a

Luego de hacer el nuevo escalamiento de las pruebas es necesario determinar la exactitud y la estabilidad ambas estimadas a partir del índice D, que se expresa:

Donde �̂ corresponde a la habilidad estimada con las pruebas y σ̂ el error de varianza respectivo. Se considera que los dos métodos descritos, Tucker y Rasch, funcionan de manera adecuada en el diseño de grupos no equivalentes con ítems comunes cuando se cuenta con muestras pequeñas y los ítems tienen similitudes en la dificultad. Se debe garantizar que los

)(11)(

ibDi ep −−+

= θθ

2.718 e (1,7) Constante

ítem del Dificultad Donde

====

Dib

Habilidadθ

BA CTESTCTEST += −− 12 δδ

CTESTCTEST AB −− −= 21 δδ

22

21

21

ˆˆ

ˆˆ

σσ

��

+

−=D


6

ítems son representativos de la prueba y los grupos no difieren mucho en el nivel de atributo medido. A partir de lo planteado en este trabajo se pretende evaluar el equiparamiento de los puntajes de una prueba usando dos métodos distintos cada uno basado en una de las teorías psicométricas.

METODO Muestra

Tabla 1. Descripción de la muestra La muestra total de esta aplicación piloto estuvo conformada por 379 estudiantes, para el equiparamiento se presentan los resultados para dos formas de prueba. La instituciones participantes tanto de Bogotá como de fuera de ella, fueron: Universidad de Norte de Barranquilla, Pontificia Bolivariana de Montería y Medellín, Universidad de Nariño de Pasto, Universidad Tecnológica de Pereira, Universidad de Antioquia y de Bogotá, las universidades Católica, Escuela Colombiana de Ingeniería y Militar. Instrumento La prueba utilizada fue la versión piloto del Examen Intermedio de Ciencias Básicas para Ingeniería EXIM, consta de 130 preguntas y da cuenta de las cuatro áreas básicas para ingeniería: Matemáticas, Física, Química y Biología. Todas las preguntas dependen de un contexto y utilizan el formato de selección múltiple con única respuesta. Esta versión fue desarrollada y aplicada en el 2006. El análisis se realizó para 127 ítems en la TCT y 126 en IRT debido a dificultades de impresión o ausencia de variabilidad. Análisis de datos Toda la información fue realizada utilizando los programas SPSS versión 7.5, WINSTEPS y Excel 2003. Se desarrollaron los siguientes pasos:

1. Análisis psicométrico de las pruebas con TCT 2. Comprobación de la normalidad de los datos. 3. Comprobación de la unidimensionalidad para ajustar modelo Rasch. 4. Realización del equiparamiento con el modelo de Tucker y luego con el modelo de

Rasch. Se realizaron previamente las verificaciones de linealidad y se garantizó la calidad de los ítems.

Prueba Número de Estudiantes

1 132 2 129


7


8

RESULTADOS En las tablas 2 y 3 se presenta la información psicométrica de las pruebas con la Teoría Clásica de los Test, en primer lugar la información sobre la confiabilidad y luego sobre los descriptivos de los parámetros de los ítems.

Tabla 2. Confiabilidad

Prueba Coeficiente de

confiabilidad Uno ,85 Dos ,80

Tabla 3. Resumen del análisis de ítems Prueba Estadístico Dificultad Discriminación

Media 0,11 0,29 Uno Desviación 0,22 0,19 Media 0,13 0,32 Dos Desviación 0,23 0,21

Tabla 4. Normalidad de los puntajes de las pruebas

Prueba Uno

Prueba Dos Kolmogorov - Smirnov 1,025

(,244) 0,809 (0,529)

Valor entre paréntesis corresponde a la significación. Linealidad de la relación entre las pruebas y los ítems comunes

P2

706050403020100

V

30

20

10

0

-10

P1

100806040200

V

40

30

20

10

0

-10


9

Gráfica 1. Diagrama de dispersión de Gráfica 2. Diagrama de dispersión de La prueba uno con los ítems prueba dos con los ítems comunes comunes

Tabla 5. Descriptivos de las pruebas utilizados para el Método de Tucker

n Media Desviación Varianza Covarianza Correlación prueba Uno 132 39,19 12,16 147,76 Ítems comunes 1 132 15,26 7,11 50,56

77,90 0,90

prueba Dos 129 38,91 10,85 117,63 Ítems comunes 2 129 15,91 6,32 39,97

59,68 0,87

Método Tucker Puntajes de Y estimados a partir de X con la siguiente ecuación de regresión

4241138.38)6956382.39)(6380766.11/3873294.11()(ˆ )( +−= xxyL s Tabla 6. Predicción del puntaje de la prueba dos (Y) a partir de la prueba uno ( X)

Prueba Uno X

Prueba Dos Y Error Estándar

1 1 1,78 10 9 1,36 20 19 0,9 30 29 0,43 40 39 0,04 50 49 0,51 60 58 0,97 70 68 1,44 80 78 1,91 90 88 2,37

100 97 2,84 110 107 3,31 120 117 3,78 130 127 4,24

Modelo de Rasch La dificultad de la prueba uno cubre un rango entre –2.43 y 2.62 logits. La prueba dos cubre el rango entre -2.10 y 1.75 logits. La media de la dificultad en las dos pruebas fue cercana a cero y la desviación muy próxima a uno. Para la prueba uno los ítems 9 y 12 presentaron desajuste, mientras que ninguno presento esta condición en la prueba dos.

Tabla 7. Descriptivos del parámetro dificultad para las pruebas


10

Prueba Uno Dos Items Comunes

Media 0,001 -0,040 0,053 Desviación 0,893 0,716 0,763

Todos los ítems fueron anclados a la prueba uno, para la conversión a la nueva escala se conservan los valores originales de la prueba uno para los ítems no comunes y para los ítems comunes el promedio del reescalamiento en la prueba dos con el valor de la prueba uno. El reescalamiento para los ítems comunes de la prueba dos fue realizado agregando al valor promedio de dificultad de los ítems comunes al valor de dificultad de cada ítem, en este caso 0,053. (En el anexo 1 se presenta la información numérica de los ítems). Después de este proceso, la media para el parámetro dificultad para la prueba uno fue de -0,01 con una desviación de 0,88 y para la dos 0,0044 con una desviación de 0,680. La habilidad o nivel de atributo de los evaluados expresada también en logits, se estimó con el modelo de Rasch, al comparar las medias y desviaciones y encontrarlas muy cercanas, se decide no hacer el reescalamiento. La media para la prueba uno es de -0,0002 logit y la desviación de 2,08 logits. La prueba dos tiene una media de -0,0002 y una desviación de 2,02 logits. Pese a lo anterior, para confirmar la exactitud de la estimación se calculó el índice D encontrando una media de -0,056 y una desviación de 0,086. Se presenta finalmente la conversión de la habilidad en escala T de McCall para las dos pruebas (Anexo 2).

Discusión y Conclusiones

Como se aprecia en los resultados con el método clásico es posible predecir los puntajes de la prueba dos a partir de la prueba uno. Se aprecia que los mayores niveles de error se encuentran en los puntajes de los extremos inferiores y superiores, en estos último siendo crecientes. En caso de utilizar la prueba dos debe asumirse que el puntaje varía mínimo en una y máximo en dos unidades. Respecto al uso del método se puede afirmar que su aplicación fue adecuada dado que la relación entre las pruebas y los ítems comunes es de naturaleza lineal, como se aprecia en las gráficas 1 y 2, y que adicionalmente los puntajes provienen de una distribución normal. En cuanto al escalamiento con el modelo de Rasch se encuentra que hacerlo para los ítems hace que en efecto la métrica de las dos pruebas sean aún más equivalentes, dado que hay más cercanía entre las medias y desviaciones estándar de las pruebas. Este procedimiento permite evidenciar que la prueba dos es un poco más difícil que la prueba uno. En el caso de la habilidad se encuentra que las dos pruebas difieren muy poco en sus descriptivos. La escala T permite apreciar que la equivalencia con los puntajes directos en las dos pruebas es igual; se observan diferencias entre una y dos unidades, siendo mayores las diferencias en los puntajes altos de la escala que siempre resultan más difíciles de estimar. Es de aclarar que se uso este modelo pese a que no se pudo comprobar la unidimensionalidad, sin embargo Kolen y Brennan (1995) señala que este es un modelo robusto a la violación de este supuesto.


11

Es claro que los dos métodos se aplicaron contando con las condiciones psicométricas necesarias, así las dos pruebas fueron confiables y los ítems cumplían con los criterios estadísticos respectivos en cada modelo. A partir de los resultados se puede afirmar que el método basado en TRI es más preciso que clásico basado en la Teoría Clásica de los Test dado que las escalas presentan menor diferencia entre las pruebas . Finalmente vale la pena señalar como lo menciona Navas (1996) que si los test no difieren en dificultad, ni los grupos en nivel de habilidad los métodos clásicos funcionan bien. De igual modo cuando es posible ajustar modelos TRI los métodos basados en estos, también funcionan bien.


12

BIBLIOGRAFÍA Harris, D y Crouse, J. (1993). A study of crietria used in Equating. Applied measurement in education, 195-240. Kolen, M. y Brennan, R. (1995). Test equating; Methods and practices. New York: Springer. Navas, M. (1996). Equiparación de puntuaciones. En psicometría. Madrid: Editorial Universitas S.A. Schumacker, R. (2005). Test equating. Applied Measurement Associates. Zhu, W. (2001). An emprirical investigation of Rasch equating of motor function task. Adapted physical activity quartely, 72-89.


13

PRUEBA UNO PRUEBA DOS ITEMS COMUNES Número

Item Dificultad Error Estándar INFIT OUTFIT Dificultad Error

Estándar INFIT OUTFIT Dificultad Error Estándar INFIT OUTFIT Reescalamiento

1 2,62 0,51 1,03 1,34 -0,88 0,18 0,95 0,95 2,62 2 -1,68 0,19 0,99 0,98 0,62 0,23 1,02 1,28 -1,68 3 -1,72 0,19 1,13 1,15 -0,48 0,18 1,01 1,09 -1,72 4 -1,31 0,18 1,12 1,12 -0,81 0,18 0,95 0,98 -1,31 5 -1,54 0,19 1,02 1,01 -1,14 0,18 0,98 1 -1,54 6 -1,04 0,18 1,08 1,11 1,43 0,31 0,99 0,87 -1,04 8 -1,47 0,19 1,02 1,01 -0,09 0,19 1,01 1,1 -1,47 9 0,9 0,25 1,09 1,4 -0,58 0,18 0,99 1,03 0,9

10 1,35 0,3 1,01 1,11 -0,51 0,18 0,96 0,94 1,35 11 0,15 0,2 0,99 1,12 0,07 0,2 1,04 1,19 0,15 12 1,04 0,26 1,05 1,67 0,62 0,23 1,05 1,12 1,04 13 -1,01 0,18 1,07 1,11 -0,78 0,18 0,92 0,93 -1,01 14 -1,47 0,19 0,99 0,97 0,28 0,21 0,94 0,89 -1,47 15 -1,91 0,2 1 0,99 -0,2 0,19 1,03 1,04 -1,91 16 -0,78 0,18 1 1 -0,78 17 -0,58 0,18 1,01 1,03 -0,58 18 -1,51 0,19 0,98 0,95 -1,51 19 0,23 0,21 1,11 1,25 0,23 20 -0,58 0,18 0,94 0,93 -0,58 21 -0,42 0,19 1,07 1,09 -0,42 22 0,03 0,2 0,99 0,98 0,03 0,2 1,01 1,01 0,06 23 -1,47 0,19 1,03 1,01 -0,71 0,18 1,08 1,1 -1,06 24 -1,01 0,18 0,94 0,92 -0,55 0,18 1,07 1,07 -0,75 25 -1,14 0,18 1,01 1 -1,14 26 -0,82 0,18 1,06 1,06 -0,82 27 0,03 0,2 1,08 1,17 0,03 28 -0,17 0,19 1,06 1,08 -0,17 29 0,72 0,24 0,97 0,96 0,72 30 -1,27 0,18 1 0,98 -1,27


14

PRUEBA UNO PRUEBA DOS ITEMS COMUNES

Número Item Dificultad Error

Estándar INFIT OUTFIT Dificultad Error Estándar INFIT OUTFIT Dificultad Error

Estándar INFIT OUTFIT Reescalamiento

31 -0,82 0,18 0,97 0,97 -0,82 32 -0,85 0,18 1,04 1,02 -0,85 33 -1,27 0,18 1,05 1,05 -1,27 34 -0,58 0,18 1 0,99 -0,58 35 0,46 0,22 1,08 1,29 0,46 36 -0,52 0,18 0,98 0,96 -0,52 37 -2,43 0,22 0,96 0,91 -2,43 38 -0,55 0,18 0,98 0,96 -0,27 0,19 1,03 1,02 -0,55 39 0,56 0,23 1,15 1,35 -0,05 0,2 0,91 0,86 0,56 40 -0,13 0,19 0,99 0,98 0,07 0,2 0,93 0,86 -0,13 41 -0,55 0,18 1,15 1,17 0,46 0,22 1 0,96 -0,55 42 0,61 0,23 1,02 1,05 1,18 0,28 0,94 0,77 0,61 43 0,46 0,22 1,09 1,25 0,46 44 0,51 0,22 1 1,06 0,51 45 -1,24 0,18 1,01 1 -1,24 47 -0,45 0,19 1,01 1,04 -0,45 48 -1,21 0,18 1,07 1,06 -1,21 49 0,07 0,2 1,06 1,07 0,07 50 0,97 0,26 1,01 0,95 0,97 51 -0,38 0,19 1,03 1,03 -0,38 52 0,72 0,24 1,08 1,21 0,72 53 1,53 0,32 1,02 1,04 1,53 54 0,9 0,25 1,06 1,11 0,9 55 -0,38 0,19 1,07 1,1 -0,38 56 -0,31 0,19 1,03 1,05 -0,31 58 0,15 0,2 1,1 1,16 0,97 0,26 1,02 0,98 0,59 59 0,07 0,2 1,04 1,14 -0,2 0,19 1 0,98 -0,04 60 -0,2 0,19 1,01 1,01 -0,23 0,19 0,96 0,94 -0,19


15


Item Dificultad Error Estándar INFIT OUTFIT Dificultad Error

Estándar INFIT OUTFIT Dificultad Error Estándar INFIT OUTFIT Reescalamiento

61 0,07 0,2 1,12 1,24 -1,89 0,2 1 0,96 -0,23 0,19 1,06 1,08 -0,05 62 -0,42 0,19 0,96 0,96 -1,51 0,19 0,93 0,91 -0,01 0,2 1,01 1,01 -0,19 63 -0,13 0,19 1,03 1,04 0,46 0,22 1,04 1,2 -0,05 0,2 1,03 1,03 -0,06 64 0,32 0,21 1,1 1,14 0,37 0,21 1,04 1,03 1,04 0,26 1,09 1,37 0,71 65 0,72 0,24 1,1 1,32 0,32 0,21 1,06 1,11 1,75 0,35 1,01 1,07 1,26 66 -0,98 0,18 1,12 1,13 -0,78 0,18 1,07 1,07 -0,71 0,18 1,02 1,04 -0,82 67 0,23 0,21 1,06 1,12 0,28 0,21 1 1,07 0,07 0,2 1,07 1,08 0,18 68 -1,87 0,2 0,94 0,92 0,72 0,24 1,02 1,11 -2,1 0,21 1 1 -1,96 69 -0,01 0,2 1,09 1,16 0,46 0,22 1,06 1,07 -0,01 0,2 1 1,04 0,02 70 0,72 0,24 1,1 1,21 -0,65 0,18 1,01 1 0,72 71 -0,01 0,2 0,98 0,95 -0,12 0,19 1,06 1,08 0,97 0,26 1,04 1,1 0,51 72 0,56 0,23 1,01 1 -1,97 0,2 0,93 0,9 0,11 0,2 0,99 1 0,36 73 0,28 0,21 1,02 1 0,97 0,26 1,05 1,13 -0,09 0,19 0,95 0,95 0,12 74 1,53 0,32 1,01 0,92 1,18 0,28 1 1,02 1,64 0,33 1,05 1,27 1,61 75 0,51 0,22 1,06 1,11 -1,11 0,18 1 0,99 -0,3 0,19 1 0,97 0,13 76 0,32 0,21 0,97 0,9 -0,37 0,19 0,96 0,93 0,00 77 -0,09 0,19 0,96 0,93 -0,05 0,2 0,95 0,93 -0,04 78 0,15 0,2 1 0,95 0,51 0,22 1 1 0,36 79 1,53 0,32 0,99 0,86 0,46 0,22 0,96 0,89 1,02 80 -0,45 0,19 0,84 0,8 -0,37 0,19 0,87 0,83 -0,38 81 -0,13 0,19 0,92 0,86 0,11 0,2 0,97 0,92 0,02 82 -0,2 0,19 0,95 0,91 -0,55 0,18 0,98 0,96 -0,35 83 0,67 0,23 0,97 0,86 0,28 0,21 0,94 0,88 0,50 84 0,03 0,2 1,02 0,97 0,19 0,21 1 0,97 0,14 85 1,64 0,33 1 0,89 1,11 0,27 0,99 0,93 1,40 86 0,72 0,24 0,95 0,81 0,37 0,21 1,02 1,03 0,57 87 0,32 0,21 1 0,95 0,19 0,21 0,95 0,9 0,28 88 0,07 0,2 0,99 0,91 0,24 0,21 1 0,97 0,18 89 1,88 0,37 1,04 1,15 0,32 0,21 1,01 0,99 1,11 0,27 1 0,98 1,52 90 0,28 0,21 1,04 1,02 0,24 0,21 1,01 1,01 0,24 0,21 0,96 0,92 0,29


16


Item Dificultad Error Estándar INFIT OUTFIT Dificultad Error Estándar INFIT OUTFIT Dificultad Error

Estándar INFIT OUTFIT Reescalamiento

91 -0,09 0,19 0,93 0,87 0,28 0,21 1,11 1,22 -0,09 92 0,03 0,2 0,97 0,92 0,46 0,22 1,02 1,09 0,03 93 0,03 0,2 0,98 0,92 -0,2 0,19 0,99 0,97 0,03 94 1,76 0,35 0,97 0,9 0,19 0,21 1,03 1,03 1,76 95 0,37 0,22 1 0,97 -0,23 0,19 1,03 1,04 0,37 96 0,97 0,26 0,98 0,93 0,28 0,21 1 1,04 0,11 0,2 0,94 0,9 0,57 97 1,26 0,29 0,99 0,88 -0,58 0,18 1,06 1,07 1,26 0,29 1,03 1,02 1,29 98 0,78 0,24 0,98 0,9 -0,23 0,19 1,05 1,09 0,97 0,26 0,98 0,86 0,90 99 -0,17 0,19 0,91 0,86 1,34 0,3 0,99 1,03 -0,71 0,18 0,92 0,9 -0,41

100 0,67 0,23 0,91 0,77 -0,01 0,2 1 1,01 -0,16 0,19 0,95 0,92 0,28 101 0,46 0,22 0,96 0,88 0,9 0,25 1,03 1,05 0,46 102 1,18 0,28 0,98 0,83 -0,12 0,19 0,98 0,97 1,18 103 0,97 0,26 1,03 1 -1,77 0,2 1 0,97 0,97 104 -0,38 0,19 0,97 0,93 -0,37 0,19 1,04 1,06 -0,38 105 0,61 0,23 1,01 0,94 0,56 0,23 1,01 1,05 0,61 106 0,07 0,2 0,99 0,93 1,26 0,29 0,99 0,91 0,07 107 0,23 0,21 0,95 0,91 0,23 108 0,19 0,21 0,92 0,85 -0,01 0,2 1,06 1,1 0,19 109 0,78 0,24 1,05 1,05 0,15 0,2 1,02 1,07 0,78 110 -0,48 0,18 0,93 0,89 -0,2 0,19 1,07 1,09 -0,48 111 -0,24 0,19 0,97 0,91 -0,05 0,2 1,04 1,07 -0,24 112 0,32 0,21 0,97 0,92 0,67 0,23 1,06 1,11 0,32 113 1,04 0,26 1,01 1 -0,37 0,19 1,03 1,02 1,04 114 0,51 0,22 1 0,91 0,51 115 0,9 0,25 0,95 0,83 0,90 116 0,28 0,21 0,93 0,84 -0,71 0,18 0,97 0,96 0,28 117 0,19 0,21 0,95 0,88 0,42 0,22 1,01 0,99 0,19 118 -0,31 0,19 0,83 0,77 0,62 0,23 1,06 1,07 -0,48 0,18 0,91 0,89 -0,37 119 1,64 0,33 0,99 0,82 -0,27 0,19 1 1,04 0,9 0,25 0,97 0,87 1,30 120 -0,13 0,19 0,94 0,87 0,51 0,22 0,98 0,99 0,28 0,21 0,94 0,87 0,10 121 0,07 0,2 0,88 0,81 0,11 0,2 1,02 1,09 0,28 0,21 0,98 0,92 0,20 122 0,78 0,24 1,01 0,93 0,24 0,21 1,09 1,14 0,24 0,21 1,01 0,98 0,54 123 0,46 0,22 0,95 0,87 0,15 0,2 0,97 0,95 -0,01 0,2 0,98 0,95 0,25 124 -0,85 0,18 0,86 0,84 0,32 0,21 1,06 1,12 -1,41 0,19 0,88 0,88 -1,10 125 0,56 0,23 1 0,92 -0,05 0,2 1,06 1,1 0,56 0,23 0,98 0,92 0,59 126 -0,55 0,18 0,89 0,86 -0,2 0,19 1,06 1,06 -1,01 0,18 0,91 0,91 -0,75 127 0,51 0,22 0,97 0,89 -0,84 0,18 1,08 1,07 0,46 0,22 0,96 0,88 0,51 128 -0,09 0,19 0,89 0,83 -0,81 0,18 1,04 1,04 -0,71 0,18 0,95 0,94 -0,37 129 -0,82 0,18 0,87 0,85 -0,27 0,19 0,96 0,94 -1,31 0,18 0,88 0,86 -1,04 130 -1,01 0,18 0,8 0,78 -0,3 0,19 1,04 1,06 -1,31 0,18 0,88 0,87 -1,13


17

PUNTAJES T PUNTAJES T PUNTAJES T PUNTAJE DIRECTO

PRUEBA UNO

PRUEBA DOS

INDICE D PUNTAJE

DIRECTO PRUEBA

UNO PRUEBA

DOS INDICE

D PUNTAJE DIRECTO

PRUEBA UNO

PRUEBA DOS

INDICE D

0 19 19 -0,063 26 42 43 -0,118 52 48 48 -0,048 1 25 25 -0,084 27 43 43 -0,103 53 48 48 -0,065 2 28 28 -0,092 28 43 43 -0,104 54 48 48 -0,065 3 30 30 -0,110 29 43 43 -0,104 55 49 49 -0,049 4 32 32 -0,108 30 43 44 -0,106 56 49 49 -0,049 5 33 33 -0,114 31 44 44 -0,106 57 49 49 -0,049 6 34 34 -0,119 32 44 44 -0,106 58 49 49 -0,049 7 35 35 -0,123 33 44 44 -0,091 59 49 49 -0,049 8 35 35 -0,127 34 44 45 -0,108 60 49 50 -0,032 9 36 36 -0,119 35 45 45 -0,093 61 50 50 -0,049

10 37 37 -0,121 36 45 45 -0,108 62 50 50 -0,032 11 37 37 -0,124 37 45 45 -0,093 63 50 50 -0,032 12 38 38 -0,126 38 45 45 -0,094 64 50 50 -0,032 13 38 38 -0,129 39 45 46 -0,078 65 50 50 -0,032 14 39 39 -0,130 40 46 46 -0,078 66 50 51 -0,016 15 39 39 -0,119 41 46 46 -0,079 67 51 51 -0,032 16 39 39 -0,120 42 46 46 -0,079 68 51 51 -0,032 17 40 40 -0,136 43 46 46 -0,079 69 51 51 -0,016 18 40 40 -0,124 44 46 47 -0,079 70 51 51 -0,016 19 40 41 -0,125 45 47 47 -0,079 71 51 51 -0,016 20 41 41 -0,126 46 47 47 -0,079 72 52 52 -0,016 21 41 41 -0,113 47 47 47 -0,080 73 52 52 0,000 22 41 42 -0,129 48 47 47 -0,080 74 52 52 -0,016 23 42 42 -0,115 49 47 48 -0,064 75 52 52 -0,016 24 42 42 -0,115 50 48 48 -0,064 76 52 52 0,000 25 42 42 -0,117 51 48 48 -0,064 77 52 53 0,000

ANEXO 2 CONVERSION DE LA HABILIDAD A PUNTAJES T


18

PUNTAJES T PUNTAJES T PUNTAJE DIRECTO

PRUEBA UNO

PRUEBA DOS

INDICE D

PUNTAJE DIRECTO

PRUEBA UNO

PRUEBA DOS

INDICE D

78 53 53 0,000 102 58 58 0,029 79 53 53 0,000 103 58 58 0,043 80 53 53 0,000 104 58 58 0,029 81 53 53 0,000 105 59 59 0,028 82 53 53 0,000 106 59 59 0,042 83 54 54 0,000 107 59 59 0,028 84 54 54 0,000 108 60 60 0,028 85 54 54 0,000 109 60 60 0,027 86 54 54 0,016 110 60 60 0,027 87 54 54 0,016 111 61 61 0,027 88 55 55 0,016 112 61 61 0,026 89 55 55 0,016 113 61 62 0,013 90 55 55 0,031 114 62 62 0,013 91 55 55 0,015 115 62 63 0,013 92 55 56 0,015 116 63 63 0,000 93 56 56 0,031 117 63 64 -0,012 94 56 56 0,030 118 64 64 -0,023 95 56 56 0,030 119 65 65 -0,034 96 56 56 0,030 120 65 66 -0,055 97 57 57 0,030 121 66 67 -0,085 98 57 57 0,030 122 67 68 -0,111 99 57 57 0,029 123 68 70 -0,161

100 57 57 0,029 124 70 72 -0,245 101 58 58 0,044 125 72 75 -0,433

126 75 81 -0,635


CURRICULUM

Mtra. Olga Rosalba Rodríguez Jiménez

Psicóloga de la Universidad Nacional de Colombia con Maestría en Educación de la Pontificia Universidad Javeriana. Investigadora, docente y asesora en Psicometría y métodos cuantitativos en psicología y educación, con énfasis en la construcción y análisis estadístico de instrumentos de medición y evaluación del aprendizaje. Docente universitaria en el Departamento de Picología de la Universidad Nacional de Colombia. Ha intervenido en varios proyectos de extensión y de investigación en instituciones educativas, Secretarías de Educación de Colombia y asociaciones de profesionales colombianos, para el análisis psicométricos de las pruebas nacionales ECAES. Cuenta con numerosos artículos técnicos y de divulgación.

EQUIPARACIÓN DE PUNTUACIONES CON TRI Y TCT EN … · puntajes de una prueba usando dos métodos...

Documents

Transcript of EQUIPARACIÓN DE PUNTUACIONES CON TRI Y TCT EN … · puntajes de una prueba usando dos métodos...