Instrumento para la valoración de CALIDADES TÉCNICAS ...

Evaluación de la calidad técnica de las pruebas psicológicas usadas en

Colombia

Instrumento para la valoración de CALIDADES TÉCNICAS

- Instructivo -

Directora de proyecto: Aura Nidia Herrera

Coordinadora de proyecto: Flor Angela León

Asistente de Investigación: Wilver Dario Cuellar

Practicante del laboratorio de psicometria: Jhon Alejandro Salgado Ortiz

Bogotá, Noviembre de 2016

Instrumento para evaluación de pruebas psicológicas - 2

Coinvestigadores segunda fase: Grupo de expertos convocados para el desarrollo del instrumento

Bertha Lucía Avendaño Universidad Católica de Colombia

Lucila Cárdenas Universidad San Buenaventura – Medellín

Olga Rosalba Rodríguez Universidad Nacional de Colombia

Erika Margarita Arias Universidad Nacional de Colombia

Víctor Hernando Cervantes Instituto Colombiano para la Evaluación de la Educación Superior – ICFES

Martha Ligia Cuevas Instituto Colombiano para la Evaluación de la Educación Superior – ICFES

Jazmín Escobar Universidad El Bosque

Alba Lucia Meneses Universidad El Bosque y Universidad Católica

Claudia Charry Universidad El Bosque

Luz Helena Duarte Fundación Universitaria Sanitas

Juan Carlos Espinosa Universidad del Rosario

Carlos Alejandro Pineda Universidad Pedagógica y Tecnológica de Colombia UPTC

Sandra Liliana Camargo Universidad Nacional de Colombia

Omar Fernando Cortes Universidad de la Costa – Barranquilla

Rodolfo Salas Fundación Universitaria de Popayán

Germán Solís Universidad Autónoma de Bucaramanga UNAB

Adriana Suarez Universidad Católica de Colombia

Andersen Vera Universidad San Buenaventura - Bogotá

Pares evaluadores: Invitados especiales

Magdalena Mantilla Ex subdirectora del Instituto Colombiano para la Evaluación de la Educación Superior ICFES, Ex Comisionada de la Comisión Nacional del Servicio Civil

Elvers Medellín Decano Académico Universidad Católica de Colombia

Ana Paula Porto Profesora Universidad de San Francisco, Brasil. Presidenta Comisión Evaluación de Test. Consejo Federal de Psicólogos de Brasil.

Gerardo Prieto Profesor Universidad de Salamanca. Miembro de la Comisión de test del Colegio Oficial de Psicólogos de España

José Rodríguez Valderrama. Ex director del Instituto Colombiano para la Evaluación de la Educación Superior Vicepresidente Consejo Directivo Nacional, COLPSIC


ÍNDICE DE CONTENIDOS

ÍNDICE DE CONTENIDOS

INTRODUCCIÓN

INSTRUCCIONES GENERALES

ESTRUCTURA DEL INSTRUMENTO

Indicadores, niveles de cumplimiento y escala de calificación

El nivel mínimo

El nivel intermedio

El nivel bueno

Contenidos evaluados

1. Identificación y descripción de la prueba

2. Referentes conceptuales

3. Confiabilidad

4. Validez

5. Estandarización

INSTRUCCIONES ESPECÍFICAS PARA VALORACIÓN DE INDICADORES

1. Identificación y descripción de la prueba.

Identificación de la prueba.

Características de la prueba.

Descripción general de la prueba


3. Confiabilidad

4. Validez

Evidencia de validez basada en el contenido de la prueba

Evidencia basada en la estructura interna de la prueba

Evidencia basada en la relación con otras variables

Evidencia basada en el análisis de ítems

5. Calificación y estandarización


INTRODUCCIÓN

El instrumento “evaluación de la calidad técnica de las pruebas psicológicas usadas en Colombia” surge como

iniciativa propuesta desde la desaparecida División de Medición, Evaluación y Estadística Aplicada del Colegio

Colombiano de Psicólogos. En 2009 el grupo de profesionales vinculados a esta división, conscientes de las

dificultades de los profesionales en las prácticas de uso de pruebas en Colombia, se interesaron por promover

acciones para mejorar las prácticas de uso de pruebas. Este proyecto propuesto como plan de acción de la

entonces la División de Evaluación, medición y estadística aplicada es una estrategia de trabajo orientada a

disponer información técnica sobre las pruebas para mejorar las prácticas de uso en la comunidad profesional.

El proyecto propuesto en 2009, se pone en marcha en 2011 bajo la dirección del Laboratorio de Psicometría de

la Universidad Nacional, con el apoyo del Colegio Colombiano de Psicología. Durante la segunda fase, cuyo se

diseñó este instrumento para la evaluación técnica de las pruebas, en el cual participó un equipo de

investigación conformado por 18 profesionales, docentes o investigadores expertos en psicometría, vinculados

a 12 universidades de Colombia de 6 regiones del país y al Instituto Colombiano para la Evaluación de la

Educación (ICFES).

Durante la primera fase del proyecto se identificaron las pruebas más usadas por los psicólogos en el país, de

manera que, y en la tercera fase se adelanta la revisión de las cualidades técnicas de las pruebas psicológicas

más usadas.

A mediano plazo, se espera que este instrumento sea adoptado por COLPSIC y por el gremio profesional para

evaluar los aspectos técnicos de las pruebas, como un modelo de evaluación que permita proveer información

para decidir sobre la pertinencia de uso de las pruebas en Colombia, permitiendo a los profesionales identificar

alcances y limitaciones.

Este protocolo de evaluación se diseñó a partir de una reflexión documentada por la revisión de los protocolos

y procedimientos de diferentes países su consolidación conllevo dos años de trabajo y múltiples sesiones de

trabajo con profesores invitados internacionales involucrados en procesos similares. El instrumento evalúa las

características técnicas de la prueba, a través de por 5 apartados: uno de identificación y descriptivo de la

prueba y 4 apartados en los que se verifica las características del instrumento en cuatro aspectos técnicos, (1)

referentes conceptuales, (2) estudios de confiabilidad y (3) validez e información sobre y (4) estandarización

para uso en Colombia.

Este documento contiene la información y las instrucciones generales para el uso y manejo del instrumento; se

describen los criterios y las consideraciones para evaluarlos. En la primera parte, se presenta una descripción

general del instrumento, su estructura, sus apartados y las instrucciones para su aplicación; posteriormente se

presenta detalladamente los criterios de evaluación de cada uno de los aspectos evaluados y algunas


consideraciones técnicas sobre conceptos psicométricos que sirven como guía al evaluador para valorar el nivel

de cumplimiento de la prueba en cada uno de los indicadores.

INSTRUCCIONES GENERALES

El instrumento de evaluación de la calidad técnica de las pruebas es un protocolo que permite valorar los aspectos

técnicos de las pruebas psicológicas. Está diseñado para ser diligenciado a partir de la revisión del manual técnico

y los materiales de la prueba disponibles para los psicólogos; el evaluador al momento de diligenciar debe buscar

dos objetivos básicos. En primer lugar, diligenciar la información solicitada en el primer apartado que permite

recoger la descripción completa de la prueba; versiones anteriores, si las hay, y de la versión evaluada, de manera

que el potencial usuario pueda hacerse una idea clara de las principales características de la misma. En segundo

lugar, con base en los criterios propuestos en el instrumento, valorar el cumplimiento de los indicadores de calidad

de la prueba y expresar de manera clara, sus impresiones generales sobre las bondades y limitaciones de la misma.

Para lograr estos propósitos es indispensable que el evaluador además de la revisión del manual técnico y

materiales de prueba, se familiarice con el instrumento, su estructura y recomendaciones para su diligenciamiento.

ESTRUCTURA DEL INSTRUMENTO

El instrumento está organizado en cinco apartados o capítulos, uno de ellos descriptivo y cuatro valorativos, en los

cuales se distribuyen los 45 indicadores que revisan los aspectos técnicos de la prueba. La estructura general del

instrumento se muestra en la tabla 1.

Tabla 1. Estructura general del instrumento

APARTADO Contenidos Número de indicadores

Obligatorios Opcionales

1. Descripción

Identificación de la prueba

Características de la prueba

Descripción general de la prueba

2. Referentes conceptuales 5 2

3. Confiabilidad 6 2

4. Validez

Evidencia de validez del contenido de la prueba 4 2

Evidencia basada en la estructura interna 3


5 2

Evidencia con base en el análisis de ítems 2* 5

5. Calificación y estandarización 7 2

* Nota: Estos dos indicadores sólo son obligatorios para las pruebas basadas en ítems


Capítulo o aparte

Descripción del capítulo

Instrucciones

Indicador

Observaciones

Escala de calificación

El apartado descriptivo, es un formato donde el evaluador consigna la información disponible en el manual, los

apartados valorativos están compuestos por tablas de indicadores. Para cada indicador se presentan dos o tres

descriptores que permiten valorar las características de la prueba en tres niveles de cumplimiento: mínimo,

aceptable y bueno. La figura 1 muestra un esquema del formato general del instrumento.

El evaluador debe revisar la totalidad de los indicadores, una prueba con un nivel de calidad razonable, se espera

que sea calificada en el nivel mínimo de cumplimiento en los indicadores obligatorios: 31 si la prueba está

conformada por ítems o 29, en caso contrario.

Figura 1 estructura general del instrumento: Indicadores con tres descriptores, niveles de cumplimiento y escala de calificación

Indicadores, niveles de cumplimiento y escala de calificación

Los indicadores se encuentran en la parte superior izquierda de la tabla, enuncian el dato o tipo de información que

debería ser reportada por el manual de la prueba, estos son aspectos que se relacionan con la calidad técnica. Los

indicadores obligatorios hacen referencia a información indispensable para valorar la calidad de la prueba, y al

final de cada capítulo se han incluido indicadores opcionales que solamente se califican cuando el manual de

prueba brinde información suficiente para hacerlo y que su pertinencia depende de las características de la prueba,

se asocian con un avance importante del desarrollo de la prueba, valor agregado y corresponde a un desarrollo

que está más allá de los criterios mínimos.

Cada indicador tiene una información general y se valora por medio de dos o tres descriptores de los niveles de

cumplimiento, que describen la información que debe ofrecer el manual para puntuar en cada uno de dichos

niveles, y en la revisión se solicita que se asigne una calificación de acuerdo a los rangos que se explican a

continuación.

No cumple: Si al momento de revisar la información relacionada con el indicador esta no da cuenta de lo

que se describe en el nivel mínimo se marca esta casilla y se continua con el siguiente, que abarca el

rango de calificación entre 0 y 2,9, calificación que puede anotar en la sección de observaciones y hacer

un breve comentario.

Niveles de cumplimiento y descriptores


El nivel mínimo: La información refleja el cumplimiento de los requisitos indispensables del aspecto que

evalúa el indicador para considerar que cumple con el mismo. Si la información reportada en el manual y

demás material de la prueba es adecuadamente descrita por este nivel, el evaluador puede asignar una

calificación entre 3,0 y 3,4 en la escala de calificación.

El nivel aceptable: La información verifica la existencia de características o información que representan

algunos avances pertinentes por encima de lo mínimo esperado en la prueba en el aspecto evaluado por

el indicador. Si el evaluador considera que una prueba puede ser clasificada en este nivel en algún

indicador, deberá asignar una calificación entre 3,5 y 3,9.

El nivel bueno: La información da cuenta de procesos pertinentes en el desarrollo y comprobación empírica

del funcionamiento de la escala que propone la prueba, se evidencia solidez técnica del instrumento, se

reportan con detalle estudios y resultados de estudios empíricos que dan cuenta de su adecuación a la

población a la que va dirigida la prueba y la coherencia entre presupuestos teóricos y resultados empíricos.

Si el evaluador considera que una prueba puede ser ubicada en este nivel en algún indicador, debe asignar

una calificación entre 4,0 y 4,9.

Figura 2 Indicador con dos descriptores de cumplimiento.

A lo largo del instrumento se encuentran algunos indicadores que solo tienen dos descriptores de nivel de

cumplimiento, como se ilustra en la figura 2, en los cuales los rangos de calificación varían entre 3,0 y 3,9 para el

primer descriptor y entre 4,0 y 4,9 para el segundo.

Los rangos de calificación de cada descriptor permiten al evaluador asignar una puntuación numérica que refleje

el desarrollo del mismo descriptor. Por ejemplo, si en el indicador 2,3 de la figura 2 un manual de prueba describe

las dimensiones del constructo, pero no soporta teóricamente las relaciones entre ellas, el mejor descriptor es el

primero (entre mínimo y aceptable); sin embargo, el evaluador puede calificar de manera diferente si la descripción

es una frase corta que da una idea vaga de cada dimensión o si se trata de una definición completa y bien

argumentada teóricamente.

Finalmente, es importante recordar al evaluador que los indicadores opcionales no son verificables en todos los

casos, si hay información para calificarlos se debe asignar una calificación siguiendo el mismo procedimiento que

para los descriptores obligatorios, asignando un valor del rango de calificación entre 4,0 y 4,9 de lo contrario, basta

con que escriba no hay información en el espacio para comentarios.


Apartados del instrumento

Los apartados que componen el instrumento se organizan en cinco apartados, el primero recoge la información

descriptiva de la prueba, mientras que los cuatro restantes, revisan por medio de los indicadores, los aspectos

técnicos de la calidad de la prueba.

1. Identificación y descripción de la prueba (descriptivo)

Este apartado es una ficha técnica que no hace parte de la evaluación, en 4 secciones se consigna todo lo

referente a la identificación de la prueba, material disponible para usuarios profesionales, características de la

prueba y una descripción general; su propósito es recoger la información general de las características de la

prueba de manera que permita al potencial usuario de la misma la consulta para decidir sobre su posible uso.


Este apartado valora la claridad, suficiencia y pertinencia de la información reportada o referenciada en el

manual técnico como soporte conceptual y teórico que justifique los usos propuestos de la prueba, el evaluador

debe valorar la información incluida en el manual como marco conceptual que sustenta el constructo o

característica psicológica que evalúa la prueba. Incluye cinco (5) indicadores obligatorios que revisan los

aspectos generales y dos (2) indicadores opcionales que hacen referencia a la contextualización histórica del

constructo y la articulación conceptual en una red de conocimientos.

3. Confiabilidad

Este apartado contiene indicadores que valoran la pertinencia de los estudios empíricos reportados en el

manual, como procesos de identificación y las fuentes de error que afecten la precisión de la medida obtenida

mediante la prueba. Los indicadores describen la cantidad de fuentes de error estudiadas, el diseño de los

estudios para la recolección de datos, la selección y cumplimiento de los supuestos estadísticos en las

estimaciones de confiabilidad y los resultados obtenidos. Está compuesto por seis (6) indicadores obligatorios

y dos (2) opcionales. Los primeros revisan la suficiencia, claridad y pertinencia de la información reportada en

el manual de prueba sobre los estudios que identifiquen las fuentes y la magnitud del error aleatorio del puntaje

de la prueba y la precisión de la medida obtenida con la misma. Los indicadores adicionales valoran la

justificación o soporte para la adopción de un modelo psicométrico y la escogencia de los métodos estadísticos

utilizados.

4. Validez

Este apartado es el más largo y complejo del instrumento; los indicadores evalúan la información incluida en el

manual sobre estudios para obtener evidencias que soporten los usos y propósitos para los que fue construida

la prueba, así como las inferencias e interpretaciones de los puntajes obtenidos con la misma, y la coherencia

entre ellos; incluye 19 indicadores obligatorios y cuatro (4) opcionales, organizados en cuatro grupos, según el


tipo de evidencia de validez que indagan: el contenido de la prueba, la estructura interna de la prueba, la

relación con otras variables y el análisis de ítems. Este último aparte sólo se califica para pruebas que estén

compuestas por ítems o tareas, y los indicadores obligatorios u opcionales son diferentes según el modelo de

análisis adoptado.

5. Estandarización

Este apartado contiene 7 indicadores obligatorios, que evalúan la calidad de la información disponible en el

manual de la prueba sobre los materiales, condiciones e instrucciones para la aplicación y calificación de la

misma, sobre los procedimientos para la obtención de escalas de transformación de puntajes y los elementos

para la interpretación de resultados. Los dos (2) indicadores opcionales valoran la información relacionada con

las condiciones de aplicación para poblaciones especiales, cuando sea el caso; y sobre la calidad de los

soportes necesarios para la elaboración de informes.

INSTRUCCIONES ESPECÍFICAS PARA DILIGENCIAR EL INSTRUMENTO

1. Identificación y descripción de la prueba.

Este apartado recopila información de identificación relevante para el usuario que va a usar la prueba, por tanto

debe diligenciarse de la manera más completa posible. El evaluador debe escribir la información tal como aparece

en el manual de la prueba, y marcar con equis (x) los espacios correspondientes, Si el manual de la prueba no

contiene algún dato o la información es insuficiente para responder alguna pregunta del instrumento, en el espacio

correspondiente escriba “no se reporta”.

Identificación de la prueba.

En esta sección se consigna la información necesaria para que la prueba evaluada sea claramente identificada,

incluyendo la versión de prueba, la identificación del manual y la relación del material que se tuvo como insumo

para la evaluación.

1.1. Versión que se evalúa. Escriba tal como aparece en el manual, la información sobre identificación de la

prueba, nombre completo, siglas o identificación abreviada, nombres y apellidos del autor o autores, nombre

del editor, año de publicación y número de registro ISBN.

1.2. Versión original. Cuando la versión evaluada no sea la primera de una prueba, por ejemplo, cuando se

está evaluando la versión en español de una prueba que fue originalmente publicada en inglés, reporte la

información que aparece en el manual y el material de prueba, sobre la versión original.


1.3. Otras versiones o adaptaciones existentes. Si además de la versión evaluada y la versión original la

prueba cuenta con otras versiones ya sea en diferentes idiomas o diferentes adaptaciones, haga un listado

de dichas versiones y su correspondiente año de publicación, siempre y cuando el manual lo reporte.

1.4. Material disponible para usuarios profesionales. En este recuadro se presenta una lista de materiales

que las pruebas pueden incluir, desde el manual técnico hasta pines de calificación o protocolos de informe.

Señale con equis (x) aquellas casillas que correspondan según el material con que cuente la prueba

evaluada; además, puede hacer un comentario o adicionar una opción que no se encuentre en la lista.

Características de la prueba.

En esta sección se recoge información sobre aspectos generales de la prueba: lo que busca medir, los

propósitos, población para la que fue diseñada, las formas de aplicación y modelos de análisis. Debe completar

la información y marcar con equis (x) las casillas según correspondan de acuerdo al aspecto evaluado.

1.5. Constructo o constructos que evalúa la prueba: Escriba en este espacio el constructo o variables que

mide la prueba, haciendo uso de las palabras específicas mencionadas en el manual. Puede incluir

referencias a autores para delimitar la respuesta, si el manual de prueba así lo hace. por ejemplo: “Adopta

el modelo de personalidad de Hans Eysenck, 1967”.

1.6. Usos propuestos: Seleccione el uso o usos de la prueba que aparezcan explícitamente mencionados en

el manual. La lista de usos que aparece en el formato corresponde a los usos propuesto por la American

Psychological Asociation (APA), tal como aparece en la tabla 2; si en el manual de prueba se menciona uno

diferente, escríbalo y defínalo brevemente siendo lo más fiel posible a lo reportado por los autores de la

prueba.

Tabla 2 Clasificación de usos de las pruebas según la APA*

Uso Descripción

Clasificación

Análisis o descripción de los resultados individuales en relación con un sistema taxonómico específico y otras variables relevantes para llegar a una clasificación o diagnóstico.

Ubica al examinado en una categoría dentro de un sistema taxonómico, según el puntaje o resultado obtenido en la prueba.

Descripción

Análisis e interpretación de los resultados desde un modelo teórico para la comprensión de características relevantes de un individuo o grupo.

Permite perfilar los aspectos evaluados del examinado o examinados, considerando variables de interés.

Predicción

Relación o interpretación de los resultados para predecir comportamiento o rendimiento del individuo o grupo de individuos

Busca hacer posibles predicciones derivadas de los resultados en la prueba, con el fin de orientar la toma de decisiones.

Planificación de la intervención

Evaluación de la idoneidad de diferentes intervenciones y su eficacia relativa considerando como marco de referencia para la toma de decisiones, el constructo que evalúa la prueba.


Uso Descripción

Identifica variables de interés en poblaciones y posibles efectos de algún tipo de intervención.

Seguimiento Monitoreo de las características psicológicas de un individuo o grupo en el tiempo.

Identifica variables y establece sus diversas aplicaciones a través del tiempo.

* Traducido y adaptado de American Psychological Asociation (2000). Report of the Task Force on Test User Qualifications. APA. Pág. 33. Recuperado de http://www.apa.org/science/programs/testing/qualifications.pdf 22/08/2008

1.7. Aplicación de la prueba: Se identifican las modalidades de aplicación de acuerdo a dos clasificaciones.

Una, según el número de examinados (individual o colectiva) y la otra según la forma en que se presenta la

prueba (escrita, oral, etc.). Marque las casillas necesarias para contestar a las dos clasificaciones.

1.8. Calificación: Marque las opciones de la lista que apliquen a la prueba. En la lista aparecen mecanismos

de calificación desde el conteo manual de respuestas siguiendo una lista de claves (manual con claves)

hasta las calificaciones mediante programa de computador (computarizada) o que se obtienen enviando las

respuestas a un sitio WEB, entre otras. Si el procedimiento de calificación de la prueba no aparece en la

lista, descríbalo en el espacio correspondiente.

1.9. Modelo de análisis de la prueba: Aquí se solicitan dos tipos de información: el primero, es el formato de

la prueba, es decir si está compuesta por ítems o tareas, y la segunda, es el modelo de análisis que se

adoptó para el estudio de sus cualidades psicométricas. En primer lugar, marque la casilla SI, cuando la

prueba está compuesta por ítems, como frases o preguntas estructuradas, o incluye varias tareas de

ejecución. Marque NO si la prueba consiste, por ejemplo, en un relato o dibujo libre y no incluye preguntas

o tareas. En cuanto al modelo de análisis, tenga en cuenta que la mayoría de los manuales de las pruebas

no lo mencionan explícitamente y que éste se puede deducir después de revisar los estudios empíricos y

tipos de análisis presentados en el manual. En la lista aparecen tres opciones: Teoría Clásica de los Tests

(TCT), Teoría de Respuesta al Ítem (TRI) y Teoría de la Generalizabilidad (TG). Marque la o las casillas

correspondientes.

1.10. Población a la que va dirigida la prueba: Se debe consignar brevemente información sobre la población

a la cual está dirigida la prueba según los autores de la misma, incluyendo las características más relevantes

como lengua, edad, sexo y nivel educativo.

Apreciación general de la prueba

Es un espacio en el cual debe diligenciar la valoración general de la prueba, además de incluir información que

complete o aclare sobre un aspecto que considere relevante de la prueba que no se pregunta en los anteriores

espacios, puede agregar comentarios o impresiones que sirvan de orientación al usuario de la prueba. Por

ejemplo, podría aclarar que un uso propuesto no está suficientemente justificado o que la prueba podría ser útil

http://www.apa.org/science/programs/testing/qualifications.pdf


para una población que el autor de la misma no ha incluido en el manual. En todo caso, es necesario que tales

comentarios estén sustentados en la información sobre estudios o evidencia reportada en el manual.

INSTRUCCIÓN PARA DILIGENCIAR LOS APARTADOS DE ASPECTOS TÉCNICOS

Al momento de calificar, seleccione el descriptor que identifique cualitativamente la información disponible y asigne

la puntuación numérica para lo cual es recomendable tener una idea o mapa general de los contenidos de todo el

material disponible, antes de empezar la revisión detallada.


En este apartado se valora la información que fundamenta el constructo que evalúa la prueba, por medio de cinco

(5) indicadores obligatorios y dos (2) opcionales. Al momento de evaluar este apartado tenga en cuenta que,

aunque la mayoría de manuales de prueba tienen un capítulo para la presentación del sustento teórico de la prueba,

es posible que otros capítulos o algún material como protocolos o guías de aplicación, también contengan

información importante para calificar los indicadores de este aparte.

Los indicadores obligatorios hacen referencia a la información básica sobre el soporte conceptual que respalda la

prueba y sus usos para la población propuesta; ésta debería incluir como mínimo, una definición conceptual y

operacional del constructo o variable que mide la prueba, una propuesta de la composición o estructura interna de

dicho constructo y una declaración explícita de los usos propuestos y la población objeto con una justificación

básica. Los dos primeros indicadores tienen tres descriptores del nivel de cumplimiento mientras que los tres

indicadores restantes solo tienen dos descriptores, en todo caso, cada uno de ellos tiene un rango de calificación.

Los dos indicadores opcionales hacen referencia a la contextualización histórico-geográfica del constructo medido

y a la evidencia sobre las relaciones con otros constructos, que permitan ubicar la variable medida en una posible

red o mapa de relaciones conceptuales o teóricas. Estos aspectos difícilmente se encontrarán en pruebas que

busquen evaluar constructos recientemente propuestos o apenas emergentes en las teorías psicológicas.

3. Confiabilidad

Este apartado revisa la información de los estudios de estimación de la precisión de la medida obtenida con la

prueba, en términos de error y confiabilidad. Los seis (6) indicadores obligatorios hacen referencia a una evidencia

básica de confiabilidad mediante la identificación de posibles fuentes de error y un estudio empírico con al menos

200 examinados, que haya permitido obtener una estimación del error de medida y una de confiabilidad; la

presentación de los resultados debería ser clara y precisa con su respectiva interpretación.

En los indicadores 3.1 y 3.2 se evalúa la coherencia entre las fuentes de error identificadas con los usos

propuestos y el tipo de estudio seleccionado para estimar la confiabilidad. La tabla 3 muestra algunos ejemplos de

los procedimientos más frecuentemente utilizados, de acuerdo a los usos y las fuentes de error generalmente


reportadas en los manuales de prueba. Por ejemplo, si la prueba está propuesta para diagnóstico en un sistema

categorial, es decir el uso propuesto es clasificación, una fuente de error importante se encontraría en los criterios

o puntos de corte para dicha clasificación en categorías, y la magnitud de error puede estimarse apropiadamente

mediante tasas de falsos positivos o falsos negativos en un estudio de sensibilidad y especificidad.

Tabla 3 Fuentes de error, usos de las pruebas y tipos de estudio de confiabilidad

Uso propuesto

Fuente de error Tipo de estudio Estimadores más comunes

Clasificación

Criterios de clasificación Sensibilidad y Especificidad Error estándar de medida

Tasas de falsos positivos o falsos negativos. Porcentajes de especificidad

Variación entre calificadores

Confiabilidad interevaluadores Índice de acuerdo

Tasa de acuerdo Índice Kappa

Cambios individuales Test retest Estabilidad

Correlación de Pearson Coeficiente de Generalizabilidad

Predicción Cambios individuales Test retest Estabilidad


Planificación de la intervención

Cambios individuales Test retest Estabilidad


Variables de muestras de individuos

Estudios de generalizabilidad Comparación de grupos

Coeficiente de Generalizabilidad Análisis de varianza

Seguimiento Cambios individuales

Test retest Estabilidad


Repetición de la medida Medidas repetidas Análisis de varianza

Cualquier uso

Ítems Homogeneidad Coeficientes de consistencia interna Alpha, lambda, generalizabilidad

Formas de la prueba Equivalencia Coeficientes de correlación, Medidas de asociación, Coeficiente de Generalizabilidad

La información de la tabla puede servir como guía para calificar la coherencia a la que se refieren estos indicadores

pero no pretende ser exhaustiva. Para evaluarlos tenga en cuenta la información reportada por los autores de la

prueba en cuanto a los criterios para la selección de los estudios o los procedimientos utilizados.

El indicador 3.4 evalúa el tamaño de muestra utilizado en el estudio o estudios de confiabilidad, y establece como

criterio para una calificación de mínimo, un estudio con una muestra de entre 200 y 500 examinados de habla

castellana; como aceptable, una muestra entre 200 y 500 colombianos; y como bueno, un estudio con más 500

examinados colombianos. En este indicador es importante que el evaluador tenga en cuenta que los rangos de los

niveles mínimo y aceptable no son excluyentes sino que se solapan, y que para calificar, debe tener en cuenta que

los tamaños de muestra resultan adecuados cuando en las características del estudio y del método de estimación

seleccionado, se tuvo en cuenta el uso propuesto de la prueba y las exigencias para el cálculo del estadígrafo; por


ejemplo, el número de categorías involucradas en los estudios de clasificaciones erróneas o de sensibilidad y

especificidad, o el número de parámetros de un modelo de la Teoría de Respuesta al Ítem (TRI). La tabla 4 brinda

algunos criterios para calificar este indicador en la escala numérica según la información del manual; por ejemplo,

si se ajusta un modelo TRI de un parámetro con una muestra de 500 examinados colombianos, este indicador

podría valorarse con una calificación alta dentro del nivel “Aceptable”; si el modelo es de dos parámetros debería

tener una calificación baja dentro de este mismo nivel y si es de 3 parámetros apenas podría ubicarse en el nivel

mínimo de cumplimiento.

Es importante tener en cuenta los argumentos de los autores para justificar sus estudios según los objetivos de los

mismos y las condiciones en las que se realizaron. Por ejemplo, usted puede evaluar con una calificación más baja

una muestra de 200 examinados para una prueba de rendimiento en niños escolares, que una de 150 niños con

diagnóstico autista.

Tabla 4. Tamaños de muestra recomendados para algunos estudios frecuentes de confiabilidad

Método de estimación Variables relevantes Tamaño de muestra recomendado

Tasa de clasificaciones erróneas

Número de categorías: 2 o 3 100 a 300

Número de categorías 4 o mas 200 a 400

Porcentaje especificidad y sensibilidad

Número de categorías 2 o 3 200 a 400

Número de categorías 4 o mas 400 a 600

Función de información de un modelo TRI

1 parámetro 200 a 500

2 parámetros 300 a 1000

3 parámetros 500 a 1500

El indicador 3.5 evalúa el resultado obtenido en el estimador de confiabilidad o error de medida en términos de su

solidez como estimación de la confiabilidad de la prueba. Sin embargo, de manera similar a lo que ocurre con los

tamaños de muestra, el valor debe interpretarse considerando el diseño del estudio y el cumplimiento de los

supuestos estadísticos. La potencia de los resultados varía de acuerdo a las condiciones en las que se desarrolló

el estudio. Por ejemplo, no es igualmente significativo un acuerdo del 100% en un estudio de consistencia inter-

observadores cuando se trabaja con dos evaluadores y dos categorías de calificación, que si se trata de 4

observadores que deben calificar en una escala Likert de cinco categorías.

Como ilustración, la tabla 5 muestra los rangos de valores que pueden considerarse adecuados para algunos

estadísticos frecuentemente utilizados en la mayoría de estudios de confiabilidad, de manera que pueda juzgarse

un resultado obtenido, considerando algunas condiciones del estudio. Por ejemplo, si en un estudio de consistencia

entre observadores se reporta un índice Kappa de 0,6, obtenido con dos observadores que debían calificar a los

evaluados en una de dos categorías (presentó o no presentó un comportamiento) éste sería un resultado débil y

debería ubicarse en una calificación baja en la escala del nivel mínimo; sin embargo, si el mismo resultado se


obtiene con cinco observadores que deben calificar a los examinados en tres categorías (adecuado, regular,

insuficiente) podría considerarse adecuado y calificarse en el nivel de cumplimiento aceptable.

La tabla 5 solamente presenta algunos criterios que pueden ser de referencia, pero para calificar el indicador es

importante hacerse a la idea general de las condiciones del estudio y los argumentos de los autores de la prueba

para discutir el resultado obtenido considerando dichas condiciones, el tipo de población, lo que evalúa la prueba

y los propósitos de la misma.

Tabla 5. Valores adecuados de estadísticos para algunos estudios frecuentes de confiabilidad

Método de estimación Variables relevantes Resultados esperados

Tasa de clasificaciones erróneas

Número de categorías

2 o 3 Tasa inferior al 30%

4 o mas Tasa inferior al 50%

Porcentaje especificidad y sensibilidad

Número de categorías

2 o 3 El valor de ambos indicadores es superior al 80% y no hay diferencias superior al 5% entre ambos

4 o mas

Consistencia entre observadores

Número de observadores y número de categorías

2 o 3 observadores y 2 categorías

Porcentaje % de acuerdo mayor de 90% o Kappa significativo y mayor de 0,8

2 o 3 observadores y más de 2 categorías

Porcentaje %e de acuerdo mayor de 80% o Kappa significativo y mayor de 0,7

4 o 5 observadores y 2 o más categorías

Porcentaje% de acuerdo mayor de 70% o Kappa significativo y mayor de 0,6

Más de 5 observadores y 2 o más categorías

Porcentaje de acuerdo mayor de 60% o Kappa significativo y mayor de 0,5

Correlación entre puntajes Test-retest

Tiempo entre aplicaciones

Más de 3 meses Mayor a 0,4

Entre 1 y 3 meses Mayor a 0.5

Menos de un mes Mayor a 0.6

Finalmente, en cuanto a los dos indicadores opcionales, el primero de ellos evalúa la adopción de un modelo o

modelos de análisis de confiabilidad –TCT, TRI, TG u otro- y la justificación explícita de dicha elección,

considerando los usos de las pruebas; el segundo considera los argumentos, análisis y reflexión explícita sobre la

elección de los procedimientos estadísticos utilizados.

4. Validez

En este apartado se revisa la información reportada en el manual sobre estudios que pueden brindar evidencia que

soporte los usos y propósitos para los que la prueba fue construida y las inferencias que se derivan de los puntajes

en la misma, en términos de su validez. Siguiendo los estándares de la APA (2014), este capítulo contiene cuatro

(4) secciones que agrupan indicadores de los diferentes tipos de evidencia de validez.


Evidencia de validez basada en el contenido de la prueba (indicadores 4.1 a 4.6)

Esta sección valora por medio de 6 indicadores, 4 obligatorios y 2 opcionales, la información disponible sobre

la relación entre los contenidos de la prueba y la definición teórica del constructo evaluado, incluyendo la

identificación o clasificación de los ítems o tareas según la estructura conceptual propuesta cuando se trata de

constructos de varias dimensiones. Lo mínimo que se espera como evidencia de validez basada en el contenido

de la prueba es una coherencia entre los contenidos de la misma y la definición conceptual que la soporta, y al

menos, un estudio de revisión por expertos con índices de acuerdo mínimo de 0,75; o de 1, si solo participaron

dos expertos.

Aunque la mayoría de los indicadores hacen referencia a ítems o reactivos, éstos pueden ser evaluados también

en pruebas que no estén compuestas por elementos, puesto que se trata de evaluar la coherencia conceptual

y el juicio de expertos sobre la tarea o contenido general de la prueba, su pertinencia, relevancia y claridad.

En el indicador 4.3, el descriptor del nivel mínimo se satisface si el material de prueba reporta un estudio con

dos expertos; sin embargo, la calificación debe tener en cuenta el nivel de “especialidad” que requiere un

experto para revisar la pertinencia de los contenidos de la prueba respecto al constructo evaluado. Por ejemplo,

no debería calificarse igual un estudio con dos expertos para un constructo relativamente nuevo, sobre el cual

hay muy pocos estudios y por tanto muy pocos expertos, que para una prueba de depresión.

Los indicadores opcionales hacen referencia a procesos de capacitación a quienes participan en la revisión de

los contenidos de la prueba por parte de expertos, y a la presentación de una tabla de especificaciones de la

misma. Este último solamente puede ser evaluado cuando la prueba está evaluando un constructo o aspecto

psicológico con diferentes variables o aspectos.

Evidencia basada en la estructura interna de la prueba (indicadores 4.7 a 4.9)

Incluye 3 indicadores obligatorios que revisan los estudios que identifican la estructura del constructo medido

según la teoría que lo soporta, usando metodologías que revisan el comportamiento empírico de la prueba. Se

espera como mínimo, que se hayan estudiado las respuestas de al menos 300 evaluados de habla castellana

que permita identificar o proponer una estructura multi o unidimensional del constructo.

El indicador 4.7 revisa el reporte de estudios, se espera que el manual incluya información de al menos un

estudio cuyo objetivo explícito sea explorar o corroborar la estructura del constructo. Las técnicas más usadas

para este propósito, son los análisis factoriales exploratorios que buscan identificar agrupaciones de ítems que

permitan hallar dimensiones teóricamente significativas del constructo. Sin embargo, pueden incluirse también

estudios que busquen probar la unidimensionalidad del constructo o cualquier estrategia que busque

explícitamente identificar la estructura del mismo. En el máximo nivel de cumplimiento se encuentran aquellos

estudios que busquen corroborar una estructura propuesta, como los análisis factoriales confirmatorios; o todas

aquellas estrategias que someten a prueba un modelo que explique las relaciones entre los ítems o grupos de

ítems de la prueba, como las ecuaciones estructurales, por ejemplo.


El indicador 4.8 hace referencia a las características de la muestra de evaluados que participan en los estudios.

Lo mínimo que se espera es la participación de 300 evaluados de habla castellana. Sin embargo, vale la pena

mencionar que para calificar este indicador se deben revisar dos criterios; primero, la longitud de la prueba, que

determina el mínimo del tamaño de la muestra, teniendo en cuenta la relación entre tamaño de muestra y

longitud de prueba, dado que la mayoría de métodos exigen tamaño de muestra, y el segundo criterio es la

exigencia de que los examinados sean colombianos. Para calificar una prueba en estos niveles tenga en cuenta

que deben cumplirse simultáneamente los dos criterios de tamaño de muestra; por ejemplo, si una prueba está

compuesta por 50 ítems, para ser calificada en el nivel “Aceptable” necesitará 300 examinados que es el mínimo

establecido en el descriptor, y además no debe tener menos de 5 examinados por ítem (50 x 5 = 250). Sin

embargo, si la prueba tiene 70 ítems no es suficiente con que la muestra tenga 300 evaluados, puesto que no

cumpliría con el segundo criterio; para que cumpla los dos, su estudio de validez requerirá como mínimo una

muestra de 350 examinados (70 X 5 = 350).

El indicador 4.9, revisa la inclusión de información sobre los resultados del estudio y su incidencia en el proceso

de interpretación de la medida que ofrece la prueba, en el caso de pruebas con varias dimensiones se espera

que los estudios sirvan de sustento a las dimensiones, y que la calificación de las dimensiones y el global de la

prueba sean consistentes con estos resultados.


En esta sección se revisa la inclusión de información sobre estudios en los que se pruebe la relación del

constructo con variables de interés, este tipo de evidencia se conoce tradicionalmente como validez predictiva,

concurrente, discriminante o relacionada con criterio; los estudios en los que se busca probar algún tipo de

relación sustentada teóricamente, entre el constructo medido por la prueba con otros constructos o variables.

Lo mínimo esperado en un manual de prueba es el reporte de al menos un estudio empírico con al menos 300

examinados de habla castellana que estudie la relación con otra u otras variables, en el que tanto el tipo de

relación esperada como la estrategia de análisis estén coherentemente justificados y que haya obtenido

resultados aceptables y significativos.

El indicador 4.11 evalúa la justificación de la selección de las variables criterio. Si bien es frecuente que se

examine la relación entre puntajes de dos pruebas o dos medidas diferentes del mismo constructo; algunos

estudios pueden estar interesados en examinar la relación de la prueba con variables como comportamiento

futuro (rendimiento académico o laboral) o un diagnóstico independiente, etc. En todo caso, el criterio es la

variable con la que se busca relacionar la prueba de acuerdo con el sustento teórico, y la medida de criterio es

la estrategia, indicador o indicadores que se utiliza para evaluarla. Por ejemplo, puede ser de interés examinar

la relación entre los puntajes en la prueba de depresión con el diagnóstico clínico obtenido de manera

independiente mediante una entrevista siguiendo los criterios del DSM. Para evaluar este indicador tenga en

cuenta las consideraciones que presenta el autor o autores para seleccionar la variable criterio con base en el

sustento teórico, en el uso o propósito de la prueba.


Los indicadores 4.13 y 4.14 evalúan la pertinencia de los métodos de análisis empleados en los estudios y la

capacidad de los resultados para sustentar la relación del constructo evaluado con otras variables, en términos

de la contundencia de los mismos para apoyar la relación examinada. Por ejemplo, si en el estudio se

correlacionan dos variables, se esperaría un valor de correlación mínimo de 0,5 para considerar que el resultado

constituye un soporte empírico a dicha relación, independientemente de la significancia estadística. El

indicador 4.14 incluye en los descriptores algunos valores criterio para calificar este indicador para los

procedimientos más frecuentemente utilizados; sin embargo, en la tabla 6 se especifican algunos otros que

pueden ser de utilidad sin pretender ser exhaustiva.

Tabla 6. Algunos criterios para calificar el indicador 4.14

Método de estimación

Criterios de calificación del resultado

Mínimo Aceptable Bueno

Correlación Coeficientes de correlación entre 0.5 y 0.59

Coeficientes de correlación entre 0.6 y 0.79

Coeficientes de correlación iguales o superiores a 0.8

Medidas de asociación

Regresión lineal

Al menos una variable predictora con coeficiente significativo,

Entre el 50% y 59% de varianza explicada por el modelo

Modelo significativo con p<0,05

Variable(s) predictoras con coeficientes significativos.

Entre 60% y 69% de varianza explicada por el modelo


Variables predictoras con coeficientes beta significativos

70% o más de varianza explicada por el modelo


Diferencia entre grupos

Resultados estadísticamente significativos al nivel de 0.05. Alguna medida de tamaño del efecto

Resultados estadísticamente significativos al nivel de 0.05. Tamaño del efecto pequeño

Resultados estadísticamente significativos al nivel de 0.01. Tamaño del efecto medio o grande.

Matriz multirasgo-multimétodo

Un estudio mono-rasgo/mono-método con coeficientes de correlación entre 0.45 y 0.50

Una matriz con dos rasgos o dos métodos. con coeficientes de correlación entre 0.51 y 0,60

Una matriz con dos o más rasgos o métodos con coeficientes de correlación superiores a 0,60

Análisis de varianza

Modelos confirmatorios de relación de variables

Un modelo con al menos una relación significativa entre dos variables.

Finalmente, los dos indicadores opcionales de esta sección hacen referencia a la identificación de

funcionamiento diferencial de los ítems y la información o reflexión sobre las variables que pueden tener algún

efecto en los resultados de la misma. En el segundo caso no se espera un estudio empírico de análisis de

sesgo, pero si alguna información sustentada sobre la posible interferencia de variables externas al constructo

que pueden introducir un error sistemático, aspecto de especial interés cuando el constructo evaluado puede

verse afectado por aspectos étnicos, culturales o de género, etc.


Califique los indicadores 4.19 y 4.20

Califique los indicadores 4.21, 4.22 y 4.23

Califique todos los indicadores del

4.19 a 4.23

Figura 3 Ilustración del proceso de decisión para la calificación de la sección sobre evidencia basada en el análisis de ítems.

Evidencia basada en el análisis de ítems

Esta sección solamente es calificable para las pruebas que están conformadas por elementos como ítems,

preguntas o tareas; con dos indicadores obligatorios los indicadores opcionales son diferentes según el modelo

que se haya adoptado para el análisis de los mismos. Si la respuesta al indicador 1.9 fue negativa No

califique esta sección y marque en todos los casos la casilla “No cumple”; por el contrario, si fue positiva

califique los indicadores 4.17 y 4.18 obligatoriamente. Además, si los análisis se basan en la Teoría Clásica

de los Tests (TCT), califique los indicadores 4.19 y 4.20 y si se utilizó algún modelo de la Teoría de Respuesta

al Ítems (TRI), califique los indicadores 4.21, 4.22 y 4.23. Si se usaron los dos modelos califique los cinco

indicadores. La figura 3 ilustra el procedimiento a seguir para la calificación de esta sección.

Los indicadores 4.17 y 4.18, obligatorios en esta sección, evalúan los aspectos básicos del análisis de ítems

y lo mínimo que se espera es que el manual reporte algún procedimiento de análisis y los resultados de la

dificultad de los ítems. Para valorarlo tenga en cuenta que aquí la dificultad no se aplica únicamente a las

preguntas de respuesta correcta sino a cualquier indicador de proporción de respuestas o medidas de tendencia

en las puntuaciones de un ítem, cuando se trata de pruebas de ejecución típica, cuyas preguntas no tienen una

respuesta correcta.

5. CALIFICACION Y ESTANDARIZACION

Este apartado valora la información del manual sobre materiales, condiciones y procedimientos de aplicación y

calificación de la prueba, elaboración de baremos o estandarización, transformación de puntajes e interpretación

de los mismos. Se espera que, como mínimo, un manual de prueba incluya una descripción completa de los

procedimientos y requerimientos para la aplicación y calificación de la prueba, y de los elementos básicos para la

X

X

X

X

X

X X

X

X

No califique esta sección y continúe calificando el capítulo 5: Estandarización

Califique los indicadores 4.17 y 4.18 e identifique cuál fue el modelo de análisis


interpretación de los resultados; la transformación de puntajes o baremos deben estar sustentadas en un estudio

empírico con una muestra de al menos 300 examinados colombianos.

El indicador 5.3 califica la información sobre transformación de puntajes, frecuentemente conocidas como

construcción de baremos. Aunque en la mayoría de los casos se tratará de tablas de transformación que permiten

expresar los puntajes directos o crudos en una escala estándar basada en puntajes Z o t o en percentiles, califique

este indicador teniendo en cuanta que las transformaciones también pueden incluir la categorización de puntajes

brutos. Por ejemplo, cuando se establecen rango de puntuaciones directas para ubicar al examinado en una

categoría diagnóstica. En este último caso tenga en cuenta que los estadísticos o procedimientos a que se refieren

los descriptores de los niveles “Aceptable” y “Bueno” de este indicador, son los que llevaron a la definición de los

puntos de corte o límites de los rangos para hacer la categorización.

Los indicadores opcionales de esta sección hacen referencia a la disponibilidad de protocolos o versiones

especiales para población con necesidades especiales y de protocolos o procedimientos detallados para la

comunicación de resultados. Para calificar el primero de ellos -indicador 5.8- tenga en cuenta que éste solo se

revisa si el test cuenta con una adaptación de materiales de prueba o una versión adaptada para personas con

necesidades especiales. Si se brindan recomendaciones útiles para la aplicación de la misma versión de la prueba

con los mismos materiales a grupos especiales, ésta puede ser calificada en el nivel “bueno” del indicador 5.1

pero no cumpliría el criterio para calificar el indicador opcional.

Instrumento para la valoración de CALIDADES TÉCNICAS ...

Documents

Transcript of Instrumento para la valoración de CALIDADES TÉCNICAS ...