TEMA N.º 2. PRINCIPIOS BÁSICOS PARA LA CONSTRUCCIÓN DE...
Transcript of TEMA N.º 2. PRINCIPIOS BÁSICOS PARA LA CONSTRUCCIÓN DE...
TEMA N.º 2. PRINCIPIOS
BÁSICOS PARA LA
CONSTRUCCIÓN DE
INSTRUMENTOS DE
MEDICIÓN PSICOLÓGICA
DIFERENCIACIÓN TERMINOLÓGICA TEST: término que se refiere a los instrumentos de medición de variables de tipo cognitivo (aptitudes, conocimientos,
rendimiento, habilidades, etc.) en las que las respuestas de los sujetos son correctas o incorrectas y la puntuación
total en el test es la suma (directa o ponderada) de todas las respuestas correctas, dando lugar a una escala jerárquica
o acumulativa. Ej. Test de conocimientos: La capital de España es: a) París; b) Londres; c) Madrid
ESCALA: hace referencia a los instrumentos elaborados para medir variables no cognitivas (preferencias, opiniones,
etc.) y se caracteriza porque los sujetos han de responder eligiendo, sobre una escala de categorías graduada y
ordenada, aquella categoría que mejor represente su posición; no hay respuestas correctas o incorrectas, y la
puntuación total en la escala será la suma de las puntuaciones asignadas a las categorías elegidas por los sujetos. Ej.
Escala: ¿Debería estar prohibido fumar en todos los restaurantes?: a) Completamente de acuerdo; b) De acuerdo; c)
Indiferente; d) En desacuerdo; e) Completamente en desacuerdo.
CUESTIONARIOS: formados por ítems o elementos que no están necesariamente relacionados unos con otros, cuyas
opciones de respuesta no están ordenadas ni graduadas, que pueden ser puntuados e interpretados individualmente y
en los que tampoco hay respuestas correctas e incorrectas. Se utilizan para obtener una mayor información del
sujeto y de su entorno (edad, profesión, estudios, etc.). Son típicos en las investigaciones mediante encuestas. Ej.
Cuestionario: ¿Qué parte de la asignatura de Psicometría le resulta más fácil de estudiar? a) Fiabilidad; b) Validez; c)
Análisis de elementos; d) La construcción de test.
INVENTARIO: vinculado a los instrumentos elaborados para medir variables de personalidad. Las respuestas no son
correctas o incorrectas, lo único que demuestran es la conformidad o no con los enunciados de los ítems. Ej.
Inventario: A menudo me siento como si los demás me ignoraran (V ó F) // El problema de mucha gente es que no
toma las cosas en serio (V ó F)
Instrumentos utilizados para medir
variables de tipo psicológico Test
Instrumentos de medición del ámbito cognitivo (aptitudes,
conocimientos)
Puntuación total sumativa
Existen respuestas correctas e incorrectas
Escalas / Cuestionarios / Inventarios
Variables de tipo oréctico (emocionales)
No existen respuestas correctas e incorrectas
Escalas (actitudes)
Cuestionarios (opinión, valoraciones)
Inventario (personalidad)
PROCESO DE CONSTRUCCIÓN DE UN TEST
El objetivo del test es el paso previo que va a condicionar las siguientes etapas
ETAPAS
1.- Determinar la finalidad del test. Qué se va a medir, a quién y para qué
2.- Especificar las características del test. Cuál va a ser el contenido. Tipo y número de ítems.
Características psicométricas
3.- Redacción de los ítems. Ítems de elección e ítems de construcción
4.- Revisión crítica de los ítems por expertos. Qué ítems van a seleccionarse
5.- Confección de la prueba piloto. Instrucciones de administración. Formato de presentación y
registro de respuestas
6.- Aplicación de la prueba piloto Individual / colectiva; Papel y lápiz / informatizada; Por correo,
entrevista personal, por teléfono, etc.
7.- Corrección de la prueba piloto y asignación de puntuaciones a los sujetos. En los tests
formados por ítems de elección. En los test formados por ítems de construcción
FINALIDAD DEL TEST
Como paso previo para la construcción del test, es necesario tener claro su objetivo
(lo que se quiere medir, a quien se quiere medir y para qué se quiere medir):
Constructo (variable objeto de estudio). Variable psicológica no observable de
forma directa (se manifiesta a través de conductas que sí son observables de forma
directa y son las que se miden). Es decir, que para construir un test, lo primero que
hay que hacer es definir el/los constructo/s que lo forman y así determinar mejor las
conductas que los representan.
Población a la que va dirigido. Según el tipo de población al que va dirigido
(infantil, adultos, etc.), variará el contenido de los ítems, su redacción, la longitud del
test, las instrucciones, etc.
Utilización prevista: Decisiones que se van a tomar (para qué se va a utilizar) Si
tenemos en cuenta que un test es una herramienta que permite obtener datos para
la medición y evaluación de alguna característica o atributo psicológico (constructo),
la medición no será válida a menos que el test se adecue a su objetivo.
Usos más frecuentes y decisiones que se suelen
tomar a partir de las puntuaciones obtenidas
Selección. Ámbito educativo: alumnos aptos / no aptos. Ámbito profesional:
selección de aspirantes.
Clasificación / Colocación En cualquier ámbito
Diagnóstico En cualquier ámbito, para detectar problemas de aprendizaje, etc.
Certificación Para acreditar diversas cualificaciones o competencias, tanto en
el ámbito profesional como académico.
Orientación / Consejo Detectar las capacidades e intereses de las personas
para, examinando las distintas opciones, elegir aquella/s que mejor se adecuen
a su perfil.
Descripción / Información Describir el rendimiento académico tanto a nivel
individual como colectivo. Obtener información acerca de la opinión pública.
ESPECIFICACIÓN DE LAS CARACTERÍSTICAS DEL
TEST
A.- Contenido: Comienza al determinar cuál es su dominio de conductas
(conjunto de conductas a través de las que se manifiesta el constructo). Definir
un constructo y determinar su dominio de conductas, no son procesos distintos,
sino que están fuertemente relacionados. A medida que tiene una mayor
información acerca del constructo que se quiere medir se irá modificando el
contenido de la prueba y viceversa. En los test de rendimiento y conocimientos
y, sobre todo, en los test referidos a criterio (TRC) en lugar de dominio de
conductas se habla de dominio de contenidos a evaluar. Para contemplar
todos los procesos y todos los contenidos, se suele utilizar una tabla de doble
entrada. A modo de ejemplo tabla 2.3 pag 65 del libro.
ESPECIFICACIÓN DE LAS CARACTERÍSTICAS DEL TESTB.- Formato de los ítems:
Ítems de elección: Son ítems de respuesta cerrada, donde el sujeto elige una o varias alternativas de entre las propuestas. Entre los formatos más comunes destacan:
Dos alternativas (se elige entre V ó F; Si ó No; Correcto ó Incorrecto). Se utilizan para medir variables de tipo cognitivo (habilidades, aptitudes y sobre todo para la construcción de test de conocimiento y rendimiento). Ventaja: es rápido y fácil de usar. Inconveniente: los sujetos que responden al azar tienen un 50% de posibilidad de elegir la respuesta correcta.
Elección múltiple (se elige entre alternativas u opciones de respuesta de las cuales una es la correcta y las otras son incorrectas (distractores). Se utiliza para medir variables cognitivas y sobre todo en test de conocimiento y rendimiento. Ventaja: son fáciles de administrar, corregir y puntuar. Inconveniente: son más difíciles de construir que los de dos alternativas.
Emparejamiento (el sujeto debe emparejar los elementos de dos columnas de acuerdo a las instrucciones dadas en el enunciado). Se utilizan para medir variables de tipo cognitivo.
Formato Cloze o incompleto (frase con espacio en blanco para rellenar con palabra de una lista)
Escalas de clasificación (rating scales): Las alternativas de respuesta están ordenadas de forma gradual en una serie de categorías a lo largo de un continuo (totalmente de acuerdo; de acuerdo; indiferente; etc.). También se las denomina escalas valorativas (los sujetos tienen que emitir juicios de valor). Ventaja: los sujetos expresan su postura de una manera más precisa. Inconveniente: el significado de las opciones de respuesta no es el mismo para todos los sujetos, aparecen sesgos en las respuestas (opciones extremas, categorías centrales, etc.)
Listados (checklists): También es una escala valorativa en la que los sujetos han de mostrar su opinión sobre algún hecho. Las opciones son independientes entre sí ( ≠ escalas clasificación); y no hay respuestas correctas o incorrectas. El número de respuestas suele ser grande y es posible elegir varias opciones. Es un formato típico de los cuestionarios.
ESPECIFICACIÓN DE LAS CARACTERÍSTICAS DEL TEST
Ítems de construcción: El sujeto elabora su propia respuesta. También se
denominan de respuesta abierta. Los hay de dos tipos:
De respuesta corta (el sujeto elige una palabra o frase sin que se le
presente en ninguna lista)
De respuesta extensa o de ensayo (se pide a los sujetos que desarrollen
un tema): se da la oportunidad de expresarse con sus propias palabras (se
puede evaluar el nivel de conocimientos, la forma de estructurarlos, las
habilidades cognitivas de orden superior, los procesos cognitivos que ponen en
marcha a la hora de solucionar un problema, opiniones, afectos, etc.)
Inconvenientes: las respuestas son difíciles de analizar y valorar pues el
investigador tiene que codificarlas en una serie de categorías antes de
comenzar el análisis. Cuando la población es pequeña se utilizan tests con
ítems de respuesta corta
ESPECIFICACIÓN DE LAS CARACTERÍSTICAS DEL TEST
C.- Longitud del test: no hay un número de ítems adecuado, depende de cada caso. Son muchos los factores que
hay que tener en cuenta (la población a la que va dirigido, el tiempo del que se dispone, los objetivos del test, etc.). En
todos los casos se recomienda que el número de ítems de la prueba piloto sea mayor que el de la versión final.
D.- Características psicométricas de los ítems:
Nivel de dificultad. Un ítem es fácil o difícil, para una determinada población, en función de la probabilidad que
tengan de responder a él correctamente. Podemos distinguir tres tipos de tests:
Test de velocidad: los ítems deben ser fáciles de resolver. La dificultad está en el tiempo limitado de ejecución.
Test de ejecución máxima (Test de potencia): se utiliza para la evaluación del rendimiento académico y para
la medida de las aptitudes y destrezas. Aquí los ítems tienen diferentes grados de dificultad (de muy fáciles a
muy difíciles); y el tiempo de ejecución no es un factor importante.
Test de ejecución típica: son los test de personalidad, actitudes, intereses, etc. Como no hay respuestas
correctas e incorrectas, no se puede hablar de dificultad de los ítems
Homogeneidad. En relación con los demás ítems (un ítem tendrá un alto grado de homogeneidad con el resto de
ítems que forman el test cuando mida lo mismo que ellos). Si el constructo a medir es unidimensional, los ítems
han de ser más homogéneos que si el constructo es multidimensional.
Capacidad de discriminación. Un ítem tendrá poder discriminativo en la medida en que sirva para diferenciar
entre sujetos que han obtenido en el test puntuaciones extremas. Depende de la población a la que va dirigida el test.
REDACCIÓN DE LOS ITEMS Consideraciones para la tarea:
Debe existir un alto grado de congruencia entre el ítem y el constructo
psicológico que se quiere medir (validez del constructo).
Los constructos deben estar claramente definidos para poder valorar el
grado de congruencia ítem-constructo.
Hay que minimizar los errores de medida cometidos al medir el
constructo con cada ítem.
El formato de los ítems debe ha de ser adecuado para los objetivos del
test.
Los ítems deben reunir las características psicométricas más
adecuadas en cada caso.
Los ítems deben estar bien redactados.
Los ítems deben satisfacer las consideraciones legales y técnicas
pertinentes. (Por ejemplo se deben evitar plagios).
Recomendaciones generales
Evitar la ambigüedad de los enunciados (enunciados
cortos y directos)
Evitar enunciados que provoquen respuestas sesgadas
(aquella que es más probable que elijan los sujetos
independientemente de su opinión)
Expresar una única idea en el enunciado.
Evitar las dobles negaciones en los enunciados (hacen
que los sujetos no sepan cuál es la respuesta que
representa su opinión)
Recomendaciones para ítems de elección
Dos alternativas: Verdadero-Falso: 1.- Estar completamente seguro de que el ítem es verdadero
o falso. 2.- No utilizar frases que sean universalmente verdaderas o falsas. 3.- Evitar poner en el
enunciado palabras que puedan inducir la respuestas correcta (como siempre, todo, nada, nunca, a
veces, en general, etc.). 4.- Evitar patrones de respuesta, colocando a lo largo del test, de forma
aleatoria, los ítems cuyo enunciado sea correcto.
Elección múltiple: 1.- Asegurarse de que el enunciado del ítem formula el problema con claridad.
2.- Incluir la mayor parte del texto en el enunciado para evitar repeticiones innecesarias en las
opciones de respuesta. 3.- Incluir distintas opciones de respuesta al final del enunciado. 4.-
Asegurarse de que los distractores, son plausibles. 5.- Evitar opciones de respuesta como: ninguna de
las anteriores o todas las anteriores. 6.- Que sólo haya una opción correcta, a no ser que se indique lo
contrario claramente en las instrucciones. 7.- Tratar de que todas las alternativas de respuesta tengan
una longitud aproximada igual y con una construcción gramatical parecida. 8.- Aleatorizar la ubicación
de la alternativa correcta. 9.- Hacer que todas las alternativas le parezcan igualmente atractivas a una
persona no informada del problema al que alude el enunciado. 10.- Asegurarse de que cada
alternativa concuerda gramaticalmente con el enunciado del ítem. Si el enunciado está en singular,
asegurarse de que cada alternativa está en singular.
Recomendaciones para ítems de elección
Emparejamiento: 1.- Asegurarse de que tanto las premisas como las opciones de respuesta
que hay que emparejar son homogéneas. 2.- Utilizar el formato adecuado (las premisas se deben
presentar de forma aleatoria en una columna a la izquierda y en una columna paralela, situada a la
derecha, se deben presentar las distintas alternativas de respuesta) 3.- El enunciado del ítem debe
reflejar claramente la tarea que se espera del sujeto y la forma en que hay que llevar a cabo el
emparejamiento.
Formato Cloze o incompleto: Necesario que en el enunciado del ítem haya tantos espacios
en blanco como alternativas de respuesta; si no es así, debe constar en las instrucciones.
Escalas de Clasificación: 1.- Evitar expresiones coloquiales, por si alguien no las conoce. 2.-
Incluir en el test completo aproximadamente el mismo número de ítems formulados de manera
positiva y negativa. 3.- Asignar las etiquetas lingüísticas (al menos en los extremos de la escala
deben aparecer las etiquetas lingüísticas para facilitar la respuesta de los sujetos). También es
conveniente introducir una categoría central que represente el punto medio o neutral (no sé,
indiferente, ni de acuerdo ni en desacuerdo) pues refleja la actitud u opinión de muchas personas.
Listados: son fáciles de construir.
Recomendaciones para ítems de construcción
Ítems de respuesta corta: 1.- Asegurarse de que el enunciado puede ser
contestado con una única frase o palabra y que hay una única respuesta correcta.
2.- Los espacios en blanco para las respuestas han de ser de la misma longitud. 3.-
Evitar dar pistas de la respuesta correcta, (por ejemplo con el artículo de antes de
la palabra etc.). 4.- Indicar el grado de precisión exigido, (por ejemplo el número de
decimales). 5.- Evitar determinantes específicos como Todo o Nada y ambiguos
como Frecuentemente o Algunas veces.
Ítems de respuesta extensa o de ensayo: 1.- Asegurarse de que el problema
está bien enfocado, con palabras que definan claramente la tarea (Compare,
Contraste, etc.). 2.- No permitir a los sujetos que elijan entre varias preguntas de
ensayo. 3.- Decidir de antemano cómo se van a puntuar las preguntas de ensayo.
4.- Redactar las preguntas referidas a cuestiones controvertidas de manera que los
sujetos que las deben responder sean evaluados en relación a la evidencia que
presentan, no a su posición personal respecto al tema.
Los sesgos de respuesta
Este tipo de respuestas suelen aparecer en tests construidos para la medida
de aspectos afectivos. Principales sesgos:
Aquiescencia: tendencia a responder sistemáticamente que se está de
acuerdo (o en desacuerdo) con el enunciado del ítem, con independencia de
su contenido.
Deseabilidad social: responder de manera socialmente aceptada.
Indecisión o tendencia a seleccionar la alternativa central o neutra: no se,
ni acuerdo ni desacuerdo, indiferencia.
Respuesta extrema o tendencia a elegir como respuesta las categorías
de los extremos con independencia del contenido del ítem.
REVISIÓN CRÍTICA DE LOS ITEMS POR EXPERTOS
Una vez redactados los ítems y antes de dar forma
a la prueba piloto, es conveniente que sean
revisados por un grupo de personas que no hayan
intervenido en su elaboración (expertos que
analicen todos aquellos aspectos que
contribuyen a la calidad del ítem). Una vez
revisados, se puede construir la versión preliminar
del test (prueba piloto), con aquellos ítems que
han pasado este primer control de calidad.
CONFECCIÓN DE LA PRUEBA PILOTOInstrucciones de administración:
Evitar un leguaje ampuloso y/o amenazante.
En los test de ejecución máxima se debe explicar que hay algunos ítems que resultarán muy difíciles para todos los sujetos (la prueba está pensada para que haya ejercicios que no puedan resolver). Si se incluye esta observación se reducirá la ansiedad de los sujetos.
En los test de velocidad, avisar que el tiempo está limitado y muy pocos llegarán al final; también, hay que explicitarlo en las instrucciones.
Las instrucciones deben proporcionar uno o más ítems de ejemplo.
Las instrucciones deben informar acerca de cómo distribuir el tiempo y qué hacer cuando no se conoce la respuesta de un ítem.
Las instrucciones deben animar al sujeto a responder a todas las preguntas y favorecer así su rendimiento (tiende a bajar considerablemente cuando se dejan muchas respuestas en blanco)
Las instrucciones deben explicitar claramente la forma de responder.
CONFECCIÓN DE LA PRUEBA PILOTO
Formato de presentación y de registro de las respuestas: Una vez elaboradas
las instrucciones hay que organizar y ordenar los ítems seleccionados para su
posterior presentación a los sujetos y decidir el formato de registro de respuesta.
El formato debe ser claro y perfectamente legible.
Debe solicitar al comienzo la identificación del sujeto.
Presentar las instrucciones
Presentar los ítems (para medir variables cognitivas es importante que se
coloquen ordenados en función del nivel de dificultad, de menos a más para evitar
desmotivar al sujeto y que deje de responder. En pruebas no cognitivas las
preguntas embarazosas deben aparecer al final de lo contrario el sujeto podría
dejar de contestar)
Los formatos diferentes deben aparecer agrupados para evitar el desconcierto.
Hay que tratar de que los ítems sigan una ordenación lógica.
APLICACIÓN DE LA PRUEBA PILOTO
Una vez construida la prueba es necesario hacer un estudio piloto para su evaluación
psicométrica (ver si cumple los requisitos necesarios para considerarla un instrumento científico de
medición).
Formas de administración de la prueba:
Colectiva – individual: preferible la colectiva (aunque WAIS, WISC son individuales)
Oral (las instrucciones y las respuestas se dan de forma oral)
Papel y lápiz (la presentación y el registro de las respuestas se hace de forma impresa)
Mediante ordenador (aparecen los ítems en pantalla y se responde a través del teclado)
A través del correo (alta tasa no responde y falta de seguridad ¿responde a quién iba
dirigido?)
CORRECCIÓN PRUEBA PILOTO / ASIGNACIÓN DE
PUNTUACIONES A LOS SUJETOS En los test formados por ítems de elección (respuesta cerrada): el examinador no debe realizar
ninguna valoración de las respuestas emitidas por los sujetos, eliminándose la posibilidad de introducir subjetividad en las puntuaciones asignadas.
A.- Pruebas cognitivas: Se conoce de antemano cual es la respuesta correcta, solo hay que comprobar si coincide. Un inconveniente grave es la posibilidad de que un sujeto, desconociendo la respuesta, elija por azar la correcta (la puntuación final no se corresponde con su verdadero nivel). Para evitarlo se utiliza una fórmula de corrección (penalizando errores o bonificando las omisiones)
B.- Pruebas no cognitivas: No hay respuestas correctas ni incorrectas, los ítems llevan asignado un valor para cada alternativa de respuesta, lo que implica un escalamiento previo de los ítems en función del grado de atributos que manifiesten. La forma de corregir es sumando los valores numéricos asignados a las alternativas o categorías de repuesta elegidas por el sujeto. Cuando se utiliza un formato de escalas de categorías o clasificaciones hay que tener muy claro cuál es la dirección del continuo de la variable que se está midiendo.
Problemas ejemplo: Supongamos un test de 50 ítems, 25 con dos alternativas de respuesta (Verdadero / Falso) y 25 con cuatro alternativas de respuesta. ¿Cuál será la puntuación corregida de un sujeto que contestando a todos los ítems, acertó 15 de V/F y 19 de las de cuatro alternativas?
ASIGNACIÓN DE PUNTUACIONES A LOS SUJETOS
En los test formados por ítems de construcción: Cuando se trata de que el sujeto construya
la respuesta correcta con una palabra o frase corta (ítems de respuesta corta) es fácil la asignar
una puntuación. El problema aparece en las respuestas más abiertas y extensas, en las que es más
difícil corregir eliminando la subjetividad.
Método de la puntuación Analítica (Requiere): Definir de forma inequívoca y aislar las
dimensiones que se consideran importantes para la realización de la tarea a evaluar. Establecer las
formas de evaluarlas, definiendo claramente lo que se considera una respuesta adecuada o correcta
en cada dimensión y estableciendo el número de respuestas correctas que se necesitan, en cada
una de ellas, para poder decir que la tarea ha sido correctamente realizada. Las pruebas pueden ser
corregidas por personas que no sean expertas en la materia a evaluar, ya que no habrá dificultad
en decidir si la respuesta es correcta o no. La puntuación final viene expresada por dos únicos
valores: correcta / incorrecta, apto / no apto; pero se obtiene información de cada una de las
dimensiones.
Método de la puntuación Holística: Evalúa de una manera global u holística la forma en que
los sujetos han realizado la prueba (la puntuación asignada podrá tomar distintos valores dentro de
los límites establecidos). Requiere que la corrección de las pruebas sea hecha por expertos,
entrenados para alcanzar un acuerdo entre ellos y eliminar la subjetividad