Unidad3_art1_aragon (1)

MDULO 2202- EL MTODO EXPERIMENTAL EN PSICOLOGA 1

Para profundizar en este tipo de contenidos consulte la obra: Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax: Mxico.

UNIDAD III VALIDEZ

L e c t u r a 1

Aragn, B., L., E y Silva, R. A. y, (2002). Fundamentos Tericos de la Evaluacin Psicolgica. Editorial Pax: Mxico. pp. 45-56.

VVAALLIIDDEEZZ .................................................................................................................................................... 11 Validez del constructo ................................................ 2 Validez referida al criterio .......................................... 3 Validez de contenido .................................................. 4

VVAALLIIDDEEZZ Determinar el significado de una medida se centra en el concepto de

validez. En un sentido muy general, un instrumento de medicin es valido si hace aquello para lo que esta concebido. La validez de un test concierne a lo que el test mide y a que tan bien lo hace; nos revela lo que podemos inferir de las puntuaciones del test.

El estudio de la validez de un instrumento nos permite contestar si este es til para medir cierto comportamiento; sin embargo, siempre debemos tener presente que lo validado no es el instrumento, sino la interpretacin de los datos obtenidos por medio de un procedimiento especifico. Aunque segn la definicin de validez de un instrumento esta es referida tpicamente a si la conducta mostrada en la situacin de test es o no un reflejo de la conducta habitual del sujeto en situaciones naturales, hay otras metas de la validez igualmente importantes; la evaluacin de la validez de un instrumento implica considerar tambin los siguientes aspectos: la adecuacin con que mide la conducta sujeta a estudio, la capacidad para diagnosticar la conducta real de una persona, la sensibilidad para detectar el objetivo, la seguridad de las decisiones y la utilidad (Martnez, 1981).

La validacin requiere siempre investigaciones empricas, y el tipo de datos necesario para ello depende de la clase de validez. La validez es una cuestin de grado (no se trata de una propiedad que existe o no) y la validacin es un proceso continuo. La validez de un test no puede ser reportada en trminos generales; tampoco es valido decir de ninguna prueba que posea una validez alta o baja en lo abstracto; su validez debe ser establecida con referencia al uso particular para el cual el test esta siendo considerado (Nunnally, 1970; Anastasi, 1988).

Fundamentalmente, todos los procedimientos para determinar la validez de un test conciernen a las relaciones entre la ejecucin en una prueba y otros hechos observables independientemente, acerca de las caractersticas de la conducta por considerar. Los mtodos especficos empleados para investigar estas relaciones son numerosos y han sido descritos con varios nombres. Tradicionalmente, la validez ha sido

UU NN II DD AA DD II II II ..

Validez



UNIDAD III VALIDEZ

tratada en la literatura con algunos de los tipos siguientes, establecidos en los Standards of the American Psychological Association (1966, citado por Nunnally, 1970; Martnez, 1981; Anastasi, 1988), segn el tipo de test y el uso a que este destinado:

a. Validez del constructo, analizada al investigar que cualidades o

rasgos psicolgicos mide un test, es decir, determina el grado en que algunos conceptos explicativos o constructos desarrollan los resultados del test.

b. Validez relativa al criterio o emprica, que compara las puntuaciones de los tests o las predicciones derivadas de ellos con una variable externa (criterio), considerada una medida directa de la caracterstica o conducta en cuestin.

c. Validez del contenido, que valora hasta que punto es valido el contenido del test de una muestra representativa de la clase de situa-ciones o problemas sobre los que llegaremos a las conclusiones.

Histricamente, los evaluadores conductuales han criticado la

metodologa de evaluacin tradicional debido a su limitada validez y utilidad; sin embargo, no es sino hasta recientemente cuando el inters por desarrollar mtodos de evaluacin conductual ha sido asociado al inters correspondiente por examinar las propiedades psicomtricas pertinentes de los mtodos diseados. En parte, la carencia del nfasis en la explicacin de medidas y el reporte de la validez de las pruebas conductuales es el resultado de la nocin antigua de que cuando la conducta criterio es muestreada directamente, no hay necesidad de demostrar la validez, pues cabe suponer que no hay inferencias de los datos de la prueba; no obstante, este es un anlisis inexacto de los usos de los datos en evaluacin conductual. Ciertamente excepto en raras circunstancias, el evaluador conductual suele estar interesado en hacer algn nmero de inferencias basadas en las respuestas observadas durante la situacin de prueba. Como mnimo, el proceso de evaluacin supone o infiere que una muestra de conducta observada en un punto en el tiempo es comparable con la que podra ser observada en algn otro punto en el tiempo en condiciones un poco diferentes de aquellas en las cuales fueron obtenidas las puntuaciones de muestra (Linehan, 1980).

As, uno de los temas de inters fundamental en la evaluacin conductual es precisamente el de la validacin de las tcnicas de evaluacin. Los tericos de la evaluacin comenzaron a plantearse la cuestin de si todas estas tcnicas desarrolladas en el marco terico de

la psicometra serian o no adecuadas para la evaluacin conductual, diseadas con esquemas tericos totalmente distintos. Por una parte, los tests tradicionales han sido construidos para poner de manifiesto diferencias interindividuales, mientras que lo que interesa con los instrumentos de evaluacin conductual es revelar diferencias intrasujeto, esto es, antes y despus de un tratamiento (Martnez, 1981).

Con el transcurso del tiempo y ya demostrada la aparente utilidad de los tratamientos derivados de la evaluacin conductual, cabe plantear en este enfoque problemas metodolgicos, formulndose diversas preguntas, como: hasta qu punto podemos considerar eficaz el tratamiento?, cul es el mejor de varios tratamientos, teniendo en cuenta los resultados obtenidos?, reflejan las diferencias entre las puntuaciones pretratamiento y postratarniento, cambios males en la conducta o simplemente errores de medida de los procedimientos utilizados en su obtencin?, son los instrumentos utilizados los adecuados para poner de relieve las conductas de inters? Evidentemente, cualquier instrumento de medicin, cualquiera que sea el enfoque o sin importar a que disciplina pertenezca, debe presentar ciertas cualidades que demuestren su valor cientfico: su confiabilidad y su validez. En este sentido, tanto los instrumentos de medicin procedentes de la evaluacin tradicional como los construidos desde el enfoque conductual participan de la misma teora de la medicin. El asunto est en preguntarse cules procedimientos de obtencin de la confiabilidad y la validez de un instrumento deben ser utilizados por uno u otro enfoque en la construccin de sus dispositivos de medida (Martnez, 1981).

Para contestar la pregunta de qu tipo de validez corresponde segn la orientacin terica en que hayamos construido un instrumento de medicin, en seguida explicaremos ms ampliamente los tres tipos de validez considerados.

Validez del constructo En la medida en que una variable es abstracta en vez de concreta,

decimos que es un constructo. Una variable as constituye literalmente un constructo, pues representa algo que el cientfico compone con su imaginacin, algo que no existe como dimensin de conducta observable. La mayora de los constructos estn en el mismo caso: los lmites del dominio de conductas observables relacionadas no son netos. La validez del constructo de una prueba es la extensin en la cual la



UNIDAD III VALIDEZ

prueba dice medir un constructo o rasgo terico. Todo constructo esta diseado para explicar y organizar consistencias de respuestas y es derivado de relaciones establecidas entre medidas conductuales. La validez del constructo requiere la acumulacin gradual de informacin de una variedad de fuentes.

Cualquier dato que arroje luz sobre la naturaleza del rasgo considerado y de las condiciones que afectan su desarrollo y sus manifestaciones representa una evidencia apropiada para este tipo de validacin (Nunnally, 1970; Anastasi, 1988).

La validez del constructo esta' basada en el significado psicolgico de la puntuacin de una prueba y en la explicacin terica de una buena o mala ejecucin en ella. Cuando el experto en medicin indaga la validez de las construcciones hipotticas de una prueba, desea saber que propiedades psicolgicas y de otra ndole pueden explicar la varianza de dicha prueba, esto es, procura explicar las diferencias individuales observadas en las puntuaciones de un instrumento de medicin. Casi siempre le interesa ms la propiedad que pretende medir que la prueba. No se trata simplemente de validar una prueba, sino que es preciso validar la teora en la cual esta descansa (Kerlinger, 1985; Kirsch y Guthrie, 1980).

Dado que la medicin de constructos es una parte vital de la actividad cientfica, cmo se establecen y validan esas medidas? En el proceso hay tres aspectos principales: a) especificar el domino de las conductas observables, b) determinar hasta que punto todas o algunas de esas conductas se correlacionan entre s, y c) determinar si una, algunas o todas las medidas de tales variables actan como si midieran el constructo (Nunnally, 1970).

La prueba suficiente de la validez del constructo la constituye el hecho de que las medidas del constructo (trtese de una sola medida de conductas observables o de una combinacin de ellas) se comportan como cabe esperar que lo hagan, por ejemplo: si suponemos que una medida determinada esta' relacionada con el constructo ansiedad, el sentido comn ha de sugerir muchos resultados obtenibles mediante esta medida. Las puntuaciones mayores (mayor ansiedad) ocurren en el caso de: a) pacientes clasificados como neurticos ansiosos con mayor probabilidad que en pacientes no catalogados como ansiosos; b) examinados en un experimento amenazados con un shock elctrico y no en el caso de pacientes no amenazados, y c) estudiantes de doctorado antes de pasar su examen oral final mas que en el caso de estos despus de que han aprobado su examen. Otro ejemplo: si creemos que determinada medida esta' relacionada con el constructo inteligencia,

podramos esperar que este correlacionada por lo menos moderadamente con las calificaciones escolares, con las evaluaciones de la inteligencia hechas por los profesores y con los niveles de realizacin profesional. As sucede con todos los constructos: esperamos ciertas relaciones con otras variables y esperamos ciertos efectos en los experimentos controlados (Nunnally, 1970). En resumen, el propsito de la validez de constructo es validar la teora subyacente al sistema de evaluacin y a la medida misma; los constructos determinan que conductas han de seleccionarse para su observacin. Un instrumento de medida estar ligado al sistema de constructos dentro del que fue construido y este tipo de validez nos indicara en que grado el instrumento de evaluacin es una medida adecuada del constructo y en que medida las hiptesis derivadas de el pueden confirmarse mediante la utilizacin del instrumento en cuestin.

Validez referida al criterio La validez referida al criterio o predictiva interviene cuando se utiliza

un instrumento para estimar alguna forma importante de conducta, que recibe el nombre de criterio. Una vez obtenido el criterio, la validez de una funcin de prediccin es determinada de manera directa y con mucha facilidad; consiste primordialmente en correlacionar las puntuaciones del test predictivo con las puntuaciones de la variable criterio. El tamao de la correlacin es una indicacin directa de la magnitud de la validez (Nunnally, 1970).

La validez referida al criterio valora el grado en que el instrumento de evaluacin puede utilizarse para estimar la conducta de una persona en otras situaciones, sean concurrentes con la aplicacin del test o futuras. Para este propsito, la ejecucin en la prueba es comparada con un criterio, o sea, con una medida directa e independiente de lo que el test esta diseado a predecir (Martnez, 1981; Anastasi, 1988). Existen en el mercado diferentes pruebas cuya meta es predecir a futuro el comportamiento de los evaluados, por ejemplo: pruebas utilizadas para predecir el xito escolar, pruebas que predicen la mejor opcin a seguir para la eleccin de carrera o pruebas que predicen aptitudes o madurez para distintas facetas del aprendizaje escolarizado bsico.

Lo que importa en este tipo de validez es la capacidad predictiva de la prueba y no aquello que mide; en pocas palabras, lo importante es el criterio y su valor de prediccin. Es fcil hablar de correlacionar un test predictivo con su criterio, pero obtener un buen criterio puede ser ms



UNIDAD III VALIDEZ

difcil que lograr un test predictivo. En muchos casos, no disponemos de criterio alguno o aquellos con los que contamos adolecen de distintos defectos (Nunnally, 1970; Kerlinger, 1975). En resumen, la validez referida al criterio esta caracterizada por la prediccin relacionada con un criterio externo y porque recurre a la comprobacin del instrumento de medicin, ya sea en el momento presente o en el futuro, comparndolo con algn resultado o medida.

Validez de contenido Para algunos instrumentos, la validez depende, primordialmente, de

la suficiencia con que mostramos un domino especifico de contenido. El test debe bastarse a si mismo para ser una medida adecuada de lo que suponemos que mide.

La validez de contenido es la representatividad o adecuacin muestral del contenido del instrumento de medicin. Toda propiedad psicolgica o pedaggica posee un universo terico de contenido constituido por aquello que cabe afirmar u observar acerca de ella. La validez de contenido esta dada por la pregunta: es la sustancia o el contenido de este instrumento de medicin representativa del contenido o del universo del contenido de la propiedad por medir? (Kerlinger, 1975).

La validez de contenido incluye esencialmente el examen sistemtico del contenido del test para determinar si cubre una muestra representa-tiva del domino de conductas por medir. Como tal, la validez de conteni-do ha sido requerida tpicamente para pruebas de evaluacin de aprove-chamiento escolar y para medir que tan bien domina un individuo una habilidad especfica (Linehan, 1980; Anastasi, 1988).

Como suponemos que la conducta no es generalizada por medio de estmulos diferentes, una adecuada representacin de factores de estmulos relevantes es necesaria para hacer una evaluacin con validez de contenido, en la cual interesa si las condiciones en que la conducta de la persona es observada representan a aquellos conjuntos de condiciones a los cuales estamos interesados en generalizar. Por tanto, la principal contribucin que aporta un instrumento de medida con validez de contenido es dar una data descripcin del domino de conductas de inters (Linehan, 1980; Martnez, 1981).

As, el objetivo de la validez de contenido es demostrar que los reactivos del test son una muestra representativa de un universo. La validez de contenido est interesada en lo que examinamos y compara

esto con una especificacin previamente definida, mas que con alguna nocin vaga en la mente de un experto (Hoste, 1981). El nfasis principal en la construccin de pruebas orientadas al contenido no esta en la evaluacin e interpretacin de las puntuaciones, sino en asegurar un muestreo cuidadoso de un dominio de contenido pertinente. Las normas principales que es necesario satisfacer para asegurar la validez de contenido son: a) un conjunto representativo de temes o reactivos, y b) mtodos sensatos de construccin de la prueba. A menudo existe una imposibilidad lgica o real de muestrear el contenido; para asegurarnos de que los reactivos representen realmente la conducta por evaluar, es necesario tener un bosquejo muy detallado de las clases de cuestiones y problemas que debemos incluir (Nunnally, 1970).

Denominemos U el universo de conductas que queremos evaluar. Una prueba de alta validez de contenido seria, en teora, una muestra representativa de U. Si U consta de los subconjuntos A, B y C, toda muestra lo bastante amplia de U representara aproximadamente de igual forma a A, B y C; y as ser satisfactoria la validez de contenido de la prueba. De este modo, la definicin conceptual de una conducta debe especificar en detalle el universo o dominio de contenido conductual y sus estmulos asociados. Una vez que la definicin conceptual ha sido determinada, un asunto de validacin importante es si la muestra de los estmulos y las muestras observadas y registradas durante el procedimiento de medida es representativa del universo conductual que conceptualmente define a la conducta al respecto (Kerlinger, 1975; Linehan, 1980).

Normalmente y por fortuna, es imposible extraer de manera aleatoria muestras de reactivos de un universo de contenido; tales universos solo existen en teora. Si bien es posible y recomendable reunir varias colec-ciones de reactivos, sobre todo en el mbito del aprovechamiento, y extraer de ellas muestras aleatorias para someterlas a prueba, siempre quedara la duda de su validez de contenido por numerosos y buenos que sean los reactivos. Adems, en la mayora de las situaciones, el ejemplo simple de un muestreo al azar del contenido no es realista por una segunda razn: la seleccin del contenido suele implicar asuntos de valores. Habra que formular explcitamente los valores que intervinieron en la elaboracin de una medida y sealar como estructuraron la formulacin del plan del test y la construccin de los reactivos; adems, la validez de contenido se vuelve algo compleja cuando intentamos asegurar que empleamos mtodos razonables de construccin de la prueba (Nunnally, 1970; Kerlinger, 1975).

En la construccin de pruebas orientadas al contenido, las inferencias



UNIDAD III VALIDEZ

se hacen acerca de la pertinencia y la cobertura de un domino de contenido especifico. La precisin con que cierto domino y sus lmites son definidos es derivada de la pertinencia del contenido elegido. El domino debe ser delineado suficientemente con el propsito de determinar que reactivos le pertenecen o no; tambin es importante evitar la tendencia a sobregeneralizar considerando el domino muestreado por la prueba, por ejemplo: con una prueba de eleccin mltiple de ortografa podemos medir la habilidad para reconocer palabras escritas correctas e incorrectas, pero no podemos suponer que tal prueba tambin mida la habilidad para escribir correctamente en un dictado, la frecuencia de errores en composiciones escritas, ni otros aspectos de la habilidad en ortografa (Lieberman y Michael, 1986; Anastasi, 1988).

Aunque asegurar la validez de contenido suele conllevar problemas, inevitablemente este tipo de validez recae sobre todo en un juicio racional acerca de la suficiencia con que ha sido muestreado el contenido importante y de lo adecuado de la manera en que este fue expresado como reactivos del test; adems, existen varios mtodos para analizar los datos obtenidos mediante el test que han de proporcionar pruebas circunstanciales. Cabe esperar, por lo menos, un moderado nivel de coherencia interna entre los reactivos que forman parte de una prueba; as, estos deben tender a medir algo en comn (Nunnally, 1970).

Como Hoste (1981) menciona, uno de los problemas que pueden contribuir a la carencia de progreso en el estudio terico de la validez del contenido es que no existe algn modo aceptable de cuantificarlo. No hay evidencia cuantitativa obtenible de la validez del contenido ni puede ser expresada como un coeficiente de validez. Aunque por el anlisis de los resultados experimentales obtenemos indicios tiles, la validez de contenido recae sobre todo en demostrar la correccin del contenido y el modo en que es representado. As, dada la carencia de instrumentos o ndices estadsticos para su determinacin, la validez de contenido ha de ser determinada por medio de procedimientos racionales en vez de empricos. Ante la ausencia de medidas estadsticas, la validez de contenido es determinada por un examen cuidadoso por los procedimientos de construccin de la prueba. En la extensin con que el investigador siga los procedimientos justificados como requisitos para la validez del contenido y que el muestreo del universo original corresponda al universo de generalizacin, ser probable encontrar las suposiciones de validez de contenido.

De lo anterior deducimos que la validacin del contenido es bsicamente de criterio; debemos estudiar los reactivos de la prueba y

ponderar su supuesta representatividad del universo, lo cual significa que debemos juzgar la supuesta relacin de cada reactivo con la propiedad al respecto. Por lo general, otros jueces competentes han de ponderar el contenido de los reactivos. Si las circunstancias lo permiten, definiremos con claridad el universo del contenido, es decir, los jueces recibirn las instrucciones especificas para que emitan sus juicios y tambin sern comunicados con precisin de lo que van a juzgar; por tanto, es factible aplicar un mtodo que agrupe juicios independientes (Kerlinger, 1975).La validez de contenido es construida en una prueba desde el principio, mediante la eleccin de reactivos apropiados. Las especificaciones de la prueba deben mostrar las reas o temas de contenido por tratar, los objetivos o procesos instruccionales por probar y la importancia relativa de los temas y procesos individuales. Con base en ello, establecemos el numero de reactivos de cada clase a ser preparados en cada tema (Anastasi, 1988).

En resumen, la validez de contenido proporciona una tcnica adecua-da para evaluar pruebas de aprovechamiento educativo y ocupacional y de medicin de habilidades, a la vez que permite contestar dos pregun-tas bsicas para la validez de las pruebas: a) incluye la prueba una muestra representativa de habilidades y conocimientos especficos?, y b) fiesta la ejecucin en la prueba razonablemente libre de variables irrelevantes?

Como menciona Martnez (1981), existen dos aspectos importantes y complementarios de la validez de contenido de un instrumento que debemos tener en cuenta: a) que el instrumento no incluya aspectos irrelevantes de la conducta de inters, y b) que el instrumento incluya aspectos importantes que definen el domino intelectual.

Goldfried y D'Zurilla (1969; citados por Goldfried y Linehan, 1977; Martnez, 1981) proponen un procedimiento para el muestreo de los comportamientos de inters, a fin de justificar la validez de contenido del instrumento de evaluacin. Las fases de este procedimiento son:

a. Un anlisis situacional, que supone un muestreo de las

respuestas tpicas en las que la conducta de inters tiene mayor probabilidad de ocurrencia.

b. Una enumeracin de la respuesta, que supone un muestreo de las respuestas tpicas a cada situacin determinada en la fase anterior.

c. Una evaluacin de las respuestas, la cual se realiza para juzgar cada respuesta determinada en la fase anterior respecto a su calidad; generalmente, estos juicios son emitidos por expertos, los cuales debern juzgar la calidad de las respuestas en cuanto a su eficacia.



UNIDAD III VALIDEZ

Este criterio de las tres etapas podemos utilizarlo para seleccionar los reactivos del instrumento de medicin y para proporcionar criterios empricamente derivados con el fin de puntear esa medicin. Con cualquiera de los procedimientos que vayamos a seguir para construir instrumentos de evaluacin con validez de contenido, conviene adems tener en cuenta una serie de sugerencias que, si las seguimos, pueden mejorarla. Dichas sugerencias son (Martnez, 1981):

a. La garanta de un buen instrumento no esta dada por el hecho de

constar de un conjunto de buenos elementos, sino que es necesario considerar si ese conjunto es una muestra representativa de las conductas de inters.

b. Debern estar claramente recogidas las especificaciones de los objetivos de la evaluacin.

c. Debemos subdividir los objetivos iniciales. d. Es necesario establecer claramente los tipos de respuesta

posibles para cada elemento o estmulo. e. Una vez especificadas las condiciones de los estmulos y

respuestas, el constructor de un test deber elegir una de las posibles definiciones de universo de conductas, que generara los elementos u observaciones por incluir en el instrumento.

f. No es correcto sustituir un conjunto de tareas u observaciones por otras que guarden una elevada correlacin con las primeras. Esto seria permisible solo en el enfoque de los tests normativos, centrados en las diferencias individuales.

g. En evaluacin conductual, adems de estudiar y analizar las con-ductas seleccionadas para la construccin del instrumento, es necesario tener presentes otros aspectos que afectaran la validez de contenido: tiempo en que se realizar la evaluacin, duracin de aquel, etctera.

h. Por ltimo, una elevada validez aparente del instrumento de evaluacin no es una prueba de la validez de contenido del mismo. Este es un hecho puesto de relieve con frecuencia en evaluacin conductual; muchas veces, el instrumento de medida parece una muestra de una extensa variedad de situaciones, pero en realidad solo refleja intuiciones de los autores del instrumento.

La validez aparente alude al grado en que un instrumento parece

como si midiera aquello que pretendemos que mida. Tal validez se refiere a los juicios acerca del instrumento despus de que este ha sido construido (Hoste, 1981); adems, se centra en determinar si la evaluacin luce adecuada a los propsitos para los cuales est

diseada; esta es probablemente la prueba ms comn de validez utilizada. Sin embargo, la validez del contenido no debe ser confundida con la validez aparente, la cual no es una validez en el sentido tcnico, sino que alude a lo que superficialmente parece que mide y no a lo que el test en realidad mide. La validez aparente responde al requisito de si el test parece vlido a quien va a tomarlo, al personal administrativo que decide su uso y a otros observadores tcnicamente no entrenados. Aunque el uso comn del termino validez en esta conexin puede crear confusiones, la validez aparente por si misma es una caracterstica deseable de las pruebas. No es suficiente que una prueba sea objetivamente vlida, sino tambin necesita validez aparente para que funcione de manera efectiva en situaciones prcticas. En contextos aplicados, la validez aparente est vinculada en cierta medida con las relaciones publicas; por ejemplo: los maestros utilizarn de mala gana un test de rendimiento, a menos que los temes tengan buen aspecto (Nunnally, 1970; Hoste, 1981; Anastasi, 1988).De lo anterior colegimos que la validez aparente puede ser mejorada si formulamos los reactivos de la prueba en trminos que parezcan adecuados y plausibles en el ambiente particular donde tendr aplicacin la prueba (Anastasi, 1988).

Por ltimo, cabe mencionar, por la importancia que tiene para la validacin de las medidas en general y en particular para la validez de contenido, la teora de la generalizacin de Cronbach (1972, citado por Linehan, 1980; Martnez, 1981). La ciencia se distingue de las observaciones casuales en que intenta formular enunciados generales acerca de los acontecimientos naturales. La ciencia esencialmente intenta explicar todos los hechos naturales en funcin de un conjunto relativamente pequeo de principios. Tales principios son generalizables con amplitud, es decir, se cumplen sin importar la naturaleza de los objetos y otras circunstancias particulares. En la ciencia psicolgica es buscada de modo semejante la generalidad de la explicacin (Nunnally, 1970). Esencialmente, la teora de la generalizacin es un modo de reconceptualizar las cuestiones clsicas de confiabilidad y validez en trminos de la generalizacin de puntuaciones mediante dominios o universos de inters. Un universo alude a la coleccin completa o total de medidas admisibles que pudieron haber sido hechas; a su vez, la puntuacin observada en cualquier instrumento de evaluacin es una estimacin de la puntuacin del universo, esto es, la puntuacin que podramos obtener si hubiramos observado exhaustivamente, de manera hipottica, desde todas las condiciones admisibles dentro de ese universo.

Con medidas que requieren validez de contenido, la probabilidad de



UNIDAD III VALIDEZ

generalizacin esta relacionada con la correccin y amplitud con que el instrumento abarca el contenido que debe medir. Por tanto, en medidas que requieren validez del contenido, tambin es necesario ocuparse de la posibilidad de generalizacin; sin embargo, con tales medidas, la generalidad o representatividad de la amplitud del contenido se determina sobre todo por las opiniones de los expertos mas que por la experimentacin (Nunnally, 1970).

Cone (1977, citado por Linehan, 1980) ha listado las siguientes facetas de universo mediante las cuales suele ser de inters la generalizacin en la evaluacin conductual: a) puntuaciones, b) tiempo, c) ambiente, d) mtodo, e) reactivos (esto es, una clase de respuestas semejantes), y f) dimensin (esto es, una clase de respuestas diferentes). Por su parte Nelson (1977, citado por Linehan, 1980) ha argumentado que la generalizacin por medio de estas facetas no es una caracterstica necesaria de procedimientos de evaluacin conductual tiles y precisos, ni la carencia de generalizacin mediante una o la ausencia de una o ms facetas un signo de invalidez. Sin embargo, sugiere que la ausencia de generalizacin puede ser atribuida a una falla para representar adecuadamente en el muestreo de la evaluacin el universo conceptual a ser predicho. Por ejemplo, si los ambientes incluidos en la especificacin del universo de inters no son muestreados durante la medicin, el procedimiento de evaluacin tendr poca relevancia en ese universo.

As, en la construccin de instrumentos en la evaluacin conductual, para garantizar validez de contenido debe haber un muestreo representativo de todos los ambientes, clases de respuesta, dimensiones, etctera, esto es, un muestreo representativo de todas las facetas de inters. Por ende, es importante definir de manera precisa la habilidad que va a ser evaluada, disear una forma de ejercicios de prueba con los que esa habilidad pueda ser exhibida simple y eficientemente y acordar el nivel que ser aceptado como indicador de competencia satisfactoria en esa habilidad; en otras palabras, el objetivo del test debe revelar claramente lo que mide el instrumento, el propsito para el que fue construido.

Unidad3_art1_aragon (1)

Documents

Transcript of Unidad3_art1_aragon (1)