Dialnet-QueSabemosDeLaMedidaDeLasCompetenciasCaracteristic-3601046

15
Introducción La idea de evaluar competencias no es nueva. Ya Aristóteles afirmaba «La excelencia moral es resultado del hábito. Nos volvemos justos rea- lizando actos de justicia; templados, realizando actos de templanza; valientes, realizando actos ¿QUÉ SABEMOS DE LA MEDIDA DE LAS COMPETENCIAS? CARACTERÍSTICAS Y PROBLEMAS PSICOMÉTRICOS EN LA EVALUACIÓN DE COMPETENCIAS What do we know about the assessment of educational performance? Psychometric features and problems in performance assessments MARÍA CASTRO MORERA Universidad Complutense de Madrid La evaluación de competencias se puede definir como un procedimiento en el que se requiere que el estudiante complete tareas o procesos en los que se demuestre su habilidad para aplicar conocimien- to y destrezas o aplicar conocimientos en situaciones simuladas similares a la vida real. La evalua- ción de competencias se utiliza en educación como una medida del logro académico, teniendo una trascendencia importante en la vida de los estudiantes. Parece entonces fundamental entender cómo se obtienen estas puntuaciones, qué información proporcionan, cuáles son los requisitos técnicos que deben cumplir para considerar estos instrumentos como válidos y fiables y por tanto cuáles son sus principales limitaciones y por dónde debe seguir la investigación en este ámbito. Este artículo es una síntesis de las evidencias que hay en la literatura científica sobre las características psicométricas de las pruebas utilizadas en la evaluación de competencias, cuáles son sus fortalezas y debilidades. La investigación muestra que es poca la evidencia que apoya la solidez técnica de este tipo de medidas, de hecho, la nota común predominante es que hace falta más investigación psicométrica. El principal problema de las pruebas de competencias es que las puntuaciones no suelen ser comparables dada la constatada variabilidad en las calificaciones otorgadas por jueces humanos que aplican el mismo criterio de evaluación. Además características psicométricas básicas como la fiabilidad de las puntua- ciones y la validez de las inferencias no encuentran en la literatura suficiente base empírica. Palabras clave: Test de desempeño, Evaluación de competencias, Evaluación educativa, Ítems de cré- dito parcial, Generalizabilidad, Teoría de Respuesta al Ítem Multidimiensional, Fiabilidad interjueces. Bordón 63 (1), 2011, 109-123, ISSN: 0210-5934 • 109 Fecha de recepción: 15-11-10 • Fecha de aceptación: 08-02-11

description

PsicometríaPsicologíaMedidas

Transcript of Dialnet-QueSabemosDeLaMedidaDeLasCompetenciasCaracteristic-3601046

  • Introduccin

    La idea de evaluar competencias no es nueva.Ya Aristteles afirmaba La excelencia moral es

    resultado del hbito. Nos volvemos justos rea-lizando actos de justicia; templados, realizandoactos de templanza; valientes, realizando actos

    QU SABEMOS DE LA MEDIDA DE LAS COMPETENCIAS? CARACTERSTICAS Y PROBLEMAS PSICOMTRICOS EN LA EVALUACIN DE COMPETENCIASWhat do we know about the assessment of educationalperformance? Psychometric features and problems inperformance assessments

    MARA CASTRO MORERAUniversidad Complutense de Madrid

    La evaluacin de competencias se puede definir como un procedimiento en el que se requiere que elestudiante complete tareas o procesos en los que se demuestre su habilidad para aplicar conocimien-to y destrezas o aplicar conocimientos en situaciones simuladas similares a la vida real. La evalua-cin de competencias se utiliza en educacin como una medida del logro acadmico, teniendo unatrascendencia importante en la vida de los estudiantes. Parece entonces fundamental entender cmose obtienen estas puntuaciones, qu informacin proporcionan, cules son los requisitos tcnicos quedeben cumplir para considerar estos instrumentos como vlidos y fiables y por tanto cules son susprincipales limitaciones y por dnde debe seguir la investigacin en este mbito. Este artculo es unasntesis de las evidencias que hay en la literatura cientfica sobre las caractersticas psicomtricas delas pruebas utilizadas en la evaluacin de competencias, cules son sus fortalezas y debilidades. Lainvestigacin muestra que es poca la evidencia que apoya la solidez tcnica de este tipo de medidas,de hecho, la nota comn predominante es que hace falta ms investigacin psicomtrica. El principalproblema de las pruebas de competencias es que las puntuaciones no suelen ser comparables dadala constatada variabilidad en las calificaciones otorgadas por jueces humanos que aplican el mismocriterio de evaluacin. Adems caractersticas psicomtricas bsicas como la fiabilidad de las puntua-ciones y la validez de las inferencias no encuentran en la literatura suficiente base emprica.

    Palabras clave: Test de desempeo, Evaluacin de competencias, Evaluacin educativa, tems de cr-dito parcial, Generalizabilidad, Teora de Respuesta al tem Multidimiensional, Fiabilidad interjueces.

    Bordn 63 (1), 2011, 109-123, ISSN: 0210-5934 109Fecha de recepcin: 15-11-10 Fecha de aceptacin: 08-02-11

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 109

  • Mara Castro Morera

    110 Bordn 63 (1), 2011, 109-123

    de valenta. Esta sencilla definicin del cons-tructo de competencia en justicia, por ejemplo,muestra que la medida de la misma pasa por eldesempeo, por la demostracin de la compe-tencia definida. Sin embargo, una rpida bs-queda en Google del trmino performance assess-ment produce 13.300.000 resultados, que no esms que una muestra de su rabiosa actualidad.

    Madaus y ODwyer (1999) establecen los or-genes de las pruebas de desempeo durante ladinasta Han en China. Hasta ese momento, lospuestos de funcionario y de ministro eran here-ditarios. La modernizacin de la administra-cin supuso la introduccin de los criterios depromocin y carrera profesional. Entonces seinstauraron exmenes pblicos competitivoscomo medida de seleccin objetiva para ocuparun cargo en la administracin pblica, mi-diendo competencias en las reas de leyes, mili-cia, agricultura y geografa. La dinasta Hanperdura en el poder hasta la primera dcada delsiglo XX, y lgicamente se produce una evolu-cin y cambios importantes en la evaluacindel desempeo de los funcionarios pblicos alo largo de todo este periodo, incorporandoejercicios que incluyen desde la memorizacinde pasajes clsicos, la descripcin potica o lademostracin de la capacidad de razonamientoa travs de la discusin de conflictos clsicos.

    En la Edad Media se utilizaron similares eva-luaciones en los gremios, las pruebas exigan larealizacin del periodo de aprendiz y la realiza-cin de una pieza maestra. En las incipientesuniversidades europeas se utilizaban discu-siones orales en latn de contenido teolgicopara la valoracin de los estudiantes. En estosejercicios tambin se incluan los estndares dedesempeo: The student had to show the abilityto remember relevant and aceptable knowledge,the ability to present it in eloquent form, and atacit conformity to orthodoxy, educational and so-cial (Hoskin, 1979: 138).

    Un salto en el tiempo, no exento de ejemplosde evaluacin de competencias, nos sita en

    Europa en el mbito de la seleccin de personal.Hace ms de 60 aos aparecen los AssessmentCenter hoy conocidos como Centros de Desa-rrollo y de Evaluacin que utilizan muestras detrabajo y ejercicios simulados para evaluar com-petencias difciles de medir con pruebas con-vencionales. En 1942 el British War Office Se-lection Board inici procesos de seleccindonde se evaluaba de forma clara la vocacinpara el liderazgo de los oficiales britnicos. Lageneralizacin de estas tcnicas ha sido rpida yextensa tanto geogrficamente como en el tipode puestos a los que se aplican. Actualmente, en este tipo de pruebas se usan simulaciones,muestras de trabajo y proponen estmulos quedemandan respuestas centradas en la actuacindel sujeto (Thorton y Rupp, 2006).

    En nuestro entorno cotidiano estamos rodea-dos de mltiples pruebas que miden compe-tencias, pinsese por ejemplo en el examenprctico de conducir, en los exmenes de cual-quier instrumento musical en los conservato-rios de msica o en las pruebas de acceso paraalgunas facultades universitarias como las deBellas Artes. En todas ellas se demanda al estu-diante que demuestre el nivel de dominio efec-tivo del manejo del coche, del virtuosismo delinstrumento o de la tcnica de dibujo necesariapara poder cursar con xito unos estudios.

    En los contextos profesionales, donde surge lanecesidad de la comprobacin de la competenciadel profesional, se desarrollan sistemticamenteprocedimientos y tcnicas para la evaluacin decompetencias. En distintos estados de EstadosUnidos se pide una certificacin peridica a m-dicos (United States Medical Licensure Exami-nation, USMLE, 2009) o abogados (MultistatePerformance Test, del National Conference ofBar Examiners and American Bar Association,2005) por la cual acreditan la actualizacin desus niveles de competencia profesional parapoder seguir ejerciendo. En grandes empresas,como IBM, AT&T o General Electric, se pide asus empleados que demuestren su competenciaprofesional a travs la presentacin de los casos

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 110

  • en los que han trabajado para poder avanzar ensu carrera profesional. Johnson, Penny y Gordon(2009) ofrecen descripciones detalladas de eva-luaciones de desempeo utilizadas en procesosde acreditacin profesional.

    As, la primera nota definitoria de la medida deuna competencia pasa por la comprobacin delgrado de ejecucin y dominio de esa compe-tencia. La competencia se demuestra. Algunode ustedes se fiara de un conductor que slo ha sido examinado de libros sobre mecnica?Qu opinin les merecera que la acreditacinde piloto slo exigiera superar un simulador devuelo? Parece claro pues que la medida de lacompetencia pasa por una prueba que incluyauna demostracin del dominio, sea esa com-petencia la justicia, la msica, el pilotaje de unavin o la ciruga. La segunda nota caracters-tica necesaria para la medida de las competen-cias es la necesidad de definicin del cons-tructo. La tercera nota caracterstica es que lademostracin de las competencias supone eldominio de contenidos propios del constructoevaluado. As, la competencia es una definicinaltamente especfica, tan especfica que permitedefinir una ejecucin, como hemos visto. En elfondo, la competencia define un determinadosaber hacer que es preciso definir.

    La evaluacin de competencias en educacinest claramente de moda. No hay evaluacinque se precie si no se centra en la valoracin delgrado que los estudiantes exhiben sus compe-tencias educativas. Y esta afirmacin es inde-pendiente de la finalidad de la evaluacin, tantosi es una evaluacin diagnstica a gran escalacomo si es una evaluacin para el desarrollo deun plan de mejora de un centro educativo comosi se trata de definir el currculum de estudiosuniversitarios. En general, el profesorado y losequipos directivos de centros no universitariosmuestran una actitud favorable hacia este tipode evaluaciones, pues consideran que producencambios positivos en la instruccin y en lasprcticas de evaluacin de clase (Lane, Parke yStone, 2002; Parke, Lane y Stone, 2006).

    La evaluacin de competencias es un indicadordel logro acadmico que tiene una trascen-dencia importante en la vida de los examinados.Parece fundamental entender cmo se obtienenestas puntuaciones, qu informacin propor-cionan, cules son los requisitos tcnicos quedeben cumplir para considerar estos instru-mentos como vlidos y fiables y por tanto culesson sus principales limitaciones y por dndedebe seguir la investigacin en este mbito. Lasesperanzas abiertas con este tipo de evalua-ciones deben estar refrendadas en la supe-rioridad emprica de este tipo de pruebas paramedir los logros y los aprendizajes escolares.

    Este artculo es una sntesis de las evidenciasque hay en la literatura cientfica sobre las ca-ractersticas psicomtricas de las pruebas utili-zadas en la evaluacin de competencias, culesson sus fortalezas y debilidades.

    La medida de competencias en educacin

    Los ejemplos de evaluaciones descritos previa-mente se agrupan genricamente bajo el tr-mino ingls de performance assessment que setraduce frecuentemente como evaluacin deldesempeo. Este trmino procede de la eva-luacin educativa y de las certificaciones profe-sionales. Aunque ha sido generalizado en elmbito educativo como evaluacin de compe-tencias.

    Aparece con fuerza la demanda y la necesidadde evaluar habilidades cognitivas de alto nivel(como son planificacin, estructuracin de ta-reas, obtencin de informacin, construccinde respuesta, explicacin de procesos, integra-cin de conocimientos e informaciones), puesse consideran resultados valiosos del siste-ma educativo (Linn, 1993; Hambelton, 2000;Ryan, 2006). Si se asume adems que la evalua-cin influye claramente en los contenidos de laenseanza (Stiggins, 1987; Frederiksen y Co-llins, 1989; Wiggins, 1989), parece entonces

    Qu sabemos de la medida de las competencias?

    Bordn 63 (1), 2011, 109-123 111

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 111

  • que estas habilidades complejas deben incluirseen las evaluaciones de los niveles de logro delos sistemas educativos. As, la evaluacin decompetencias llega al sistema educativo (tantono universitario como universitario), influen-ciada por la necesidad de mejora de las medidasde logro acadmico unido al desarrollo e im-plantacin de evaluaciones internacionales agran escala (de las que el proyecto PISA de laOCDE es su mximo exponente).

    Desde mediados de los ochenta, las prcticas deevaluacin han ido cambiando gradualmente,desde el uso exclusivo de pruebas de opcin ml-tiple al empleo de formatos mixtos de cuestionesy reactivos que pueden incluir portafolios, tareasde desempeo, redaccin de ensayos, cartas, res-puestas cortas, resolucin secuencial de pro-blemas, elaboracin de proyectos, presentacionesorales y otras muchas aproximaciones. La estra-tegia de medida pasa de la seleccin de una res-puesta correcta a la construccin de una res-puesta para un amplio conjunto de problemas osituaciones. Se demanda que el examinado pro-duzca algo en un periodo de tiempo y se evalanlos procesos o los productos con relacin a unoscriterios de rendimiento establecidos (estn-dares). Este cambio est motivado parcialmentepor la creencia de que las pruebas de opcin ml-tiple no son la manera adecuada de medir habili-dades complejas (como la resolucin de pro-blemas o el pensamiento crtico) ni para medir laevaluacin de destrezas para el aprendizaje a lolargo de la vida (como pensamiento indepen-diente, persistencia, flexibilidad).

    Sin embargo, las definiciones de una realidadtan heterognea son muy variadas y en oca-siones confusas. El anlisis de las distintas des-cripciones y definiciones de la evaluacin decompetencias muestra que la mayora de ellasson independientes del objeto de evaluacin, yaunque comparten algunas caractersticas co-munes, la mayora de ellas se definen bien porel formato de la respuesta, bien por la observa-cin de la discrepancia entre la respuesta y elcriterio de inters (Palm, 2008). Aunque su

    principal modo de definicin viene por la opo-sicin a los reactivos de opcin mltiple, vincu-lando los distintos procedimientos de medida ala mejor manifestacin de altas habilidades yprocesos cognitivos, como muestra la defini-cin clsica de la Office of Technology Assess-ment del Congreso de los Estados Unidos deAmrica (OTA, 1992: 19):

    Esta forma de enfrentarse con la medicinde competencias se comprende mejor con-siderndola como un continuo de formatosque va desde la ms simple respuesta cons-truida por el estudiante hasta amplios con-juntos de trabajos recogidos a lo largo de unperiodo de tiempo []. Las cuestiones derespuesta construida requieren de los estu-diantes elaborar una respuesta y no mera-mente seleccionarla entre una serie de posi-bilidades, como se hace en los tems deeleccin mltiple []. Ejemplos de res-puestas construidas seran, entre otros,completar textos rellenando espacios enblanco, resolver problemas matemticos oescribir respuestas cortas.

    En el mbito de la evaluacin educativa la defini-cin de los constructos de evaluacin suponeuna aproximacin al futuro desempeo que debe-ran poder realizar los estudiantes. La demostra-cin del conocimiento aplicado a situaciones dela vida real se realiza mayoritariamente a travsde estmulos que simulan la vida real. De ah quela definicin que aparece en los Standards forEducational and Psychological Test (AmericanEducational Research Association AERA,American Psychological Association APA yNational Council on Measuremente in EducationNCME, 1999: 179) destaque que las eva-luaciones de desempeo emulan el contexto o lascondiciones en las que se aplican los conoci-mientos y destrezas que se intentan evaluar.Son, como hemos dicho, aproximaciones al de-sempeo real de los examinados.

    En esta misma lnea, Johnson, Penny y Gor-don (2009) sealan que en las evaluaciones de

    Mara Castro Morera

    112 Bordn 63 (1), 2011, 109-123

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 112

  • competencias los examinados demuestran susconocimientos y habilidades a travs de la im-plicacin en procesos o a travs de la construc-cin de un producto. En la misma lnea (Stig-gins, 1987; Ruiz-Primo y Shavelson, 1996;Shavelson, Solano-Florez y Ruiz-Primo, 1998)definen las evaluaciones de competencias comoun sistema que incluye a) un propsito de laevaluacin; b) un conjunto de tareas queemulan el desempeo; c) una respuesta delexaminado que define su desempeo y d) unconjunto sistemtico de mtodos para codificary ordenar los distintos niveles de competencia.

    Sin embargo, Berk (1986) en una propuesta yaclsica de definicin de evaluacin de compe-tencias seala que estas pruebas deben incluiruna observacin directa de la conducta de in-ters como estrategia opuesta a las respuestasescritas de lpiz y papel. Johnson, Penny yGordon (2009) indican que los test de desem-peo se pueden clasificar por lo que evalan, esdecir, por el resultado de la tarea (products), opor los procesos que sigue el examinado parallegar a una solucin (performances). Aunqueen la mayora de las ocasiones se combinanprocesos y productos.

    As, en el mbito educativo la evaluacin decompetencias se operacionaliza fundamental-mente como una simulacin a travs de tareasque probablemente se demandan al estudianteen la vida no acadmica. Dista pues de la defi-nicin inicial por la cual la evaluacin de lacompetencia supone una demostracin. Cabepues preguntarse si con esta operacionalizacinse est realizando una evaluacin de competen-cias propiamente dicha.

    Caractersticas psicomtricas de las pruebas de competencia en educacin

    Las evaluaciones educativas quieren informarde lo que los estudiantes saben y pueden hacer.Los atributos medidos en el mbito educativo

    constituyen representaciones mentales, conoci-mientos y procesos que no son directamenteobservables. As, el desempeo tampoco es di-rectamente observable. Una evaluacin es el re-sultado de una inferencia de lo que saben apartir de las respuestas emitidas a un conjuntode estmulos que incluye el test. A todos losprofesores nos gustara tener una regla quese aplicara directamente al cerebro de nuestrosestudiantes y que nos indicara sin lugar a dudaslo que ese estudiante sabe y puede hacer. Sinembargo, esa regla, definida de forma uni-voca y directa, no existe.

    Ms formalmente, se puede decir que la evalua-cin es un proceso de razonamiento desde laevidencia (Mislevy, Steinberg y Almond, 2002;Mislevy, Wilson, Ercikan y Chudowsky, 2003;Mislevy 2006;) que concluye en la emisin deun juicio de valor sobre el nivel de desempeodel evaluado. El proceso de acumulacin deevidencias se justifica por el carcter indirectode la medida en el mbito educativo. Podra-mos pensar en la evaluacin como un procesode estimacin que se basa en las inferencias re-alizadas a partir de las respuestas emitidas porun examinado a una muestra de estmulos deter-minados. Esta muestra de estmulos procede deun universo de conocimientos y desempeosque un individuo puede conocer y demostrar. Ya los que lgicamente no puede responder en sutotalidad. Lo que el estudiante conoce y puedehacer no coincide fielmente con lo que de-muestra en una situacin de evaluacin. Nece-sariamente en la seleccin de estmulos per-demos informacin. As, cuando emitimos unavaloracin sobre un examinado, esta estimacinindudablemente depende de la cantidad de in-formacin que podamos extraer del conjunto deestmulos propuestos (entre otras cosas).

    Para que las estimaciones se conviertan en evi-dencia precisamos que los datos o resultados dela evaluacin se conviertan en evidencia de do-minio, y para ello es necesario un modelo de re-presentacin del conocimiento y de desarrollode las competencias. Se necesita adems de un

    Qu sabemos de la medida de las competencias?

    Bordn 63 (1), 2011, 109-123 113

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 113

  • conjunto de tareas o situaciones que permitanobservar el desempeo de forma coherente conel modelo de representacin definido. Y por l-timo se precisa de mtodos de interpretacinpara la realizacin de las inferencias. Estos treselementos (modelo, tareas o estmulos de eva-luacin y pauta de interpretacin) se deno-minan tringulo de la evaluacin (NationalResearch Council, 2001) y representa el pro-ceso de construccin de una regla de medida enuna competencia. En la misma lnea, los Stan-dards for educational and psycholgical test(AERA et al., 1999) sealan que para la cons-truccin de medidas de competencias se pre-cisa una definicin del constructo, pues gua laadecuada representacin del dominio, la selec-cin de las tareas, los criterios para establecerlas puntuaciones y la deteccin de la posiblevarianza irrelevante, junto con una definicindel propsito de la evaluacin y de las inferen-cias que se vayan a realizar con las evalua-ciones.

    Adems, las pruebas de competencias debencumplir con los criterios psicomtricos exigi-bles a todo procedimiento de evaluacin (Kane,2004). Como se ha visto, la evaluacin de com-petencias exige que los examinados construyansus respuestas a muy variados tipos de pro-blemas y situaciones. Aunque su uso tiende aincrementarse cada vez ms, la mayora de lametodologa disponible para evaluar la calidadpsicomtrica de las pruebas se ha desarrolladopara pruebas de lpiz y papel. La aplicabilidadde estos mtodos a medidas procedentes deevaluaciones de competencias es limitada,cuestionable o incluso no est probada.

    Se van a revisar a continuacin algunos de losrasgos psicomtricos ms relevantes para laevaluacin de competencias educativas, sin em-bargo, esta revisin no es ni exhaustiva ni tc-nica, simplemente destaca algunos de los prin-cipales problemas y algunos de los msrelevantes desarrollos psicomtricos para laevaluacin de competencias. Esta medida debetener algunas caractersticas (Viswesvaran,

    2001; SIOP, 2004; Martnez Arias, 2010): a) larelevancia del constructo a medir, b) la fiabi-lidad o consistencia de las mediciones, c) la ca-pacidad de discriminacin entre evaluados, or-denndose en funcin de las diferencias realesentre examinados en el constructo, d) la estan-darizacin de la medida asegurando as la com-parabilidad de las puntuaciones entre indi-viduos y en el tiempo y e) la validez de lasmedidas. Entraremos a continuacin en loscuatro ltimos puntos mencionados. Excedecon creces el marco de este trabajo entrar en laconsideracin de cules son las competenciasescolares relevantes que han de evaluarse.

    Modelos de medida, discriminacin y comparabilidad de las puntuaciones

    Como ya hemos dicho, el proceso de medidapasa por establecer los vnculos entre las res-puestas observables a estmulos de medida y elconstructo latente que se quiere medir. Esteconstructo latente est definido a travs de unmodelo estadstico que describe cmo las res-puestas observadas estn relacionadas con esasinferencias sobre el desempeo. El modelo esta-dstico nos permite estimar y asignar valores nu-mricos a la competencia que queremos medir, yse denomina modelo de medida. Los modelos demedida aportan una va sistemtica por la que seasocian valores numricos (estimaciones de com-petencia) basados en respuestas observables.

    Los modelos estadsticos a utilizar con laspruebas de competencias deben tener encuenta las caractersticas especficas de estetipo de evaluaciones. Por un lado, la evaluacinde competencias est asociada muy a menudocon pautas de correccin complejas y general-mente suponen una valoracin graduada deldesempeo (valoraciones que van ms all dela correccin o incorreccin de la respuesta, ge-nerando repuestas politmicas o de crdito par-cial). Los modelos basados en la Teora de Res-puesta al tem (TRI) se desarrollan inicialmentepara tems de opcin mltiple (con respuestas

    Mara Castro Morera

    114 Bordn 63 (1), 2011, 109-123

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 114

  • dicotmicas), y contrasta con la variedad deformatos de los estmulos incluidos en laspruebas de competencias. Se han desarrolladomodelos TRI politmicos para tems de res-puesta construida y se han estudiado sus carac-tersticas (Master, 1982; Hemker, Sijtsma, Mo-lenaar y Junker, 1997; Wu, Adams y Wilson,1998 que son los diseadores del paqueteCONQUEST). Sin embargo, an se necesitams investigacin que estudie la adecuacin deestos modelos a algunos formatos de res-puestas.

    Y por otro lado, la unidimensionalidad es unrasgo hasta ahora casi imprescindible en los mo-delos de medida tanto dicotmicos como poli-tmicos de TRI. El supuesto de unidimensiona-lidad establece la necesidad de que sea unanica habilidad la que se mida en cada tarea deevaluacin o en cada test. As las puntuacionesobtenidas estn vinculadas a una escala que re-fleja la evolucin del dominio en un nico cons-tructo. No obstante, la multidimensionalidadsuele ser un rasgo propio de la demanda de eva-luacin en las pruebas de competencias, pues serequieren mltiples habilidades para completarcon xito un ejercicio o tarea (Gibbons, Bock,Hedeker, Weiss, Segawa, Bhaumik, Kupfer,Frank; Grochocinsky y Stover, 2007; Reckase,2009). Recientes avances en modelos de me-dida, los modelos MIRT (MultidimensionalItem Response Theory) incorporan la conside-racin de la multidimensionalidad a los mode-los de la Teora de Respuesta al tem. Los mo-delos MIRT representan una metodologa pararepresentar la posicin de los examinados en unhipottico espacio cognitivo multidimensional(Reckase, 2009). Sin embargo, su uso no estgeneralizado debido a la novedad de los mo-delos y a la dificultad de interpretacin de susndices.

    En cualquier caso, los modelos estadsticos per-miten estimar y asignar valores para el cons-tructo latente de competencia, que es variableen funcin de las respuestas dadas por un exa-minado. El proceso de construccin de la escala

    supone la definicin de unidades de medidajunto con la identificacin del modelo de me-dida (pues no estn determinadas nicamentepor el modelo de medida). El propsito prin-cipal de la escala de medida es la ordenacin delos sujetos en funcin del nivel de desempeodemostrado. De ah que sea fundamental, queante distintas pruebas las puntuaciones que seasignen sean comparables. Los procedimientosde equiparacin, tanto horizontal como vertical,son absolutamente imprescindibles para garan-tizar esta comparabilidad de las puntuaciones, y generalmente exigen compartir estmulos co-munes. El principal problema de las pruebas decompetencias es que las tareas de evaluacin nosuelen ser comparables, pues pueden medir dis-tintos constructos subyacentes. Adems, son f-cilmente recordables, por lo que no se puedenreutilizar como se hace con los tems de opcinmltiple y dadas las condiciones temporales deaplicacin no se pueden incluir muchas tareasen la misma prueba.

    Fiabilidad

    La fiabilidad de las pruebas es comnmente en-tendida como la consistencia o replicabilidadde las puntuaciones en la medida de un deter-minado atributo. La medida de la fiabilidad enpruebas de competencias necesita un enfoquems amplio que el establecido por la TeoraClsica de los Test (TCT), pues el nmero defuentes de error que afectan a la consistencia de las puntuaciones es mayor en pruebas decompetencias que en pruebas ms convencio-nales. La Teora de la Generalizabilidad (TG),sistematizada por Cronbach, Gleser, Nanda yRajaratnam (1972), es una extensin de la TCTque utiliza el Anlisis de los Componentes deVarianza para estimar simultneamente losefectos de las distintas fuentes de variabilidad oerror (facetas) sobre las puntuaciones (Mar-tnez Arias, 2010).

    En el caso de las pruebas de competencias, laspuntuaciones se ven afectadas fundamentalmente

    Qu sabemos de la medida de las competencias?

    Bordn 63 (1), 2011, 109-123 115

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 115

  • por las tareas que incluye la prueba y los evalua-dores humanos que juzgan el desempeo.Aunque tambin se pueden incluir las ocasionesde medida, la administracin o el formato del test.La aportacin de la TG se centra en la posibilidadde mejorar la fiabilidad realizando estudios paradeterminar el nmero de tareas y evaluadores ne-cesarios al descomponer la varianza de error endiferentes fuentes (para un tratamiento ms ex-tenso de la TG recomendamos Martnez Arias,1995; Brennan, 2000; Martnez Arias, HernndezLloreda y Hernndez Lloreda, 2006).

    La tarea se convierte en una fuente de error de-bido al reducido nmero de estmulos que sepueden incluir en una prueba para evaluar unacompetencia. Lane y Stone (2006) encuentranuna baja consistencia entre las tareas y las inte-racciones con los sujetos. Miller y Linn (2000)apuntan dos soluciones para reducir los erroresasociados con la heterogeneidad de las tareasde evaluacin: a) incrementar el nmero de ta-reas o estmulos y b) definir de manera precisael constructo a medir y la tarea de evaluacin.

    Adems, la evaluacin de competencias precisade correctores o jueces, que si bien son entre-nados en la aplicacin de la pauta de correccino rbrica, tambin es cierto que cada evaluadoraplica la pauta de una manera diferente; exis-tiendo discrepancias entre las puntuacionesofrecidas por distintos jueces (fiabilidad interjueces). Incluso un mismo evaluador puede serinconsistente al evaluar el mismo ejercicio endos o ms ocasiones distintas (fiabilidad intrajueces). El nivel de coincidencia, primera apro-ximacin a la fiabilidad interjueces, es muy he-terogneo. Por ejemplo Lane y Stone (2006)encuentran correlaciones que oscilan entre0,33 y 0,91 en la evaluacin de escritura. La fia-bilidad interjueces de las certificaciones m-dicas (van der Vleuten y Swanson, 1990) oscilaentre 0,50 y 0,93. La fiabilidad inter juecestambin est afectada por la competencia eva-luada, encontrndose mayor consistencia enciencias y matemticas que en escritura (Sha-velson, Baxter y Gao, 1993).

    En general, parece haber acuerdo en que la va-riabilidad de las tareas contribuye ms al errorde medida que el evaluador dada la gran hete-rogeneidad posible y existente entre tareas(Lane y Stone, 2006; Shavelson et al., 1993).Adems, es posible observar interdependenciasen las pautas de correccin y se constata unabaja capacidad de generalizacin en las puntua-ciones de una tarea o ejercicio, pues desempe-arse bien en un grupo de tareas no significamostrar un alto nivel de desempeo en otras.

    Evidencias de validez

    Cuando se dice que los estudiantes deben sercompetentes en ciencias o en comprensinlectora en un idioma, la definicin de lo que seconsidera competente tiene una gran rele-vancia. Segn las teoras de medida, este nivelde desempeo es considerado como un cons-tructo no observado o latente que explica las di-ferencias individuales en los niveles de logro deun conjunto de medidas observables. El estable-cimiento de la relevancia de las medidas obser-vadas para respaldar las inferencias referidas aeste constructo de competencia en ciencias esel objetivo de la validacin de los test.

    La definicin de la validez de las puntuaciones delos test de desempeo es la establecida en losStandards for Educational and Psychological Test(AERA et al., 1999) que entiende la validez comoel grado en que la evidencia y la teora apoyan lasinterpretaciones que se van a hacer de las pun-tuaciones obtenidas en las pruebas de medida; yes similar a la de otros tipos de tests estandari-zados, con la validez de constructo como con-cepto unificador (Messick, 1980, 1995, 1996).

    Nos vamos a referir aqu a tres tipos de validez:de contenido, sustantiva y externa, por consi-derar que son las ms relevantes en el mbitode las pruebas de competencias.

    Las pruebas de competencias suelen incluir me-nor cantidad de estmulos que las tradicionales

    Mara Castro Morera

    116 Bordn 63 (1), 2011, 109-123

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 116

  • pruebas de lpiz y papel. Esta menor cantidad deestmulos supone una mayor seleccin de est-mulos y conlleva una menor cantidad de informa-cin recogida por la prueba. La validez de conte-nido se centra en la relevancia y representatividaddel contenido de la evaluacin. Esta caractersticarepresenta dos grandes amenazas a la validez decontenido comparada con los test convencio-nales. Messick (1989, 1996) seala el potencialriesgo de la infrarrepresentacin del constructo de-bido a la menor cantidad de tems en las pruebasde desempeo y el riesgo de varianza irrelevantedebido mltiples fuentes como la eleccin deltema por parte de los examinados, a la tendenciade los evaluadores humanos a fijarse en aspectosirrelevantes de la respuesta, o la motivacin de lasrespuestas, sobre todo si la prueba no tiene con-secuencias para los examinados.

    A las pruebas de competencias se les atribuyegeneralmente la capacidad de medir habili-dades complejas y de alto nivel cognitivo. Mes-sick (1996: 9) destaca la necesidad de obtenerevidencias empricas de los procesos puestos enjuego por los examinados cuando realizan latarea. Sin embargo, son pocas las investiga-ciones que avalen esta validez sustantiva (o delos procesos de la respuesta). Martnez Arias(2010) realiza una revisin de estas investiga-ciones, mostrando que los resultados obtenidosson poco consistentes.

    La validez externa se define como el anlisis delas relaciones de las puntuaciones de un testcon variables externas (AERA et al., 1999). Estaparte de los estudios de validez es usada paraprobar si las relaciones de las evaluaciones sonconsistentes con la teora en la que se basa elconstructo medido. As, los constructos que semiden en las evaluaciones deben racionalmentemostrarse en un patrn de correlaciones convariables externas.

    Es frecuente que las pruebas de competenciasno estn basadas en teoras muy bien definidas(Miller y Linn, 2000), aunque hay diversas hi-ptesis acerca de estos test consistentes con la

    literatura. En primer lugar, el desempeo debeestar relacionado con los efectos instructivos,ofreciendo mejores medidas para la rendicinde cuentas (Wiggins, 1989). Adems, todas lasmedidas de rendimiento deben ser sensibles alos efectos de la instruccin. En segundo lugar,la varianza del constructo debe ser ms grandeque la del mtodo (Campbell y Fiske, 1959).Esto tiene una particular relevancia dado quepuede haber una variedad de procedimientos ytareas de medida para medir el mismo cons-tructo.

    El procedimiento habitual para obtener eviden-cias de validez externa consiste en el estudio decorrelaciones segn las expectativas tericas ohiptesis del constructo. Martnez Arias (2010)seala que en el mbito educativo hay pocostrabajos sobre este tipo de evidencias, encon-trndose relaciones dbiles pues suele haberuna mayor proporcin de varianza entre laspuntuaciones debida al contexto que al cons-tructo. En el mbito educativo se ha realizadorecientemente un trabajo de estudio de la va-lidez concurrente entre pruebas convencio-nales de medicin del rendimiento y pruebasde competencias. Los resultados del estudio delas pruebas ENLACE en Mxico realizado bajoel auspicio de la OCDE (Ziga-Molina y Ga-viria, 2010) son realmente interesantes.

    El programa ENLACE es una evaluacin na-cional del rendimiento acadmico en Mxicoque se aplica censalmente desde 3 de Educa-cin Primaria hasta 3 de Educacin Secun-daria en las materias de espaol y matemticas.Las pruebas ENLACE se aplican anualmente atodos los estudiantes mexicanos y estn com-puestas por tems de opcin mltiple. Son puesunas pruebas convencionales de evaluacinde rendimiento aplicadas a gran escala.

    En el estudio de Ziga-Molina y Gaviria(2010) se muestra una caracterstica particular-mente relevante, la validez concurrente de laspruebas ENLACE con pruebas de evaluacinde competencias, similares a las pruebas PISA.

    Qu sabemos de la medida de las competencias?

    Bordn 63 (1), 2011, 109-123 117

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 117

  • El programa SEP-ISA aplicado a estudiantesmexicanos est construido en colaboracin conel Australian Council on Educational Research(ACER), y utiliza tems del mismo banco utili-zado para la elaboracin de las pruebas PISA ascomo los tems liberados de las pruebas PISA.La correlacin emprica entre los resultados deENLACE y de SEP-ISA aplicados a 11.717 estu-diantes de 15 aos es de 0,780. Si en lugar devariables empricas se utilizan estimaciones queeliminan el efecto de atenuacin, las correla-ciones superan los valores de 0,80.

    Obviamente, estos resultados son sorpren-dentes en dos sentidos. En primer lugar, lasaltas correlaciones entre ambos tipos depruebas, consideradas tan diferentes, indicanque tienen un comportamiento psicomtricomuy similar, siendo un indicador de que ambaspruebas estn midiendo mismo constructo. Ensegundo lugar, la escasa literatura existenteest referida las investigaciones en los denomi-nados centros de evaluacin y muestra correla-ciones inferiores a 0,40 (Arthur, Day, NcNellyy Edens, 2003; Salgado y Moscoso, 2008). Sepone as de manifiesto una gran diferencia en lamagnitud de las evidencias de validez en el m-bito educativo comparado con el psicolgico.

    Estos datos plantean serias dudas sobre la dife-renciacin de las pruebas de competenciasfrente a otros procedimientos de medida queadems son claramente ms econmicos;aunque hace falta evidencia adicional en estesentido.

    Conclusiones

    La evaluacin de competencias se puede definircomo un procedimiento en el que se requiereque el estudiante complete tareas o procesos enlos que se demuestre su habilidad para aplicarconocimiento y destrezas o aplicar conocimien-tos en situaciones simuladas similares a la vidareal (Wiggins, 1993; Messick, 1996; Nitko, 1996;Payne, 1997). La evaluacin de competencias

    abarca una amplia variedad de formatos depruebas (respuesta construida, ensayos, de-mostraciones, presentaciones orales, portfolios,observacin directa). Se pide a los exami-nados que produzcan, creen o desempeenalgo durante un periodo de tiempo y tanto losprocesos, como los productos o ambos se eva-lan considerando un estndar de desempe-o (Oosterhof, 1994; Messick, 1996). Se creeadems que este tipo de evaluaciones es msapropiado para medir habilidades complejas depensamiento o en la evaluacin de la resolu-cin de problemas (Haertel y Linn, 1996; Sax,1997).

    En las pruebas de competencias, la estructurade las respuestas est definida por el exami-nado, de ah que las respuestas construidaspuedan ser evaluadas en distintos niveles de ca-lidad, ms all de la mera correccin o inco-rreccin de las respuestas. Se entiende que aslos estudiantes podrn demostrar habilidadesque no podran fcilmente evaluarse conpruebas convencionales como las que incluyentems de opcin mltiple.

    Desde el punto de vista de la medida, estosnuevos formatos de test plantean serios retoscon respecto a los deseables e imprescindiblesrequisitos psicomtricos. La nota comn mspredominante es que hace falta ms investiga-cin, pues es poca la evidencia que apoya la so-lidez tcnica de este tipo de medidas. Lo que ssabemos hasta ahora se podra resumir en lossiguientes puntos:

    a) Habitualmente, el nmero de tems uti-lizados en las pruebas de competenciases menor que los utilizados en pruebasde opcin mltiple. Esto puede suponerriesgos, pues es posible elaborar pruebasbasadas en una muestra inadecuada delconstructo de referencia (Dunbar, Ko-retz y Hoover, 1991) y obtener puntua-ciones muy inestables. Es muy grande ladificultad para representar adecuada-mente el dominio por el nmero limitado

    Mara Castro Morera

    118 Bordn 63 (1), 2011, 109-123

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 118

  • de tareas que se pueden incluir en untest de competencias. La cantidad de in-formacin recogida seguramente es msrica pero es menor que la que se puederecoger por procedimientos denomina-dos convencionales.

    b) Es fcil encontrar constructos de mediday tareas de evaluacin multidimensio-nales y con comportamiento inestableen funcin del contexto de aplicacin de la evaluacin (Mislevy, 1992; Bond,Moss y Carr, 1996; Haertel y Linn,1996). La variabilidad de las tareas pors mismas puede ser una razn impor-tante, pero los efectos del contexto, de laprctica y de la varianza debida a defini-ciones pobres del constructo contribuyetambin a la inestabilidad de la dimen-sionalidad de las pruebas entre con-textos de aplicacin. Esta circunstanciaafecta a la capacidad para realizar ade-cuadas comparaciones de las puntua-ciones procedentes de distintas evalua-ciones. Se precisa de modelos complejoscomo los MIRT para la estimacin de laspuntuaciones o para la equiparacin ocalibracin de los parmetros de lostems.

    c) Las pruebas de competencias habitual-mente producen puntuaciones polit-micas, basadas en evaluaciones de juecesque no dejan de ser subjetivas, inclusocuando se desarrollen guas de puntua-cin muy claras, precisas y costosas y seentrene a los jueces. La (in)consistenciade las puntuaciones intra e inter juecesconstituyen una adicional fuente deerror (Kolen y Brennan, 1995). Sin con-siderar que son evaluaciones tanto eco-nmica como temporalmente costosas,lo que dificulta el uso formativo de susresultados.

    d) Se precisa ms investigacin sobre elcomportamiento de las pruebas que in-cluyen tems de muy distinta naturaleza,pues la evidencia acumulada hasta ahorasugiere que los resultados procedentes

    de distintos tipos de tems pueden no sercomparables (Miller y Linn, 2000; Patz,2006).

    e) La fiabilidad de las pruebas de compe-tencias es en general baja. Adems, seprecisa realizar estudios basados en laTeora de la Generalizabilidad para ob-tener ndices adecuados de fiabilidad delas pruebas, necesitando ms estudiossobre el nmero de tareas a incluir y lafiabilidad intra e inter jueces.

    f) La fiabilidad de las pruebas de compe-tencias est limitada por la gran cantidadde varianza de interaccin entre exami-nado y tarea. Para controlar esta limita-cin se precisa emplear un gran nmerode estmulos, siendo difcil dadas las ha-bituales restricciones de tiempo con lasque se cuentan en las pruebas de desem-peo acadmico.

    g) Es necesaria una precisa definicin delconstructo a medir para asegurar la validezde contenido. Es preciso adems desarro-llar estudios que demuestren la supuestavalidez sustantiva de las pruebas de com-petencias, y comprobar las presumiblesconsecuencias positivas de estas pruebassobre la enseanza y el aprendizaje.

    h) No hay muchas evidencias sobre la va-lidez externa de las pruebas de compe-tencias. Sin embargo, los slidos y con-tundentes resultados del estudio deZiga-Molina y Gaviria (2010) plan-tean serias dudas sobre la utilidad y ladiferencia real de las pruebas de compe-tencias frente a otras que adems sonclaramente ms econmicas.

    Cabe preguntarse si estamos claramente en con-diciones de sustituir las pruebas de evaluacindel logro acadmico ms convencionales, cuyascaractersticas psicomtricas son bien conocidas,por unas pruebas de competencias que alberganmuchos deseos y aspiraciones pero de las quean no sabemos exactamente cunta confianzapodemos depositar en esas medidas. Es precisoacumular evidencia de que los distintos formatos

    Qu sabemos de la medida de las competencias?

    Bordn 63 (1), 2011, 109-123 119

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 119

  • Referencias bibliogrficas

    AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN PSYCHOLOGICAL ASSOCIATION Y NATIONAL COUNCIL ON MEASU-

    REMENTE IN EDUCATION (1999). Standards for Educational and Psychological Testing. Washington, DC: AERA.

    ARTHUR, W.; DAY, E. A.; NCNELLY, T. L. y EDENS, P. S. (2003). A meta-analysis of the criterion-related validity of as-

    sessment center dimension. Personnel Psychology, 56, 125-154.

    BERK, R. A. (1986). Preface. En R. A. BERK (ed.), Performance assessment: Methods & applications. Baltimore, Mary-

    land, John Hopkins University Press, ix-xiv.

    BOND, L.; MOSS, P. y CARR, P. (1996). Fairness In large-scale performance assessment. En G. PHILLIPS (ed.), Technical

    issues in large-scale performance assessment. Washington, DC: National Center for Education Statistics, 117-140.

    BRENNAN, R. (2000). Performance assessment from the perspective of the Genralizability theory. Applied Psychological

    Measurement, 24, 339-353.

    CAMPBELL, D. T. y FISKE, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethod matrix.

    Psychological Bulletin, 56, 81-105.

    CRONBACH, L. J.; GLESER, G. C.; NANDA, H. y RAJARATNAM, N. (1972). The dependability of behavioural measurements:

    theory of generalizability for scores and profiles. New York: Willey.

    DUNBAR, S.; KORETZ, D. y HOOVER, H. (1991). Quality control in the development and use of performance assessments.

    Applied Measurement in Education, 4 (4), 289-303.

    FREDERIKSEN, J. R. y COLLINS, A. (1989). A systems approach to educational testing. Educational Researcher, 18, 27-32.

    GIBBONS, R. D.; BOCK, R. D.; HEDEKER, D.; WEISS, D. J.; SEGAWA, E.; BHAUMIK, D.; KUPFER, D. J.; FRANK, E.; GROCHO-

    CINSKY, V. J. y STOVER, A. (2007). Full-information item bifactor analysis of graded response data. Applied Psycho-

    logical Measurement, 31, 4-19.

    HAERTEL, E. y LINN, R. (1996). Comparability. En G. PHILLIPS (ed.), Technical issues in large-scale performance assess-

    ment. Washington, DC: National Center for Educational Statistics, 59-78.

    HAMBELTON, R. K. (2000). Advances in assessment performance assessment methodology. Applied Psychological Mea-

    surement, 24, 291-293.

    HEMKER, B. T.; SIJTSMA, K.; MOLENAAR, I. W. y JUNKER, B. W. (1997). Stochastic ordering using the latent trait and the

    sum score in polytomous IRT models. Psychometrika, 62, 331-347.

    HOSKIN, K. (1979). The examination, disciplinary power and rational schooling. En History of Education. London:

    Taylor y Francis, vol. 8, 135-146.

    JOHNSON, R. L.; PENNY, J. A. y GORDON, B. (2009). Assessing performance: designing, scoring and validating performance

    tasks. New York: Guilford Press.

    KANE, M. T. (2004). Certification testing as an illustration of argument-based validation. Measurement: Interdicipli-

    nary Research and Perspectives, 2, 13-170.

    LANE, S. y STONE, C. A. (2006). Performance assessment. En R. BRENNAN (ed.), Educational Measurement (4th Edition).

    Westport, CT: American Council on Education and Praeger, 387-431.

    LANE, S.; PARKE, C. S. y STONE, C. A. (2002). The impact of a state performance-based assessment and accountability

    program on mathematics instruction and student learning: Evidence from survey data and school performance.

    Educational Assessment, 8, 279-315.

    de tem propuestos desde las pruebas de compe-tencias son tcnicamente tan solventes como laspruebas de opcin mltiple. Adems, parece ra-zonable considerar el objetivo y amplitud de laevaluacin en la eleccin del tipo de pruebas.As, por ejemplo, en funcin de la necesidad de

    comparabilidad de las puntuaciones sera ade-cuado ligar las pruebas convencionales a las eva-luaciones a gran escala, y vincular las pruebas decompetencias a evaluaciones en las que se puedavalorar la riqueza de las respuestas como un ele-mento de mejora.

    Mara Castro Morera

    120 Bordn 63 (1), 2011, 109-123

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 120

  • LINN, R. L. (1993). Linking results of distinct assessment. Applied Measurement in Education, 6, 83-102.

    MADAUS, G. y ODWYER, L. (1999). A short history of performance assessment. Phi Delta Kappan, 80 (9), 688-695.

    MARTNEZ ARIAS, R. (1995). Psicometra: Teora de los test psicolgicos y educativos. Madrid: Sntesis.

    MARTNEZ ARIAS, R. (2010). La evaluacin del desempeo. Papeles del Psiclogo, 31 (1), 85-96.

    MARTNEZ ARIAS, R.; HERNNDEZ LLOREDA, M. V. y HERNNDEZ LLOREDA, M. J. (2006). Psicometra. Madrid: Alianza.

    MASTER, G. (1982). A Rasch model for partial credit scoring. Psychometrika, 42 (2), 149-174.

    MESSICK, S. (1980). Test validity and the ethics of assessment. American Psychologist, 35, 1012-1027.

    MESSICK, S. (1989). Validity. En R. LINN (ed.), Educational Measurement (3rd ed). Washington, DC: American Council

    on Education, 13-103.

    MESSICK, S. (1995). Validity of psychological assessment: Validation of inferences from persons responses and per-

    formances as scientific inquiry into score meaning. American Psychologist, 50, 741-749.

    MESSICK, S. (1996). Validity of performance assessments. En G. PHILLIPS (ed.), Technical issues in large-scale perfor-

    mance assessment. Washington, DC: National Center for Education Statistics, 1-18.

    MILLER, D. M. y LINN, R. L. (2000). Validation of performance assessments. Applied Psychological Measurement, 24,

    367-378.

    MISLEVY, R. J. (1992). Scaling procedures. En E. G. JOHNSON y N. L. ALLEN (eds.), The NAEP 1990 technical report (Re-

    port No. 21-TR-20). Washington DC: National Center for Education Statistics, 199-213.

    MISLEVY, R. J. (2006). Cognitive psychology and educational assessment. En R. BRENNAN (ed.), Educational Measure-

    ment (4th Edition). Westport, CT: American Council on Education and Praeger, 257-305.

    MISLEVY, R. J.; STEINBERG, l. y ALMOND, R. (2002). Design and analysis in task-based language assessment. Language

    Testing, 19(4), 477-496.

    MISLEVY, R. J.; WILSON, M.; ERCIKAN, K. y CHUDOWSKY, N. (2003). Psychometric principles in student assessment. En

    T. KELLAHAN y D. STUFFLEBEAM (eds.), International handbook of educational evaluation. Boston: Kluwer Academic,

    489-532.

    NATIONAL RESEARCH COUNCIL (2001). Knowing what students know: the science and design of educational assessment.

    Washington, DC: National Academy Press.

    NITKO, A. J. (1996). Educational assessment of students (2nd ed.). Englewood Cliffs NJ: Prentice-Hall.

    OFFICE OF TECHNOLOGY ASSESSMENT, U.S. Congress (1992). Testing in american schools: Asking the right questions

    (OTA-SET-519). Washington, DC: U.S. Government Printing Office.

    OOSTERHOF, A. (1994). Classroom applications of educational measurement (2nd ed.). New York: Macmillan.

    PALM, T. (2008). Performance Assessment and authentic assessment: a conceptual analysis of the literature. Practical

    Assessment, Reseach and Evaluation, 13 (4). Disponible en http://pareonline.net/pdf/v13n4.pdf.

    PARKE, C. S.; LANE, S. y STONE, C. A. (2006). Impact of a state performance assessment program in reading and wri-

    ting. Educational Research and Evaluation, 12, 239-269.

    PATZ, R. J. (2006). Building NCLB science assessment: psychometric and practical considerations. Measurement 4 (4),

    199-239.

    PAYNE, D. A. (1997). Applied educational measurement. Belmont CA: Wadsworth.

    RECKASE, M. D. (2009). Multidimensional item response theory. New York: Springer.

    RUIZ-PRIMO, A. y SHAVELSON, R. J. (1996). Rhetoric and reality in science performance assessment: an update. Journal

    of Research in Science Teaching, 33 (10), 1045-1063.

    RYAN, T. (2006). Performance assessment: critics, criticim, and controversy. Internacional Journal of Testing, 6(1), 97-104.

    SALGADO, J. F. y MOSCOSO, S. (2008). Seleccin de personal en la empresa y las AAPP: de la visin tradicional a la vi-

    sin estratgica. Papeles del Psiclogo, 29, 16-24.

    SAX, G. (1997). Principles of educational and psychological measurement and evaluation (4th ed.). Belmont CA: Wads-

    worth.

    SHAVELSON, R. J.; BAXTER, G. P. y GAO, X. (1993). Sampling variability of performance assessments. Journal of Educa-

    tional Measurement, 30, 215-232.

    Qu sabemos de la medida de las competencias?

    Bordn 63 (1), 2011, 109-123 121

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 121

  • SHAVELSON, R. J.; SOLANO-FLREZ, G. y RUIZ-PRIMO, A. (1998). Toward a science performance assessment technology.

    Evaluation and Program Planning, 21 (2), 129-144.

    SOCIETY FOR INDUSTRIAL AND ORGANIZATIONAL PSYCHOLOGY, INC. (2004). Principles for the validation and use of per-

    sonnel selection procedures (4 Edicin). Disponible en www.siop.org.

    STIGGINS, R. (1987). Design and development of performance assessment. Educational Measurement: Issues and Prac-

    tices, 6 (3), 33-42.

    THORTON, G. C. y RUPP, D. E. (2006). Assessment centers in human resource management. Mahwah, NJ: Erlbaum.

    UNITED STATES MEDICAL LICENSURE EXAMINATION (2009). Examinations. Disponible en http://www.usmle.org/examina-

    tions/index.html.

    VAN DER VLEUTEN, C. y SWANSON, D. (1990). Assessment of clinical skills with standarized patines: State of the art.

    Teaching and learning in Medicine, 2, 58-76.

    VISWESVARAN, C. (2001). Assessment of individual job performance: a review of the past century and a look ahead.

    En N. ANDERSON; D. S. ONES; H. K. SINANGIL y C. VISWESVARAN (ed.). Handbook of industrial and organizational psy-

    chology. 1. London: Sage, 110-126.

    WIGGINS, G. (1989). A true test. Toward more authentic and equitable assessment. Phi Delta Kappan, 70, 703-713.

    WIGGINS, G. (1993). Assessment: Authenticity, context, and validity. Phi Delta Kappan, 75(3), 200-214.

    WU, M. L.; ADAMS, R. J. y WILSON, M. R. (1998). ACER ConQuest: Generalized item response modeling software [Com-

    puter program].Melbourne: ACER Press.

    ZNIGA MOLINA, L. y GAVIRIA, J. L. (2010). Challenges and Opportunities for the Further Development of the EN-

    LACE Assessment for Evaluation and Teacher Incentives in Mexico. OECD Working Paper for the Cooperation

    Agreement between the OECD and the Government of Mexico.

    Abstract

    What do we know about the assessment of educational performance? Psychometric features and problems in performance assessments

    Performance assessments demand students to complete complex tasks showing their ability toapply knowledge and skills to real life in simulated situations. In education, performance assess-ment is used as an academic achievement measure, having high impact over students life. Thus, itis capital to have a good understanding about how these scores are obtained, what information isgiven, which are the technical requirements to be consider as reliable and valid, which are theirmain limitations and which way should have to be followed in the future research. This article is asynthesis of scientific research literature that evidences psychometric features of performance tests,their strengths and weaknesses. Research evidences are limited and their main conclusions claimfor the development of more research about educational performance in test psychometric features.The main problem of this kind of test is the score comparability, due to inter rater variability, amongothers. Moreover, basic psychometric features as test reliability and validity dont find enough em-pirical bases on research literature.

    Key words: Performance Assessment, Educational Assessment, Partial Credit Items, Generalizability,Multidimensional Item Response Theory, Inter-rater Reliability.

    Mara Castro Morera

    122 Bordn 63 (1), 2011, 109-123

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 122

  • Rsum

    Quest-ce que nous savons sur la mesure des comptences ? Caractristiques et problmespsychomtriques dans lvaluation des comptences

    Lvaluation des comptences peut tre dfinie comme une procdure qui demande ltudiant def-fectuer des taches ou des processus qui prouvent sa capacit pour appliquer des savoirs et des ha-bilits, ou pour appliquer des savoirs dans des situations simules semblables a la vie relle. Lva-luation des comptences sutilise en ducation comme une mesure de la russite acadmique, ayantune importante transcendance dans la vie des tudiants. Il semble donc essentiel de comprendre,comment ses scores sont obtenus, quelle information ils apportent, quelles sont les exigences tech-niques qui doivent accomplir pour tenir compte de ces instruments comme valables et fiables, etdonc, quelles sont ses principales limitations et o doit continuer la recherche dans ce domaine. Cetarticle est une synthse des vidences trouves dans la littrature scientifique sur les caractristiquespsychomtriques des preuves utilises pour lvaluation des comptences, quelles sont ses forces etses faiblesses. Ltude montre quil existe peu de preuves qui appuient la validit technique de cetype de mesures, en fait, la note dominante commune est que plus de recherche psychomtrique estncessaire. Le principal problme des tests de comptences est que les ponctuations ne sont habi-tuellement pas comparables en raison de la constat variabilit dans les qualifications attribues parles juges humains qui appliquent un mme critre dvaluation. En plus, des caractristiques psy-chomtriques basiques comme la fiabilit des ponctuations et la validit des infrences, ne trouventpas une suffisante base empirique dans la littrature.

    Mots cls : Test de Performance, valuation des comptences, valuation pdagogique, items crditpartiel, Gnralisabilit, Thorie de la Rponse lItem Multidimensionnel, fiabilit inter-juges.

    Perfil profesional de la autora

    Mara Castro Morera

    Profesora titular en la Universidad Complutense de Madrid, actualmente desempea el cargo de Ins-pectora de Servicios en la misma universidad. Sus lneas de investigacin se centran en la mediciny evaluacin educativas, con nfasis en modelos multinivel, valor aadido en educacin y tcnicassobre estudios de jueces. Participa en diversos proyectos competitivos, tanto en evaluaciones de sis-temas educativos, como en otros relativos a factores asociados de calidad educativa y explicacindel rendimiento y logro acadmico.Correo electrnico de contacto: [email protected]

    Qu sabemos de la medida de las competencias?

    Bordn 63 (1), 2011, 109-123 123

    16024-Bordn 63.1 (F) 18/3/11 14:21 Pgina 123