Declaración AERA Uso Modelos de Valor Agregado (MVA) en Evaluación Educadores y Programas

download Declaración AERA Uso Modelos de Valor Agregado (MVA) en Evaluación Educadores y Programas

of 9

description

La American Educational Research Association (AERA) presenta en esta declaración hecha en junio de 2015, sus criterios y sugerencias, respecto al uso de Modelos de Valor Agregado, para evaluar docentes directivos y programas de formación docente

Transcript of Declaración AERA Uso Modelos de Valor Agregado (MVA) en Evaluación Educadores y Programas

  • 1

    Declaracin de AERA sobre el uso de Modelos de Valor Agregado (MVA) para la evaluacin de educadores y programas de preparacin de educadores* Aprobado por el Consejo Directivo de AERA, Junio de 2015

    Resumen

    El propsito de esta declaracin es informar a aquellos que usan o consideran usar modelos de valor agregados (MVA), acerca de sus limitaciones cientficas y tcnicas en la evaluacin de educadores y de los programas que preparan a los maestros. La declaracin brevemente revisa los antecedentes y el contexto actual del uso de los MVA para evaluar, enumera problemas psicomtricos especficos de los MVA y aborda la validez de las inferencias a partir de los MVA, dado los desafos de aislar la contribucin de profesores y lderes escolares de entre muchos otros factores que configuran el aprendizaje estudiantil. La declaracin tambin aborda las limitaciones de la utilizacin de los MVA para evaluar los programas de preparacin de educadores, dada la amplia variedad de experiencias y contextos en los que los egresados de esos programas trabajan y la falta de informacin completa y comparable sobre dichos programas. Adems, la declaracin va ms all de un examen de los desafos y limitaciones, especificando ocho requisitos tcnicos que deben cumplirse para que el uso de los MVA sea exacto, fiable y vlido. La declaracin concluye subrayando la importancia de cualquier sistema de evaluacin de educadores cumpla con las ms altos estndares en materia de estadsticas y medicin. Llama a realizar importantes inversiones en investigacin sobre los MVA y sobre mtodos y modelos alternativos, y advierte contra el uso de los MVA para que tengan en las evaluaciones un alto peso y consecuencias (high-stakes).

    Introduccin

    El propsito de esta declaracin es informar a aquellos que usan o estn considerando el uso de los MVA sobre las limitaciones tcnicas y cientficas de su inclusin en la aplicacin de sistemas de evaluacin.

    El uso de los MVA para evaluar a los profesores y a los programas de preparacin de educadores, sigue siendo objeto de discusin y debate. Existe un inters compartido en las comunidades de prctica y de poltica pblica, en la ejecucin de sistemas de evaluacin de educadores que puedan conducir a mejoras en las prcticas de enseanza y que sean justas y libres de prejuicios. Sin embargo, existe un desacuerdo considerable entre los formuladores de la poltica pblica de educacin y los responsables de la toma de decisiones acerca de si el estado de conocimiento sobre los MVA, solos o en combinacin con otros indicadores, est lo

    * Traduccin hecha por Cinthia Chiriboga, Noviembre 12 de 2015 La Declaracin de AERA sobre el uso de los Modelos de Valor Aadido (MVA) para la evaluacin de profesores y de los programas de preparacin de educadores, fue preparado bajo los auspicios de AERA y aprobados por su Consejo

    Directivo. Un subcomit del Consejo Directivo prepar borradores iniciales que recibieron revisiones bajo anonimato, de diez expertos. Henry Braun, del Boston College, sirvi como monitor independiente y presidi el proceso de revisin. Basado en los comentarios, revisiones adicionales, y el posterior debate en el Consejo Directivo, esta declaracin recibi

    la revisin final del Dr. Braun y aprobacin por el Consejo Directivo en junio de 2015. "High-stakes" es un concepto usado en el mundo educativo anglosajn para referirse al uso de las puntuaciones de las pruebas que se aplican a estudiantes, profesores, directivos o instituciones, para determinar para los evaluados castigos

    (sanciones, multas, reduccin de la financiacin, publicidad negativa), distinciones (premios, la celebracin pblica, una publicidad positiva), avances (grado de promocin o graduacin de estudiantes), o compensaciones (aumentos de salario o bonificaciones para los administradores y profesores), en funcin de sus resultados. (N. del T.)

  • 2

    suficientemente desarrollado como para ser incorporados en los sistemas de rendicin de cuentas.

    Las cuestiones cientficas en juego, as como los desacuerdos que rodean a los MVA, estn documentados en una amplia literatura1 y, ms recientemente, en 2015 una edicin especial del Educational Researcher titulado "El valor aadido al encuentro de las escuelas: Los efectos de la utilizacin de evaluacin estandarizada (Test-Based) para docentes, sobre la labor de los maestros y directivos."2 La presente declaracin no revisa esa literatura. Ms bien, se basa en pericia en cuanto a testeo, estadstica y metodologa en el campo de la investigacin en educacin y ciencias afines y en las normas que guan la investigacin as como en sus aplicaciones rigurosas en la poltica pblica y en la prctica.3

    Antecedentes y temas

    Existe un amplio consenso acerca de la necesidad de tener maestros y directores de alta calidad para todos los estudiantes, especialmente los estudiantes sub-atendidos. En un esfuerzo para aumentar la calidad del maestro y director, muchos estados estn ideando sistemas de evaluacin de los educadores que emplean, en diversos grados, los indicadores estadsticos relacionados con los cambios en las pruebas de rendimiento de sus alumnos. Algunas jurisdicciones tambin est ampliando el uso de estos sistemas4 para evaluar los programas de preparacin del educador. Las evidencias basadas en investigacin sobre la precisin, confiabilidad y estabilidad de estos indicadores, la validez de las medidas subyacentes, y las consecuencias de la utilizacin de esos indicadores en los sistemas de evaluacin del educador, todava estn en proceso de acumulacin. As, las bases tcnicas para su uso en los sistemas de evaluacin estn lejos de haberse establecido. Para los efectos de esta declaracin, la frase Modelos de Valor Agregado se usa como un trmino genrico para referirse a una variedad de "autnticos" modelos de valor agregado, percentiles del crecimiento del estudiante, y ciertos modelos de incremento que se utilizan para la evaluacin.5 En los sistemas de evaluacin de los educadores recientemente concebidos, a los que se hace referencia ms arriba, los MVA se emplean en un intento por determinar las contribuciones de maestros y directivos a los resultados de aprendizaje de los estudiantes, tal como son capturados por los exmenes estandarizados, y normalmente se emplean para identificar aquellos educadores que aparecen, en virtud de estas medidas, como particularmente eficaces o ineficaces. En la evaluacin docente, las puntuaciones de los MVA se derivan de los agregados de los cambios en la calificacin de los estudiantes en sus aulas. En la evaluacin de los directores de escuela, hay otras agregaciones que se hacen de esos cambios a travs de varios grados y aulas. En la evaluacin de programas, tambin se utilizan puntuaciones retrospectivamente para extraer inferencias acerca de los programas de preparacin en que los educadores han sido capacitados.

    Los MVA generalmente son vistos como superiores a los modelos de estatus para evaluar los impactos sobre los resultados de aprendizaje de los estudiantes, porque estn basados en alguna manera sobre los cambios en los test de rendimiento. Los modelos de Estatus simplemente reflejan la proporcin de estudiantes que cumplen o exceden un umbral de rendimiento al final del ao escolar, sin tener en cuenta su nivel acadmico en el comienzo del ao. Bajo un modelo de estatus, un maestro con un grupo de estudiantes con un puntaje de alto rendimiento al inicio del ao, normalmente estar en ventaja con un profesor cuyos estudiantes tienen puntajes de bajo rendimiento al inicio del ao. En contraste, los MVA se centran en cambios basados en los test (de inicio y fin de ao) de tal manera que los maestros o directivos con cohortes de estudiantes con mayor puntuacin al inicio de ao, no necesariamente estn en ventaja frente a otros.

    Aunque los MVA pueden ser superiores a los modelos de estatus, no significa que ellos estn listos para su uso en la evaluacin de educadores o de programas que forman profesores. Hay potencialmente graves consecuencias negativas en el contexto de la evaluacin que pueda resultar de la utilizacin de los MVA basados en datos incompletos o imperfectos, as como de

  • 3

    la malinterpretacin o el mal uso de los resultados del MVA. Los maestros y directivos, por ejemplo, con bajas puntuaciones en los MVA pueden experimentar prdida en su avance profesional, prdida en compensaciones salariales, e incluso despidos. Asimismo, cuando un gran nmero de docentes y directivos son identificados o clasificados incorrectamente, entonces los recursos se retiran y redirigen, y el sistema educativo como un todo se puede degradar. Slo si tales indicadores se basa en datos de prueba de alta calidad, auditados y respaldados por slidos test de validacin para los fines especficos propuestos, los MVA pueden usarse apropiadamente, junto con otros indicadores pertinentes, para fines de desarrollo profesional o para la evaluacin del educador.

    Limitaciones del uso del MVA para la evaluacin

    Hay cuestiones fundamentales que deben abordarse para usar los MVA para evaluar los profesores y otros educadores. Actualmente, los registros longitudinales de las puntuaciones de los estudiantes en las pruebas estandarizadas sirven como insumo para los MVA. Las pruebas estandarizadas, sin embargo, varan en el grado en que reflejan plenamente los constructos que son la meta, as como en sus niveles de precisin en el rango puntuaciones reportadas. Adems, los exmenes estatales actuales, por requisito federal, miden slo los estndares del grado o ao en que estn los estudiantes, sin incluir elementos necesarios para medir el crecimiento de estudiantes que se desempean muy por debajo o muy por encima de su nivel de grado. Por lo tanto, se debe ejercer precaucin acerca de la calidad de la evaluacin psicomtrica si los MVA estn siendo considerados para fines de evaluacin docente.

    Adems, el uso de los MVA presenta desafos adicionales importantes en la evaluacin de los directores y el personal no docente. Los clculos de los MVA existentes no han demostrado poder aislar suficientemente la eficacia de los maestros, directores u otro personal profesional no docente. Las investigaciones existentes, por ejemplo, sugieren que la eficacia de los directores slo podr ser separada de la eficacia de la escuela cuando se aplica a directores relativamente nuevos o en la evaluacin de la mejora de escuelas durante varios de los aos de permanencia de un director en una escuela.6 Las limitaciones del uso de los MVA para aislar la eficacia relativa de docentes y directivos se complican an ms cuando se utilizan para comparar la eficacia de los programas de preparacin de educadores. Hay muy pocas pruebas de que los Modelos de Valor Agregado pueden ser utilizados para evaluar la efectividad de programas de formacin de educadores, basados en la agregacin del desempeo como profesores o directivos, de los graduados.7 A primera vista, podra parecer de sentido comn que los puntajes que arrojan los MVA de maestros o directivos novatos agregados en relacin a su preparacin, podran servir como base para la comparacin. Sin embargo, ese uso presenta ms desafos en tanto los maestros y lderes estn trabajando en una amplia gama de escuelas, grados y distritos. Importantes diferencias en esos contextos, incluidas las variaciones en las poblaciones estudiantiles, los currculos, los tamaos de las clases y recursos, as como la calidad de la induccin y tutora a los educadores nuevos, contribuyen a las diferencias en los resultados de los educadores y, por lo tanto, se confunden con las diferencias en la eficacia de sus programas de formacin. Las dificultades se agravan si los maestros y directivos incluidos en esas evaluaciones no son representativos de todos los graduados a travs de programas, como es el caso, por ejemplo, cuando los programas son pequeos o los graduados no trabajan en los sistemas escolares pblicos.8 Finalmente, es problemtico desde el punto de vista logstico y metodolgico controlar las diferencias entre los programas de formacin docente, tanto en la preparacin previa de los matriculados as como en el tipo de experiencias que hayan tenido desde la finalizacin del programa.

    Requisitos tcnicos para la utilizacin del MVA

    Quienes estn involucrados en o contemplan usar los MVA en un sistema de evaluacin, deben sopesar los beneficios potenciales contra las limitaciones y complejidades descritas anteriormente. Adems, se debe considerar si las consecuencias de tal uso podran dar lugar a

  • 4

    mejoras en las prcticas de instruccin y ganancias significativas en el aprendizaje de los estudiantes.

    Debido a las consecuencias adversas de evaluaciones defectuosas para los educadores y los estudiantes a los que sirven, el uso de los MVA en cualquier sistema de evaluacin debe cumplir unos estndares tcnicos muy altos. Esta seccin establece los requisitos tcnicos, todos los cuales deben ser cumplidos para el uso de los MVA a fin de que sean cientficamente rigurosos y equitativos.9 Cualquier alejamiento de estos requisitos debe descartar su uso.

    Incluso si todos los requisitos tcnicos que se enumeran a continuacin son satisfechos, la validez de las inferencias a partir de las puntuaciones de los MVA depende de la capacidad de aislar la contribucin de los docentes y directivos en el aprendizaje de los estudiantes, de las aportaciones que hacen otros factores que no estn bajo su control. Esto es muy difcil, no slo debido a las limitaciones de los datos, sino tambin a causa del elevado ordenamiento no aleatorio de estudiantes y profesores en las escuelas y en las clases dentro de las escuelas. En consecuencia, dicho desenmaraamiento puede lograrse slo imperfectamente y con un grado de xito desconocido. El sesgo resultante no ser distribuido uniformemente entre escuelas, dada la amplia variacin de factores crticos como por ejemplo, la movilidad de los estudiantes, y podra hacer que algunos estudiantes, escuelas y profesores aparezcan como con bajo desempeo. Este sesgo residual en las puntuaciones de los MVA puede ser exacerbado por el error de medicin en los predictores empleados en el modelo. Por lo tanto, debe ejercerse la debida precaucin en las interpretaciones de los puntajes de los MVA, puesto que generalmente no sabemos cmo controlar correctamente el impacto de estos otros factores.

    (1) Las puntuaciones de los MVA slo deben ser derivados de las calificaciones de los alumnos

    en las evaluaciones que cumplan con los estndares profesionales de confiabilidad y validez en relacin a la finalidad prevista.

    En relacin a las puntuaciones de evaluacin que se utilizarn en los MVA para cualquier propsito, es esencial que las evaluaciones cumplan los estndares profesionales para evaluaciones descritas en los Estndares para el Testeo Psicolgico y Educativo emitidos en 2014 por la American Educational Research Association (AERA), la American Psychological Association (APA), y el National Council on Measurement in Education (NCME). La evidencia relevante se debe reportar en la documentacin de soporte a afirmaciones y los usos propuestos de los resultados del MVA, incluyendo la evidencia de que las pruebas utilizadas son una medida vlida del crecimiento mediante la medicin real de la materia que se ensea y la gama completa de los logros de los estudiantes, representados en las aulas de los docentes.

    (2) Las puntuaciones de los MVA deben estar acompaadas por lneas separadas de evidencia de la confiabilidad y validez que apoyan cada afirmacin y argumento interpretativo.

    Cada tipo de evaluacin (profesores, directivos, programas de formacin docente) requiere evidencias para apoyar el argumento de validez para cada determinada aplicacin. Esa evidencia debe tener en cuenta el impacto potencial de factores contextuales y del sesgo de seleccin, sobre la idoneidad de las deducciones realizadas.10 Los argumentos de validez utilizados para apoyar el uso de las puntuaciones de valor agregado de los estudiantes para la evaluacin del programa (que son menos propensas a errores) son insuficientes para respaldar la agregacin y uso de dichas puntuaciones con fines de evaluacin individual del personal.

    (3) Las puntuaciones de los MVA se deben basar en varios aos de datos de un nmero suficiente de alumnos.

    La precisin de las puntuaciones de los MVA depende de la cantidad y calidad de los datos disponibles, as como de las caractersticas del modelo. Por lo tanto, las puntuaciones de los

  • 5

    MVA no deben utilizarse a menos que se deriven de los datos obtenidos de un nmero suficiente de estudiantes durante varios aos. Las puntuaciones de los MVA siempre deben ir acompaadas de una estimacin de la incertidumbre para protegerse de una sobre-interpretacin de diferencias encontradas. Adems, se debe tener cuidado al abordar el clculo de la inestabilidad que resulta de la movilidad de los profesores entre escuelas, grados y asignaturas.

    (4) Las puntuaciones de los MVA slo debe calcularse a partir de las puntuaciones en las pruebas que sean comparables a lo largo del tiempo.

    Muchos Estados estn pasando actualmente a nuevos sistemas de evaluacin y adoptando estndares de desempeo nuevos o revisados. Las grandes transiciones suelen afectar al rendimiento estudiantil, tanto directa como indirectamente, en tanto los maestros y directivos se adaptan a las nuevas normas, evaluaciones y expectativas. Aunque esos cambios son de esperar, representan una amenaza para la validez de las interpretaciones de las puntuaciones de los MVA, especialmente cuando se comparan estos puntajes antes, a lo largo de y despus de la transicin. Los cambios en las evaluaciones estudiantiles no slo plantean dificultades para los MVA, sino que tambin interrumpen las tendencias longitudinales en las medidas del estatus. Estas situaciones pueden conducir a interpretaciones errneas del progreso de los estudiantes. En estos casos, las evaluaciones a lo largo de los aos ya no puede ser equiparadas y los vnculos estadsticos entre las puntuaciones no son suficientemente fuertes como para apoyar los argumentos de validez e interpretaciones necesarias para el MVA. Aunque se pueden establecer categoras consistentes a travs de las evaluaciones para algunos modelos, las interpretaciones de crecimiento de antes o despus de la transicin a la evaluacin actual pueden no ser comparables. Por consiguiente, los puntajes de los MVA generalmente no deben ser empleados a lo largo de las transiciones.

    (5) Los puntajes de los MVA no deben ser calculados por grados o para asignaturas donde no existen evaluaciones estandarizadas que estn acompaadas de evidencias de su confiabilidad y validez.

    Cuando la evaluacin estandarizada de datos no est disponible a travs de todos los grados (K-12) o asignaturas (por ejemplo, salud, estudios sociales) en un estado o distrito, a menudo se usan medidas alternativas (por ejemplo, evaluaciones desarrolladas localmente, medidas proxy, calificaciones observacionales) en los grados y asignaturas para implementar el MVA.11 Tales evaluaciones alternativas no debe utilizarse a menos que estn acompaados de evidencia de confiabilidad y validez tal como lo requieren los Standards for Educational and Psychological Testing de AERA, APA y NCME. Debido a que la validez de los puntajes de los MVA es tan dependiente de la calidad de la evaluacin subyacente, no deben ser aplicadas en grados o asignaturas donde hay una falta de evidencias sobre confiabilidad y validez.

    (6) Los puntajes de los MVA nunca deben utilizarse solos o aislados en sistemas de evaluacin de educadores o de programas de formacin docente.

    Si se utilizan los resultados de los MVA, deberan ser slo uno de los componentes de una evaluacin ms integral de educadores o de programas. Adems, su significado debe ser interpretado en el contexto del currculum y tareas docentes de un profesor individual, con advertencias explicitadas sobre los problemas comunes de interpretacin, tales como el efecto de techo y suelo de las pruebas para la estimacin del incremento (de puntajes) en estudiantes de alto y bajo logro. Otras medidas de la prctica y los resultados de los estudiantes siempre deben ser integrados en los juicios acerca de la eficacia de los maestros en general.

  • 6

    (7) Los sistemas de evaluacin que usan MVA deben incluir seguimiento continuo para asegurar calidad tcnica y validez de su uso.

    El monitoreo continuo es esencial para cualquier programa de evaluacin de educadores y es especialmente importante para aquellos que incorporen indicadores basados en un MVA, que slo recientemente se ha empleado ampliamente. Si los organismos que otorgan autorizaciones, exigen el uso de MVA, ellos, junto con las organizaciones que implementan y reportan los resultados, son responsables de la realizacin de la evaluacin continua de las consecuencias tanto previstas como las imprevistas. El seguimiento debe ser de suficiente alcance y extensin como para aportar evidencias para documentar la calidad tcnica de la aplicacin del MVA y la validez de su uso dentro de un determinado sistema de evaluacin. Cuando hay pruebas fidedignas de que hay consecuencias negativas, no deben escatimarse esfuerzos para mitigarlos. Aunque cuando se utilizan mltiples indicadores, puede ser difcil determinar qu desafos tcnicos son atribuibles al MVA, la presencia de consecuencias negativas, por s sola, debera detonar una alerta importante.

    (8) Los informes de evaluacin y las decisiones basadas en los MVA deben incluir estimaciones

    estadsticas de error asociadas con las medidas del incremento (de puntajes) en los estudiantes as como cualquier calificacin o medicin derivada de ellas.

    Debe existir transparencia con respecto a los usos y el sistema global de evaluacin en los que los MVA estn insertados. Los informes deberan incluir la justificacin y los mtodos utilizados para estimar el error y la precisin asociada con diferentes puntuaciones del MVA. Adems, su confiabilidad de ao a ao y de grado a grado debe ser informado. Adems, cuando las puntuaciones de corte o niveles de rendimiento se establecen con la finalidad de hacer decisiones evaluativas, se deben documentar y reportar los mtodos utilizados, as como la precisin de los estimados de clasificacin. Deber justificarse la inclusin de cada indicador y el peso que se le asigna en el proceso de evaluacin.

    Los elementos del informe deben incluir: (a) una descripcin de los datos y de los controles de calidad de los datos empleados; (b) la metodologa, los modelos estadsticos, y los mtodos informticos utilizados; c) una justificacin y explicacin de cmo cada indicador se ha incorporado en el sistema de evaluacin; y d) evidencia de validez para apoyar el uso del sistema. Cuando en la elaboracin de informe se identifican problemas materiales en la utilizacin del MVA, se deben establecer procedimientos que desencadenen una revisin del sistema de evaluacin y posibles modificaciones del sistema, necesarios para su uso continuo. La produccin del reporte se puede cumplir a travs de la preparacin de un manual tcnico, un manual de aplicacin, o un conjunto de informes de investigacin. La difusin debe incluir formatos accesibles que estn ampliamente disponibles para el pblico en general, as como para profesionales.

    Conclusin

    Muchos Estados y distritos han incorporado los MVA como parte de un sistema integral para evaluar a los docentes, directores de escuelas y programas de preparacin de educadores. Existen considerables riesgos de mala clasificacin e interpretaciones errneas en el uso de los MVA para informar a estas evaluaciones. Como se detall anteriormente, la comunidad de investigacin en educacin subraya que el uso de los MVA en cualquier evaluacin debe satisfacer los requisitos tcnicos de la precisin, confiabilidad y validez. Esto incluye la atencin no slo a la validez de constructo y la confiabilidad de las evaluaciones de estudiantes, sino tambin a la confiabilidad de los resultados de los modelos de evaluacin de profesores y de programas de formacin para educadores, as como su consecuente validez. En suma, los Estados y los distritos deben aplicar las investigaciones pertinentes y los estndares profesionales que se refieren al testeo, el personal, y la evaluacin del programa antes de embarcarse en la aplicacin del MVA.

    Los estndares de la prctica en estadsticas y testeo establecen un alto nivel tcnico para la agregacin correcta de los resultados de la evaluacin de los estudiantes para cualquier

  • 7

    propsito, especialmente aquellos relacionados con el hacer inferencias sobre la eficacia del profesor, el director de una escuela, de un programa de preparacin docente. En consecuencia, la AERA recomienda que los MVA (que incluyen modelos de ganancia de puntajes de los estudiantes, modelos de transicin, modelos del crecimiento de percentiles del estudiante, y modelos de medidas de valor) no pueden ser usados sin evidencias suficientes de que se ha cumplido con el alto nivel tcnico exigido, en formas que apoyen todas las afirmaciones, argumentos interpretativos, y los usos (por ejemplo, rankings, decisiones de clasificacin). Aunque puede haber diferencias de opinin acerca de la conveniencia de utilizar los MVA para fines de evaluacin, hay un amplio acuerdo en que datos poco fiables o de mala calidad, atribuciones incorrectas, falta de evidencias de la confiabilidad o validez asociadas con puntuaciones de valor aadido y aseveraciones sin fundamento, conducen a usos indebidos que perjudican a los estudiantes y educadores.

    Por ltimo, la AERA recomienda inversiones sustanciales en la investigacin sobre los MVA, as como sobre mtodos y modelos alternativos para la evaluacin del educador y de programas de formacin docente. Hay alternativas prometedoras actualmente en uso en los Estados Unidos, que merecen atencin.12 Estos incluyen el uso de datos de observacin de la maestra13 y modelos de revisin y asistencia entre pares, los que proporcionan evaluaciones formativas y sumativas de la enseanza14 y honran el derecho al debido proceso de los docentes.15 Tambin hay investigaciones que consideran la relacin entre la prctica del educador y los resultados de los alumnos, y la relacin entre las caractersticas de los programas de formacin docente y sus resultados de rendimiento de sus graduados.16

    El valor de la evidencia alta calidad, basada en investigaciones no puede exagerarse. En definitiva, slo inferencias rigurosamente fundamentadas acerca de la calidad y la eficacia de los maestros, lderes educativos, y de los programas de preparacin de los educadores pueden contribuir a mejorar el aprendizaje de los estudiantes.

    Referencias

    American Educational Research Association. (2000). Position statement on high-stakes testing in pre-K12 education. Retrieved from http://www.aera.net/AboutAERA/AERARulesPolicies/AERAPolicyStatements/PositionStatementonHighStakesTesting/tabid/11083/Default.aspx

    American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

    American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

    Baker B. D., Oluwole J., Green P. C. III. (2013).The legal consequences of mandating high stakes

    decisions based on low quality information: Teacher evaluation in the race-to-the-top

    era. Education Policy Analysis Archives, 21(5)

    Braun H., Chudowsky N., Koenig J. (2010). Getting the value out of value-added: Report of a

    workshop. Washington, DC: National Research Council and National Academy of

    Education.

    Chiang H., Lipscomb S., Gill B. (2012). Is school value-added indicative of principal quality ?

    Cambridge, MA: Mathematica Policy Research.

    Darling-Hammond L., Meyerson D., LaPointe M., Orr M. (2010). Preparing principals for a

    changing world. San Francisco: Jossey-Bass.

    Fuller E. J., Hollingworth L. (2014). A bridge too far? Challenges in evaluating principal

    effectiveness. Educational Administration Quarterly, 50(3), 466499.

    Gansle K. A., Noell G. H., Burns J. M. (2012). Do student achievement outcomes differ across

    teacher preparation programs? An analysis of teacher education in Louisiana. Journal

    of Teacher Education, 63(5), 304317.

  • 8

    Goe L., Holdheide L. (2011). Measuring teachers contribution to student learning growth for

    nontested grades and subjects (Research & Policy Brief). Washington, DC:National

    Comprehensive Center for Teacher Quality.

    Goldhaber D. (2013). What do value-added measures of teacher preparation programs tell

    us? Palo Alto, CA: Carnegie Foundation for the Advancement of Teaching. Retrieved

    fromhttp://www.carnegieknowledgenetwork.org/briefs/teacher_prep/

    Goldring E., Grissom J. A., Rubin M., Neumerski C. M., Cannata M., Drake T.,Schuermann P.

    (2015). Make room value added: Principals human capital decisions and the emergence of teacher observation data. Educational Researcher, 44(2),96104.

    Goldstein J. (2010). Peer review and teacher leadership: Linking professionalism and

    accountability. New York: Teachers College Press.

    Grissom J. A., Kalogrides D., Loeb S. (2012). Using student test scores to measure principal

    performance. Nashville, TN: Vanderbilt University.

    Harris H. N., Herrington C. D. (Eds.). (2015). Value added meets the schools: The effects of

    using test-based teacher evaluation on the work of teachers and leaders [Special

    issue]. Educational Researcher, 44(2).

    Henry G. T., Kershaw D., Zulli R., Smith A. (2012). Incorporating teacher effectiveness into

    teacher preparation program evaluation. Journal of Teacher Education, 63(5), 335355.

    Knight S. L., Edmonson J., Lloyd G., Arbaugh F., Nolan J., Whitney E.,McDonald P.

    (2012). Examining the complexity of assessment and accountability in teacher

    education. Journal of Teacher Education, 63(5), 301303.

    Lockwood J., McCaffrey D. (2007). Controlling for individual heterogeneity in longitudinal models,

    with applications to student achievement. Electronic Journal of Statistics, 1, 223252.

    Retrieved

    fromhttp://www.rand.org/content/dam/rand/pubs/reprints/2007/RAND_RP1266.pdf

    Lockwood J. R., McCaffrey D., Hamilton L., Stecher B., Le V., Martinez J. (2007).The sensitivity

    of value-added teacher effect estimates to different mathematics achievement

    measures. Journal of Educational Measurement, 44(1), 4767.

    Newton X., Darling-Hammond L., Haertel E., Thomas E. (2010). Value-added modeling of teacher

    effectiveness: An exploration of stability across models and contexts. Educational Policy

    Analysis Archives, 18(23).

    Papey J. P., Moore Johnson S. (2012). Is PAR a good investment? Understanding the costs and

    benefits of teacher Peer Assistance and Review programs. Educational

    Policy, 26(5), 696729.

    Rothstein J. (2009). Student sorting and bias in value-added estimation: Selection on

    observables and unobservables. Education Finance and Policy, 4(4), 537571.

    Notas

    1 Vase Lockwood & McCaffrey, 2007; Rothstein, 2009. 2 Vase Harris & Herrington, 2015. 3 Esta declaracin sobre la utilizacin de los MVA y otros modelos similares para la evaluacin del educador y la evaluacin de programas, se desarrolla con base en y complementa las normas profesionales y las recomendaciones existentes. La primera es Estndares para la Evaluacin Educativa y Psicolgica (2014), en la

    que se esbozan lineamientos slidos y adecuados para el uso de tests en educacin y psicologa. Estas normas y recomendaciones son patrocinadas y respaldadas por la American Educational Research Association (AERA), la

    American Psychological Association (APA) y el National Council on Measurement in Education (NCME). Segundo, el National Research Council y la National Academy of Education publicaron un informe del taller, Obteniendo el Valor del Valor Aadido Braun et al., 2010, que plantea diversas cuestiones clave, en particular que (1) el "modelo"

    de PBI (PBI) se ha aplicado a una variedad de enfoques, que varan en sus requisitos de datos, su complejidad estadstica, y el uso de la evaluacin; y (2) hay muchas inquietudes sobre las pruebas utilizadas y los aspectos tcnicos (en particular las fuentes de sesgo e imprecisin) y cuestiones de transparencia y comprensin pblica (Braun et al., 2010). La tercera es la Declaracin de Posicin sobre las Pruebas High-Stakes en la Educacin Pre-K-12 hecha por AERA (American Educational Research Association, 2000). 4 Hay una gran variedad de modelos que agregan el incremento de puntajes de los estudiantes o Indicadores de Valor

    Aadido (MVA) para brindar cierta medida de cambio que es incorporada en la evaluacin de educadores y de los

  • 9

    programas de preparacin de educadores. La presente declaracin se refiere a todos los modelos como MVA y no aborda las distinciones entre los diferentes modelos. Estos modelos incluyen (a) Modelos basados en Ganancia de

    Puntaje (por ejemplo, incremento) o Ganancia Promedio, que simplemente agregan la diferencia en puntajes restando los puntajes previos de los puntajes actuales en las pruebas; b) Modelos basados en Transicin (o Modelos Categricos), que calculan los cambios agregados en las categoras de rendimiento durante un perodo de 2 o ms

    aos; (c) Modelos basados en Percentiles del Crecimiento de los Estudiantes (SGPs), que responden a la pregunta "Cul es el rango percentil de la puntuacin de una prueba actual de un estudiante, frente a estudiantes con historia de puntuacin similares?" y, a continuacin, evalan a los docentes sobre la base de la mediana o promedio de los

    percentiles agregados de sus estudiantes; y (d) Modelos de Valor Agregado y de Medidas Agregadas (MVA), que establecen una puntuacin esperada de la prueba actual para los estudiantes basndose en los resultados de exmenes de aos anteriores, junto con (posiblemente) otras caractersticas demogrficas de los estudiantes, el aula y

    la escuela para intentar dar cuenta del impacto de otros factores ms all de los logros estudiantiles para aislar el impacto del maestro. Cada uno de estos modelos tiene diferentes ventajas e inconvenientes que deben tenerse en cuenta al interpretar sus resultados, pero el debate est ms all del alcance de esta declaracin (vase Braun et al.,

    2010). 5 Consultar American Statistical Association, 2014. 6 Vase Chiang, Lipscomb, & Gill, 2012; Grissom, Kalogrides, & Loeb, 2012. 7 Vase Gansle, Noell, & Burns, 2012. 8 Ver Henry, Kershaw, Zulli, & Smith, 2012; Knight et al., 2012 9 Esta declaracin de condiciones, iguala y es consistente con la declaracin de posicin de la American Educational

    Research Association sobre pruebas High-Stakes en la educacin Pre-K-12, aprobada en 2000. 10 El desarrollo y uso de resultados de valor agregado (o de crecimiento) para maestros, directivos y programas de formacin de profesores, a menudo requiere diferentes medidas y mtodos de agregacin de datos y atencin a los

    errores de medicin. Diferentes MVA pueden basarse en supuestos diferentes, y el grado en que los errores de medicin son contabilizados debe ser explcitado. (Lockwood et al., 2007; Newton, Darling-Hammond, Haertel, & Ewart, 2010; Braun, Chudowsky, & Koenig, 2010). 11 Vase Fuller & Hollingworth, 2014; Goe & Holdheide, 2011. 12 Fuera de los Estados Unidos, existen enfoques alternativos para garantizar altos niveles de calidad de los directivos y maestros, que no utilizan pruebas estandarizadas (por ejemplo, Finlandia, Singapur). 13 Vase el Goldring et al., 2015. 14 Vase Goldstein, 2010; Papey & Moore Johnson, 2012. 15 Vase Baker, Oluwole, & Green, 2013. 16 Darling-Hammond, Meyerson, LaPointe, & Orr, 2010; Goldhaber, 2013.