Comision Simce Anexo1 Valverde

42
ANEXOS L A E XPERIENCIA I NTERNACIONAL EN S ISTEMAS DE MEDICIÓN: E STUDIO DE CASOS MARGARET FORSTER GILBERT A. VALVERDE Comisión para el Desarrollo y Uso del Sistema de Medición de la Calidad de la Educación DICIEMBRE 2003

description

jb

Transcript of Comision Simce Anexo1 Valverde

  • ANEXOS

    LA EXPERIENCIA INTERNACIONALEN SISTEMAS DE MEDICIN:

    ESTUDIO DE CASOS

    MARGARET FORSTERGILBERT A. VALVERDE

    Comisin para el Desarrollo y Uso del Sistemade Medicin de la Calidad de la Educacin

    DICIEMBRE 2003

  • La Experiencia Internacional en Sistemas de Medicin:Estudio de Casos

    Comisin para el Desarrollo y Uso del Sistema de Medicinde la Calidad de la Educacin

    ISBN 956-292-081-XMinisterio de Educacin, Repblica de Chile

    Alameda 1371, Santiagowww.mineduc.clDiciembre 2003

  • PRESENTACIN

    La Comisin para el Desarrollo y Uso del Sistema de Medicin de la Calidad de la Educacinrecibi entre sus encargos recopilar insumos que permitan conocer los modelos de sistemasde medicin que se estn utilizando en diferentes pases, y cules son los beneficios y proble-

    mas que se asocian a dichos modelos. Ello, con el fin de rescatar aquellos aspectos que seconsideren adecuados para ser incorporados de acuerdo a la realidad de nuestro pas.

    Nace as la iniciativa de contar con dos consultores internacionales expertos en el rea demedicin a nivel de sistemas educativos. Ellos seran los encargados de entregar informacinpara que las recomendaciones de la Comisin tuvieran en cuenta los inconvenientes y solu-

    ciones que se han encontrado en otros pases del mundo.

    Para cumplir con esta tarea, la Comisin cont con el apoyo de Margaret Forster investiga-

    dora del Consejo Australiano para la Investigacin Educativa (Australian Council forEducational Research, ACER) y de Gilbert Valverde investigador de Albany, UniversidadEstatal de Nueva York.

    El trabajo realizado por estos expertos fue dado a conocer en el Seminario Internacional sobreSistemas de Medicin y Uso de Resultados1, en el que participaron como expositores. Losprincipales planteamientos presentados en dicho seminario fueron completados y

    profundizados en documentos elaborados especialmente para la Comisin. Estos documen-tos son Assessment systems: two case studies, de Margaret Forster y La poltica en evaluaciny currculo ante el desafo de la calidad, de Gilbert Valverde.

    A continuacin, se presentan dichos documentos, ellos constituyen los anexos que acompa-an al documento Evaluacin de Aprendizajes para una Educacin de Calidad, elaborado porla Comisin.

  • NDICE

    PRESENTACIN 05

    LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD 09G. VALVERDE

    Introduccin 11

    TENDENCIAS MUNDIALES EN LA OPERACIONALIZACIN DE CRITERIOS DE CALIDAD 13

    Fijando criterios para la evaluacin de la calidad 15

    ESTUDIO DE CASOS 19Pases Bajos 21

    Una prueba longitudinal del aprendizaje para monitorear 22

    el impacto de polticas

    Un modelo mixto y voluntario de pruebas de egreso en 23

    educacin primaria

    Un modelo mixto y obligatorio de pruebas de egreso de 23

    educacin secundaria

    Estado actual de la discusin 24

    Dos casos en los Estados Unidos 26

    Nueva York 29

    Perfil general del sistema de evaluacin actual 29

    Sistema actual de pruebas de egreso 31

    Sistema de responsabilizacin 32

    Tennessee 34

    Perfil general del sistema de evaluacin actual 34

    El sistema de evaluacin del valor agregado 35

    Algunas lecciones ilustradas por los casos 37

    Obras Consultadas 39

    ASSESSMENT SYSTEMS: TWO CASE STUDIES 45M. FORSTER

    Executive summary 47

    Background 51

    Introduction 52

  • CASE STUDY 1: WESTERN AUSTRALIA (WALNA & MSE) 55

    Contextual features 57

    Geographic, demographic, economic, political and religious context 57

    Responsibility for schooling in Australia 58

    Provision of schooling in Australia 59

    Funding for schooling in Australia 60

    Common and agreed national goals for schooling in Australia 65

    The Provision of schooling in Western Australia 66

    Student intake 67

    Funding 68

    Systemwide assessment 69

    Different programs for different purposes 69

    WALNA 70

    MSE 73

    Educational impact: positives 75

    System level monitoring 75

    School level: use of results and acceptance of program 77

    Educational impact: concerns 88

    CASE STUDY 2: ENGLAND (NATIONAL CURRICULUM ASSESSMENT) 93

    Contextual features 95

    Geographic, demographic, economic, political and religious context 95

    Responsibility for schooling in England 95

    The provision of schooling in England 96

    Funding for schooling in England 96

    Agreed goals for schooling in England 98

    Changed processes of school management 99

    Target setting 100

    Student intake 100

    Funding 105

    Systemwide assessment 107

    Educational impact: positives 109

    System level monitoring of standards and initiatives 109

    School level use of results 109

    What evidence is there that these strategies have improved student learning? 115

    Educational impact: concerns 117

    Final reflections 121

    References 122

    Useful websites 123

  • LA POLTICA EN EVALUACINY CURRCULO ANTE EL DESAFO

    DE LA CALIDAD

    GILBERT A. VALVERDE, PH.D.COMPARATIVE AND INTERNATIONAL EDUCATION POLICY PROGRAM

    UNIVERSITY AT ALBANYSTATE UNIVERSITY OF NEW YORK

    INFORME ELABORADO PARA LA COMISIN DE DESARROLLO Y USO DEL SISTEMADE MEDICIN DE LA CALIDAD DE LA EDUCACIN

    ALBANY, NEW YORK

    Tendencias mundiales y casos de losPases Bajos y los Estados Unidos

  • 11LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    INTRODUCCIN

    Por encargo de la Comisin de Desarrollo y Uso del Sistema de Medicin de la Calidad de laEducacin, se ha preparado este informe que complementa la presentacin pblica ofrecidapor el autor en Santiago de Chile, su testimonio a la Comisin, y los materiales presentados

    a la misma en su sede en el Consejo Superior de Educacin.

    El presente informe ha sido elaborado en funcin de los trminos de referencia, donde seencomienda la preparacin de un documento que presente dos o ms casos de sistemas deevaluacin en el mbito mundial. Estos casos han sido escogidos por su pertinencia para

    ilustrar desafos, fortalezas y falencias en sistemas de evaluacin contemporneos que mere-cen la atencin de la Comisin en sus deliberaciones. Se ha procurado cubrir los detallesadministrativos y tcnicos que ha solicitado la Comisin en sus trminos de referencia, enfo-

    cando aquellos aspectos ms tiles para ilustrar puntos relevantes para el debate.

    Para este propsito se han seleccionado tres casos: el sistema de evaluacin de los Pases Bajos,

    y los casos de dos estados de los Estados Unidos: New York y Tennessee. Los casos se hanseleccionado para ilustrar importantes desafos en la institucionalizacin de sistemas de eva-luacin, el surgimiento de debates en torno de la necesidad de operacionalizar criterios decalidad curricular en sistemas de medicin, la preocupacin por determinar el papel relativo

    de la medicin del logro acadmico en contraste con el aprendizaje en el tiempo, y la confor-macin de sistemas de responsabilizacin basados en criterios de calidad curricularmonitoreados por sistemas de pruebas.

  • TENDENCIAS MUNDIALESEN LA OPERACIONALIZACINDE CRITERIOS DE CALIDAD

  • 15LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    FIJANDO CRITERIOS PARA LA EVALUACIN DE LA CALIDAD

    Si no existen exmenes, hasta el mejor sistema educativo fallar sin remedioy no surtir efecto. Pero si se introduce un examen,

    todo los efectos deseados se sucedern sin mayores esfuerzos.

    Prof. Justus Liebig de Giessen, 1830 (citado por Foden, 1989)

    La evaluacin sistmica en el mundo contemporneo revela una compleja interrelacin defuerzas polticas y tcnicas que surgen tanto desde el interior de los sistemas educativos comode la influencia de factores externos, nacionales y transnacionales1. Ciertamente uno de los

    aspectos de la poltica educativa en Europa en el Siglo XIX fue la preocupacin por la relacinentre las evaluaciones y los aprendizajes de los estudiantes. Desde esa poca (dos ejemplosimportantes son Alemania e Inglaterra) prevaleci la opinin de que para lograr buenos resul-

    tados en las escuelas es necesario motivar a estudiantes y profesores, y que competir puedemejorar la motivacin y el aprendizaje; y que, por consiguiente, los exmenes son un medionecesario y eficaz de aumentar los niveles de logro y asegurar la competitividad nacional.

    En el mbito mundial ciertamente han cambiado algunas ideas acerca del valor de la compe-tencia para mejor la calidad de los logros, pero la relacin entre evaluaciones del sistema y elaumento de la calidad del sistema sigue siendo de muchsimo inters. Es por ello que en gran

    parte del mundo, aun cuando los sistemas de evaluacin del sistema educativo pueden serimplementados por distintos agentes externos o internos (Ministerios, entes autnomos, lasmismas escuelas o distritos escolares), los criterios a evaluar son fijados por autoridades cen-

    trales del sistema.

    En Blgica, por ejemplo, los criterios a evaluar (assessment frameworks) son diseados por

    equipos en los que participan por igual investigadores educativos, el cuerpo oficial de inspec-tores escolares, y el Ministerio de Educacin. En Canad, un sistema federal, el proyectonacional de indicadores de logro (SAIP - parte de un acuerdo entre los ministros de educa-

    cin de cada provincia. En Espaa, el Instituto Nacional de Calidad y Evaluacin fija loscriterios usando de referencia la legislacin espaola en educacin, y los currculos fijados encada una de las comunidades autnomas. Alemania es otro sistema ostensiblemente descen-

    tralizado, donde tradicionalmente cada Lnder crea e implementa su propia poltica educa-tiva. Sin embargo, los Lnder tienen ellos mismos Ministerios de Educacin muy centraliza-dos y por toda Alemania existe un alto nivel de consenso acerca de los parmetros de evalua-

    cin. Esto se debe en gran parte a la naturaleza y el prestigio de la profesin docente en

    1 Existen varias fuentes que resean tendencias actuales en la evaluacin que se han consultado para este breve reporte. Ver: (Bloom 1961; Madaus and Kellaghan1991; Eurydice European Unit 2001; Kangasniemi and Takala 1995; Timar 1997; Hrner 1981; Ramirez and Ventresca 1992; McLean and Voskresenskaya 1992;Cuban 1993; Britton and Raizen 1996; Bottani 1994; Broadfoot 1979, 1994; Foden 1989; Fowler, Boyd, and Plank 1993).

  • 16 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Alemania. Son los mismos docentes los encargados de escribir y evaluar el examen nacionalpre-universitario (Abitur) y la sociedad alemana confa en el profesionalismo de los docentes.

    Las normas de evaluacin en Alemania -dada la alta homogeneidad en normas profesionalesde Lnder en Lnder- varan muy poco. Suecia logra una definicin nacional de criterios deevaluacin que no depende de la profesin docente, como el caso alemn, sino que el Minis-

    terio de Educacin fija un currculo nacional obligatorio y produce los exmenes nacionalesasociados a ese currculo. Aun en naciones en donde el sistema de evaluacin es mayormenteinterno y no externo, los criterios de evaluacin suelen ser fijados en ministerios u otras

    autoridades macro sistmicas semejantes -tal es el caso de los Pases Bajos, que se revisar en lasiguiente seccin de este informe. El recuadro siguiente ejemplifica algunas de las estructurasde desarrollo y de toma de decisiones acerca de los criterios de evaluacin en la evaluacin

    sistmica.

    La especificacin de criterios de evaluacin en la actualidad mundial supone operacionalizarcriterios de calidad para el sistema educativo -que es una de las funciones principales de lo

    que se ha llegado a llamar estndares en el mundo de la poltica curricular3 y es el funda-mento de la relacin propuesta entre evaluacin y calidad educativa. En Europa este tipo deoperacionalizacin prevaleci tradicionalmente en sistemas de certificacin de estudios pri-

    marios o secundarios -tambin llamadas pruebas de promocin o egreso. Como se puede veren el ejemplo a continuacin, existe considerable variacin en trminos de cmo se evalanlas pruebas, pero las autoridades centrales son casi siempre responsables por fijar los criterios

    a evaluar.

    2 Fuentes: (Ministre de la jeunesse 2003; National Assessment Governing Board 2003; Qualifications and Curriculum Authority 2003; Undervisnings Ministeriet2003)

    3 Ver: (Apple 1992; Archbald 1997; Atkin 1994; Bruner and Greenlee 2002; Cohen, Kane, and Crooks 1999; Coley and Goertz 1990; Husn and Tuijnman 1994;Loveless 1994; McLeod et al. 1996; Porter, Smithson, and Osthoff 1994; Tucker and Codding 1998)

  • 17LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    En los estudios de caso que siguen en la prxima seccin se ver en detalle cmo tres sistemas

    educativos especifican criterios de calidad para propsitos de evaluacin -y cmo estos crite-rios se articulan en un sistema de responsabilidades referentes al monitoreo de la calidad encada caso. Las tendencias mundiales claramente sealan un creciente inters por especificar

    operacionalmente criterios de calidad y por alinear los sistemas de evaluacin de acuerdo aestos criterios. Esto ha llevado al aumento de mediciones referidas a dominios (tambin lla-mados pruebas referidas a criterios) en donde los dominios son los criterios de calidad

    curricular. Esto a llevado a muchos pases a fijar su atencin en aspectos evaluativos comoescalas verticales de desempeo, la medicin del aprendizaje en contraste con la medicin dellogro, y la creacin de sistemas de evaluacin. Pero las formas especficas que toman estas

    decisiones son sumamente diferentes de pas en pas. Para apreciar los detalles de las estructu-ras de autoridad y responsabilidad poltica y tcnica por el monitoreo de la calidad educativa,procederemos a considerar en detalle ejemplos de los pases Bajos y los Estados Unidos.

  • ESTUDIO DE CASOS

  • 21LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    PAISES BAJOS

    Es en Europa Occidental donde tienen sus orgenes los sistemas contemporneos de pruebasestandarizadas para la toma de decisiones. En Prusia se introducen pruebas de seleccin parael servicio civil en 1748 y en Francia se administran en 1793 pruebas de virtud cvica para

    conferir licencias para ensear en las escuelas pblicas. La evaluacin del logro escolar co-mienza en Alemania y Francia, con las pruebas de final de secundaria (Abitur en 1788 yBaccalaurat en 1808) y pronto comienzan a evolucionar distintos modelos de sistema de

    evaluacin en toda Europa.4

    Gran parte de los comentaristas y especialistas en la evaluacin educativa tienden a poner

    mayor atencin en los sistemas nacionales de evaluacin externa altamente centralizados enEuropa, como Francia, o en aquellos sistemas europeos en los que tradicionalmente la evalua-cin sumativa es responsabilidad de las escuelas, y en que el control externo consiste en un

    inspectorado que se preocupa por asegurar que las escuelas sigan ese procedimiento, porejemplo Blgica. Pero existe un nmero importante de sistemas que tienen una combinacinde instrumentos externos e internos que han existido por mucho tiempo, como en Alemania

    y el Reino Unido, o que son de reciente evolucin, como Dinamarca y los Pases Bajos5.

    Los Pases Bajos representan un caso intrigante de especial inters como ejemplo de un passin la larga tradicin de evaluaciones externas centralizadas (como Francia) o descentralizadas

    (como Alemania). Su historia en evaluacin es ms bien reciente, y representa una paulatinapreocupacin por operacionalizar criterios de calidad educativa y por monitorear su cumpli-miento. Tambin se destaca por el arreglo institucional de la evaluacin externa. sta se en-

    cuentra en una institucin autnoma formada por el Estado holands, responsable ante elMinisterio de Educacin, pero formando una institucin aparte de ella.

    Los Pases Bajos tienen una poblacin pequea (15.892.237 habitantes en 2002) y, actual-mente, su sistema educativo involucra aproximadamente a 1.6 millones de estudiantes enms de 7.000 escuelas de educacin primaria y 872.100 estudiantes en cerca de 650 escuelas

    de educacin media. La tasa de participacin escolar de los grupos de edad correspondientesexcede el 100% en ambos niveles. La educacin es obligatoria y garantizada por el Estadodesde la edad de los cinco aos hasta los diecisis -aunque la mayora de los nios comienza

    su educacin a los cuatro aos. En educacin primaria se gasta un promedio de 5.200 porestudiante y alrededor de 6.000 en educacin secundaria. El gasto en educacin representaun 5,1% del presupuesto pblico. El ao escolar comienza el primer da de agosto y acaba el

    31 de julio del ao siguiente.

    4 Ver: (American Federation of Teachers and National Center for Improving Science Education 1994, 1994; Noah and Eckstein 1992; Britton and Raizen 1996;Marlow-Ferguson 2002; Eurydice European Unit 2001)

    5 Ver: (Broadfoot 1994, 1979; Madaus and Kellaghan 1991; The British Council 1988)

  • 22 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Diversas fuentes retratan la historia de la evaluacin en los Pases Bajos6 como una cautelosay paulatina adopcin de prcticas de evaluacin externa que comenz con una diversidad de

    pilotos e investigaciones en la dcada de 1970. Un nmero de comentaristas aseguran que elEstado holands confront resistencia por parte de las escuelas y otros actores del sistema, yque anticip an mayor resistencia si se proceda con rapidez. De tal modo que pas ms de

    una dcada de pilotos y esfuerzos modestos hasta que se llega a crear una institucin autno-ma, denominada el Instituto Nacional para la Medicin Educativa (Instituut voorToetsontwikkeling - conocido como CITO).

    CITO comenz su trabajo ejecutando evaluaciones diagnsticas para la educacin primaria.Desde su fundacin, CITO (ahora CITOGroep) se convirti en unas de las instituciones

    ms reconocidos en el mundo en el mbito de la evaluacin educativa. Reconocimiento quese manifiesta en su constante desarrollo de instrumentos y servicios para el mundo entero yen el ejercicio de un fuerte liderazgo en asociaciones mundiales de instituciones autnomas y

    compaas de evaluacin (por ejemplo en el Internacional Association for EducationalAssessment, IAEA).

    Una prueba longitudinal del aprendizaje para monitorear el impacto de polticas

    En la actualidad la evaluacin externa se ha afianzado como un instrumento til para la

    administracin del sistema educativo holands. Adems de continuar su trabajo en evaluacio-nes de tipo diagnstico y muestral, CITO tambin tiene pruebas de egreso para educacinprimaria y secundaria. Cuenta tambin con exmenes de certificacin para la educacin tc-

    nica vocacional y una variedad de instrumentos diagnsticos que comercializa en el mundoentero. Pero adems de estos exmenes de logro, CITO maneja para el Estado holands unsistema de monitoreo longitudinal llamado PRIMA. Este sistema rastrea cohortes sucesivas

    de 60.000 estudiantes en 700 escuelas con el fin de medir su aprendizaje (diferencias enniveles de logro en grados sucesivos). PRIMA tiene sus orgenes en los esfuerzos holandesespor evaluar varios programas para terminar con el rezago educativo de grupos minoritarios.

    Estas polticas, denominadas Polticas de Prioridades Educativas en la dcada de 1980,requeran de observar cambios en el tiempo y el modelo de evaluacin incluy un compo-nente longitudinal. Las ventajas que demostr el monitoreo longitudinal de los cambios en

    los logros de un cohorte de estudiantes, result en la institucionalizacin de este tipo deevaluacin en PRIMA como un esfuerzo nacional complementario a estudios de logro detipo corte transversal.

    En cuanto a este ltimo tipo de instrumentos, los ejemplos ms interesantes son las pruebas deegreso de educacin primaria y secundaria, que pretenden medir el logro acumulado a final de

    cada nivel de educacin. En ambos casos, el modelo holands es mixto, es decir, es una combi-nacin de un sistema externo que maneja CITO, y un sistema interno a cargo de cada escuela.

    6 Ver: (Kloprogge 1991; Luijten 1991; Cito groep 2003)

  • 23LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Un modelo mixto y voluntario de pruebas de egreso en Educacin Primaria

    La prueba de final de primaria de CITO (Eindtoets Basisonderwijs) es completamente vo-luntaria. Cada escuela es libre de usar la prueba o no. En la actualidad CITO estima que 83por ciento de las escuelas primarias del pas participan. Estas pruebas funcionan no nica-

    mente para certificar la educacin primaria, sino como prueba de seleccin para los tres tiposde educacin secundaria que existen actualmente en los Pases Bajos. Las escuelas que nousan la prueba de CITO tpicamente usan alguna prueba de inteligencia o de logro desarro-

    llado por alguna entidad comercial o alguna agencia educativa. Alrededor de 10 por ciento delas escuelas primarias no utilizan prueba externa alguna, y por lo general son escuelas en losque todos los estudiantes proceden al mismo tipo de educacin secundaria, el VMBO, que es

    el sistema educativo de orientacin general prevocacional.7

    La prueba de educacin bsica es relativamente corta y no pretende evaluar todo el currculo -

    consta de cuatro secciones: aritmtica, lenguaje, manejo de datos y estudios ambientales (lasescuela tienen libertad de omitir la seccin de estudios ambientales). Cada seccin consta de 60reactivos de seleccin mltiple. CITO proporciona dos tipos de informe a las escuelas relativos

    a su participacin: un informe acerca de la escuela, que compara el desempeo promedio de losestudiantes con el promedio de todas las escuelas que participan en la prueba, y otro informepor estudiante que tambin compara su desempeo con respecto a su escuela y con respecto alos promedios en escuelas similares.

    Un modelo mixto y obligatorio de pruebas de egreso de Educacin Secundaria

    El sistema de pruebas de egreso de la educacin secundaria es tambin mixto, pero no decarcter voluntario. La evaluacin externa manejada por CITO representa un 50% de la nota

    final de cada materia, siendo la escuela responsable de determinar un sistema interno paraadjudicar el 50% de la nota que le corresponde. Los temarios para las pruebas externas,aunque implementados por CITO, son responsabilidad del Ministerio de Educacin. Las

    escuelas pueden evaluar sus propios objetivos (no necesariamente parte del temario del Mi-nisterio) en la evaluacin que corresponde al 50% de evaluacin interna.

    Las pruebas externas se hacen durante dos semanas en mayo, y existe una prueba por cadamateria de la secundaria. Los reactivos suelen ser una mezcla de preguntas de seleccin ypreguntas abiertas. Las preguntas abiertas son corregidas por dos docentes, uno es el docente

    del alumno, y otro docente de otra escuela. Las preguntas abiertas suelen constituir un por-centaje mayor en las pruebas que se hacen en las secundarias acadmicas de preparacin para

    7 La educacin secundaria en los Pases Bajos consta de diferentes opciones, para las cuales las pruebas de CITO sirven como criterio de seleccin. A partir de lasreformas de 1999 se cuenta con 3 opciones: VMBO es educacin prevocacional, HAVO es secundaria general y VWO es secundaria acadmica de preparacinuniversitaria, a su vez dividida en 3 tipos de escuelas: athenum, gymnasium o lyceum que se diferencian principalmente por su currculum en los clsicos.

  • 24 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    la universidad, siendo menos frecuentes en las pruebas para las secundarias tcnico-vocacio-nales. Las pruebas internas siguen el calendario que fija la escuela, sin necesidad de confor-

    marse a un calendario nacional.

    Todos los informes dirigidos a las escuelas y estudiantes del sistema externo son manejados por

    CITO de manera confidencial -ni escuelas ni estudiantes reciben informes del Ministerio.

    Estado actual de la discusin

    El sistema de evaluacin externo de la educacin en los Pases Bajos tiene una historia breve

    en comparacin con algunos de sus vecinos en Europa Occidental. Al principio hubo algunaoposicin y el Estado holands previ que proceder lentamente podra evitar aun mayoroposicin. Tal parece que la poltica fue acertada puesto que ahora en los Pases Bajos existe

    una aceptacin general de los beneficios de las evaluaciones externas, y gran confianza en susresultados. Aun ms notable, parece haber demanda por el tipo de informacin que ofrecepor parte del pblico.

    La autonoma de CITO parece haber contribuido a la superacin de la resistencia original ala evaluacin externa. Al recibir informes confidenciales de un organismo autnomo, perci-bido como una institucin de gran profesionalismo, el pblico y las escuelas holandesas pare-

    cen dispuestos a reconocer su legitimidad.

    Recientemente es aun ms notable el cambio de actitud con respecto a la evaluacin externa.

    Al principio hubo resistencia a las pruebas externas pero en la actualidad ms bien hay dudaacerca de la evaluacin interna. En recientes debates se ha interpelado el 50 por ciento de lanota de secundaria que se asigna mediante evaluaciones internas. Se argumenta que las prue-

    bas externas tiene referentes de calidad educativa (fijadas por el temario del Ministerio) cla-ros, y el significado de los mismos est abierto al escrutinio pblico. En cambio las pruebasinternas no son tan transparentes. De este modo, se ha sugerido recientemente que los infor-

    mes de educacin secundaria reporten por separado los resultados en cada evaluacin -cosaque hasta hoy en da no sucede. Claramente el pblico y mucho decisores de polticas en losPases Bajos demandan el tipo de informacin que una operacionalizacin transparente de

    criterios de calidad puede ofrecer.

    El sistema de evaluacin holands es por tanto un interesante caso de sistema de altas conse-

    cuencias. Ciertamente el desempeo de los estudiantes en las pruebas de primaria tiene altasconsecuencias para la mayora de los estudiantes (de hecho, tienen dos oportunidades parapasarlas y si no lo hacen, deben optar por un tipo de educacin secundaria de menor deman-

    da acadmica). En el caso de la educacin, las pruebas son tambin de altas consecuencias,ahora para todos los estudiantes. Sin embargo, las altas consecuencias contrapesan deman-

  • 25LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    das externas e internas. Es precisamente la transparente operacionalizacin de los criteriosque ofrece la prueba externa, para pasar de la ecuacin secundaria, lo que ha llevado a recien-

    tes consideraciones de las bondades de aclarar lo que aporta.

    En los Pases Bajos tambin se ha desarrollado un sistema de monitoreo del aprendizaje, es

    decir, un sistema que rastrea, grado por grado, los aumentos en los logros de una muestranacional de estudiantes de primaria. Esta evaluacin longitudinal ha evolucionado como unsistema importante para monitorear los progresivos aportes de distintos programas y polticas

    educativas. De nuevo, el sistema holands da muestra de una sociedad que ha pasado de unasuspicacia por la bondades de la evaluacin externa, a un sistema que ms bien la demandapara propsitos especficos de monitoreo y definicin de criterios de calidad.

  • 26 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    DOS CASOS EN LOS ESTADOS UNIDOS

    El sistema educativo de los EEUU es en realidad un complejo de mltiples subsistemas . LaConstitucin poltica no asigna responsabilidades al Estado federal por la educacin, lo queconlleva, por norma constitucional, a que este se considera responsabilidad de cada estado.

    Los estados, en materia de educacin pblica, delegan la responsabilidad por la educacin adistritos escolares de los cuales existen alrededor de 16,000 en todo el pas. Los distintossistemas de educacin privada incluyen alrededor de 30,000 escuelas adicionales. Las edades

    de obligatoriedad de estudios varan de estado en estado, y a veces al interior del mismoestado. Sin embargo, a la edad de 6 aos el 100% de los nios asisten a la escuela - y tpica-mente deben hacerlo hasta los 16 o 17 aos de edad. En la actualidad alrededor de 24 millo-

    nes de estudiantes (102 % del grupo etreo relevante) estn enrolados en la educacin prima-ria, y 21 millones (97 % del grupo etreo relevante) en la educacin secundaria.

    Hablar de los sistemas de evaluacin en los EEUU necesariamente requiere simplificar unarealidad muy compleja. Para propsitos de este breve informe, interesa concentrar la atencinen el captulo ms reciente de la historia de la evaluacin estadounidense, que data de 1983

    con la publicacin de un informe de la Comisin Nacional Sobre la Excelencia en la Educa-cin intitulado Una Nacin en Riesgo . Este informe, con su clara descripcin sobre ladeficiente calidad de la educacin en los EEUU inaugur un debate nacional sobre la polticacurricular en general, y las polticas especficas referentes a los estndares y la evaluacin, que

    an es vigente veinte aos despus.

    A medida que avanz la discusin nacional, se logr un consenso nacional en que el mayor

    desafo que enfrentan los estados es lograr que los estudiantes aprendan a niveles superiores.Tambin existe amplio acuerdo en que el logro de tales objetivos requiere de asignar respon-sabilidades a diversos actores para hacer esta meta posible. Asimismo, se logr un consenso

    bastante generalizado sobre la necesidad de fijar mecanismos para velar por el cumplimientode esas responsabilidades. Para lograr la reforma de la calidad de la educacin estadouniden-se, prevalece el criterio de que hace falta operacionalizar una visin clara de lo que el sistema

    educativo busca en trminos de la calidad de los resultados de la educacin. Desde esta pers-pectiva, se volvi evidente la necesidad de contar con un sistema para medir el cumplimientode esa visin - y quizs el aspecto ms clave, se reconoci la importancia de asumir un com-

    promiso explcito de actuar de acuerdo a los resultados de las mediciones. Estos son las pie-dras angulares que fundamentan los sistemas de responsabilizacin que actualmente operanen los EEUU8.

    El consenso acerca de formular una visin estatal de los criterios de calidad ha llevado al pasa una situacin en que todos los estados (con la excepcin de Iowa) han fijado estndares de

    contenido. Todos los estados pretenden contar con un sistema de evaluacin alineado con sus

    8 Se usar en este documento el trmino Sistemas de Responsabilizacin como traduccin al castellano de la frase inglesa accountability system, ya que el autorconsidera que la traduccin ms utilizada sistema de rendicin de cuentas, al acentuar nicamente los aspectos de fiscalizacin de estos sistemas, deja a un ladoque accountability pretende ser un sistema de mutuas responsabilidades y compromisos de accin.

  • 27LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    estndares, que tiene el fin de monitorear su implementacin. Pero existe diversidad en lascaractersticas especficas de los sistemas de polticas de responsabilizacin -tantos como esta-

    dos que los tienen. Sin embargo se puede hablar de algunas tendencias comunes importantes.

    Primero, la necesidad de conformar sistemas de evaluacin que monitoreen la implementacin

    de estndares ha hecho que los sistemas de evaluacin estatales hayan optado en su mayorapor un modelo de evaluacin edumtrico en preferencia al legado psicomtrico tradicional.De tal modo, 44 de los 50 estados actualmente utilizan pruebas referidas a criterios, aunque

    en algunos tambin subsisten algunos instrumentos referidos a normas. La preocupacin pormodelos edumtricos tambin ha llevado a los estados a buscar nuevas formas de medicin,incluyendo pruebas de desempeo y el uso de portafolios a nivel estatal (por ejemplo Kentucky

    y Vermont).

    Otra tendencia, ms controversial pero en aumento, es la asignacin de altas consecuencias

    para los estudiantes por los resultados de las pruebas. Esto es particularmente notable en laaparicin de pruebas de egreso de secundaria - evaluaciones que un estudiante debe aprobarpara recibir la credencial de secundaria. En la actualidad existen 13 estados con este tipo de

    prueba, pero un nmero de estados ya ha pasado leyes para implementar este tipo de pruebasa lo largo de esta dcada, de tal modo en el ao 2006 habr 20 estados con pruebas obligato-rias de este tipo, y en el 2008 habr 249.

    Ciertamente los sistemas de pruebas con altas consecuencias son controversiales y se hanencontrado con resistencia. Sin embargo, la resistencia parece haber sido superada en algunoscasos mediante estrategias similares en muchos estados. Primero, prevalece la idea que este

    tipo de sistemas debe de cuidarse de tomar decisiones que afecten a los estudiantes basndoseen una sola fuente de evidencia. De tal modo que en algunos estados el resultado de pruebasse une a las notas obtenidas por los estudiantes y otras evidencias. En otros estados la resisten-

    cia ha sido superada dando a los estudiantes ms de una oportunidad para aprobar las prue-bas. En el caso de Massachussets, donde un estudiante tiene 5 oportunidades para pasar laprueba de ingreso, se ha demostrado que su efecto es de aumentar la equidad del sistema.

    El costo de los sistemas de evaluacin vara mucho de estado en estado, y es difcil de compa-rar con la situacin de los estados nacionales en Amrica Latina. Los estados en los EEUU no

    retienen la responsabilidad de financiar la educacin pblica. Los estados delegan esa respon-sabilidad y la autoridad impositiva correspondiente a los distritos escolares. El estado tienefunciones reguladoras y compensatorias (el sistema de financiamiento basado en impuestos a

    la propiedad delegado a distritos ha probado ser recalcitrantemente inequitativo y es un mo-delo del cual los sistemas educativos no se han podido, en su mayora, desembarazar) y laevaluacin se financia dentro de ese marco. En el ao 2000 se calcula que los estados gastaron

    alrededor de 400 millones de dlares en sus sistemas de evaluacin. Algunos estados diseany ejecutan sus propias pruebas, otros establecen trminos de referencia para pruebas queluego son adjudicadas a compaas mediante concursos de oposicin. El CCSSO (Council of

    9 Existen varias fuentes que resean tendencias actuales en la evaluacin estatal que se han consultado para este breve reporte (AERA 2000; Blank and Schilder 1991;Bruner and Greenlee 2002; Cantlon, Rushcamp, and Freeman 1991; Coley and Goertz 1990; Fuhrman, Elmore, and Massell 1993; Gamoran 1997; Lane andStone 2002; Massell 1994; McGehee and Griffith 2001; Mills 1994)

  • 28 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Chief State School Officers - una organizacin a la que pertenece el equivalente del ministrode educacin de cada estado) calcula que los estados que hacen sus propias pruebas gastan

    alrededor de 25 a 50 dlares por estudiante en sus sistemas de medicin, y que los quecontratan estos servicios a compaas gastan entre 5 y 15 dlares por estudiante.

    En las agendas estatales en materia de evaluacin tambin se encuentra la necesidad de deter-minar cules son las definiciones apropiadas de logro - especialmente en aquellos sistemasdonde existen consecuencias para las escuelas. Hay necesidad de aclarar qu importancia

    tendr el estatus y qu importancia tendr el progreso o mejoramiento.

    Por estatus se entiende el desempeo que se evidencia en una prueba administrada en un

    nico punto en el tiempo. Por progreso o mejoramiento se entiende la diferencia en ellogro que se evidencia en dos o ms pruebas administradas de un grado a otro. Existen argu-mentos de consideracin a favor de cada uno. Ciertamente el argumento principal a favor de

    hacer responsables a las escuelas por el estatus -un criterio estandarizado para todas lasescuelas- es que promueve la idea que los estndares son y deben ser altos para todos losestudiantes sin distincin y que a las escuelas se les har responsables por hacer que se cum-

    plan con todos los estudiantes. El argumento principal a favor del uso de la medicin delprogreso es que se reconoce de este modo que los indicadores de logro estn contaminadospor factores extra-escolares como, por ejemplo, las caractersticas de las familias y las comuni-dades de donde proceden los estudiantes. De tal modo que la medicin del progreso reconoce

    que distintas escuelas atienden a distintas poblaciones.

    Tanto las razones para medir el logro como las razones para medir el progreso, son vlidas. El

    resultado es que los estados muchas veces hacen ambas cosas y los indicadores de logro yprogreso tienen distinto uso en sus sistemas de responsabilizacin.

    En las siguientes secciones trataremos de dos sistemas estatales en mayor profundidad, parailustrar cmo enfrentan los desafos que hemos descrito en forma general. Los casos sern losestados de New York y Tennessee. El caso de New York se usar para ilustrar un sistema de

    pruebas de egreso y un sistema de responsabilizacin de escuelas que da mayor peso a estndaresabsolutos (logro). El caso de Tennessee se usar para ilustrar un sistema que privilegia indicadoresde progreso, y en donde el sistema de responsabilizacin baja al nivel de la sala de clases.

  • 29LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    NEW YORK10

    PERFIL GENERAL DEL SISTEMA DE EVALUACIN ACTUAL

    GRADOS Y DISCIPLINAS EVALUADAS

    Los dos instrumentos principales del sistema de evaluacin del estado son el New York State AssessmentProgram (NYSAP) y los Regents Comprehensive Examinations.

    Los grados y disciplinas que evala el NYSAP son los siguientes:

    4: Ingls, matemticas, y ciencias naturales

    5: Estudios sociales

    8: Ingls, matemticas, estudios sociales y ciencias naturales

    En el caso de los Regents, estas pruebas se rinden al concluir cada curso al que estn asociados, y por lotanto se hacen a lo largo de la educacin secundaria.

    MEDICIN Y MUESTREO

    Tanto las pruebas del NYSAP como los Regents estn referidos a criterios y estn alineadas con losestndares del Estado. Todas las aplicaciones de estas pruebas son censales, ya que su sentido es proporcio-nar un informe individualizado por estudiante. Todas las pruebas utilizan una variedad de reactivos,incluyendo de seleccin mltiple, de respuesta abierta corta, de ensayo, etc. -aunque la proporcin detipos de reactivo vara mucho de prueba en prueba. Las pruebas utilizan una escala vertical que reporta eldesempeo de estudiantes de acuerdo a progresivos niveles de rendimiento referenciados a los estndares.Por ello la alineacin de las pruebas con los estndares del estado se considera sumamente importante y elestado utiliza paneles de jueces expertos (incluyendo la participacin de docentes experimentados) parajuzgar en el caso de todas las pruebas si estn alineados con los estndares. En el caso de las pruebas de losRegents, esto paneles deben juzgar adems si los instrumentos son apropiadamente rigurosos.

    NIVELES DE DESEMPEO

    La escala de niveles de desempeo que se reporta en las pruebas del NYSAP est claramente referenciadaa los estndares del estado, que a partir de 2004 se presenta en trminos de las pruebas de los Regents. Losniveles de desempeo en el NYSAP son cuatro, y se definen de la siguiente manera:

    Nivel 4: El estudiante excede los estndares y est progresando para tener desempeo superior en el Regents.

    Nivel 3: El estudiante alcanza los estndares y con permanente esfuerzo y aprendizaje, debera pasarel Regents.

    Nivel 2: El estudiante requiere ayuda suplementaria para pasar el Regents.

    Nivel 1: El estudiante tiene deficiencias acadmicas serias y necesita la mayor cantidad de ayuda parapasar el Regents.

    10 La descripcin del caso de New York es a partir de la experiencia personal del autor y una diversidad de fuentes publicadas (Archbald 1997; Atkin 1994; Cuban1992; Division of Assessment and Accountability 2001; Duncombe and Yinger 2000; Falk, Larson, and Zu 1996; Loveless 1994; Stevenson 1995; The Board ofRegents of the State of New York 1999; Beadie 1999)

  • 30 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    INFORMES11

    El sistema de responsabilizacin utiliza una variedad de reportes para comunicar los resultados de lasevaluaciones. Cada estudiante recibe un informe de resultados de acuerdo a su nivel de desempeo; y losniveles de desempeo se conciben como indicadores para guiar a las familias en sus esfuerzos de apoyo alaprendizaje de sus hijos. Las escuelas y distritos reciben un New York State School Report Card porescuela, que tambin se proporciona al pblico y a la prensa, y se pone en el sitio de Internet del Depar-tamento de Educacin. Cada escuela recibe su propio informe detallado, comparando su promedio delogro en cada prueba con otras escuelas del mismo distrito, escuelas similares en todo el estado (existeun ndice de escuelas similares que usa criterios econmicos, socio-demogrficos, y geogrficos) y contodas las escuelas del estado.

    Aunque numerosos autores han sealado que en los EEUU no es sino hasta recientementeque se ha contado con sistemas de evaluacin, el caso del estado de New York claramente los

    desmiente. En este estado se form en 1864 el primer sistema de exmenes estandarizados yde credenciales de educacin secundaria basados en el rendimiento del pas. El sistema se fueimplementado en todo el estado a partir de 1866. Este sistema de pruebas, conocida como los

    Regents Examinations12 fueron desde su comienzo un esfuerzo por garantizar altos estndaresen la educacin pre-universitaria, y por racionalizar la inversin estatal por alumno.

    En la dcada de 1860 surgieron un nmero importante de nuevas escuelas secundarias, definanciamiento diverso, llamadas Union High-Schools que competan con las academiasprivadas tradicionales que preparaban a las lites del estado para las Universidades selectivas

    privadas de los estados del Atlntico y Nueva Inglaterra. En ese tiempo, el estado se compro-meta a subsidiar los estudiantes pre-universitarios y, dada la diversidad de oferta, se ocupabaun mecanismo para asegurar que los subsidios estatales se invirtieran en escuelas que tuvieran

    un programa legtimo de preparacin acadmica para la universidad. Adems de asegurar eluso debido del subsidio estatal, la legislacin que fund el sistema de cursos y pruebas de losRegents tena como propsito garantizar la calidad del currculo acadmico de preparacin

    universitaria y de incentivar que los estudiantes del estado tomaran cursos de ese tipo. Con eltiempo el sistema educativo de New York cont con un sistema de dos credenciales para laeducacin secundaria. Los estudiantes y sus familias podan optar por un diploma otorgado

    por cada distrito educativo, o por otro otorgado por la Junta de Regentes. Para los estudiantesque deseaban optar por el ms prestigioso credencial de los Regents, exista la exigencia detomar los cursos con el currculo definido por los Regents, aprobarlos con notas satisfacto-

    rias, y aprobar una prueba de egreso del curso - la Regents Examination. Cada distritoadems tena libertad de determinar los criterios para otorgar su propia credencial de educa-cin secundaria a los estudiantes que no optaban por ganar el diploma de los Regents, y se

    comprometan asimismo por implementar fielmente los cursos de los Regents para los estu-diantes que seguan esa opcin.

    11 La casi totalidad de informes producidos por el NY State Department of Education y el NY State Board of Regents estn disponibles a travs de los sitios deinternet; http://www.nysed.gov/, http://www.emsc.nysed.gov/repcrd2002/nycounty.html , y http://usny.nysed.gov/citizens/regents.html.

    12 El nombre de Regents se refiere a la Junta de Regentes que es la autoridad mxima del sistema educativo de New York, nombrados por los Gobernadores delestado. El equivalente del ministro de educacin de New York, el Comisionado de Escuelas, es el executive officer del sistema educativo, y ejerce su autoridad pordelegacin de la Junta de Regents.

  • 31LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    La experiencia de ms de un siglo de administracin de las pruebas de los Regents hainfluenciado en cmo ha respondido el sistema de evaluacin del estado, y en las ltimas dos

    dcadas de debate acerca de la calidad educativa y el papel de sistema de evaluacin en unsistema de responsabilizacin.

    Sistema actual de pruebas de egreso

    Al comenzar el debate poltico hace veinte aos, con respecto a la crisis de calidad en laeducacin, New York contaba con ms de un siglo de experiencia con un sistema de pruebasy cursos de educacin secundaria que se opt por aprovechar.

    La nocin de altos estndares para todos se entendi como la necesidad de procurar que losestndares de los cursos y de las pruebas de los Regents fueran para todos los estudiantes, y no

    nicamente para la elite. Se actualizaron tanto las tcnicas de medicin como el currculo delos Regents, y se reformularon los currculos de cursos de grados inferiores con la idea queestos se concibieran como preparatorios para los Regents.

    Finalmente, se aprob legislacin eliminando el diploma que conceda el distrito. De ahoraen adelante habra una sola credencial de secundaria -el Regents- y todos los estudiantesdebern pasar los cursos y las pruebas de mayor nivel de exigencia para obtener su diploma.

    La poltica previ un periodo de implementacin. Hasta el ao 2004 los estudiantes debernaprobar todos los cursos y pruebas de los Regents slo si desean optar voluntariamente por eldiploma de los Regents. Durante este perodo se exigir de todos modos que todo estudiante

    apruebe las pruebas de Estudios Sociales e Ingls de los Regents, aun si opta por la credencialdel distrito. A partir del 2004 habr un solo diploma y todos los estudiantes del estado queentraron a 9 grado en el ao 2000 debern aprobar 5 materias para obtenerlo. Se deben

    aprobar los cursos y las pruebas de: ingls, matemticas, historia y geografa universal, histo-ria y gobierno de los EEUU, y una ciencia (a elegir entre qumica, biologa, ciencias de latierra, o fsica). Tpicamente los estudiantes que piensan asistir a una universidad selectiva

    aprobarn adems el Regents en lengua extranjera antes de 11 grado y tres cursos de cienciasy tres de matemticas antes de 12 grado, aunque esto no es requisito para el diploma.

    En New York no ha habido discusiones acerca del rigor de los estndares de los Regents -ladiscusin se ha centrado en si es apropiado o no exigir que todos los estudiantes del estadoestn sujetos a ellos. Especialmente los distritos educativos de los 5 centros metropolitanos

    ms grandes del estado (las ciudades de New York, Yonkers, Syracuse, Rochester y Buffalo)han objetado que incrementos de estndares de egreso resultan en tasas de desercin msaltas, cuando estos no se ven acompaados de apoyos acadmicos y sociales apropiados para

  • 32 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    estudiantes que provienen de comunidades y familias que los colocan en riesgo acadmico.Esta objecin est ampliamente validada por mucha evidencia de investigacin. Sin embar-

    go, la respuesta poltica apropiada a esa realidad no es clara. Existe gran renuencia por reducirlos estndares para los estudiantes en riesgo puesto que tal decisin representara una con-tinuacin de la institucionalizacin de un sistema de doble estndares, estndares altos para

    algunos y ms bajos para otros, perpetuando, a ojos de muchos decisores de polticas, elrgimen institucional que ha resultado en el desempeo promedio tan mediocre en la educa-cin que se ha observado histricamente. De momento, los Regents y el Comisionado no

    han modificado los requisitos que deben regir a partir del 2004, y queda por verse cul ser elimpacto sobre los estudiantes en riesgo, y si el estado mantendr firme sus criterios de cara aposibles protestas y litigios legales que resultan de estudiantes que cursan cuatro aos de

    educacin secundaria sin obtener su diploma.

    Sistema de responsabilizacin

    Cambiar los criterios de egreso de la educacin secundaria ha requerido que las polticas

    educativas se alineen a estos ambiciosos objetivos. Un elemento central en la poltica delestado es la de responsabilizar a diversos actores por la conformacin de ambientes educativosque puedan, razonablemente, apoyar a los estudiantes para alcanzar los objetivos. De talmodo, el estado ha establecido estndares para las escuelas -estndares que tienen que ver con

    cmo alcanzan los objetivos acadmicos del estado. Se han establecido criterios mnimos parala certificacin de las escuelas del estado. Para cumplir estos criterios toda escuela debe darevidencia de que:

    No menos de 90 por ciento de los estudiantes aprueban el Nivel 2 o superior de desem-peo en los exmenes de ingls y Matemticas de 4 y 8 grados.

    No menos de 90 por ciento de los estudiantes aprueban los Regents de ingls y mate-mticas al concluir 12 grado.

    La tasa de desercin anual es menor del 5 por ciento anual.

    En referencia a estos criterios, la Junta de Regentes estableci en el ao 2000 tres niveles dedesempeo para las escuelas:

    Alcanza los estndares.

    Por debajo de los estndares.

    Entre los ms distantes de los estndares (Farthest from the Standards).

  • 33LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Sin embargo, los niveles de desempeo no fueron satisfactorios para un numero de crticosque presentaban dos objeciones principales. Primero, observaron que muchas escuelas eran

    de desempeo muy superior y merecan reconocimiento por ello. Segundo, aseveraban quealgunas escuelas atendan poblaciones acadmica y socialmente desaventajadas, y que habaque reconocer la labor de escuelas que, si bien no alcanzaban an los criterios mnimos de

    desempeo, estaban claramente avanzando hacia lograrlos, a diferencia de otras escuelas queno mostraban progreso satisfactorio. Frente a estas objeciones, los Regentes sumaron dosniveles de desempeo adicionales:

    Sobrepasa los estndares.

    Mejora con rapidez (rapidly improving) definido como escuelas que disminuyen enun 30 por ciento anual su diferencia en rendimiento promedio con respecto a las escue-las que alcanzan los estndares.

    El Comisionado de Educacin tiene responsabilidad por asegurar que las escuelas del estadocumplen con los estndares y eso lo obliga a designar a cada escuela en el nivel ms distantede los estndares como una escuela bajo revisin de su registro (SURR - School Under

    Registration Review). La preocupacin por la apropiada responsabilizacin de las escuelasque atienden poblaciones con alta proporcin de estudiantes en riesgo ha establecido unmbito de flexibilidad para esta designacin. Si una escuela no cumple los estndares, peropuede ser designada como rapidly improving, el Comisionado tiene la libertad de no desig-

    narla como una escuela SURR.

    Habiendo designado una escuela como SURR, el Comisionado debe informar a la escuela y

    al distrito al que pertenece que est bajo peligro de que su registro como escuela autorizadadel estado sea revocado. Tambin debe informar a ambos qu criterios debe alcanzar para serremovido de la lista de escuelas bajo revisin. El Comisionado es responsable ante la Junta de

    Regentes por monitorear el cumplimiento de estos criterios.

    Los distritos y las escuelas son responsables por informar a todas las familias que la escuela

    est bajo revisin. El comunicado que reciben las familias debe especificar qu medidas seestn tomando para mejorar el desempeo de la escuela y removerla de la lista de escuelasSURR. El comunicado tambin debe detallar qu otras opciones educativas estn disponibles

    para las familias que no desean mantener a sus hijos en la escuela durante ese periodo.

    La escuela tiene tres aos para demostrar, a satisfaccin del Comisionado, progreso aceptab

    le hacia los estndares. Si no se satisfacen los criterios del Comisionado, ste debe informar ala escuela de la revocacin de su registro, y de su designacin como un ambiente educativoincapacitado (unsound academic environment). El comisionado debe entonces elaborar un

    plan que garantice que cada estudiante contar con una plaza en una escuela debidamenteregistrada e informar a las familias afectadas.

  • 34 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    TENNESSEE13

    PERFIL GENERAL DEL SISTEMA DE EVALUACION ACTUAL

    GRADOS Y DISCIPLINAS EVALUADAS

    Los instrumentos principales del sistema de evaluacin del estado son el Tennessee ComprehensiveAssessment Program (TCAP) Elementary Achievement Test (prueba acumulativa de logro para la educa-cin primaria), el Tennessee Competency Test, y un sistema de pruebas de fin-de-curso en secundariallamado el Tennessee High School Subject Matter Test.

    Los grados y disciplinas que se evalan en Tennessee son los siguientes:

    3 a 8 Grado: TCAP de Logro, en lectura, vocabulario, lenguaje, mecnica del lenguaje, matemti-cas, aritmtica, ciencias naturales, ciencias sociales, ortografa, y anlisis de palabras.

    9 Grado: TCAP de Competencia -evala logro en ciertas sub-reas de matemticas y lenguaje. Losestudiantes pueden repetir esta prueba, se exige pasarla para graduarse de 9 grado.

    8 Grado: ingls, matemticas, ciencias naturales y estudios sociales

    Educacin Secundaria:- Pruebas por disciplinas (tambin llamadas de Fin-de-Curso) para lgebra I, lgebra II, geome-

    tra y matemticas para tecnologa I.

    Adems de las evaluaciones administradas por el estado, todo estudiante que completa el programa deestudios secundarios preuniversitarios debe rendir el SAT o ACT (pruebas nacionales de admisin uni-versitaria) sin importar si la universidad a la que desea postular los exija o no. A los estudiantes quecompletan el programa de estudios tcnicos-vocacionales en la educacin secundaria, se les exige hacer elSAT, ACT o Work Keys (una prueba tcnico-vocacional).

    MEDICIN Y MUESTREO

    Los TCAP de Logro dicen ser referidos a normas y criterios -puesto que importa comparar no solamentecontra los estndares del estado, sino tambin contra patrones nacionales (ver descripcin de su uso en elsistema de evaluacin de valor agregado que se describe ms abajo).

    Todas las aplicaciones son censales y predomina el uso de reactivos de seleccin mltiple. Los TCAP deLogro y los TCAP de Competencia utilizan nicamente reactivos de ese tipo, y eso es cierto tambin enlas actuales pruebas de fin de curso. Sin embargo, se ha propuesto incluir reactivos de ensayo (o al menosde respuesta abierta corta) en pruebas de fin de curso en el futuro.

    La alineacin de las pruebas con los estndares del estado es un tema relativamente reciente en Tennessee,donde la corta tradicin en evaluacin tena un fuerte legado de pruebas referidas a normas. El Departa-mento de Educacin de Tennessee recin comenz en el 2001 a crear un sistema para velar por alinear laspruebas con los estndares. En la actualidad, la compaa que hace las pruebas (CTB/McGraw Hill) sepreocupa por alinear de acuerdo a sus propios mtodos y asegura que la alineacin es ptima -aunque la

    13 Fuentes para este reporte incluyen una entrevista del autor con el Prof. Richard Wolfe, OISE/ U. de Toronto, un miembro del equipo de evaluacin externa delTVAAS, y diversas fuentes impresas (Baker and Xu 1995; Bock and Wolfe 1996; Bratton 1998; Hanushek 1999; Kuppermintz, Shepard, and Linn 2001; Nye,Hedges, and Konstantopoulos 1999; Sanders 1998)

  • 35LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    evidencia es escasa. Como resultado de no estar claramente alineados con los estndares del estado, losniveles de desempeo que se utilizan en los informes a los estudiantes han sido criticados por su escasautilidad como evaluacin formativa. El mayor uso de la informacin que hace el sistema educativo est enla evaluacin del valor agregado.

    INFORMES

    Cada estudiante recibe un informe de su desempeo (por nivel de desempeo) y se reporta su rankingen percentiles. Las escuelas y distritos reciben informes resumiendo los resultados promedios y compa-rndolos con otras escuelas de Tennessee y las escuelas de otros estados que participan en las pruebas deCTB/McGraw Hill. Esta comparacin con otras escuelas del estado y del pas es un elemento importanteen el clculo del valor agregado (ver descripcin en el apartado siguiente). Los Report Cards porescuela estn disponibles en el sitio de Internet del peridico de mayor circulacin de Tennessee, lasversiones por Internet incluyen solamente datos del TCAP de 5 a 8 grado, que se presentan por escuela,grado, disciplina, y que incluye tanto el logro promedio y el progreso calculado de acuerdo al modelo deValor Agregado.

    Los informes de cada uno de los distritos estn disponibles en el sitio de Internet del Departamento deEducacin de Tennessee14 - este informe incluye el logro promedio de los estudiantes y el progreso pro-medio (valor agregado) cubriendo 6 aos en las pruebas del Estado, y tambin las pruebas de admisinuniversitaria (SAT y ACT) y la prueba de educacin vocacional y tcnica: el Work Keys.

    El estado de Tennessee reaccion frente a las crticas emanadas durante la dcada de 1980 en

    los EEUU con una de las reformas educativas ms innovadoras y comprensivas en el pas. Losesfuerzos del estado son notables particularmente en el papel que se le asigna a la evaluacinsistmica -codificado en la ley de reforma educativa de 1992 (Tennessee Education

    Improvement Act). Esta ley establece un sistema de responsabilizacin a nivel de sala declases, uno de los nicos sistemas censales de evaluacin longitudinal del pais.

    El sistema de evaluacion del valor agregado

    La ley de reforma educativa del estado de Tennessee establece al Tennessee Value-AddedAssessment System (TVAAS) como un sistema estadstico que permite estimar sin sesgo lacontribucin del docente, la escuela y el distrito escolar al progreso acadmico del estudiante.

    La ley establece que la mtrica debe ser en escalas lineales cubriendo el rango completo delcontenido curricular oficial del estado por cada grado.

    14 Consultar por ejemplo: http://www.state.tn.us/education/mtest.htm

  • 36 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    El TVAAS calcula el progreso en el logro de los estudiantes basado en logros de aos anteriores ydesagrega la contribucin especfica del distrito, escuela y docente sobre el cambio en el logro queexperimentan estudiantes en su trnsito de grado en grado. La contribucin (efecto) especfica de

    cada nivel es lo que el sistema de responsabilizacin del estado conoce como su valor agregado.

    El TVAAS produce un ndice de valor agregado para cada docente en el sistema basado en

    el progreso anual de sus estudiantes. La informacin, por ley, slo puede ser compartida conel docente y los administradores de su escuela. Sin embargo, la ley permite a los administra-dores de las escuelas usar estos datos para evaluar el desempeo de los docentes, una vez que

    se cuente con 3 aos de datos. Cabe recordar que los administradores de las escuelas en losEEUU tienen autoridad pare contratar y despedir su personal.

    Como resultado del uso del TVAAS, el Departamento de Educacin de Tennessee aseguraque los estudiantes con docentes de mayor valor agregado tienen calificaciones en la pruebade matemticas de 5 grado a un promedio de 50 puntos percentiles ms alto que estudiantes

    que comenzaron con el mismo nivel de logro, pero tuvieron docentes menos eficaces.

    La tcnica es sumamente controversial. Los errores estndar en las mediciones y otras inestabilidades

    en el modelo de anlisis, a juicio de algunos expertos externos, no justifican la atribucin deefectos a docentes. De hecho, estos problemas se han observado en evaluaciones de este tipo enotras localidades, inclusive en Inglaterra, Finlandia, y Espaa15. El problema de los errores estndar

    y de los intervalos de confianza en determinar el valor agregado es tan delicado que existe entrelos profesionales en medicin educativa un acuerdo de amplio consenso de que si las medicionesse han de usar (como en el caso de Tennessee) para tomar decisiones que afectan el futuro

    profesional de profesores, los criterios de validez y confiabilidad deben ser altsimos.

    Es en esto ltimo donde parece haber fallas importantes en el TVAAS. Existen algunos pro-

    blemas en los algoritmos especficos para descomponer la varianza por nivel, siendo particu-larmente inestables las estimaciones de efecto a nivel de aula. La medicin misma tiene im-portantes defectos tambin. Primero est el problema de la alineacin de las pruebas sealado

    mas arriba. Esto es importante en la medida en que los docentes son responsables porimplementar los estndares del estado, y el instrumento de medicin no est alineado conesos estndares ms que en un sentido muy general. El segundo problema importante es que

    no se evalan todos los estndares, y las pruebas no cuentan con suficientes reactivos paracada estndar evaluado, como para justificar las inferencias sobre su aprendizaje.

    15 Ver: Review of Assessment Activities, OECD/INES Network A

  • 37LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    ALGUNAS LECCIONES ILUSTRADAS POR LOS CASOS

    Los tres casos descritos en este reporte, sirven para ilustrar algunas lecciones importantessurgidas en las ltimas dcadas en materia de evaluacin sistmica de la educacin.

    Primero, es importante tener claridad acerca del propsito de la evaluacin. Es fundamentalque los sistemas de evaluacin vayan ms all de vagos deseos de mejorar la enseanza y elaprendizaje y que ms bien especifiquen con detalle cul ser su contribucin especfica a ese

    propsito. Ciertamente las pruebas de egreso, como hemos ejemplificado en Pases Bajos yNueva York, tienen claro aporte al mejoramiento de la calidad del logro acadmico. De hecho ladefinicin misma de logro en estos sistemas tiene mucho que ver con la aprobacin de estas

    pruebas. Por ende, el sistema procura asegurar que la prueba sea una buena operacionalizacinde los criterios de calidad. A consecuencia de ello las pruebas no incluyen simplemente reactivosde seleccin mltiple, sino que dan muchas oportunidades a los estudiantes de demostrar lo que

    han aprendido mediante la demostracin de su trabajo y en preguntas de ensayo.

    Otra leccin importante es que hace falta validar cada uso de la medicin -y que la clave de la

    validacin en un sistema referido a criterios de calidad es procurar que los instrumentos demedicin estn alineados con esos criterios. Esto exige que el sistema de evaluacin cuentecon mediciones referidas a criterios. El sistema holands responsabiliza a CITO poroperacionalizar vlidamente los temarios compuestos por el Ministerio. En New York existen

    procesos para juzgar la alineacin de los estndares del estado en los que jueces que no parti-cipan en la construccin de las pruebas emiten su juicio. En Tennessee los esfuerzos de alinea-cin son ms dbiles y eso ha tenido consecuencias importantes en su aceptacin, tanto en la

    comunidad de educadores como en la comunidad profesional en medicin.

    Ciertamente los casos demuestran que la validez de las inferencias acerca del aporte de las

    escuelas o los educadores en los sistemas de responsabilizacin exige que los modelos demedicin y anlisis tomen en cuenta tanto el logro como el progreso. Sin duda, el peso quecada sistema otorga a las mediciones contra estndares absolutos en un punto en el tiempo, y

    aquellos que miden el aprendizaje que ocurre grado a grado, es distinto. Pero en todos loscasos se reconoce que las mediciones de estatus y los de aprendizaje aportan informacindistinta, y que ambos tipos de informacin son vitales para administrar el sistema. La contro-

    versia acerca de cuando el reconocimiento del progreso resulta en la institucionalizacin deun rgimen inequitativo de criterios de excelencia para una elite, y criterios mnimos deobligatoriedad para otros, no es resoluble a nivel tcnico. Su resolucin exige una decisin

    poltica. New York es el caso ms claro en este sentido, establece claramente que a las escuelasque no cumplen los estndares absolutos se les reconocer el progreso por un periodo limita-do y claramente definido de tiempo, tres aos, pero que estarn eventualmente sujetos a los

    mismos estndares de excelencia que las dems escuelas.

  • 38 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Los casos de Pases Bajos y New York tambin demuestran cmo los sistemas deresponsabilizacin deben asumir, a su vez, la responsabilidad por establecer un calendario

    razonable de implementacin. El caso de Tennessee es ms bien un contraejemplo -demues-tra las debilidades de un sistema que no se puso a prueba ni pudo perfeccionarse en pilotos yde acuerdo a un calendario de paulatina implementacin. Aun en un estado con ms de un

    siglo de experiencia en pruebas de egreso como New York, en donde no eran muy cuestiona-dos ni su validez ni su calidad, se encontr pertinente implementar los nuevos estndaressegn un calendario progresivo.

    Finalmente, es importante reconocer que en los tres casos los sistemas de responsabilizacinenfrentan cuestionamientos an no resueltos que ponen en duda su validez. Es importante

    reconocer que es nicamente vlido responsabilizar por el logro de estndares exigentes decalidad educativo a estudiantes e instituciones que han contado con todos los recursos nece-sarios para proporcionar las oportunidades de aprendizaje necesarias para alcanzar esos obje-

    tivos. En ese estndar, el de la equidad en oportunidades de aprendizaje, la evaluacin puedeproporcionar informaciones claves -pero los sistemas deben asumir la responsabilidad deactuar de acuerdo a esas informaciones.

  • 39LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    OBRAS CONSULTADAS

    AERA. 2000. Position Statement of the American Educational Research Association Concerning High-Stakes

    Testing in PreK-12 Education. Educational Researcher 29 (8):24-25.

    American Federation of Teachers and National Center for Improving Science Education. 1994. What College-

    Bound Students Abroad Are Expected to Know About Biology: Exams from England and Wales, France,

    Germany and Japan. Plus a Comparative Look at the United States. Vol. 1, Defining World Class Standards.

    Washington DC: American Federation of Teachers.

    Apple, Michael W. 1992. Do the standards go far enough? Power, Policy, and Practice in Mathematics

    Education. Journal for Research in Mathematics Education 23 (5):412-431.

    Archbald, Doug. 1997. Curriculum Control Policies and Curriculum Standardization: Teachers Reports of

    Policy Effects. International Journal of Educational Reform 6 (2):155-73.

    Atkin, J. Myron. 1994. Developing World-Class Education Standards: Some Conceptual and Political

    Dilemmas. In The Future of Education: Perspectives on National Standards in America, edited by N. Cobb.

    New York: College Entrance Examination Board.

    Baker, A. Paige, and Dengke Xu. 1995. The Measure of Education: A Review of the Tennessee Value Added

    Assessment System. Nashville, TN: Office of Education Accountability.

    Beadie, Nancy. 1999. From Student Markets to Credential Markets: The Creation of the Regents Examination

    System in New York State, 1864-1890. History of Education Quarlterly 39 (1):1-30.

    Blank, Rolf K., and Diane Schilder. 1991. State policies and state role in curriculum. In The Politics of

    Curriculum and Testing, edited by S. H. Fuhrman and B. Malen. London: The Falmer Press.

    Bloom, Benjamin S. 1961. Evaluation: A report of the seminars on examination reform organized by the

    University of New Delhi Grants Commission under the leadership of Dr. Benjamin Bloom. New Delhi:

    University Grants Commission.

    Bock, R. Darrell, and Richard Wolfe. 1996. Audit and Review of the Tennessee Value-Added Assessment

    System (TVAAS): Final Report. Nashville, TN: Comptroller of the Treasury, State of Tennessee.

    Bottani, Norberto. 1994. The Design of Indicator Systems. In Monitoring the Standards of Eduction, edited

    by A. C. Tuijnman and T. N. Postlethwaite. London: Pergamon.

    Bratton, Samuel E. 1998. How We Are Using Value-Added Assessment. School Administrator 55 (11):30-35.

  • 40 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Britton, Edward D., and Senta A. Raizen. 1996. Examining the Examinations: An International Comparison

    of Science and Mathematics Examinations for College-Bound Students. Dordrecht, The Netherlands: Kluwer

    Academic Press.

    Broadfoot, Patricia. 1979. Assessment, Schools and Society. London: Methuen and Co.

    Bruner, Darlene York, and Bobbie J. Greenlee. 2002. Bring Standards from the State House to the Schoolhouse.

    Principal 81 (3):23-25.

    Cantlon, Denise, Sharon Rushcamp, and Donald Freeman. 1991. The interplay between state and district

    guidelines for curriculum reform in elementary schools. In The Politics of Curriculum and Testing, edited by

    S. H. Fuhrman and B. Malen. London: The Falmer Press.

    Cito groep. 2003. Citogroep [Website] 2003 [cited August 15 2003]. Available from http://www.cito.nl/.

    Cohen, Allan S., Michael T. Kane, and Terence J. Crooks. 1999. A Generalized Examinee-Centered Method

    for Setting Standards on Achievement Tests. Applied Measurement in Education 12 (4):343-66.

    Coley, Richard J., and Margaret E. Goertz. 1990. Educational Standards in the 50 States: 1990. Princeton,

    NJ: Educational Testing Service.

    Cuban, Larry. 1992. Curriculum Stability and Change. In Handbook of research on curriculum: a project of the

    American Educational Research Association, edited by P. W. Jackson. New York: Macmillan Publishing Company.

    Division of Assessment and Accountability. 2001. An Examination of the Relationship Between Higher

    Standards and Students Dropping Out. New York: New York City Board of Education.

    Duncombe, William, and John Yinger. 2000. Financing Higher Student Performance Standards: The Case of

    New York State. Economics of Education Review 19:363-386.

    Eurydice European Unit. 2003. Eurybase 2001: The Information Data Base on Education Systems in Europe [Web Data

    Base]. European Commission 2001 [cited August 15 2003]. Available from http://www.eurydice.org/Eurybase/.

    Falk, Beverly, Joanne Larson, and Jianzhong Zu. 1996. An Invitation to Invention: Top-Down Support for

    Bottom-Up Reform of Assessment in New York State. New York: National Center for Restructuring Education,

    Schools, and Teaching.

    Foden, F. 1989. The Examiner: James Booth and the Origin of Common Examinations. Leeds: University of

    Leeds.

  • 41LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Fowler, Frances C., William L. Boyd, and David N. Plank. 1993. International School Reform: Political

    Considerations. In Reforming Education: The Emerging Systemic Approach, edited by S. L. Jacobson and R.

    Berne. Thousand Oaks, CA: Corwin Press.

    Fuhrman, Susan H., Richard F. Elmore, and Diane Massell. 1993. School Reform in the United States:

    putting it into context. In Reforming Education: The Emerging Systemic Approach, edited by S. L. Jacobson

    and R. Berne. Thousand Oaks, CA: Corwin Press.

    Gamoran, Adam. 1997. Curriculum Change as a Reform Strategy: Lessons from the United States and Scotland.

    Teachers College Record 98 (4):608-628.

    Goodson, Ivor F. 1991. Nations at Risk and national curriculum: ideology and identity. In The Politics of

    Curriculum and Testing, edited by S. H. Fuhrman and B. Malen. London: The Falmer Press.

    Hanushek, Eric A. 1999. Some Findings From and Independent Investigation of the Tennessee STAR

    Experiment and From Other Investigations of Class Size Effects. Educational Evaluation and Policy Analysis

    21 (2):143-163.

    Hrner, W. 1981. The relationship between educational policy and educational research: the case of French

    curriculum reform. European Journal of Science Education 3 (2):217-221.

    Husn, Torsten, and Albert C. Tuijnman. 1994. Monitoring Standards in Education: Why and How it Came About.

    In Monitoring the Standards of Eduction, edited by A. C. Tuijnman and T. N. Postlethwaite. London: Pergamon.

    Kangasniemi, Erkki, and Sauli Takala, eds. 1995. Pupil Assessment and the Role of Final Examinations in

    Secondary Education, European Meetings on Educational Research - The Council of Europe. Lisse, Nederland:

    Swets & Zeitlinger.

    Kloprogge, Jo. 1991. Reducing Educational Disadvantages: Developments in the Educational Priority Policy

    Programme in the Netherlands. Den Haag: Institute for Educational Research.

    Kuppermintz, Haggai, Lorrie Shepard, and Robert Linn. 2001. Teacher Effects as a Measure of Teacher

    Effectiveness: Construct Validity Considerations of the TVAAS. Paper read at National Council of Measurement

    in Education Annueal Meeting, April, at Seattle, WA.

    Lane, Suzanne, and Clement A. Stone. 2002. Strategies for Examining the Consequences of Assessment and

    Accountability Programs. Educational Measurement: Issues and Practice 21 (1):23-30.

    Loveless, Tom. 1994. The Politics of National Standards. In The Future of Education: Perspective on National

    Standards in America, edited by N. Cobb. New York: College Entrance Examinations Board.

  • 42 LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Luijten, Anton J.M., ed. 1991. Issues in Public Examinations: A selection of the proceedings of the 1990

    IAEA Conference in Maastricht, The Netherlands. Utrecht: Uitgeverij Lemma.

    Madaus, George F., and Thomas Kellaghan. 1991. Student Examination Systems in the European Community:

    Lessons for the United States. Washington DC: Office of Technology Assessment, United States Congress.

    Marlow-Ferguson, Rebecca, ed. 2002. World Education Encyclopedia: A Survey of Educational Systems

    Worldwide. 3 vols. Detroit: Gale Group / Thomson Learning.

    Massell, Diane. 1994. Achieving Consensus: Setting the Agenda for State Curriculum Reform. In The

    Governance of Curriculum, edited by R. F. Elmore and S. H. Fuhrman. Alexandria, VA: Association for

    Supervision and Curriculum Development.

    McGehee, Jean J., and Linda K. Griffith. 2001. Large-Scale Assessments Combined with Curriculum

    Alignment: Agents of Change. Theory into Practice 40 (2):137-44.

    McLean, Martin, and Natalia Voskresenskaya. 1992. Educational Revolution from Above: Thatchers Britain

    and Gorbachevs Soviet Union. Comparative Education Review 36 (1):71-90.

    McLeod, Douglas B., Robert E. Stake, Bonnie P. Schappelle, Melissa Mellissinos, and Mark J. Gierl. 1996.

    Setting the Standards: NCTMs Role in the Reform of Mathematics Education. In Bold Ventures: Case

    Studies of U.S. Innovations in Mathematics Education, edited by S. A. Raizen and E. P. Britton. Dordrecht,

    The Netherlands: Kluwer Academic Publishers.

    Mills, Richard P. 1994. Will This Be on the Test? Reflections on State Curriculum Leadership. In The

    Governance of Curriculum, edited by R. F. Elmore and S. H. Fuhrman. Alexandria, VA: Association for

    Supervision and Curriculum Development.

    Ministre de la jeunesse, de lducation nationale et de la recherche. 2003. Catalogue des publications [web

    site] 2003 [cited September 1 2003]. Available from

    http://www.education.gouv.fr/stateval/default.htm.

    National Assessment Governing Board. 2003. The National Assessment of Educational Progress. NAGB

    2003 [cited September 1 2003]. Available from http://www.nagb.org/.

    National Commission on Excellence in Education. 1983. A Nation at Risk: The Imperative for Educational

    Reform. Washington DC: United States Department of Education.

    Noah, Harold J., and Max A. Eckstein. 1992. Comparing National Systems of Secondary School Leaving

    Examinations. In Examinations: Comparative and International Studies, edited by M. A. Eckstein and H. J.

    Noah. New York: Pergamon Press.

  • 43LA POLTICA EN EVALUACIN Y CURRCULO ANTE EL DESAFO DE LA CALIDAD

    Nye, Barbara, Larry V. Hedges, and Spyros Konstantopoulos. 1999. The Long-Term Effects of Small Classes:

    A Five-Year Follow-Up of the Tennessee Class Size Experiment. Educational Evaluation and Policy Analysis

    21 (2):127-142.

    Porter, Andrew C., John Smithson, and Eric Osthoff. 1994. Standard Setting as a Strategy for Upgrading

    High School Mathematics and Science. In The Governance of Curriculum, edited by R. F. Elmore and S. H.

    Fuhrman. Alexandria, VA: Association for Supervision and Curriculum Development.

    Qualifications and Curriculum Authority. 2003. National Qualifications and Curriculum and Assessment.

    QCA 2003 [cited September 1 2003]. Available from http://www.qca.org.uk/.

    Ramirez, Francisco O., and Marc J. Ventresca. 1992. Builidng the Institution of Mass Schooling: Isomorphism

    in the Modern World. In The Political Construction of Education: The State, School Expansion, and Economic

    Change, edited by B. Fuller and R. Rubinson. New York: Praeger.

    Sanders, William L. 1998. Value-Added Assessment. School Administrator 55 (11):24-30.

    School Achievement Indicators Program 2003. [web page]. Council of Ministers of Education, 2003 [cited

    September 1, 2003 2003]. Available from http://www.cmec.ca/saip/indexe.stm.

    Stevenson, David Lee. 1995. The Role of Standards and Assessments in National Reform. In Transforming

    Schools, edited by P. W. Cookson, Jr. and B. Schneider. New York: Garland Publising.

    The Board of Regents of the State of New York. 1999. Statewide Profile of the Education System. Albany: The

    University of the State of New York / The State Education Department.

    The British Council. 1988. International Guide to Qualifications in Education. London: Mansell.

    Timar, Thomas B. 1997. The Institutional Role of State Education Departments: A Historical Perspective.

    American Journal of Education 105 (3):231-260.

    Tucker, Marc S., and Judy B. Codding. 1998. Standards for our Schools: How to Set Them, Measure Them,

    and Reach Them. San Francisco: Jossey-Bass Publishers.

    Undervisnings Ministeriet. 2003. On-Line Publications [web site]. Undersvisnings Ministeriets vorlag 2003

    [cited September 1 2003]. Available from http://eng.uvm.dk/publications/engonline.htm.

    Valverde, Gilbert A. 1994. The United States of America: System of Education. In International Encyclopedia

    of Education, edited by T. Husn and T. N. Postlethwaite. London: Pergamon Press.