Manual técnico 2011 - 2012

Manual Técnico enlace Media Superior 2011-2012

Manual Técnico de la prueba Evaluación Nacional de Logro Académico

en Centros Escolares de Educación Media Superior (enlace ms)

D.R. © 2013, Centro Nacional de Evaluación

para la Educación Superior, A.C. (Ceneval)

Av. Camino al Desierto de los Leones 19,

Col. San Ángel, Deleg. Álvaro Obregón,

C.P. 01000, México, D.F.

www.ceneval.edu.mx

Diseño y formación: Álvaro Edel Reynoso Castañeda

Febrero de 2013

Directorio del Ceneval

Director General

Mtro. Rafael Vidal Uribe

Directora General Adjunta de Programas Especiales

Dra. Rocío Llarena de Thierry

Directora de Programas para la Administración Pública

Dra. Alejandra Zúñiga Bohigas

Coordinación de la prueba

Mtra. Sandra Reyes Lüscher

Elaboración

Mtra. Sandra Reyes Lüscher

Dra. Alejandra Zúñiga Bohigas

Lic. Araceli Castillo Núñez

Equipo de colaboración

José Rodrigo Alanis Quezada

Claudia Guadalupe Durán Velandia

Rubén Lugo Campos

Laura Audiffred Maldonado

Erika Asunción González Mendieta

Sandra Villagómez Pérez

Martha Verónica Contreras Valdés

María del Carmen Zafrilla Sánchez

Georgina Elizabeth Sánchez Chávez

Prefacio 11

1. Introducción 13

2. Antecedentes 172.1 Diferencias entre pruebas 212.2 Cuerpos colegiados 24

3. Características de la prueba 273.1 Especificaciones técnicas 283.2 Alcances y limitaciones 30

4. Adaptación y diseño de la prueba 334.1 Delimitación del objeto de medición y referentes del examen 34

4.1.1 Comunicación (Comprensión Lectora) 364.1.2 Matemáticas 40

4.2 Estructura global de la prueba 43

5. Elaboración de reactivos 455.1 Plan general de elaboración de reactivos 455.2 Capacitación a colaboradores de niveles de desempeño 465.3 Revisión cualitativa 47

5.3.1 Revisión técnica 475.3.2 Validación con especialistas 485.3.3 Revisión de estilo 49

6. Verificación cuantitativa 516.1 Calibración de reactivos 52

7. Ensamble de versiones 557.1 Especificaciones estadísticas de ensamble 58

8. Aplicación 618.1 Diseño muestral 648.2 Diseño de equiparación 66

8.2.1 Procedimiento de equiparación 67

Índice

9. Calificación 699.1 Revalidación de puntos de corte y niveles de desempeño 69

9.1.1 Estudio de factibilidad de mantenimiento de puntos de corte 08-10 709.1.2 Algoritmo de calificación y adecuación de niveles de desempeño 70

9.1.2.1 Comunicación (Comprensión Lectora) 719.1.2.2 Matemáticas 72

9.2 Reporte de resultados 739.3 Complementos 76

9.3.1 Cuestionario de contexto 769.3.2 Manual para docentes y directivos 54

10. Estudios sobre el examen 7910.1 Cálculo de confiabilidad 7910.2 Error de equiparación 81

11. Reflexiones acerca de la prueba 8311.1 Comparación con evaluaciones similares 8611.2 Evaluación de campos disciplinares de Ciencias 74

Referencias 89

Anexo AConsejo Técnico enlace Media Superior 91

Anexo BGrupos de trabajo. Delimitación del objeto de medición 93y referentes del examen 2011-2012

Anexo CDiseño muestral. Levantamiento de datos enlace Media Superior 101

Anexo DEstudio de factibilidad de mantenimiento de puntos de corte 109

Tablas Tabla 1: Características de los perfiles de la prueba 23Tabla 2: Características técnicas de enlace ms 29Tabla 3: Definición de niveles de complejidad por grupo de proceso cognitivo Comunicación (Comprensión Lectora) 39Tabla 4: Definición de niveles de complejidad por grupo de proceso cognitivo Matemáticas 43Tabla 5: Estructura enlace ms 2011-2012 44Tabla 6: Productos de la elaboración de reactivos 45Tabla 7: Productos de la revisión cualitativa 49Tabla 8: Distribución de reactivos para el ensamble de la prueba operativa 56Tabla 9: Sustentantes que respondieron la prueba operativa 2011 - 2012 64Tabla 10: Sustentantes que respondieron el pretest 2011 - 2012 por forma 64Tabla 11: Niveles de desagregación de la muestra 2011-2012 65Tabla 12: Rangos de habilidad (θ) Comunicación (Comprensión Lectora) 71Tabla 13: Rangos de habilidad (θ) Matemáticas 71Tabla 14: Resultados para el campo de Comunicación (Comprensión Lectora) 74Tabla 15: Resultados para el campo de Matemáticas 74Tabla 16: Estructura del cuestionario de contexto para alumnos 77Tabla 17: Confiabilidad alfa de Cronbach y confiabilidad empírica 80Tabla 18: Resultados del bootstrap con un nivel de confianza del 99% 81Tabla 19: Características de los instrumentos de evaluación para la ems en México 87 Figuras

Figura 1. Diseño matricial del pretest 2011-2012 57Figura 2. Curva característica del área de Comunicación (Comprensión Lectora) 58Figura 3. Curva característica del área de Matemáticas 59Figura 4. Ejemplo de administración de la prueba enlace ms por sesión y días de aplicación. 62Figura 5. Aplicación de las pruebas enlace ms utilizando la técnica de contrabalanceo. 63Figura 6. Esquema de aplicación para la equiparación de la prueba 67

Índice de Tablas y Figuras

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R11

Prefacio

El Centro Nacional para la Evaluación de la Educación Superior (Ceneval) es una asociación civil no lucrativa, cuya misión es contribuir a mejorar la calidad de la edu-

cación media superior y superior en México mediante el diseño y aplicación de instrumentos de evaluación válidos, confiables y pertinentes. Estos exámenes proporcionan información acerca de conocimientos, habilidades y competencias que las personas adquieren al participar en procesos formales o informales de aprendizaje. Para dar a conocer los procedimientos y evidencias que sustentan la confiabilidad y la validez de los instrumentos que genera el Ceneval, cada uno de ellos se acompaña de un manual técnico que especifica detalladamente los ele-mentos involucrados en su construcción y aplicación.

El presente es el segundo Manual Técnico que se publica en torno a la Evaluación Nacional de Logro Académico en Centros Escolares de Educación Media Superior (enlace ms), instrumento de cobertura nacional en cuya elaboración y seguimiento participa el Ce-neval a petición de la Subsecretaría de Educación Media Superior (sems) y de la Dirección General de Políticas Educativa (dgep) de la Secretaría de Educación Pública. El primer Manual describió de manera sintética los procesos que se siguieron en la etapa de diseño y de aplicación comprendida entre 2008 y 2010, mientras que en este se explican las actividades realizadas para adaptar la prueba y evaluar a los sustentantes en congruencia con la Reforma Integral de la Educación Media Superior (riems). La información que se incluye está dirigida a todos los interesados en la evaluación y para quienes deseen conocer el proceso de diseño, aplicación y calificación del examen, para los medios de comunicación y para el público en general que está en contacto con los resultados que se publican año con año.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R13

Para evaluar de manera integral la calidad de la educación media superior (ems) es necesario utilizar diversas estrategias que van desde la evaluación y audi-

torías institucionales, la revisión y edición colegiada de planes y programas de estudio, hasta la aplicación de exámenes y auto-diagnósticos de los docentes y alumnos. Los alcances y limitaciones de estas medidas se deben articular para complementarse entre sí, ofrecer una visión más amplia de la realidad educativa y apoyar la emisión de juicios de valor que susten-ten las decisiones que se tomen. Esta es una de las directrices comunes en los documentos surgidos de la riems, la cual otorga un papel importante a la evaluación de la calidad de los subsistemas y los programas, de las acciones para aumentar la cobertura, el desempeño de las escuelas, los maestros y los alumnos.

1. Introducción

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

14

La prueba enlace ms es uno de los instrumentos que apoya la evaluación de los estudiantes, y pretende constituir una fuente de información fiable para la medición de in-dicadores de logro relacionados con el perfil de egreso de los alumnos que cursan la ems. El examen se aplica de manera censal con una frecuencia anual. En 2011 y 2012 emitió un diagnóstico individual del nivel de dominio de los sustentantes del último ciclo de bachillerato en dos campos disciplinares básicos: Comunicación (Comprensión Lectora) y Matemáticas. Cada alumno recibió un reporte personalizado que indica si su desempeño fue excelente, bueno, elemental o insuficiente; asimismo, permite conocer sus fortalezas y debilidades en los diferentes temas evaluados con el objetivo de establecer estrategias de mejora (cursos de regularización, estudio dirigido, investigación, etcétera).

Por otro lado, se considera prioritario que, además de dar a conocer los resultados a los alumnos, a los titulares del poder público, directores, docentes y padres de familia, la infor-mación relacionada con la prueba se ponga a disposición de otros evaluadores, de modo que se contribuya a la difusión del instrumento y la adecuada interpretación de sus resultados. Así, con la publicación de este segundo Manual Técnico se da cumplimiento a los lineamientos exigidos por el Ceneval y por entidades internacionales que establecen normas y estándares de calidad para los procesos de medición y las pruebas de aprovechamiento.1 De acuerdo con los estándares técnicos que establecen la American Educational Research Association, la American Psychological Association y el National Council on Measurement in Education, los manuales técnicos deben describir los procedimientos que se siguieron en el diseño, ela-boración y aplicación de una prueba (aera, apa & ncme, 1999).

Al inicio de este documento se describen algunos antecedentes del examen, las instan-cias que promovieron el proyecto de evaluación y su adaptación al marco curricular común (mcc) de la riems. Debe señalarse que el instrumento de 2011-2012 retoma únicamente aquellos aspectos del mcc que pueden ser evaluados mediante una prueba diagnóstica, objetiva, estandarizada, de bajo impacto y con reactivos de opción múltiple, cuya aplicación es censal y se realiza en sesiones de 50 minutos. Además, uno de los principales objetivos del instrumento es entregar un reporte de resultados individual a los alumnos donde se identifica su nivel de dominio en cada una de las áreas evaluadas. Adicionalmente para 2011 y 2012 se deseaba mantener la comparabilidad de los resultados con las aplicaciones anteriores, por lo que el diseño de ensamble y aplicación de la nueva prueba incluyó nuevamente la distribución matricial de un pretest, instrumento que permite igualar la escala de calificación año con año.

1 A lo largo del documento, se indica puntualmente el modo en que se cumplen los estándares establecidos de manera conjunta por la aera, la apa y el ncme, en 1999, para el desarrollo y aplicación de instrumentos.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R15

En el tercer apartado del Manual se presentan las características generales de la prueba: el propósito y los objetivos que dictaron las líneas de acción en las etapas posteriores de desarrollo y mantenimiento del instrumento. La cuarta parte explica con detalle la estrategia con que se modificó la estructura de enlace ms para apoyar la evaluación de una muestra representativa de las competencias disciplinares básicas que promueve la riems. Debido a que los documentos de la Reforma delimitan con claridad cuatro campos disciplinares: Comunicación, Matemáticas, Humanidades y Ciencias Sociales, y Ciencias Experimentales, en un principio se buscó que la prueba enlace ms emitiera un diagnóstico de todos ellos; sin embargo, para dar continuidad a la evaluación que se realizó de 2008 a 2010, hasta ahora solo se han evaluado los campos de Comunicación (Comprensión Lectora) y Matemáticas. De cualquier modo, en el Ceneval se diseñaron, elaboraron y verificaron (cualitativa y cuan-titativamente) los reactivos que integran los bancos correspondientes a la medición de indi-cadores de competencias básicas de los cuatro campos disciplinares con la finalidad de tener disponibles las pruebas de Humanidades y Ciencias Sociales, y de Ciencias Experimentales,2 en caso de que en un futuro las autoridades educativas decidan ampliar el espectro de eva-luación de enlace ms.

Se dedica un apartado especial a explicar el proceso de ensamble de versiones antes de describir las condiciones particulares para aplicar el examen. En el caso de enlace ms implican, además de la administración censal, la selección de una muestra de estudiantes con representatividad nacional a quienes se les distribuye un cuestionario de contexto y, de ma-nera matricial, una versión pretest. Se ofrecen también dos secciones explicativas acerca del diseño y los procesos de equiparación en que interviene dicho pretest.

El procedimiento de calificación se describe en el noveno apartado, donde además se explica el significado de ubicar a los sustentantes en uno u otro nivel de dominio, y se reporta el proceso para el establecimiento de puntos de corte. Después de informar acerca de las diversas fuentes que tienen los sustentantes, docentes, directivos y padres de familia para conocer los resultados y las características de la prueba, se reportan los productos del estudio de confiabilidad del examen y el error de equiparación. Se concluye el documento con una discusión de los alcances de la prueba y su comparación con otros exámenes similares a fin de motivar la reflexión y retroalimentación en cuanto al mantenimiento y desarrollo de los procesos de evaluación.

2 Los marcos de referencia para la evaluación de estos campos disciplinares serán publicados como parte de la colección de cuadernos técnicos del Ceneval.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R17

2. Antecedentes

La prueba enlace ms se inscribe dentro del Programa Sectorial de Educación 2007-2012 cuyos objetivos particulares, asociados al propósito general de elevar la calidad de la

educación, son: •• 1) ampliar las oportunidades educativas•• 2) impulsar el desarrollo de tecnologías de la información y de la comunicación en el

sistema educativo•• 3) ofrecer una educación integral basada en competencias•• 4) ofrecer servicios educativos de calidad que formen personas con sentido de responsa-

bilidad social y permitan competir en el mercado laboral•• 5) fomentar una gestión escolar responsable que asegure la transparencia y la rendición

de cuentas a la sociedad sobre el funcionamiento del nivel educativo

Entre otras líneas de acción, el programa sectorial expresa la necesidad de “diseñar, aplicar y consolidar los instrumentos de evaluación del desempeño académico de los estu-diantes como insumo para reorientar la acción pedagógica y para integrar los programas de nivelación académica”.3 Por lo anterior, en febrero de 2007 la sems y la dgep de la sep soli-citaron el apoyo de Ceneval para la elaboración de la prueba enlace ms.

3 Disponible en http://www.sep.gob.mx/wb/sep1/programa_sectorial

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

18

El reto era elaborar una prueba criterial que permitiera dar un diagnóstico a cada alumno sobre su nivel de desempeño al finalizar la educación media superior (ems), además, debía ser posible entregar los resultados en un periodo corto de tiempo. Considerando las restricciones anteriores, se decidió construir una prueba diagnóstica, de bajo impacto, objeti-va, estandarizada y compuesta por reactivos de opción múltiple. Así, enlace ms se diseñó y desarrolló con el fin de generar información para cada estudiante acerca de su capacidad de respuesta ante exigencias de la vida cotidiana al egresar de la ems, de tal forma que se pro-porcionen elementos de retroalimentación individual, así como información que contribuya a la mejora del sistema educativo (incluidos maestros, planteles, padres de familia, etcétera).

Debido a la diversidad de subsistemas que hay en el bachillerato y a la existencia de más de 200 currículos en el ámbito nacional, desde el inicio de las actividades de diseño se esta-bleció la conveniencia de construir y aplicar un instrumento abocado a habilidades generales que son parte fundamental en la ems y en todos los perfiles de egreso: Habilidad Lectora y Habilidad Matemática. Estas habilidades son transversales, es decir, se desarrollan a lo largo de la historia escolar y fuera de ella, además se manifiestan de modo diferencial en los indivi-duos, lo que permite identificar diferentes niveles de dominio. Entre 2008 y 2010, la evalua-ción significó un diagnóstico del desarrollo de los sustentantes en esas dos áreas de habilidad.

Para cumplir con los propósitos enunciados y, además, con la obligación de transpa-rencia gubernamental que exige a la sems publicar año con año la prueba en su totalidad, como parte del plan de evaluación se contempló la elaboración de los siguientes instrumentos y un diseño particular para la recolección de los datos. • • • Prueba operativa: se aplica de manera censal a los alumnos de último año de bachille-

rato, y sus reactivos se hacen públicos después de la aplicación. Con ella se cumple el objetivo de generar información, para cada alumno, acerca de su nivel de desempeño en las áreas evaluadas, se provee de elementos que contribuyan a la mejora del sistema edu-cativo y se genera información útil para el plantel, los profesores y los padres de familia.

• • • Versión pretest: se aplica de forma matricial a una muestra representativa de los alum-nos que responden la prueba operativa, considerando las modalidades y subsistemas de la ems. Sirve de elemento para equiparar las pruebas enlace ms cada año. Está compuesta por reactivos que conformarán la siguiente prueba operativa. El control de la aplicación se asegura mediante la capacitación de personal externo a los planteles y la supervisión de la dgep-sep.

• • • Cuestionarios de contexto: Se administran en lápiz y papel, y versión electrónica a muestras de alumnos y docentes, respectivamente. Los directivos de las escuelas que participan en la aplicación de la prueba enlace ms también responden un cuestionario

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R19

vía internet. Su propósito es contar con información relacionada con variables de con-texto que permitan explicar los resultados y derivar estudios sobre la prueba.

Diseño de recolección de datos• • • Diseño muestral: Para cada aplicación se selecciona una muestra representativa de la

población que responde el cuestionario de contexto y a la cual se distribuye, de manera matricial, la versión pretest. La concentración de los datos de estos sustentantes recibe prioridad ya que se utilizan como punto de partida para la estimación de los parámetros de los reactivos, para los procesos de equiparación y calificación, y para llevar a cabo diversas investigaciones de interés para la sems. Una condición muy importante en la muestra es que los cuadernillos siempre se recuperan en su totalidad para evitar la exposición del pretest.

• • • Distribución de sesiones y reactivos: La prueba operativa se aplica en sesiones de 50 minutos, cada una integrada por reactivos de alguna de las áreas que evalúa la prueba, mismas que se van intercalando para su aplicación. Este instrumento se administra de manera censal durante dos días. En cuanto a la versión pretest y el cuestionario de contexto, los participantes de la muestra participan en dos sesiones adicionales, lo que implica un tercer día de aplicación. La logística respectiva considera una técnica de contrabalanceo para controlar el efecto que el orden de la presentación de las diferentes pruebas pudiese generar.

• • • Diseño matricial para la aplicación pretest: El diseño matricial implica dividir los reactivos que integran la estructura de una prueba en conjuntos o bloques, los cuales se ensamblan para conformar los cuadernillos o formas que son presentados a los alum-nos. Se recurre a este tipo de diseño, entre otras cosas, para disminuir el tiempo de aplicación y evitar que los alumnos contesten al azar o no contesten a causa de la fatiga provocada por responder gran cantidad de reactivos.

• • • Análisis estadísticos: Para la equiparación de las pruebas y la calificación de los alum-nos se utiliza el modelo de tres parámetros de la teoría de respuesta al ítem (tri) por ser uno de los más recomendables cuando las muestras son grandes y se requiere que los resultados se distribuyan a lo largo de la escala de puntuaciones (Kolen y Brennan, 2004).

• • • Método de equiparación: Para igualar las escalas de uno y otro año, el pretest se aplica junto con la prueba operativa y, dado que los alumnos que contestan las pruebas son los mismos, es posible situar los parámetros de los reactivos en la misma métrica. Posteriormente, los reactivos del pretest se utilizan para conformar la prueba operativa del año siguiente, por lo que ambos instrumentos se integran con los mismos reacti-

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

20

vos, aspecto que permite colocar en una escala común los puntajes de los alumnos que contestan las pruebas en los diferentes años.

Si bien los instrumentos utilizados y el diseño de recolección de datos se han mantenido, con la oficialización de la riems4 se hizo necesaria la adaptación de la prueba enlace ms para su aplicación a partir del 2011.

La riems establece que todos los planteles deben adoptar un mcc cuya orientación pedagógica corresponde con el aprendizaje por competencias, centrado en el desarrollo per-sonal y social de los estudiantes. Las competencias están compuestas por conocimientos, “saber conocer”; habilidades, “saber hacer”, y actitudes, “saber ser” (Delors, 1996). Los conjuntos de competencias que se buscan promover mediante el mcc son de tipo:• • • Genérico, con aplicación en diversos contextos académicos, laborales y sociales• • • Disciplinar, que corresponden directamente con los diferentes campos del conoci-

miento, y se dividen en básicas y extendidas• • • Profesional, orientadas al desarrollo de capacidades específicas para facilitar la inserción

en el mercado laboral. Se dividen en básicas y extendidas

Cuando se enseña y se aprende bajo este esquema la intención es que el estudiante adquiera autonomía para resolver problemas, por lo que cuando actúa de manera efectiva se dice que “es competente”. La riems aprehende y particulariza estos significados para incluir en el mcc los conocimientos, habilidades y disposiciones particulares que los alum-nos de bachillerato deben ser capaces de articular para responder a situaciones académicas, personales y laborales. Para orientar el currículo hacia esta perspectiva, toma la definición de competencia de Perrenoud (2004, citado en Acuerdo Secretarial 442), quien la concibe como la capacidad de movilizar recursos cognitivos para hacer frente a diferentes situaciones, a lo que agrega que:

Las competencias no son en sí mismas conocimientos, habilidades o actitudes, aunque movilizan, integran, orquestan tales recursos, [además de que] el ejercicio de la competencia pasa por operaciones mentales complejas, sostenidas por esque-mas de pensamiento, los cuales permiten determinar (más o menos de un modo consciente y rápido) y realizar (más o menos de un modo eficaz) una acción relativamente adaptada a la situación.

4 Diario Oficial de la Federación (2008). Acuerdo 442 por el que se establece el Sistema Nacional de Bachillerato en un marco de diversidad. Disponible en: http://dof.gob.mx/nota_detalle.php?codigo=5061936&fecha= 26/09/2008/

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R21

Para responder a este contexto y, a la vez, dar continuidad al proceso de evaluación que se venía desarrollando desde 2008, se decidió que el objetivo de la prueba enlace ms a partir del 2011 fuera brindar un diagnóstico del nivel de dominio de los sustentantes en dos de los cuatro campos disciplinares básicos incluidos en la riems: Comunicación (Com-prensión Lectora) y Matemáticas.

Una característica básica de la adaptación que se le realizó a la prueba fue reconocer los indicadores concretos y medibles de que el sustentante posee o no de una competencia, tomando en cuenta los rasgos y limitantes de una prueba diagnóstica, con reactivos de op-ción múltiple y de aplicación censal como lo es enlace ms. Por un lado, esto implicó dejar fuera de la prueba la evaluación de competencias genéricas (ya que su naturaleza exige de instrumentos de medición cualitativa para establecer un diagnóstico) y las competencias pro-fesionales (ya que cada alumno desarrolla distintos grupos de competencia de acuerdo con sus intereses laborales). Esto quiere decir que del universo amplio de conceptos, conocimien-tos, habilidades y competencias que se promueven mediante el mcc de la riems, la prueba retoma únicamente un conjunto de atributos típicos que son susceptibles de medición bajo las condiciones específicas del instrumento. Por lo mismo, enlace ms evalúa solo una mues-tra representativa de indicadores de competencias básicas que fueron definidos operacionalmente para que el instrumento permitiera seguir obteniendo información diagnóstica para los estudian-tes de la ems.

2.1 Diferencias entre pruebas

El diseño del nuevo examen retomó algunos aspectos del primer instrumento de enlace ms y los combinó con atributos medibles, relacionados con las competencias disciplinares básicas definidas por la riems en el mcc, y compatibles con las habilidades que se evaluaban anteriormente.

El área de Habilidad Lectora cambió de nombre para corresponder al campo disciplinar de Comunicación (Comprensión lectora). A pesar de esto, la manera en que se concibió el constructo se mantuvo, por lo que la evaluación continúa realizándose a partir de cuatro tipos de textos (expositivo, narrativo, argumentativo y apelativo) y tres procesos cognitivos (extracción, interpretación, y reflexión y evaluación). El total de reactivos asociados a esta área también se conservó (50), aunque se redistribuyeron los subtotales por tipo de texto. La redistribución de reactivos por grupo de procesos implicó eliminar, construir y modificar algunas especificaciones para conformar la nueva estructura. En total se eliminaron 13

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

22

5 El área de matemáticas básicas incluía reactivos relacionados con geometría analítica y trigonometría.

especificaciones, se crearon otras 13, se hicieron modificaciones mínimas a 11 y 26 se deja-ron sin cambio.

En cuanto al área de Habilidad Matemática, su nombre cambió para referirse al campo disciplinar de manera global: Matemáticas. Respecto a la definición del constructo se man-tuvieron los mismos procesos cognitivos (reproducción, conexión y reflexión), y se con-servaron tres de los cuatro contenidos (cantidad, cambios y relaciones, espacio y forma). Se eliminó por completo el contenido de matemáticas básicas puesto que corresponde con competencias disciplinares extendidas5 y la nueva prueba busca evaluar únicamente los con-tenidos compartidos entre las diferentes opciones de bachillerato. Por lo anterior, se redujo el total de reactivos de 90 a 60; se eliminaron 20 especificaciones de matemáticas básicas, 5 especificaciones del área de cantidad y otras 5 de cambios y relaciones por considerar que evaluaban habilidades meramente académicas sin aplicación en la vida cotidiana.

En la Tabla 1 se resumen las características de las pruebas que se han aplicado, de modo que se pueden reconocer las semejanzas y las diferencias entre la de 2008-2010, basada en la evaluación de habilidades, y la de 2011-2012, basada en la medición de indicadores de competencias. En general, los contenidos y procesos de las pruebas se conservaron aproxi-madamente en un 70%.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R23

La adaptación del instrumento implicó diversos procesos integrados y sistematizados mediante diez fases propias de la metodología Ceneval: diseño, delimitación del objeto de me-dida, construcción, verificación, ensamble, aplicación, calificación, emisión de resultados, mantenimiento del examen y del material complementario (Ceneval, 2011). El desarrollo de casi todas las tareas fue responsabilidad del Centro, con excepción de aquellas asociadas a la aplicación, calificación y emisión de reportes, que estuvieron a cargo de la dgep-sep.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

24

2.2 Cuerpos colegiados

Debido a la importancia de asegurar la validez y pertinencia del proceso evaluativo, y así también la calidad del trabajo que se realiza en las distintas fases de la metodología Ceneval, se contó con la participación de cuerpos colegiados que avalaron y legitimaron cada fase de construcción de la prueba. Los grupos colegiados están conformados por expertos en el ámbito educativo nacional e internacional, y en la evaluación de los campos disciplinares que integran la prueba.

A continuación se detallan las funciones de los grupos de trabajo que intervinieron en la elaboración y adaptación de la prueba, tanto en el diseño como en su construcción y mantenimiento.• • • Consejo Técnico: asesora a las autoridades educativas y a los comités académicos en

el diseño, análisis y seguimiento de la prueba impulsando acciones que permitan res-paldar su transparencia y confiabilidad; valida su estructura y sus contenidos; revisa los resultados del estudio piloto y propone modificaciones a partir de ellos; evalúa técnica y académicamente los informes que se producen y define los usos que son apropiados. Además, colabora en la propuesta de elaboración de los cuestionarios de contexto y aprueba el esquema de aplicación.

• • • Comité académico diseñador: es el responsable de la definición de los contenidos por evaluar, los grupos de procesos cognitivos y niveles de complejidad que explora la prueba y determinan su estructura. A partir de ello, elabora las especificaciones que son revisadas por el comité académico validador de especificaciones.

• • • Comité académico de elaboración de reactivos: está conformado por docentes del nivel medio superior y especialistas en los contenidos de la prueba, que elaboran los reactivos con base en las especificaciones de la prueba.

• • • Comité académico de validación externa: garantiza que los reactivos elaborados correspondan con lo que se desea evaluar y representen de manera clara y precisa los elementos necesarios para asegurar la validez de la evaluación.

• • • Comité académico de puntos de corte: sus miembros son expertos en las áreas de evaluación que revisan los parámetros de los reactivos, obtenidos después de la aplica-ción de la prueba, identifican las puntuaciones de corte y definen los niveles de dominio.

• • • Asesores externos: se cuenta con la participación de especialistas reconocidos en Latinoamérica, Estados Unidos y Europa, que establecen los estándares técnicos, eva-lúan los distintos indicadores de los instrumentos y hacen recomendaciones para el mejoramiento de los procesos de diseño, la elaboración y la administración de las pruebas.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R25

La decisión de integrar tantos y tan diversos cuerpos colegiados deriva de la impor-tancia que da el Ceneval al hecho de contar con diferentes puntos de vista que abonen a la validez y enriquezcan cada instrumento de evaluación.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R27

Antes de explicar en detalle las actividades que se realizaron para adaptar y delimitar el objeto de medición, conviene dedicar un apartado a la des-

cripción de las características generales de la prueba enlace ms. Algunas de ellas fueron determinadas por la sems como instancia que solicitó la prueba, y otras se han ido estable-ciendo con los acuerdos del Consejo Técnico y el trabajo del comité académico diseñador.

El objetivo del instrumento de 2011 y 2012 fue determinar el dominio que los susten-tantes poseen sobre diferentes competencias básicas asociadas a los campos disciplinares de Comunicación (Comprensión Lectora) y Matemáticas. Estas competencias están determina-das en el mcc como parte fundamental del perfil de egreso de bachillerato. Su evaluación se realiza con el fin de: • • • Generar información diagnóstica para cada alumno• • • Proveer elementos que contribuyan a la mejora del sistema educativo• • • Proveer información útil para el plantel, los profesores y los padres de familia

La prueba está dirigida al alumnado del último ciclo del nivel medio superior (cuatri-mestre, semestre, año, etcétera) que cursa la modalidad escolarizada de los diferentes tipos de bachillerato (general, tecnológico y bivalente), ya sean de sostenimiento público o privado, en la República Mexicana.

3. Características de la prueba

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

28

3.1 Especificaciones técnicas

La prueba enlace ms se aplica cada año de manera censal en los estados de la República Mexicana. Es una evaluación diagnóstica individual que consta de 110 reactivos de opción múltiple, cuyo resultado se utiliza con fines de retroalimentación (examen de bajo impacto) y señala el nivel de dominio que alcanza el sustentante en indicadores de competencia aso-ciados a los campos que evalúa la prueba. Haladyna (2006) considera que los reactivos de opción múltiple son los adecuados para medir indicadores de conocimientos y habilidades cognitivas básicas y de orden superior porque permiten delimitar claramente los contenidos de evaluación y contar con una muestra representativa del universo que abarca toda área de conocimiento.

Por sus características de aplicación y calificación, enlace ms es una prueba objetiva y estandarizada, además, por su diseño la evaluación se clasifica como criterial y de bajo impac-to, ya que otorga únicamente un diagnóstico general del nivel de dominio de los estudiantes, de acuerdo con un criterio fijado previamente por especialistas.

En la Tabla 2 se sintetizan los rasgos del instrumento de evaluación de acuerdo con las categorías establecidas por Vidal (2009) y los lineamientos internos del Ceneval para las pruebas generadas en el Centro.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R29

En cuanto al diseño, elaboración, aplicación y calificación, la prueba enlace ms pre-senta otra característica específica que, aunque se explica detalladamente en los apartados correspondientes, vale la pena mencionar desde el inicio de este Manual Técnico. Debido a que por cuestiones de transparencia, los reactivos de la versión operativa se hacen públi-cos después de ser aplicados, cada año, además de la aplicación de la prueba operativa, se realiza la aplicación, a una muestra representativa, de una versión pretest (que se ensambla y distribuye de manera matricial); este instrumento tiene la misma estructura que la versión

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

30

operativa y presenta los reactivos que se utilizarán para la evaluación nacional del siguiente año (estándares 5.1, 5.2, 5.5, 5.6 y 5.7).

El pretest es de suma importancia para el diseño de las pruebas enlace ms ya que permite igualar la escala de calificación año con año y asegurar la comparabilidad de los resultados. Además, su aplicación asegura las condiciones de aplicación y calificación que se requieren para ser consecuentes con la obligación de transparencia establecida desde el ámbito gubernamental, ya que los reactivos utilizados en la versión operativa son publicados en su totalidad después de su aplicación sin que esto afecte el proceso de escalamiento entre pruebas.

Utilizar un instrumento adicional impacta, como se verá más adelante, en la elabora-ción y validación de reactivos, así como en el piloteo, además, involucra un ensamble especial para cada una de las pruebas y un proceso de equiparación congruente con las necesidades del instrumento (v. Apartado 8.2).

3.2 Alcances y limitaciones

Para describir los alcances de enlace ms, es importante enfatizar que es una prueba refe-rida a criterio y con cobertura de dominio restringido, es decir, la evaluación se enfoca a un conjunto limitado de conocimientos y habilidades (y no a la totalidad de los que se indican en el mcc) que un grupo de expertos considera indicadores suficientes y representativos de las competencias básicas de dos campos disciplinares que deben dominar los sustentantes al egresar de bachillerato. Por lo mismo, el instrumento no incluye todas las temáticas y tareas que los estudiantes del nivel medio superior pueden y deben dominar.

Además, la prueba se diseñó para brindar un diagnóstico general e individual que per-mita al alumno conocer de manera cualitativa sus fortalezas y debilidades en cada campo dis-ciplinar: Comunicación (Comprensión Lectora) y Matemáticas. De este modo, los principales beneficiarios son los estudiantes que reciben retroalimentación personalizada y, en segundo lugar, los profesores y las escuelas, que pueden identificar áreas de oportunidad para mejorar las planificaciones y actividades en el aula.

El diseño y propósitos de la prueba enlace ms se limitan a la emisión de un diagnós-tico general para el sustentante, por lo que es inadecuado derivar conclusiones acerca de la ems, los subsistemas, las escuelas o el desempeño de las entidades federativas. Es importante hacer hincapié en los alcances y limitaciones de la prueba ya que utilizar los resultados de la evaluación para fines contrarios ocasionaría interpretaciones carentes de validez (estándar 1.1).

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R31

La prueba enlace ms no sirve para hacer comparaciones entre alumnos, entre escuelas o entre subsistemas; solo responde a los propósitos para los que fue creada (proporcionar un diagnóstico individual, elementos que contribuyan a la mejora del sistema educativo y retroa-limentación para maestros, planteles y padres de familia).

Las decisiones que se tomen a partir de los resultados deben considerar cuidadosamen-te el contexto de la evaluación y las condiciones de cada escuela, por lo que no es válido sacar conclusiones sobre el mejor o peor subsistema, plantel o plantilla docente.

Por su diseño y tipo de aplicación, enlace ms no es apta para administrarse a alumnos con necesidades especiales o que usen una lengua diferente al español.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R33

De acuerdo con la metodología Ceneval y como parte de la primera fase para desarrollar pruebas eficaces (Ceneval, 2011), la adaptación de la prueba enlace ms implicó

que el Consejo Técnico revisara el perfil referencial (pr) establecido en 2008 para definir los aspectos que se mantendrían y aquellos que, en congruencia con la riems, orientarían las actividades de medición hacia el nivel de desarrollo de los sustentantes en relación con el mcc (estándares 1.1 y 3.2).

Los miembros del Consejo Técnico (ver Anexo A) establecieron la importancia de dar continuidad al proceso evaluativo y a las especificaciones técnicas propias del perfil original, pero instituyeron como propósito prioritario obtener información acerca del desarrollo de los alumnos en relación con los objetivos y competencias determinadas por la riems. En el ámbito educativo, el concepto de competencia se deriva directamente del latín competere, que significa “te compete” o “eres responsable de hacer algo”. De este modo se intenta recuperar la noción de que no basta poseer conocimientos: hay que saber usarlos y aplicarlos con res-ponsabilidad. Considerando la necesidad de una evaluación censal y objetiva que permitiera seguir contando con datos generales, pero a su vez, tomando en cuenta la complejidad del constructo de competencia, se optó por la perspectiva de medición de indicadores. Esta expre-sión hace referencia a la identificación de indicadores de logro, que son comportamientos manifiestos, evidencias representativas, señales, pistas, rasgos o conjuntos de rasgos observa-bles en la respuesta que da una persona a cierta tarea (Zavala & Arnau, 2007), y que permiten emitir un diagnóstico acerca del nivel de dominio que el sustentante posee de una o varias competencias.

4. Adaptación y diseño de la prueba

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

34

4.1 Delimitación del objeto de medición y referentes del examen

Para delimitar operacionalmente el objeto de evaluación se deben seleccionar y definir las áreas, los contenidos y la taxonomía del examen; estas tareas forman parte del segundo proceso de construcción de pruebas en la metodología Ceneval y se identifican puntualmente con la fase de definición o adaptación de contenidos (Ceneval, 2011).

Para delimitar el perfil de la prueba enlace ms 2011-2012, se retomaron las definiciones de contenidos, áreas y procesos cognitivos correspondientes a la primera evaluación y se adap-taron según lo que marca la riems. La concepción teórico-pedagógica más importante que dis-tinguió el trabajo de adaptación se identificó directamente con la educación por competencias.

De acuerdo con Rosado (2007) el nivel de competencia de un individuo se observa cuando realiza una tarea determinada que depende de varios recursos: conocimientos, creen-cias, habilidades en diversos campos, actitudes, valores, etcétera. Por tanto, educar con un enfoque en competencias implica activar eficazmente distintos dominios del aprendizaje, además, en cada tipo de dominio se alcanzan niveles de complejidad distintos en concordancia directa con la naturaleza del campo disciplinar y las necesidades externas.

Las competencias movilizan recursos con los que el sujeto cuenta, pero no se reducen a ellos. Además, un mismo recurso puede ser aprovechado para ejerci-tar distintas competencias. De hecho, estas se articulan para conformar otras de mayor complejidad, con lo cual una menor puede convertirse en recurso de otra superior (Rosado, p.9).

Como se puede ver, el constructo de competencia es muy amplio y permite su eva-luación considerando diferentes niveles de dominio. Esto permitió que los responsables del proceso de adaptación de enlace ms establecieran la factibilidad de mantener sin cambio 70% de los contenidos de la prueba que estaba centrada en la medición de habilidades. Dicha responsabilidad recayó en un grupo de especialistas que conformaron el comité académico diseñador (uno por campo disciplinar), el cual fue convocado después de hacer una solicitud de apoyo a las direcciones escolares asociadas a los tres grandes subsistemas de ems: bachille-rato tecnológico, bachillerato general y bachillerato bivalente. Todas ellas enviaron listados de personas recomendadas por su experiencia en la docencia, la investigación y la planificación curricular (específicamente los encargados de la adaptación de programas a la Reforma). La selección de los miembros del comité se hizo procurando que los grupos representaran a diferentes planteles y entidades de la República (ver Anexo B, Tabla B1).

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R35

Los expertos estudiaron las áreas, contenidos temáticos y procesos cognitivos de la prueba enlace ms anterior, los referentes técnicos y operativos de la riems6 y diferen-tes marcos teóricos de pruebas estandarizadas nacionales e internacionales, entre ellas pisa, timss, saber, acredita-bach, entre otras. Cada una de estas evaluaciones tiene objetivos distintos pero en todos los casos evalúan aspectos de comprensión lectora y matemáticas, y además, en mayor o menor medida incluyen reactivos de opción múltiple.

Se realizó también una revisión de los planes y programas de diferentes modalidades y direcciones de ems: dgb, conalep, cch, Bachilleres y Bachilleratos Tecnológicos, con la finalidad de identificar los contenidos comunes a todas las opciones de ems y establecer el contexto que apoyaría la redefinición de los mismos y los procesos cognitivos por evaluar. De acuerdo con Frade (2008), para delimitar los indicadores de una habilidad o una compe-tencia es necesario ubicarlos en un plan de estudios dentro de los módulos o cursos que los integran, para que así se parta de un escenario o contenido que sea el marco contextual para valorar el desempeño del estudiante.

Con este marco de referencia, los especialistas sesionaron de una a dos semanas para acordar y definir los contenidos específicos de cada campo, su organización y el peso de cada uno en la evaluación de acuerdo con una taxonomía diseñada especialmente para enlace ms. Dado que la prueba pretende ser un diagnóstico general del nivel de dominio de los sustentantes, se consideró únicamente una muestra representativa de todo el universo de conocimientos y habilidades que pudieran establecerse como indicadores de desempeño en cada campo disciplinar.

El perfil de egreso establecido en el mcc determina que los alumnos deben dominar en total 12 competencias comunicativas básicas y 8 relacionadas con las matemáticas. En el caso de Comunicación, la selección de indicadores que se miden en la prueba se limitó a aquellas competencias asociadas con la Comprensión Lectora dado que es el único atributo relacionado con las competencias comunicativas que puede evaluarse con reactivos de op-ción múltiple7. Por ello, se seleccionaron únicamente 7 de las 12 competencias que integran el mcc. En cuanto a Matemáticas, las competencias seleccionadas dependieron de que sus indicadores fueran medibles mediante este tipo de reactivos y sin el uso de calculadora; con-siderando estos criterios, se retomaron seis de las ocho competencias que establece el mcc.

6 Los referentes técnicos y operativos de la riems se pueden consultar en http://www.reforma-iems.sems.gob.mx/ 7 Las competencias y productos de su operacionalización se describen detalladamente en los apartados dedicados a cada campo

disciplinar en este Manual.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

36

La pertinencia y relevancia de los contenidos y taxonomía establecida para cumplir con los propósitos de enlace ms fueron revisadas por especialistas reunidos en comités acadé-micos de validación (ver Anexo B, Tabla B2). La propuesta final fue aprobada por el Consejo Técnico el día 3 de septiembre de 2010. A continuación se presenta la descripción detallada de las áreas, los contenidos temáticos y los grupos de procesos cognitivos (taxonomía) que conforman el examen.

4.1.1 Comunicación (Comprensión Lectora)De acuerdo con la riems, las disciplinas que engloba el campo de Comunicación son lectura y expresión oral y escrita, literatura, lengua extranjera e informática. Las competencias básicas respectivas se refieren a la capacidad de los estudiantes para comunicarse efectivamente en español en diversos contextos y, por lo menos en lo esencial en una segunda lengua, hacien-do uso de distintos medios e instrumentos. Los estudiantes que hayan desarrollado estas competencias podrán leer críticamente, comunicar y argumentar ideas de manera efectiva y con claridad, oralmente y por escrito. Además, usarán las tecnologías de la información y la comunicación de manera crítica para diversos propósitos comunicativos (v. Acuerdo 444).8

Para efectos de la prueba enlace ms alineada a la riems, el comité académico dise-ñador determinó los aspectos del mcc que eran susceptibles de evaluar con una prueba diag-nóstica, de aplicación censal, estandarizada y con reactivos de opción múltiple. Desde esta perspectiva, los indicadores de competencias relacionados con la argumentación, la habilidad de escritura y de aprovechamiento de tecnologías de información quedaron fuera del univer-so de medición. Así, la prueba de 2011-2012 se asemeja a la evaluación que se hizo de 2008 a 2010 ya que se aboca a la medición de habilidades, además de otros indicadores de com-petencias relativas a la Comprensión Lectora, pero retomando las recomendaciones del mcc en cuanto a orientar la evaluación y las acciones docentes hacia una reflexión acerca de la na-turaleza del lenguaje y a su uso como herramienta del pensamiento lógico. A continuación se enuncian las 7 competencias disciplinares básicas cuyos indicadores se retoman en la prueba:• • • Identifica, ordena e interpreta las ideas, datos y conceptos explícitos e implícitos en un

texto, considerando el contexto en que se generó y en el que se recibe• • • Evalúa un texto mediante la comparación de su contenido, sus conocimientos previos

y nuevos• • • Identifica el uso normativo de la lengua, considerando la intención y la situación

comunicativa

8 Acuerdo Secretarial 444, disponible en http://dof.gob.mx/nota_detalle. php?codigo=5064951&fecha=21/10/2008

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R37

• • • Analiza un argumento preciso, coherente y creativo• • • Relaciona ideas y conceptos en composiciones coherentes y creativas, con introduccio-

nes, desarrollo y conclusiones claras• • • Evalúa la secuencia o relación lógica en el proceso comunicativo• • • Identifica e interpreta la idea general y posible desarrollo de un mensaje escrito, recu-

rriendo a conocimientos previos y al contexto cultural

Con este punto de partida, se determinó que la evaluación de la Comprensión Lectora en la prueba enlace ms conceptualizara la lectura como una herramienta fundamental en todas las formas de crecimiento intelectual, no solo en el ámbito académico como base del aprendizaje, sino para actividades de tipo recreativo y para el desarrollo social. • • • Definición del área. La Comprensión Lectora se define como “la capacidad de un indivi-

duo para comprender, analizar, interpretar, reflexionar, evaluar y utilizar textos escritos, mediante la identificación de su estructura, sus funciones y sus elementos, con el fin de desarrollar una competencia comunicativa y construir nuevos conocimientos que le permitan intervenir activamente en la sociedad”.

• • • Contenidos (subáreas). El contenido por evaluar está asociado con el tipo de texto del que se desprenden los reactivos que miden la Comprensión Lectora. Los cuatro tipos de texto que contiene la prueba enlace ms se eligieron por considerarse repre-sentativos del nivel educativo, y porque reflejan funciones importantes de la lengua. Su descripción es la siguiente:• • • Apelativo. Es una carta formal dirigida a una o varias personas, instituciones u

organizaciones, cuya intención es informar, llegar a un acuerdo, hacer una acla-ración o lograr que se realice una determinada acción.

• • • Argumentativo. Es un artículo de opinión que se refiere a fenómenos o hechos de la realidad social de la región, el país o el mundo, desde un punto de vista personal fundamentado en argumentos que siguen un proceso lógico de razona-miento, con el fin de promover en el lector juicios de valor y actitudes.

• • • Expositivo. Es un artículo de divulgación científica que describe objetivamente un fenómeno, hecho o avance tecnológico, por medio de la presentación ordenada de datos, gráficos, ejemplos, conclusiones y opiniones especializadas, entre otros recursos, con la intención de difundir un conocimiento.

• • • Narrativo. Es un cuento breve o microrrelato, escrito en prosa, con lenguaje connotativo, pocos personajes y que describe diferentes acciones en un ambiente espacio-temporal, con la intención de entretener y deleitar al lector.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

38

El comité académico diseñador elaboró listas de cotejo que señalan los requerimientos de forma y contenido para cada texto con el fin de asegurar que haya uniformidad entre ellos en las evaluaciones anuales y que los reactivos aso-ciados permitan cumplir con la evaluación de los procesos necesarios, no sean ofensivos para algún grupo social, y manejen un lenguaje claro, sin regionalis-mos, ni tecnicismos.

• • • Procesos y niveles de complejidad. La prueba enlace ms concibe la lectura como una actividad multidimensional, por lo que al evaluar la Comprensión Lectora se espe-ra que los estudiantes demuestren su capacidad para obtener información, comprender los textos de manera general, interpretarlos y reflexionar sobre su contenido y su forma. Los procesos cognitivos que se evalúan corresponden con los procedimientos cogniti-vos mínimos que los sustentantes con diferentes grados de desarrollo deben poner en práctica para utilizar de manera adecuada los textos. •• 1. Extracción: implica buscar, identificar y seleccionar información explícita de un

fragmento o de la totalidad del texto.•• 2. Interpretación: implica identificar el tema central del texto, así como información

implícita relacionada con este; atribuir significado y sentido a palabras, oraciones, conceptos o a la totalidad del texto, de acuerdo con su propósito comunicativo y su contexto.

•• 3. Reflexión y evaluación: implica valorar la información que contiene un texto, rela-cionarla o contrastarla con los conocimientos previos; además, supone identifi-car la correspondencia entre el contenido y la estructura del texto, y juzgar su pertinencia con el propósito comunicativo con que fue escrito.

Con el fin de precisar aún más la medición, se desagregaron los procesos en tres niveles de complejidad, de acuerdo con las características y tareas involucradas en cada uno. La de-finición de los niveles de complejidad sirvió como referente para elaborar reactivos distintos que representaran la variabilidad en el desarrollo de la comprensión lectora, por esta razón y conservando la subdivisión de procesos del primer perfil, los grupos de procesos de Inter-pretación y Reflexión y evaluación, se desagregaron en sí mismos para optimizar las actividades posteriores de construcción y calificación de la prueba (ver Tabla 3).

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R39

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

40

4.1.2 MatemáticasEl mcc de la riems establece como propósito del campo disciplinar de Matemáticas propiciar el desarrollo de la creatividad y el pensamiento lógico-crítico en el alumnado. Entre otras capacidades, un estudiante que cuente con las competencias disciplinares de matemáticas podrá argumentar y estructurar mejor sus ideas y razonamientos. El enfoque pedagógico por competencias reconoce que a la solución de cada tipo de problema matemático corresponden diferentes conocimientos y habilidades, y el despliegue de diferentes valores y actitudes. Por ello, los estudiantes deben razonar matemáticamente, y no simplemente responder ciertos tipos de problemas mediante la repetición de procedimientos establecidos. Esto implica que puedan llevar las aplicaciones de esta disciplina más allá del salón de clases (v. Acuerdo 444).9

Estas prescripciones generales sirvieron al comité académico que adaptó la prueba enlace ms en cuanto a su definición operacional, los contenidos matemáticos y los grupos de procesos cognitivos que se evalúan con los reactivos de la prueba. Además, se retomaron las siguientes 6 competencias disciplinares básicas del mcc (de un total de 8), por considerar que son susceptibles de medirse mediante reactivos de opción múltiple y en condiciones estandarizadas.• • • Interpreta modelos matemáticos mediante la aplicación de procedimientos aritméticos,

algebraicos, geométricos y variacionales, para la comprensión y análisis de situaciones reales, hipotéticas o formales

• • • Resuelve problemas matemáticos, aplicando diferentes enfoques• • • Interpreta los datos obtenidos mediante procedimientos matemáticos y los contrasta

con modelos establecidos o situaciones reales• • • Analiza las relaciones entre dos o más variables de un proceso social o natural para

determinar o aproximar su comportamiento• • • Cuantifica y representa matemáticamente las magnitudes del espacio y las propiedades

físicas de los objetos que lo rodean• • • Lee tablas, gráficas, mapas, diagramas y textos con símbolos matemáticos y científicos

La estructura del instrumento para el campo de Matemáticas se organizó de manera sistemática, por un lado, a través de los contenidos matemáticos que engloban los temas o elementos conceptuales en los que un estudiante debe basarse para resolver un problema y, por el otro, con los procesos matemáticos en los que se agrupan las tareas cognitivas que el estudiante utiliza para responder un cuestionamiento o solucionar un problema.

9 Acuerdo Secretarial 444, disponible en http://dof.gob.mx/nota_detalle. php?codigo=5064951&fecha=21/10/2008

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R41

• • • Definición del área. El instrumento de Matemáticas mide “la capacidad de un individuo para identificar, interpretar, aplicar, sintetizar y evaluar matemáticamente su entorno, haciendo uso de su creatividad y de un pensamiento lógico y crítico que le permita solucionar problemas cuantitativos, con diferentes herramientas matemáticas”.

• • • Contenidos matemáticos. Para afirmar que un sustentante posee un desarrollo sufi-ciente de las competencias disciplinares básicas de Matemáticas, independientemente del área de que haya cursado como bachiller, debe conocer y manejar por lo menos tres contenidos matemáticos generales: cantidad, espacio y forma, y cambios y relaciones. Su descripción es la siguiente:• • • Cantidad. Se refiere a la capacidad de cuantificar para describir el entorno. In-

cluye aquellos conceptos involucrados en la comprensión y el orden de tamaños relativos, uso de números para representar cantidades y atributos cuantificables de los objetos del mundo real, y realizar cálculos.

• • • Espacio y forma. Se refiere a la capacidad de reconocer patrones, imágenes, ubicaciones, movimientos o cualidades espaciales de los objetos, así como co-dificar y decodificar información de estos en contextos concretos (imágenes) y abstractos (descripciones).

• • • Cambios y relaciones. Se refiere a reconocer, interpretar, aplicar, sintetizar y evaluar de forma numérica, algebraica y gráfica las relaciones entre dos o más variables. Admite la posibilidad de inferir datos a partir del análisis de situaciones reales, experimentales o hipotéticas.

• • • Procesos cognitivos. El dominio de los contenidos matemáticos se evalúa a través de tareas que implican el despliegue de tres grupos de procesos cognitivos: reproduc-ción, conexión y reflexión. Las definiciones de los procesos describen conocimientos, actividades y tareas cognoscitivas progresivamente más sofisticadas y relacionadas con la organización jerárquica del aprendizaje de las matemáticas (Reyes et al., 2012). La progresión en la complejidad de las tareas se refleja con mayor claridad en las des-cripciones cualitativas de los cuatro posibles niveles de dominio en que se ubica a los sustentantes después de su calificación. Los grupos de procesos cognitivos que se evalúan en la prueba enlace ms son: • • • Reproducción: Incluye tareas que permiten determinar si el sustentante conoce y

aplica la técnica matemática. Implica esencialmente aplicar conocimientos y pro-cedimientos matemáticos a problemas directos, reconocer equivalencias, utilizar

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

42

objetos y propiedades matemáticas, así como extraer información de representa-ciones numéricas, simbólicas y gráficas.

• • • Conexión: Incluye problemas que se presentan a partir del planteamiento de si-tuaciones sencillas, académicas o de la vida cotidiana. Los problemas de este tipo plantean exigencias en su interpretación y requieren que el sustentante reconozca la técnica matemática que hay que utilizar, con el fin de solucionar problemas que impliquen equivalencias, uso de propiedades matemáticas y empleo de represen-taciones numéricas, simbólicas y gráficas.

• • • Reflexión: Incluye problemas que NO son directos y se presentan a partir de situaciones complejas retomadas de la vida real en las que se utilice más de una forma de representación de información (textual, numérica, simbólica o gráfica). Los problemas de este tipo plantean exigencias en su interpretación y requieren que el sustentante reconozca la técnica matemática que hay que utilizar, establezca relaciones, combine e integre información entre distintas formas de represen-tación o entre diferentes aspectos de una situación y utilice más de un paso o proceso, con el fin de solucionar un problema.

Al igual que en el caso de Comunicación (Comprensión Lectora), el comité diseñador de Matemáticas desglosó los procesos cognitivos en tres niveles de complejidad. Las defini-ciones operacionales se presentan en la Tabla 4.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R43

4.2 Estructura global de la prueba

Para todas las pruebas generadas en el Ceneval, la estructura se refiere a la distribución de los reactivos por área y subárea en congruencia con la definición del constructo previamente establecida. Los productos de las tareas de delimitación de contenidos constituyen la base conceptual y operacional del examen y son el insumo para determinar su estructura. Esta debe corresponder con los propósitos de la prueba y las características de los sustentantes, de modo que se trace el camino para determinar de manera clara y precisa el qué se quiere medir y el por qué.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

44

En total, la prueba de 2011 y 2012 consta de 110 reactivos, 50 que evalúan Comuni-cación (Comprensión Lectora) y 60 Matemáticas. La cantidad y dificultad de los reactivos de enlace ms se distribuyó considerando la relevancia de cada contenido para el diagnóstico del nivel de dominio en el desarrollo de las competencias básicas de cada campo disciplinar.

La estructura fue validada por el comité académico validador antes de su aprobación por parte del Consejo Técnico. El criterio principal fue asegurar que con ella se obtuviera una muestra representativa de lo que todo bachiller debe dominar en congruencia con el mcc y el perfil de egreso de la riems. Para ello, los reactivos de la prueba cubren toda la gama de procesos cognitivos que se indican en la estructura, por lo que evalúan contenidos que exigen un desarrollo básico, intermedio y avanzado de las competencias disciplinares básicas. Los reportes de resultados se construyen tomando en cuenta este abanico de dificultad en las ta-reas cognitivas y los indicadores asociados, con la intención de ofrecer al alumno, al docente y a las autoridades educativas una descripción clara de su nivel de dominio al egresar de la ems.

En la Tabla 5 se presenta la distribución de reactivos por procesos y contenidos temá-ticos que guió las siguientes fases de construcción de la prueba enlace ms 2011-2012.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R45

Esta fase conlleva varias actividades, una de las más importantes es la elaboración de los reactivos que conformarán la prueba. Para ello se desarrolla un plan de

elaboración de reactivos y posteriormente se imparten talleres de elaboración a especialistas en los diferentes campos disciplinares. Una vez elaborados, los reactivos pasan por diferentes etapas: revisión técnica, validación y revisión de estilo. Todos estos procesos se llevan a cabo en la plataforma saber, desarrollada por Ceneval, específicamente en el Banco de Reactivos para Asesores Externos (brae).

5.1 Plan general de elaboración de reactivos

La elaboración de reactivos para la prueba enlace ms alineada a la riems comenzó dos años antes de la aplicación operativa, es decir, en 2009. El plan anual de elaboración toma en cuenta que los requerimientos del proyecto hacen necesario que se mantenga en opera-ción un banco de reactivos suficiente para conformar por lo menos, anualmente, tres ver-siones de la prueba (ver apartado Ensamble) y reactivos extra que se utilizan para estudios experimentales. Esto implica mantener activo durante todo el año el proceso de elaboración de reactivos para poder pilotear una cantidad suficiente de ítems con buenas cualidades psi-cométricas. En la Tabla 6 se presentan los productos de elaboración anual.

5. Elaboración de reactivos

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

46

Es importante mencionar que de 2009 a la fecha, como parte del plan de elaboración de reactivos, no solo se han incrementado de manera periódica los bancos de Comunicación (Comprensión Lectora) y Matemáticas, ambos necesarios para cubrir los requerimientos de la estructura 2011-2012, también se han elaborado reactivos que evalúan indicadores de com-petencias básicas disciplinares de Humanidades y Ciencias Sociales, y de Ciencias Experi-mentales. Con esto se pretende tener listo el banco en caso de que las autoridades de la sems decidan en el futuro incluir alguno de estos campos en la prueba enlace ms.

5.2 Capacitación a colaboradores

Con el propósito de mantener la calidad de la prueba y contar con reactivos técnicamente adecuados, el Ceneval imparte talleres de capacitación basados en la metodología institucio-nal y en los lineamientos para la elaboración de reactivos. Este es uno de los primeros pasos para asegurar que los resultados de la prueba son válidos y no se deben a aspectos de forma o detalles externos al objeto y estructura de la evaluación (estándares 3.6 y 3.7).

A los talleres de enlace ms asistieron docentes y especialistas en la enseñanza de las asignaturas afines a los campos disciplinares básicos, de acuerdo con las líneas establecidas por la riems. El requisito principal fue que los profesores contaran con experiencia en el aula y, de ser posible, en la implementación de la Reforma.

En estos talleres los especialistas aprenden a elaborar reactivos de opción múltiple. Cada reactivo debe contar con una base y 4 opciones de respuesta, una es la respuesta correcta y las otras tres son distractores. Adicionalmente se informa a los asistentes de la historia y objetivos del Centro y, sobre todo, de las particularidades de la prueba enlace ms; esto es importante para que los ítems correspondan con el propósito, estructura y modelo taxonó-mico de la evaluación.

Para maximizar la validez de las interpretaciones que se derivan de ellos, Vidal et al. (2000) enfatizan la importancia de elaborar reactivos claros, con un formato que incluya siempre las siguientes partes: base del reactivo, opciones de respuesta con justificación, res-puesta correcta, referencia o bibliografía, fecha y nombre del autor. Además de facilitar el control de la producción de reactivos, contar con las justificaciones de las respuestas correctas e incorrectas reduce el riesgo de presentar opciones triviales que no aporten mucho a la in-terpretación de los datos finales, así también promueve el diálogo entre elaboradores y capa-citadores, ya que la retroalimentación se da de manera bidireccional, en cuanto a contenidos por parte de los redactores y en cuestiones técnicas por el lado de los revisores.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R47

Los elaboradores de enlace ms también son capacitados para almacenar los reactivos en la plataforma saber, que cuenta con un sistema electrónico al que se puede acceder desde ubicaciones externas (brae) y que agiliza los posteriores procesos de verificación.

5.3 Revisión cualitativa

Si bien Ceneval y sus pruebas han adquirido buena reputación gracias a los procedimientos de calificación y los estándares de calidad internacional que caracterizan a la metodología institucional en los aspectos estadísticos, a sus evaluaciones y a los análisis que se realizan, los procesos de trabajo resaltan la importancia de la verificación y el cuidado del contenido en los perfiles referenciales y los ítems de las pruebas (estándar 3.7).

Todos los reactivos que se elaboran pasan por tres fases de revisión cualitativa, la primera y tercera a cargo del personal de Ceneval, mientras que los protagonistas de la fase intermedia son los integrantes de los comités académicos de validación externa.

5.3.1 Revisión técnicaEl primer filtro es la revisión técnica, que consiste en verificar que los reactivos correspondan a una especificación del perfil referencial, al proceso cognitivo por evaluar y al tipo de texto asociado o al contenido matemático, dependiendo del área correspondiente del reactivo. Además, el personal especializado del Ceneval supervisa que se cumpla con aspectos de for-mato y otros lineamientos como los siguientes:•• 1. Base del reactivo. Debe incluir la información necesaria y suficiente para ser contes-

tado, implicar una sola tarea o cuestionamiento, cumplir con alguno de los formatos establecidos (jerarquización, completamiento, elección de elementos, relación de co-lumnas) y ser independiente de los demás ítems, es decir, la información contenida en un reactivo no ha de sugerir o requerir la solución de otro.

•• 2. Opciones de respuesta. Debe tener solo una respuesta correcta y tres distractores. La respuesta correcta debe ser incuestionable y resolver el planteamiento de manera satis-factoria: asimismo, los distractores han de ser plausibles y totalmente incorrectos. Para corroborar esto, se revisan con especial cuidado las justificaciones o argumentaciones que los elaboradores indican para cada opción de respuesta.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

48

En caso de que algún reactivo no cumpla con los criterios del Ceneval se proporciona retroalimentación al elaborador para su modificación, y solo hasta que se cumplen las condi-ciones de calidad en contenido y forma, el reactivo es registrado como aceptado y listo para la siguiente fase de verificación en la plataforma electrónica del Centro. El mismo proceso se sigue para revisar los textos que se utilizan en la prueba de Comprensión Lectora. Estos deben cubrir diversos criterios en cuanto a la cantidad de palabras, las características que los identifican y los temas a los que hacen referencia, los cuales se indican en una lista de verifi-cación que los revisores técnicos tienen en cuenta para aceptar o pedir modificaciones a los mismos.

5.3.2 Validación con especialistasLos reactivos que cumplen con los lineamientos técnicos son sometidos a un proceso de vali-dación con el fin de garantizar que correspondan al contenido definido en el perfil referencial y representen, de manera clara y precisa, los indicadores de las competencias disciplinares básicas evaluadas en la prueba, ya sean conocimientos, manejo de conceptos, definiciones, relaciones, procedimientos, etcétera (estándar 3.7).

Los validadores son capacitados para revisar los reactivos en la misma plataforma en que son elaborados. Un requisito para que sean parte del proceso es que los docentes o es-pecialistas participen de algún modo en los procesos de planificación curricular, evaluación o enseñanza de las asignaturas afines a los campos disciplinares básicos y las directrices establecidas por la riems. De manera adicional, es importante dominen las temáticas y los lineamientos técnicos del Ceneval para que se cuente con ítems de alta calidad.

Cada reactivo es revisado y validado por lo menos por dos especialistas en coordi-nación con un representante del Ceneval. Los primeros se encargan de leer y analizar cada reactivo de manera individual, discutir colectivamente su contenido, emitir un dictamen y, en su caso, hacer propuestas de mejora. El coordinador de mesa que representa al Ceneval se ocupa de resolver preguntas acerca del perfil referencial, del procedimiento, realizar los cambios necesarios a los reactivos a solicitud de los especialistas, e imprimir los informes de los ítems validados y aceptados.

En la Tabla 7 se presenta el resultado de los procesos de elaboración y validación de 2009 a 2011, lo que ha sido provechoso para contar con un banco de reactivos bastante ro-busto y ensamblar las pruebas aplicadas en 2011 y 2012.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R49

5.3.3 Revisión de estiloÚnicamente los reactivos aceptados en la validación llegan a la tercera fase de verificación cualitativa. La revisión de estilo está a cargo de la Dirección General Adjunta de Difusión (dgad) del Ceneval y consiste en asegurar que los reactivos y los cuadernillos de la prueba cumplan con los lineamientos editoriales del Centro. Para ello se verifica el empleo correcto y uniforme del lenguaje, la puntuación, la ortografía, las abreviaturas y la presentación de tablas y otros apoyos gráficos, así como de la bibliografía y las citas textuales.

La corrección de estilo profesional y competente de los reactivos aumenta la precisión y claridad de las preguntas, además de prevenir defectos de contenido, lo que incrementa la validez de la misma evaluación. El procedimiento de Ceneval para la verificación de estilo im-plica una retroalimentación constante entre los revisores técnicos y el personal de Difusión, logrando una alta calidad en forma y contenido. Para las aplicaciones de la prueba enlace ms, la dgad ha apoyado en la revisión de estilo de casi 6,000 reactivos y más de 120 cuader-nillos de pruebas (piloto u operativas).

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R51

Posterior al proceso de validación, se lleva a cabo el ensamble de los cuadernillos para el estudio piloto o verificación cuantitativa

de los reactivos (estándares 3.7, 3.8 y 3.9). Para ello se consideran únicamente los reactivos que se aceptaron después de la revisión de estilo.

Durante los meses de noviembre de los años 2009, 2010 y 2011, se pilotearon los reactivos de enlace ms alineado a la riems en muestras de alumnos del último ciclo de bachillerato. Los reactivos de buena calidad permitieron integrar las pruebas de 2011 y 2012.

Para los procesos de piloteo, desde el inicio del proyecto se estableció como requisito que cada reactivo fuera respondido por al menos 200 alumnos. La selección de los Centros de Trabajo (ct) y de los sujetos que conforman la muestra del piloto está a cargo de la dgep-sep, que también es responsable de la distribución y aplicación de los cuadernillos. Por motivos de accesibilidad a los grupos de estudiantes, los estudios piloto se han realizado en el Distrito Federal y en el Estado de México, entidades que cuentan con planteles repre-sentativos de todas las modalidades y tipos de bachillerato.

En general, se procura que las condiciones de ensamble y aplicación piloto sean las mismas cada año, las variaciones corresponden a la cantidad de sustentantes que responden las pruebas y al número de reactivos totales que se requiere pilotear. Los bloques de con-tenido y los cuadernillos se distribuyen de manera matricial, balanceando el orden de pre-sentación de los campos disciplinares y los tipos de texto de Comunicación (Comprensión Lectora), con un total de entre 26 y 30 reactivos por sesión.

6. Verificación cuantitativa

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

52

6.1 Calibración de reactivos

Para conocer la calidad estadística de los reactivos que integran el banco de enlace ms, estos se analizan con base en el modelo de la teoría clásica (tc) y el modelo de la teoría de respuesta al ítem (tri), de esta forma se cuenta con información suficiente para calibrar los reactivos y seleccionar los más adecuados para integrar las pruebas.

Los análisis de los reactivos se ejecutan mediante el programa Iteman y bilogmg-3.0; el primero permite analizar las opciones de respuesta y el segundo obtener los parámetros de tc, tri y las curvas características de los reactivos. Considerando la cantidad de alumnos, la calibración para el piloteo de reactivos se hace con el modelo de dos o de tres parámetros de la tri; mientras que los análisis de los reactivos que integran el pretest y la prueba operativa se realizan con el modelo de tres parámetros.

A continuación se describen a detalle los parámetros que se obtienen de los análisis estadísticos de los reactivos con cada una de las teorías. • • • Grado de dificultad (gd). Se refiere al porcentaje de personas que responden correctamen-

te un reactivo de una prueba. Los valores que se consideran óptimos en este parámetro son 20 ≤ GD ≤ 80.

• • • Correlación punto biserial (rpb) o coeficiente de discriminación. Se refiere a la capacidad que tiene el reactivo para distinguir a aquellos que dominan una tarea de los que no, además permite relacionar la tendencia de respuesta de cada reactivo con respecto a la escala de la cual forman parte. La correlación óptima está indicada por un valor mayor a 0.20, aunque generalmente basta con que este sea positivo para incluir un reactivo en los procesos de ensamble y calificación.

En cuanto a los análisis realizados con base en la tri, se valora la calidad del reactivo mediante los siguientes indicadores:• • • Índice de discriminación (a). Indica la cualidad que tiene el reactivo de diferenciar a los sus-

tentantes que dominan el conocimiento de aquellos que no. En el Ceneval se considera como valor óptimo un índice ubicado en el siguiente rango: 0.45 ≤ a ≤ 2.0

• • • Índice de dificultad (b). Indica la posición del reactivo en la escala de habilidad. Cuanto más grande es el valor de dificultad, mayor es la habilidad o aptitud requerida para que el examinado tenga una probabilidad alta de resolver correctamente el reactivo. El rango en que se ubican los valores considerados óptimos es -2.5 ≤ b ≤ 2.5.

• • • Índice de pseudo-adivinación (c). Permite conocer la probabilidad de que cada reactivo sea contestado correctamente al azar. Lo ideal es que el valor sea c ≤ .30.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R53

Aunque la determinación de criterios estadísticos para la selección de reactivos de buena calidad es importante en el ensamble de las pruebas, estos criterios son meros indicadores ya que una adecuada selección de reactivos para el pretest y la prueba operativa debe considerar además sus características cualitativas y la estructura que se debe cubrir. Este último aspecto es de particular importancia dado que enlace ms es una prueba criterial.

En total, para contar con una cantidad suficiente de reactivos que permitieran realizar el ensamble de las pruebas operativas 2011 y 2012, se pilotearon 2,366 reactivos, 1,277 del área de Comunicación y 1,089 de Matemáticas. La impresión de los materiales, la aplicación, la lectura óptica de hojas de respuesta y la conformación de la base de datos del piloteo está a cargo de la dgep-sep.

Después de realizar los análisis, los parámetros estadísticos de los reactivos se actualizan en la plataforma electrónica de Ceneval. Los psicométricos permiten hacer un diagnóstico de la cantidad de versiones que se pueden ensamblar con reactivos cuyas características psico-métricas cumplen con la normativa establecida. Así, se cuenta con un inventario que apoya la modificación de los planes de elaboración, validación y piloteo de acuerdo con las necesidades del proyecto y el tiempo que se tiene para la creación y renovación de los bancos.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R55

En esta fase se conforman cuadernillos con los reactivos que integran la versión operativa y las formas del pretest. La prueba operativa se ensambla con reactivos provenientes

del pretest, y este a su vez se conforma con los reactivos piloto. Ambas versiones se ensam-blan con los reactivos que resultaron mejores en los procesos de verificación (estándares 3.6 y 3.11). De manera periódica, de acuerdo con las solicitudes de la sems, se ensambla una versión de prueba extra que se presenta en los manuales para docentes o en materiales de difusión.

La validez de las interpretaciones hechas a partir de los resultados depende, en gran parte, de que el ensamble se realice de manera adecuada (Downing y Haladyna, 2006). Esto tiene que ver con la disposición de los reactivos, la cual debe obedecer al diseño que se estableció desde el inicio para que la evaluación sea congruente con los contenidos y niveles taxonómicos. Otro aspecto que se toma en cuenta durante el ensamble son las condiciones de aplicación de la prueba: sesiones, duración y control, entre otras.

El ensamble y la disposición de los reactivos deben asegurar que la información que arroja la prueba depende únicamente de la respuesta del sustentante y no de otros factores. Esto contribuye a la validez de la prueba, por lo que en el ensamble se controlan las siguien-tes variables:

7. Ensamble de versiones

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

56

• • • La uniformidad en el tamaño y orientación de los reactivos en el papel, asegurando por ejemplo que las tablas o los textos no queden incompletos en una página y que las imágenes sean nítidas, entre otros detalles.

• • • La calidad en la presentación, redacción y formato de los cuadernillos; todos se some-ten a una revisión editorial con la finalidad de asegurar su calidad y después se envían a la Comisión Nacional de Libros de Texto Gratuito (conaliteg), instancia respon-sable de su impresión.

• • • El equilibrio en la posición o localización de las respuestas correctas, esto disminuye la probabilidad de acertar por azar o por el sesgo natural a elegir las posiciones intermedias.

• • • El orden de presentación de los reactivos, de modo que se facilite la lectura y minimice cualquier carga cognitiva derivada de este aspecto. Para el ensamble de enlace ms se alternan los bloques de reactivos por campo disciplinar.

• • • La cantidad de reactivos que se presentan en cada sesión, criterio que se verifica durante el piloteo para asegurar que el tiempo asignado en cada sesión fuera suficiente para que los alumnos respondieran todos los reactivos.

En el caso de las pruebas operativas enlace ms 2011-2012, los 110 reactivos que in-tegran la estructura se ensamblan en un cuadernillo dividido en cinco bloques: tres de Comu-nicación (Comprensión Lectora) y dos de Matemáticas, los cuales se presentan intercalados a los alumnos. En la Tabla 8 se muestra la distribución de los reactivos de la prueba en función del número de reactivos y los contenidos.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R57

El pretest se rige con la misma estructura de la prueba operativa para los campos de Comunicación (Comprensión Lectora) y Matemáticas, y de manera adicional incluye reactivos de Humanidades y Ciencias Sociales, y Ciencias Experimentales que se irán integrando de forma paulatina en la versión operativa. Así también, el pretest difiere de la prueba operativa porque utiliza para su ensamble un diseño matricial que divide el total de reactivos que lo componen en cuadernillos o formas, los cuales son aplicados a una muestra representativa de la población. Esto implica que cada alumno contesta únicamente una parte de los reactivos que lo conforman, evitando así que los resultados se vean afectados debido a la fatiga.

En la Figura 1 se ejemplifica el diseño matricial que se utiliza para el ensamble del pretest.

Figura 1. Diseño matricial del pretest 2011-2012

7.1 Especificaciones estadísticas de ensamble

El pretest se ensambla con reactivos previamente piloteados y calibrados. Con base en los datos del piloteo se integran los cuadernillos o formas tratando de que tengan la misma can-tidad de reactivos y de que sean lo más similares posibles en su nivel de dificultad según la teoría clásica. De esta manera los alumnos se exponen a una situación de evaluación similar independientemente del cuadernillo o forma que contestan.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

58

Por otra parte, la prueba operativa se integra por los reactivos del pretest, aplicados un año antes, de los cuales se obtienen los parámetros estadísticos con la teoría clásica (tc) y la teoría de respuesta al ítem (tri) con tres parámetros. Los reactivos del pretest que no pre-sentan parámetros óptimos son revisados por los especialistas quienes definen si los reactivos se deben conservar o cambiar. En las últimas aplicaciones de las pruebas se ha conservado alrededor de 95% de los reactivos del pretest a la prueba operativa.

Además de que la selección de los reactivos es congruente con la estructura de la prueba y se apega al contenido establecido en las especificaciones, para abonar a la calidad del ensamble de la prueba operativa también se consideran las curvas características de los reactivos y del instrumento como un todo, de tal forma que la distribución de ítems sea se-mejante entre uno y otro año.

En las Figuras 2 y 3 se reproducen y comparan las curvas características de las prue-bas de 2011 y 2012 del área de Comunicación (Comprensión Lectora) y de Matemáticas, respectivamente.

Figura 2. Curva característica del área de Comunicación (Comprensión Lectora)

enlace ms 2011 y 2012

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R59

Figura 3. Curva característica del área de Matemáticas enlace ms 2011 y 2012

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R61

En todos los años de aplicación de la prueba enlace ms, la versión operativa se ha aplicado a los estudiantes que cursan el último grado de la ems en instituciones

educativas de carácter público, federal y estatal, en los planteles particulares con reconoci-miento de validez oficial otorgado por la sep o por las entidades federativas, en instituciones de carácter autónomo que lo soliciten y en escuelas particulares incorporadas. Todos los sustentantes contestan la prueba operativa en cinco sesiones de 50 minutos distribuidas en dos días, y únicamente una muestra representativa de la población responde un cuadernillo del pretest o de la prueba para investigación en una sesión extra de la misma duración, para la que se requiere de un tercer día de aplicación. Adicionalmente, los alumnos de la muestra dedican, en el tercer día de aplicación, otra sesión para responder el cuestionario de contexto.

8. Aplicación

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

62

Figura 4. Ejemplo de administración de la prueba enlace ms por sesión y días

de aplicación

Para controlar el efecto que pudiese generar el orden de la presentación de las pruebas se utiliza la técnica de contrabalanceo. La Figura 5 muestra tres opciones de aplicación, en la primera, la prueba operativa se administra en los dos primeros días, el tercer día se aplica una de las formas de la prueba pretest y el cuestionario de contexto; en la segunda opción la aplicación de la operativa se realiza los días uno y tres; y en la tercera opción de aplicación la prueba operativa se aplica los dos últimos días.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R63

Figura 5. Aplicación de las pruebas enlace ms utilizando la técnica de contrabalanceo

La aplicación de las pruebas enlace ms está a cargo de la dgep-sep, que cuenta con el apoyo de los titulares de las áreas estatales de evaluación de cada entidad federativa. Además, participan los representantes estatales de la sems y los titulares de las Oficinas de Servicios Federales de Apoyo a la Educación en las entidades supervisando la logística de la aplicación. Existen a su vez coordinadores regionales y responsables para cada plantel que deben asegurar que las pruebas se apliquen de acuerdo con la normativa. Adicionalmente, en la evaluación participan padres de familia invitados previamente por los directores de los planteles, así como observadores externos que notifican cualquier incidencia.

La aplicación está organizada de tal forma que asegure la participación de los alumnos, sin afectar las actividades normales de la escuela. La prueba solo se aplica a los estudiantes del último grado, por lo que no se suspenden clases ni actividades escolares para el resto de los estudiantes. Debido a las condiciones censales de aplicación y al carácter estandarizado de la prueba, no se contempla la participación de sustentantes con capacidades diferentes.

En las Tablas 9 y 10 se señala el número de sustentantes que respondieron la prueba operativa y el pretest durante las aplicaciones de 2011 y 2012.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

64

8.1 Diseño muestral

El diseño muestral que se utiliza en la aplicación de enlace ms permite contar con los datos de un subconjunto representativo de la población que se somete a la prueba operativa, el cuestionario de contexto y, mediante un esquema matricial, al pretest. Las condiciones de

10 Los datos para cada entidad federativa se encuentran disponibles en http://enlace.sep.gob.mx/ms/.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R65

seguridad y la logística son responsabilidad de evaluadores con experiencia que trabajan para la dgep-sep (estándar 13.10). Los datos de la muestra se utilizan, por un lado, para realizar los estudios relacionados con variables de contraste y, por otro, para los análisis estadísticos necesarios en la equiparación de las pruebas de un año a otro, definir los puntos de corte y llevar a cabo diversas investigaciones de interés para la sems.

En 2011 la muestra a la que se aplicó la prueba operativa y el cuestionario de contexto estuvo conformada por 262,087 alumnos inscritos en 2,081 escuelas seleccionadas. Para 2012, se contó con la participación de 294,116 alumnos de 2,072 planteles. Por su parte, la muestra del pretest de 2011 se conformó por 139,476 alumnos y la del 2012 por 136,572.

Para el diseño muestral y las posteriores interpretaciones de los resultados, es im-portante considerar los niveles de desagregación en los que se trabajaron los resultados de enlace ms. En la Tabla 11 se pueden observar dichos niveles, y en el Anexo C se describe con detalle el procedimiento para calcular el tamaño de la muestra.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

66

8.2 Diseño de equiparación

Desde sus inicios en 2008, la prueba enlace ms tiene contemplado el uso del método de equiparación horizontal para colocar en las misma escala las pruebas año con año. Este mé-todo implica realizar procedimientos empíricos para establecer una relación estadística entre los puntajes de dos versiones de una prueba. Dicha relación puede utilizarse para expresar los puntajes de una prueba en términos de los puntajes de otra, para de esa manera, garantizar que se califica con base en la misma escala (estándar 4.13).

La equiparación requiere de un diseño de recolección de datos y de una regla para transformar los puntajes de una versión a los puntajes de otra. En relación al primer aspecto, lo usual en los exámenes estandarizados es que cada aplicación operativa incluya reactivos an-cla que permitan mantener las escalas mediante los procesos de equiparación y calificación de los instrumentos (Downing y Haladyna, 2006). Como se ha venido señalando, en el caso de la prueba enlace ms no es posible incluir reactivos ancla en las versiones operativas puesto que, por cuestiones de transparencia, la sep solicita que cada año se hagan públicos. Para lograr que las escalas de año con año sean equiparables, se recurre a un diseño de recolección de datos que consiste en aplicar dos pruebas en el mismo periodo: la prueba operativa y el pretest. Ambas pruebas siguen las mismas condiciones de diseño y construcción, es decir, que además de regirse por la metodología del Ceneval, que implica apegarse a las normas y estándares institucionales, utilizan la misma estructura y especificaciones para la elaboración de reactivos. Lo anterior busca garantizar que los reactivos midan lo mismo.

Debido a que en un año los alumnos que contestan las pruebas operativa y pretest son los mismos, es posible situar los parámetros de los reactivos de ambas pruebas en la misma métrica y como los reactivos que integran el pretest conforman la operativa del año siguiente, ambas pruebas comparten reactivos que constituyen los insumos para colocar en una escala común los puntajes de los alumnos que contestan las pruebas en los diferentes años.

El diseño que permite equiparar las pruebas operativas de uno y otro año mediante la aplicación del pretest se puede ver gráficamente en la Figura 6.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R67

Figura 6. Esquema de aplicación para la equiparación de la prueba enlace ms. En la figura se puede apre-

ciar que en un mismo periodo de aplicación se administra la prueba operativa junto con el pretest. Cada

integrante de la muestra contesta la prueba operativa y una de las formas del pretest. Las flechas que

salen de los cuadernillos indican que los reactivos que los conforman se utilizan para integrar la prueba

operativa del siguiente año

8.2.1 Procedimiento de equiparaciónPara realizar la equiparación entre las versiones de un año y otro, es necesario utilizar los datos de la prueba operativa del año anterior, los del pretest y los de la prueba operativa del año que se desea equiparar. La equiparación se realiza para cada una de las áreas que evalúa la prueba, es decir, se equipara el área de Comunicación (Comprensión Lectora) y luego de forma separada se hace la equiparación del área de Matemáticas.

Previo al procedimiento de equiparación se depuran las bases de datos y se realiza la calibración libre de los reactivos. Se estiman los estadísticos de los reactivos a fin de identificar aquellos con características psicométricas inadecuadas (correlación punto biserial negativa y dificultad tri mayor que 5.00000), además se revisa nuevamente el contenido, sobre todo el de aquellos que presentan correlación punto biserial menor que .20. Los reactivos que presentan problemas se dejan fuera del proceso de equiparación y de calificación.

Es importante señalar que existen reactivos del pretest que después de la revisión cuanti-cualitativa sufren modificaciones, por lo cual son diferentes a los que se incluyen en la prueba operativa. Estos reactivos que cambian entre una aplicación y otra se identifican para dejarlos libres en el proceso de equiparación.

Una vez identificados los reactivos que se utilizarán en el proceso, se llevan a cabo las siguientes dos fases para colocar los reactivos de un año y otro en la misma escala.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

68

•• 1. Se calibran, en conjunto, los reactivos de la prueba operativa del año anterior y los del pretest. En esta fase se trabaja con dos versiones distintas de la prueba contestadas por los mismos alumnos.

•• 2. Se fijan los parámetros de los reactivos del pretest previamente calculados. Los reactivos que permanecen iguales entre el pretest y la prueba operativa conservan los mismos parámetros, mientras que los parámetros de los reactivos que se dejan libres son esti-mados debido a que se modificaron o tuvieron un comportamiento estadístico dife-rente entre la aplicación del pretest y de la prueba operativa. De esta forma todos los reactivos se colocan en la misma métrica.

La calibración de los reactivos y la equiparación se realiza con el programa bilog-mg 3.0. La escala utilizada se estableció con una media y una desviación típica de 0 y 1, respecti-vamente. El procedimiento descrito se realiza cada año, y de esta manera se garantiza que las diferentes versiones de las pruebas se encuentren en la misma escala.

Una vez realizado el proceso de equiparación se procede a calificar a los alumnos en el nivel de dominio que le corresponda: insuficiente, elemental, bueno o excelente. Posterior-mente se obtienen los resultados nacionales para cada una de las áreas.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R69

Esta etapa es esencial para la generación de información para los sustentantes en cuanto a su nivel de dominio de las competencias disciplinares básicas de Co-

municación (Comprensión Lectora) y Matemáticas. Antes de realizar la calificación en 2011 se revalidaron los puntos de corte determinados en 2008 y se adecuaron las definiciones de los niveles de desempeño. Esta información sirvió también para la calificación de 2012.

9.1 Revalidación de puntos de corte y niveles de desempeño

Uno de los aspectos fundamentales al elaborar un examen referido a un criterio es fijar el nivel mínimo de habilidad que garantiza que un sustentante tiene determinado dominio so-bre los contenidos de la prueba (estándares 4.19 y 4.20). Para ello es necesario establecer, en la escala de habilidad, un punto de corte que diferencie entre los sujetos que alcanzan cierto nivel y los que no lo han logrado. El método que se utilizó originalmente para determinar los puntos de corte fue el del bookmark o del marcador (Mitzel et al., 2001). Este procedimiento toma en cuenta el juicio de los expertos (análisis de juicio) y los resultados empíricos de la prueba (análisis empírico), a fin de identificar los contenidos que puede responder adecuada-mente un sustentante perteneciente a los diferentes niveles de competencia que mide la prueba.

9. Calificación

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

70

En razón de los cambios que sufrió la prueba en congruencia con la riems, para la califica-ción de 2011 se planificaron algunos ejercicios que permitieron estudiar la viabilidad de mantener las puntuaciones de corte establecidas en 2008. Así también, se tomaron precauciones por si los resultados de los estudios mostraban la necesidad de determinar una nueva escala de calificación.

9.1.1 Estudio de factibilidad de mantenimiento de puntos de corte 08-10Si bien los cambios realizados en la estructura de la prueba enlace ms a fin de hacerla congruente con la riems respetan de manera general la forma en que se concibieron en un principio las áreas de Comprensión Lectora y Matemáticas, las modificaciones sufridas en esta última fueron más severas ya que se eliminó por completo el área de matemáticas bá-sicas. Ante esta situación se consideró importante investigar la forma en que impactan los cambios de la estructura en los resultados de los alumnos y por tanto los puntos de corte de dicha área.

Para la investigación se consideró la aplicación de un cuadernillo extra denominado “prueba extendida”, a una muestra de la población que contestó la versión operativa. Este instrumento se ensambló con los reactivos que cubren las especificaciones de Matemáticas que se eliminaron de la estructura 2008.

Para el estudio se determinó obtener y comparar la media de calificaciones de los alumnos que contestaron el área de Matemáticas con la estructura: • • • enlace ms 2011 (60 reactivos),• • • enlace ms 2008 (90 reactivos), y• • • enlace ms 2008, sin los reactivos de matemáticas básicas (70 reactivos).

Los resultados del estudio mostraron diferencias mínimas en la proporción de susten-tantes que se ubica en cada nivel de dominio, de acuerdo con los reactivos que se consideran para su calificación. Además, las medias de habilidad de los sustentantes no varían significa-tivamente si se les califica con una u otra combinación de reactivos. Por esta razón, se deter-minó continuar utilizando los mismos puntos de corte para la calificación de 2011 y 2012.

En el Anexo D se describe de forma detallada el método utilizado para el estudio de mantenimiento de puntos de corte, así como los resultados y las conclusiones.

9.1.2 Algoritmo de calificación y adecuación de niveles de desempeñoUna vez que se confirmó la viabilidad de seguir utilizando la escala de calificación, se convocó a un comité académico de especialistas cuya responsabilidad fue ajustar al nuevo perfil alineado a la riems las descripciones de los niveles de dominio que se habían utilizado de 2008 a 2010.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R71

Los especialistas determinaron, como parte de un primer ejercicio teórico, los criterios cualitativos mínimos que debieran cumplir los sustentantes para ubicarse en los niveles de dominio. En un segundo momento revisaron los reactivos y resultados del pretest para llegar a un acuerdo entre lo teórico y lo empírico. Para cumplir con este último aspecto y asegurar la comparabilidad de los resultados año con año, se retomaron los rangos de habilidad que se de-terminaron en 2008 para la calificación de los alumnos y que se muestran en las Tablas 12 y 13.

A continuación se transcriben las descripciones para los niveles de dominio que redac-taron los especialistas y que actualmente se presentan en los reportes de resultados de los

sustentantes. Aproximadamente en la misma proporción que la estructura de la prueba, la descripción de los niveles conserva 70% de los contenidos y enunciados que se manejaban en los años anteriores.

9.1.2.1 Comunicación (Comprensión Lectora)• • • Insuficiente. Ubicas elementos informativos como datos, hechos, citas, términos, ex-

plicaciones y acciones que se presentan de manera explícita en textos argumentativos, expositivos y apelativos. Haces uso del contexto inmediato en que se presenta una pala-bra para identificar su significado. Relacionas párrafos de un cuento o de una carta for-mal para reconocer el vínculo entre el contenido y la intención comunicativa del autor.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

72

• • • Elemental. Localizas, relacionas y comprendes elementos de información que apa-recen a lo largo de distintos tipos de texto. Identificas el tema central de uno o varios párrafos. Reconoces elementos discursivos (hechos y opiniones) y estructurales (nudo y diferentes acciones) y su propósito comunicativo. Relacionas información explícita del texto con conocimientos previos para elaborar conclusiones simples.

• • • Bueno. Identificas enunciados que sintetizan apartados de un texto. Seleccionas y dis-tingues elementos de información explícitos a lo largo de un artículo de divulgación científica, con base en un criterio específico (causa-efecto, comparación-contraste, concepto-ejemplo, problema-solución). Interpretas el significado de una figura retó-rica. Vinculas información que aparece en distintas partes del texto para reconocer el tema o asunto central. Reconoces la función de recursos discursivos (opiniones, explicaciones que apoyan argumentos y descripciones) y elementos estructurales para inferir cuestiones implícitas, como la postura del autor, un contraargumento, el respon-sable de solucionar el problema planteado en una carta, entre otros.

• • • Excelente. Estableces relaciones entre elementos de información presentados de dis-tinta manera a lo largo del texto (imágenes, tablas, glosario). Identificas el sentido de enunciados connotativos y retomas elementos implícitos de una narración para inferir posibles motivos y acciones de los personajes. Reconoces la frase que sintetiza el texto. Relacionas el contenido con información externa para realizar inferencias, establecer hipótesis e identificar premisas, conclusiones o soluciones. Evalúas la pertinencia de recursos como citas y tablas, además de la estructura en que se organiza un texto para lograr su propósito comunicativo.

9.1.2.2 Matemáticas• • • Insuficiente. Eres capaz de resolver problemas simples donde la tarea se presenta

directamente. Efectúas operaciones básicas con números enteros. Ejecutas operacio-nes aritméticas con signos de agrupación. Encuentras equivalencias entre fracciones simples. Resuelves problemas que requieren la identificación de figuras planas y tri-dimensionales, así como las partes que las conforman. Localizas puntos en un plano y/o determinas sus coordenadas. Encuentras relaciones gráficas o algebraicas sencillas entre dos variables y realizas cálculos con base en ello.

• • • Elemental. Resuelves problemas relativos a porcentajes. Realizas operaciones básicas con fracciones. Sabes utilizar fórmulas y convertir unidades. Ordenas series de núme-ros. Describes el comportamiento de sucesiones numéricas y la relación entre ellas. Enuncias en lenguaje común una expresión algebraica y viceversa. Resuelves problemas geométricos bidimensionales y tridimensionales simples que involucran distintos ele-

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R73

mentos de una figura. Construyes figuras tridimensionales a partir de otras. Resuelves sistemas de ecuaciones lineales.

• • • Bueno. Identificas la combinación de operaciones y procedimientos necesarios para resolver un problema. Traduces una relación lineal que se presenta de manera gráfica, a una expresión algebraica y viceversa. Determinas la solución de problemas que in-volucran unidades físicas. Realizas cálculos complicados con razones y proporciones. Aplicas el concepto de mínimo común múltiplo o máximo común divisor para resolver situaciones de la vida real. Calculas áreas y perímetros de composiciones geométricas simples. Identificas la gráfica y la expresión de relaciones cuadráticas con una o dos va-riables. Realizas inferencias acerca de una variable si conoces el valor de otra con la que guarda relación directa o indirecta. Resuelves ecuaciones cuadráticas con una incógnita que solucionan problemas reales.

• • • Excelente. Realizas diferentes procedimientos matemáticos y los integras para resol-ver problemas de la vida real, tales como conversiones, ecuaciones, análisis de gráficas y tablas, entre otros. Efectúas conversiones y estimaciones para resolver problemas reales. Identificas la gráfica de una recta a partir de condiciones dadas. Utilizas el teo-rema de Pitágoras para solucionar problemas geométricos. Resuelves problemas de mayor complejidad que implican el manejo de figuras, tanto planas como tridimensio-nales, y las propiedades geométricas de figuras incompletas. Puedes realizar cálculos a partir de dos funciones lineales o cuadráticas que se muestran de manera independien-te y mediante distintas representaciones (numéricas, textuales, gráficas, entre otras).

9.2 Reporte de resultados

Los resultados de enlace ms se pueden consultar en la página electrónica oficial de la prueba (http://enlace.sep.gob.mx/ms/) que presenta ligas a los resultados por alumno, por escuela, por entidad y nacional. Además, el cálculo de proporción de sustentantes en los niveles de dominio para cada uno de los cinco años de aplicación está disponible y se puede desa-gregar por tipo de sostenimiento, modalidad y grado de marginación. De manera adicional, existe la posibilidad de solicitar a la dgep la impresión de carteles dirigidos a la comunidad educativa de los planteles participantes.

Cualquier consulta a los datos debe hacerse considerando el propósito para el que fue diseñada la prueba: brindar un diagnóstico individual de fortalezas y debilidades en el desa-rrollo de competencias disciplinares básicas en dos campos: Comunicación (Comprensión lectora) y Matemáticas. Además, enlace ms es una prueba dirigida al alumnado, por lo

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

74

mismo, no puede utilizarse para evaluar el sistema educativo, los subsistemas, las escuelas o los docentes. Por todo esto, los resultados solo deben ser usados para conocer el nivel de do-minio de los sustentantes y planear estrategias de estudio, secuencias didácticas o campañas particulares que sean consecuentes con las necesidades que se detecten a través de los reactivos de la prueba. Estas consideraciones se reiteran en la página electrónica y las autoridades de la sems se encargan de recordarlas al público en general en las conferencias y eventos de prensa. El personal del Ceneval también hace énfasis en los alcances y limitaciones de la prueba, en todos los comités que se organizan durante el desarrollo y mantenimiento de la prueba, pi-diendo a los participantes que socialicen la información para evitar malos usos de los datos y garantizar la validez de las interpretaciones de la misma evaluación (estándar 5.10).

En las Tablas 14 y 1511 se presentan los datos nacionales de las aplicaciones 2011-2012, sin embargo, en la página electrónica se pueden consultar los porcentajes para cada entidad federativa, tipo de bachillerato, sostenimiento y grado de marginación.

11 Cada campo de evaluación se califica de forma independiente. Para que el alumno reciba una calificación debe haber contestado más del 50% de los reactivos de cada campo disciplinar, esto implica que un alumno puede obtener una calificación para Comuni-cación, pero no para Matemáticas y viceversa.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R75

Cada estudiante, mediante su número de folio, puede acceder a su reporte individual en línea, en el que también puede conocer el porcentaje de alumnos que se ubicaron en cada nivel de dominio por plantel, entidad y nacional. Los datos y porcentajes que se presentan en los reportes individuales incluyen los resultados de la población que asiste a escuelas del mismo tipo de sostenimiento (público o privado), que corresponda a la modalidad de ba-chillerato (general, tecnológico, técnico) y grado de marginación (muy alto, alto, medio, bajo, muy bajo). La intención de presentar en conjunto únicamente los porcentajes que se obtu-vieron en planteles con las mismas características, es evitar que se hagan comparaciones que resultarían inválidas dadas las diferencias de los bachilleratos en cuanto a recursos, propósito, etcétera; por lo mismo, se incluye un breve párrafo que explica el propósito de la prueba en cada uno de los reportes (estándares 11.6, 11.12 y 11.15).

La información se completa con la descripción de los niveles de desempeño y la ubi-cación del alumno en los campos disciplinares evaluados. La posibilidad de conocer no solo la definición del nivel en que se está ubicado, sino las de los inferiores y superiores es la he-rramienta más importante que brinda enlace ms para que el sustentante haga uso de sus resultados para autodirigir sus procesos de aprendizaje, una vez que reconoce sus fortalezas y debilidades. Además, se pueden consultar todos los reactivos con las respuestas que el estudiante eligió y compararlas con la opción correcta; cada pregunta incluye un enunciado que describe lo que es capaz de hacer el sustentante que responde adecuadamente al reactivo.

En caso de que se requiera consultar el resultado de una escuela en particular, la liga electrónica correspondiente pedirá que se ingrese la Clave del Centro de Trabajo (cct) y que se indique el turno para el que se quiere consultar los datos. La información que se desplie-ga incluye la ubicación, los datos generales de la escuela (tipo de sostenimiento, modalidad, grado de marginación) y el número de sustentantes evaluados del último grado escolar en relación con los programados para aplicar el examen.

La posibilidad de revisar los resultados por escuela representa una ganancia para las mismas y para los docentes, porque cada pregunta se acompaña del porcentaje de estudiantes que la contestó correctamente, y se menciona la fortaleza o debilidad que los datos evidencian. De este modo, se pueden conocer los contenidos y procesos que provocan más errores en el alumnado y mejorar la práctica educativa.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

76

9.3 Complementos

9.3.1 Cuestionario de contextoPara contar con información relacionada con variables de contexto, también llamadas de contraste, que permitan explicar los resultados y derivar estudios sobre la prueba, en el mismo periodo de la aplicación operativa, el Ceneval distribuye tres cuestionarios de contexto: uno que se aplica a una muestra de alumnos con representatividad nacional; otro para una muestra de maestros que tienen a su cargo las asignaturas relacionadas con Matemáticas y otro más que responden en línea los directores de los planteles que participan en la aplicación. Los cuestionarios de los alumnos se aplican en una sesión de 50 minutos, mientras que los docen-tes y directivos no tienen un tiempo límite. La Tabla 16 muestra la estructura del cuestionario de alumnos utilizada en 2011 y 2012.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R77

Como se mencionó anteriormente, el objetivo del cuestionario de contexto es recabar datos relacionados con variables de contraste específicas: subsistema educativo, nivel socioe-conómico, motivación, compromiso académico, actividades extraescolares, situación laboral, recursos cognitivos y no cognitivos, trayectoria académica, características de las escuelas de procedencia y contexto familiar. Además, las preguntas dirigidas a los directores recaban

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

78

información acerca de las características de la escuela, mientras que el cuestionario dirigido a los docentes se centra en variables asociadas a la función educativa.

9.3.2 Manual para docentes y directivosCon el objetivo de que la comunidad educativa y el público en general conozca los propósi-tos, características técnicas y la forma en que enlace ms puede aprovecharse en el ámbito académico, en la planificación de políticas públicas o de campañas sociales, el Ceneval pu-blica anualmente un Manual para docentes y directivos en la página electrónica de la prueba. En el documento se hace hincapié en los alcances y limitaciones de enlace ms y se presentan sugerencias en cuanto a las actividades que en el plantel o en el aula pueden organizar los docentes para mejorar las habilidades de los sustentantes.

Asimismo, en ese documento se explican los procesos que se siguieron para la cons-trucción del instrumento y se promueve la reflexión acerca del tipo de reactivos que se usan para la evaluación, sus alcances y su traducción en niveles de desempeño. Los resultados de la prueba pueden alcanzar verdadera trascendencia si son utilizados por los directivos y pro-fesores para identificar las necesidades de aprendizaje del alumnado, así como las áreas de oportunidad para mejorar la forma en que se enseñan los contenidos que se han identificado como los más difíciles en el nivel educativo.

Algo muy importante en el enfoque del Manual es la insistencia en evitar las compa-raciones entre alumnos, entre escuelas, y sobre todo en evitar los ejercicios de preparación exclusivamente para la prueba. En aras de convencer a los lectores acerca de la inconve-niencia de ello, en los diversos apartados se reitera que la prueba realiza la medición de una muestra representativa de los contenidos a través de los cuales se pueden evaluar indicadores de competencias disciplinares básicas (únicamente aquellos que pueden ser identificados con reactivos de opción múltiple), pero que de ninguna manera incluyen todos los temas que forman parte del mcc.

Por el perfil referencial de la prueba y las razones expuestas anteriormente, enlace ms no distribuye guías para el sustentante, ya que se busca desterrar las prácticas de preparación para los procesos evaluativos que dejan de lado la formación constante y las actividades de au-toaprendizaje para la resolución de problemas, congruentes con el enfoque por competencias.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R79

Una de las intenciones del Ceneval es aprovechar los documentos técnicos de las pruebas que se generan mediante la metodología institucional, para presentar

al público otros estudios que se pueden realizar con los datos obtenidos mediante los ins-trumentos y para ilustrar conceptos básicos en el campo de la evaluación. En este Manual se presentan dos estudios que se han realizado con la prueba enlace ms y que proporcionan información acerca de la validez y la confiabilidad de los resultados. El primero de ellos está relacionado con la confiabilidad clásica y empírica de cada una de las áreas que componen la prueba y el segundo es referente al error estándar de equiparación.

10.1 Cálculo de confiabilidad

En congruencia con la misión, visión y objetivos del Centro, es importante dar a conocer los datos que evidencien la confiabilidad de los resultados obtenidos a través de las pruebas enlace ms (estándar 6.5).

La confiabilidad de la prueba enlace ms se estimó con base en la teoría clásica utili-zando el programa Iteman y con base en los resultados obtenidos con la teoría de respuesta al ítem utilizando el programa bilogmg-3.0. Ambas estimaciones proporcionan información acerca de la consistencia de los resultados de los examinados en un conjunto de reactivos.

El Iteman permite estimar el coeficiente alfa de Cronbach (α), que es una versión más general de la fórmula Kuder-Richardson 20, propuesta en 1951 por Lee Cronbach. Es importante señalar que ambas fórmulas son equivalentes cuando se trabaja con reactivos dicotómicos (Chávez, C y Saade, A, 2009).

10. Estudios sobre el examen

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

80

El coeficiente alfa de Cronbach (α̂ ) se puede calcular mediante la siguiente fórmula:

Por su parte, con el programa bilogmg-3.0, se estimó la confiabilidad empírica de la prueba, esto con base en el modelo de tres parámetros de la tri. Esta se deriva a partir de la definición de la teoría clásica, utilizando los resultados de la habilidad de los examinados (θ) y los errores estándar.

La confiabilidad empírica se puede calcular a partir de la siguiente fórmula.

Confiabilidad empírica tri= Varianza (θ)

Varianza (θ) + Varianza (Error)

La confiabilidad empírica es una medición que indica qué tan cerca están los puntajes observados de los puntajes verdaderos (Du Toit, 2003).

El valor máximo que puede tomar la confiabilidad obtenida tanto por alfa de Cronbach como por la fórmula de confiabilidad empírica es 1, cuanto más cercano el coeficiente a ese valor mayor es la confiabilidad de los resultados.

En la Tabla 17 se presentan los valores del confiabilidad del coeficiente alfa de Cronbach y la confiabilidad empírica para cada una de las áreas que integran las pruebas operativas en-lace ms 2011 y 2012.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R81

10.2 Error de equiparación

Aun cuando se cuida que las pruebas se construyan bajo los mismos criterios y se asegura la pertinencia de la equiparación gracias al diseño que se utiliza y a la sistematización de los procesos, toda medición lleva asociada cierto margen de error. Al estimarlo se cuenta con datos que permiten validar la calidad del proceso de calificación, por lo que el Ceneval y la dgep-sep calculan el error de equiparación asociado a la prueba enlace ms.

El error de equiparación se estima tomando en cuenta la muestra de reactivos em-pleados para la equiparación (Michaelides & Haertel, 2004), utilizando para ello el método bootstrap, que involucra tomar múltiples muestras aleatorias con reemplazamiento a partir de una muestra de reactivos.

Como parte de las actividades asociadas al proyecto enlace ms se realizaron las es-timaciones del error estándar de equiparación, con los resultados de 2011 y 2012. En cada caso la estimación involucró generar en total 1000 muestras bootstrap a partir de las cuales se repitió el procedimiento de equiparación. (Efron, 1979). Con los resultados se obtuvo la media del desempeño de los alumnos, el error estándar de equiparación y los intervalos de confianza al 99%.

Los datos estimados con el método bootstrap para 2011 y 2012, se presentan en la Tabla 18.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R83

La prueba enlace ms fue creada en 2008 con la intención de proporcionar un diagnóstico general de fortalezas y debilidades para los alumnos del último grado

de bachillerato, en dos habilidades básicas para la vida, de tal forma que los datos apoyen las acciones para mejorar la calidad de este tramo educativo trascendente en la vida profesional y académica. Después de la implementación de la riems, la sems solicitó al Ceneval que se diera continuidad a la evaluación y, a la vez, se recabara información diagnóstica acerca del desarrollo de las competencias disciplinares básicas de los estudiantes, de acuerdo con el perfil de egreso del mcc.

A partir de 2011, enlace ms evalúa indicadores de competencias básicas del campo disciplinar de Comunicación, en específico las que tienen que ver con Comprensión Lectora, y el de Matemáticas. La nueva estructura de la prueba mantiene la medición de 70% de los contenidos que se evaluaron entre 2008 y 2010, además, los resultados continúan ubicando a los sustentantes en cuatro posibles niveles de desempeño (insuficiente, elemental, bueno y excelente), lo que permite seguir realizando comparaciones año con año.

11. Reflexiones acerca de la prueba

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

84

Para asegurar que la adaptación de la prueba cumpliera con lineamientos de calidad es-trictos, se siguió la metodología Ceneval para la construcción de instrumentos de evaluación y cada fase de la misma se organizó retomando los estándares internacionales de calidad en medición educativa que la apa y la aera publican periódicamente.

Durante el desarrollo de la prueba, la participación de especialistas con actividades y grados de profesionalización muy diferentes ha resultado muy importante. Desde su origen, la prueba enlace ms se planificó con la participación de investigadores con reconocimiento nacional e internacional, que asesoraron y aprobaron las decisiones importantes y las modi-ficaciones que se requirieron en congruencia con la riems. De la misma manera, el apoyo de docentes y personas con contacto directo en las aulas de bachillerato fue determinante durante las fases de delimitación del objeto de medida y elaboración de reactivos. Los comi-tés académicos establecieron diálogos y discusiones para llegar a acuerdos en cuanto a los contenidos que podían mantenerse en la prueba y los que se debían añadir para realizar la evaluación de indicadores de competencias de todos los subsistemas de bachillerato. Esto implicó revisar e identificar los contenidos comunes en los planes y programas de las diversas modalidades de ems que existen en nuestro país, de modo que se pudiera aprovechar una prueba estandarizada para evaluar indicadores de competencias definidos en términos ope-racionales y aplicables en contextos relacionados con el currículo.

Llegar a un consenso en la redacción de especificaciones y delimitaciones implicó un intercambio en los puntos de vista y experiencias en el plano docente con la intención de equilibrar la dificultad de la prueba y adecuarla al nivel del alumnado de ems. Esta misma experiencia de retroalimentación caracterizó al proceso de revisión cualitativa, las reuniones de validación y a la posterior corrección de reactivos.

Todo el trabajo de adaptación, que se inició en 2009, se vio materializado con la inte-gración de diferentes versiones de la prueba, no solo para calificar a los sustentantes sino para verificar constantemente la calidad de los reactivos. Las formas piloto se ensamblan y aplican con anterioridad a la versión operativa y al pretest, de modo que en la aplicación definitiva se incluyen siempre los mejores reactivos.

El esfuerzo del personal externo e interno de Ceneval por seguir la metodología y cumplir los requerimientos de tiempos y calidad de la dgep-sep, no ha evitado que la prueba sufra críticas, en particular por el mal uso que algunas personas hacen de los resultados. La prueba enlace ms no está diseñada para hacer comparaciones entre subsistemas, entre es-cuelas o entre docentes, es por ello que las interpretaciones que se hagan al respecto carecen de validez. El diseño y adaptación del instrumento la caracteriza como una evaluación diag-nóstica individual, por lo que su función principal es brindar una retroalimentación para cada

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R85

estudiante, de modo que conozca el nivel de dominio que posee en cada habilidad y ponga en práctica estrategias para mejorarlo.

La posibilidad que ofrece la página electrónica de enlace ms de consultar los resulta-dos año con año, responde a la necesidad de disponer de un diagnóstico general que muestre las áreas de fortaleza y debilidad. Las comparaciones que pueden ser de utilidad son las que haga cada entidad con ella misma año con año, las que pueda derivar el director de plantel en relación con su propia escuela, entre otras, aunque esto de ninguna manera debe llevar a un veredicto en cuanto a las capacidades de los docentes o los programas, más bien puede representar indicios que apoyen la planificación de campañas internas, actividades extracu-rriculares, etcétera.

Es común encontrar que algunos centros escolares se promocionan a sí mismos ha-ciendo uso de los resultados de su alumnado en las pruebas enlace. Hacer esto carece de fundamento porque la valoración de escuelas requiere de la suma de más y diferentes meto-dologías de medición. El hecho de que sea posible consultar los resultados de cada escuela no implica que deban compararse entre ellos, tanto porque cada centro tiene sus condiciones particulares en cuanto a número de alumnos, tipo de sostenimiento, modalidad, etcétera, como porque los resultados positivos o negativos pueden deberse a multitud de variables que no están relacionadas con la calidad del plantel en sí.

Además de la fuente de información y retroalimentación individual que representan los resultados de enlace ms, un propósito que se ha visto cumplido en los cinco años de aplicación ha sido la creciente concientización en la población acerca de la importancia de la lectura y las matemáticas. Por otro lado, la aplicación periódica de evaluaciones puede ayudar al cambio cultural que se requiere para que el sustentante se haga responsable de su propio proceso de aprendizaje, teniendo un marco de referencia que le ayude para conocer sus for-talezas y debilidades.

Los interesados en el nivel medio superior pueden utilizar los resultados de la prueba para:• • • Mejorar la práctica educativa después de analizar los errores y aciertos más comunes del

alumnado, así como las concepciones que poseen acerca de los contenidos evaluados en la prueba. Esto debe hacerse considerando que la prueba enlace ms únicamente evalúa una muestra representativa de los indicadores de desarrollo de las competencias básicas correspondientes a dos campos disciplinares Comunicación (Comprensión Lectora) y Matemáticas.

• • • Planificar intervenciones en el aula, en el plantel, en un estado o en todo el país que fortalezcan el desarrollo de habilidades y competencias básicas.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

86

• • • Contar con datos que sirvan para detectar tendencias en el plantel y contar con una línea base que permita comparar con los resultados de aplicaciones posteriores y esta-blecer el efecto que han tenido determinadas acciones educativas.

• • • Caracterizar a la población de un plantel o entidad federativa en términos de su distri-bución por niveles de logro, siempre y cuando la proporción de alumnos evaluados sea significativa.

• • • Promover investigaciones que detecten factores (económicos, sociales, de infraestruc-tura, de enseñanza aprendizaje, entre otros) asociados al nivel de logro de las distintas muestras de población, sobre las cuales pueda actuarse.

11.1 Comparación con evaluaciones similares

En nuestro país existen otras pruebas que también se aplican a los estudiantes de la ems, algunas de ellas poseen características en común con enlace ms pero tienen objetivos dis-tintos. En la Tabla 19 se presentan dichas pruebas y sus características.

Las diferencias más importantes entre enlace ms y las demás pruebas son su propó-sito y método de aplicación. Mientras que enlace es una prueba de bajo impacto ya que su objetivo es meramente diagnóstico, existen otras evaluaciones que tienen consecuencias en la población objetivo como el acredita-bach y el exani-i, que es una prueba de selección. La evaluación internacional de pisa, el egrems y el exani-ii comparten con enlace ms su carácter diagnóstico, sin embargo, la primera prueba se administra únicamente a una muestra representativa de la población, mientras que las otras dos se aplican a solicitud de las institu-ciones. En contraste, la aplicación de enlace ms es anual, censal y su cobertura es cercana a 90% de la población objetivo del país.

Los rasgos que comparten las seis pruebas incluidas en la tabla tienen que ver con sus características psicométricas, todas ellas son evaluaciones objetivas ya que su calificación no depende de un criterio variable, además los controles en sus condiciones de aplicación y calificación las clasifican como pruebas estandarizadas. En todos los casos se evalúa a través de reactivos de opción múltiple, aunque la prueba acredita-bach también incluye la ela-boración de un texto por parte del sustentante, y pisa complementa la información obtenida a través de los ítems cerrados con preguntas de respuesta construida.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R87

Tabla

19C

arac

terís

ticas

de

los

inst

rum

ento

s de

eva

luac

ión

para

la E

MS

en

Méx

ico12

12 I

nfor

mac

ión

adap

tada

de

htt

p://

ww

w.c

enev

al.e

du.m

x y

en h

ttp:

//w

ww

.inee

.edu

.mx

(**)

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

88

Si bien enlace ms evalúa las mismas áreas que pisa, es importante señalar que am-bas evaluaciones son muy distintas tanto en su estructura, su método de aplicación y sobre todo en el uso de los resultados. El programa pisa pretende comparar sistemas educativos nacionales por lo que solo aplica una muestra de los reactivos a cada estudiante, que a su vez es seleccionado de manera aleatoria de una muestra. Los resultados se combinan en escalas globales que permiten comparar el desempeño de los países participantes, aspecto contrario al objetivo de enlace ms que fue diseñado únicamente para emitir un diagnóstico individual de fortalezas y debilidades, que de ninguna manera debe ser utilizado para comparar escuelas o subsistemas.

La existencia de estas y otras pruebas cuyo desarrollo y aplicación se ha multiplicado recientemente ha generado conciencia en las personas acerca de la importancia de contar con indicadores y datos del desempeño de los estudiantes que permitan mejorar el trabajo que se hace en las instituciones educativas. Asimismo, Vidal (2009) menciona que dicho fenómeno ha provocado comentarios en cuanto a que la población está sobreevaluada, sin embargo, esta apreciación es equivocada puesto que cada instrumento tiene objetivos distintos y por tanto ofrece información en diferentes esferas que puede y debe ser integrada para contribuir a la mejora de la calidad de la educación de una manera integral.

11.2 Evaluación de campos disciplinares de Ciencias

En 2011 inició la evaluación de los campos disciplinares de Comunicación (Comprensión Lectora) y Matemáticas. En el trabajo de adaptación y diseño de la estructura, se trabajaron también los otros campos establecidos en el mcc como básicos para el alumno de ems: Humanidades y Ciencias Sociales, y Ciencias Experimentales. Gracias a los procesos de ve-rificación cualitativa y cuantitativa, actualmente Ceneval está en condiciones de ensamblar una prueba de cualquiera de estos dos campos e incluirla en la aplicación operativa. La sep y la sems decidirán en un futuro si se aplica de manera alternada o conjunta la evaluación de indicios de competencias disciplinares para alguno de los dos campos.

Con la certeza de que todo proceso es perfectible, Ceneval trabaja actualmente para optimizar cada una de las fases de construcción del instrumento esperando que como hasta ahora, los resultados de la evaluación impacten en la calidad de la educación.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R89

• • • Angoff, W.H. (1984). Scales, norms and equivalent scores. Princenton, NJ: Educational Tes-ting Service.

• • • aera, apa & ncme (1999). The Standards for Educational and Psychological Testing. Washington, DC: AERA Publications.

• • • Ceneval (2011). Prontuario de normas técnicas y estándares del Ceneval. México: Ceneval.• • • Ceneval (2012). Contenidos mínimos del Manual Técnico. México: Ceneval.• • • Chávez, C y Saade, A (2009). Procedimientos básicos para el análisis de reactivos. Cuaderno

técnico 8. México: Ceneval, A.C.• • • Delors, J. (1996). La educación encierra un tesoro. Informe de la Comisión Internacional de

Educación para el siglo XXI. UNESCO. Madrid: Santillana.• • • DGEP (2010). Normas operativas. ENLACE 2010, Educación Media Superior. Unidad de

Planeación y Evaluación de Políticas Educativas, SEP. Disponible en http://enlace.sep.gob.mx/ms/docs/ EMS2010_Normas_Operativas.pdf

• • • Diario Oficial de la Federación (2008). Acuerdo 442 Disponible en http://dof.gob.mx/nota_detalle.php ?codigo=5061936&fecha= 26/09/2008/

• • • Diario Oficial de la Federación (2008b) Acuerdo 444 Disponible en http://dof.gob.mx/nota_detalle. php?codigo=5064951&fecha=21/10/2008

• • • Downing, S. y Haladyna, T. (eds.) (2006). Handbook of test development. NJ: Lawrence Erlbaum Associates.

• • • Du Toit, M. (2003). IRT from SSI: BILOG-MG, MULTILOG, PARSCALE, TEST-FACT. Lincolnwood, IL: Scientific Software International.

• • • Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Sta-tistics, 7, 1-26.

• • • Frade R., L. (2008). Planeación por competencias. México: Medición de Calidad.• • • Freudenthal, H. (1983). Didactical Phenomenology of Mathematical Structures. Mathematics

Education Library. Chicago: D. Reidel Publishing Company.• • • Gaviria, J. (2008). Informe de validación de puntos de corte en las pruebas de Matemáticas y Compren-

sión Lectora de ENLACE Media Superior. Universidad Complutense de Madrid, impreso.• • • Gravemeijer, K y Terwel, J. (2000). Hans Freudenthal, un matemático en Didáctica y

teoría curricular. Journal of Curriculum Studies, 32, 6, pp.777- 796. • • • Kolen, M. y Brennan, J. (2004). Test Equating, Scaling, and Linking: Methods and Practices.

EU: Springer.• • • Michaelides, M.P., y Haertel, E.H. (2004). Sampling of Common Items: An Unrecognized

Source of Error in Test Equating. Technical Report. Disponible en http://www.cse.ucla.edu/products/ reports/r636.pdf

• • • Mitzel, H.C., Lewis, D.M., Patz, R.J., y Green, D.R. (2001). The bookmark procedure: Psychological perspectives (Cap. 9). En G.J. Cizek (Ed.), Setting performance standards: Concepts, methods and perspectives. Mahwah, NJ: Lawrence Erlbaum.

• • • Múñiz, J. (1997). Introducción a la teoría de respuesta a los ítems. Madrid: Pirámide.• • • Niss, M. (1999). Aspects of the nature and state of research in mathematics education.

Educational Studies in Mathematics, 40, 1-24.

Referencias

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

90

• • • OECD (2006): Assessing Scientific, Reading and Mathematical Literacy: A Framework for PISA 2006. Paris: OCDE.

• • • OECD (2009). PISA 2009. Assessment framework. Key competencies in reading, mathematics and science. Disponible en http://www.oecd.org/dataoecd/11/40/44455820.pdf

• • • Pajares, R., Sanz, A. y Rico, L. (2004). Aproximación a un modelo de evaluación: el proyecto Pisa 2000. Madrid: Ministerio de Educación, Cultura y Deporte.

• • • Reyes L., S. y Zúñiga B., A. (2011, 2012). Manual para docentes y directivos. Evaluación Na-cional de Logro Académico en Centros Escolares de Educación Media Superior. Disponible en http://enlace.sep.gob.mx/content/ms/docs/EMS_2012_Manual_Docente.pdf

• • • Reyes L., S.; Castillo N., A.; Zúñiga B., A. y Llarena de T., R. (2012). Niveles de dominio en habilidad matemática. La estrategia de evaluación de ENLACE Media Superior. México: Ceneval.

• • • Rosado, D. (2007). Competencias genéricas y el perfil del egresado en la educación media superior. SEMS. Documento de trabajo.

• • • Steen, L. (1990). On the Shoulders of Giants: New Approaches to Numeracy. National Re-search Council, Washington, D.C.: National Academy Press.

• • • SIMCE (2005). Diseño de instrumentos con metodología de enseñanza de habilidades. Chile: Copiapó.

• • • Subsecretaría de Educación Media Superior (2008). Reforma Integral de la Educación Media Superior en México: La Creación de un Sistema Nacional de Bachillerato en un marco de diversidad. México: SEP.

• • • Subsecretaría de Educación Media Superior (2009). Competencias Disciplinares Básicas para la Educación Media Superior. México: SEP.

• • • Treffers, A. (1987). Three Dimensions. A Model of Goal and Theory Description in Mathematics Instruction: The Wiskobas Project. Dordrecht: Kluwer Academic Publishers.

• • • Vidal, R. (2009). ¿Enlace, Exani, Excale o PISA?. México: Ceneval. Disponible en http://archivos.ceneval.edu.mx/archivos_portal/3065/Enlace_Exani_Excali_Pisa.pdf

• • • Vidal, R., Leyva, Y., Tristán, A. y Martínez R., F. (2000). Manual Técnico del Centro Nacional de Evaluación para la Educación Superior. México: Ceneval.

• • • Zabala, A. y Arnau, L. (2007). 11 ideas clave. Cómo aprender y enseñar competencias. Barcelo-na: Graó.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R91

Anexo AConsejo Técnico enlace

Media Superior

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

92

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R93

Anexo BGrupos de trabajo

Delimitación del objeto de medición y referentes del examen 2011-2012

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

94

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R95

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

96

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R97

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

98

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R99

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

100

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R101

Anexo CDiseño muestral

Levantamiento de datos enlace ms

El presente anexo describe la metodología utilizada en el diseño muestral de la prueba enlace ms 2011 y 2012, el cual se implementó con el fin de llevar a cabo la aplica-

ción de la prueba operativa con un control más riguroso a un subconjunto representativo de la población estudiada. De esta manera, se cuenta con datos confiables para la calibración de reactivos y el proceso de calificación. La muestra sirve además para la aplicación de la prueba pretest, que se utiliza para colocar año con año los puntajes de los alumnos en la misma escala, las pruebas empleadas para realizar estudios experimentales y el cuestionario de contexto.

En primer lugar se describe la forma en que se realizó el diseño muestral en los años anteriores, los objetivos de la muestra, la definición de la población objetivo y los instrumen-tos usados para la recolección de datos. Posteriormente, se detallan las características de los dominios de estudio, el tipo de muestreo y cómo se conformaron los estratos muestrales (combinación de la entidad con el tipo de bachillerato, sostenimiento y nivel de urbanidad). Finalmente, se describen las fórmulas utilizadas para determinar el tamaño y la distribución de la muestra, y el procedimiento para seleccionar los planteles o centros de trabajo (ct) que formaron parte de la muestra en 2011 y 2012.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

102

Antecedentes

Desde la primera aplicación de los instrumentos que integran el proyecto enlace ms, la muestra se ha seleccionado según el procedimiento general que se describe en este documen-to, sin embargo, los responsables del mismo han cambiado y se han realizado algunos ajustes.

El diseño muestral de 2008 estuvo a cargo de especialistas del inee y la desagregación de la población se realizó en dos niveles: nacional y estatal. Para 2009 se utilizó el mismo dise-ño que el año anterior pero, en este caso, el Ceneval fue responsable de seleccionar las escuelas que conformarían la muestra, mientras que el inee fue responsable de validar el trabajo.

A petición de la sems, el diseño de 2010 estuvo a cargo de la empresa Investigacio-nes Sociales, Políticas y de Opinión Pública, S.A. de C.V (invespop), cuyos especialistas eliminaron el nivel de desagregación estatal, ya que consideraron que los resultados en ese nivel no permitían generar resultados confiables ni realizar inferencias generalizables. Para las aplicaciones de 2011 y 2012 se utilizó el mismo diseño muestral planteado en 2010, con la particularidad de que, en 2011, la dgep-sep realizó la selección de las escuelas, mientras que en 2012 la empresa invespop verificó la pertinencia de continuar con el mismo diseño y seleccionó la muestra donde se aplicaron los instrumentos de evaluación. Entre otros, uno de los detalles que fueron tomados en cuenta en la verificación del diseño fue el carácter vo-luntario de la participación de las escuelas en la prueba enlace ms.

Determinación del diseño muestral 2011-2012

El diseño muestral debe asegurar que la información que se obtenga sea confiable para rea-lizar inferencias estadísticas válidas, para ello es necesario definir de forma clara y precisa su objetivo, el universo o población de la cual se obtendrá la muestra, los instrumentos que se aplicarán para obtener los datos, así como los dominios de estudio o niveles de desagregación a partir de los cuales se generalizará la información.

Objetivo del diseño muestralCon los datos obtenidos de la aplicación controlada de los distintos instrumentos a la muestra de estudiantes se pretende:• • • obtener los valores psicométricos de los reactivos que se utilizarán para la calificación• • • equiparar la prueba enlace ms operativa con la aplicación del pretest• • • obtener información a partir de los cuestionarios de contexto• • • realizar estudios experimentales

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R103

Población objetivoLa población objetivo son los alumnos que cursan el último año o ciclo de bachillerato en cualquiera de las siguientes modalidades educativas:• • • Bachillerato general• • • Bachillerato técnico• • • Bachillerato tecnológico

Los alumnos del último año o ciclo de bachillerato se determinan de la siguiente manera:• • • Si son ciclos anuales, se evaluará a estudiantes del último año.• • • Si son ciclos semestrales con ingreso anual, se evaluará a los de sexto semestre.• • • Si son ciclos semestrales con ingreso semestral, se evaluará a los de quinto y sexto

semestre.• • • Si son ciclos cuatrimestrales con entrada anual, se evaluará a los del último cuatrimestre.• • • Si son ciclos cuatrimestrales con entrada cuatrimestral, se evaluará a los de los tres

últimos cuatrimestres.

InstrumentosLos instrumentos utilizados para la recolección de la información son:• • • Operativa enlace ms. Con los datos de la aplicación de esta prueba se obtienen los

parámetros que se utilizan para calificar a todos los sustentantes.• • • Pretest. Con los datos obtenidos de la aplicación de esta prueba se realiza la equipara-

ción horizontal con la finalidad de poner en la misma escala las pruebas operativas año con año.

• • • Pruebas experimentales. La estructura de estas pruebas puede variar cada año, de acuerdo con el objetivo particular de investigación que surja durante las sesiones de ase-soría externa o en el consejo técnico.

• • • Cuestionarios de contexto. Son instrumentos diseñados para obtener información acerca de las características de los alumnos: su edad, su entorno socioeconómico, su situación laboral, sus hábitos de estudio y la educación alcanzada por sus padres, entre otras.

Para el diseño y la aplicación de las pruebas pretest y los instrumentos experimentales se considera un diseño matricial de recolección de datos, que consiste en dividir el total de reactivos que componen la prueba en cuadernillos o formas, por lo que los alumnos respon-den solamente una parte de los reactivos que integran la estructura.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

104

Conocer de manera previa los instrumentos por aplicar es una parte importante de la determinación del diseño muestral ya que en el cálculo del tamaño de la muestra se considera el número de formas ensambladas.

Dominios de estudioEn la definición de los dominios de estudio o niveles de desagregación subyace la propiedad de obtener información confiable y con precisión en cada una de las unidades de estudio que permita hacer inferencias estadísticas válidas. En los diseños muestrales de 2011 y 2012 se consideraron los mismos dominios de estudio determinados en el diseño de 2010, estos son:• • • Nacional• • • Nacional por modalidad de los ct• • • Nacional por sostenimiento• • • Nacional por nivel de urbanidad

Una vez definidos los niveles en los cuales es posible obtener resultados confiables y hacer inferencias, se puede determinar la estrategia para llevar a cabo la selección de la muestra (esto incluye la definición del tipo de muestreo, del tamaño y la distribución de la muestra).

Tipo de muestreoEl muestreo fue aleatorio estratificado unietápico; la muestra se extrae a partir de la selec-ción al azar de las escuelas o centros de trabajo que conforman el universo de estudio. La extracción se realiza en una sola etapa ya que la aplicación en las escuelas seleccionadas se hace de forma censal. Se dice que el diseño es estratificado porque para la selección se crean grupos con los que se asegura la representatividad de los alumnos en cada uno de los niveles de dominio.

Estratos muestralesLa estratificación consiste en dividir a la población en grupos que comparten ciertas carac-terísticas. Para enlace ms la estratificación de la población surge de la combinación de las entidades federativas con la clasificación de tipo de bachillerato (general, tecnológico, técnico y técnico de arte), tipo de sostenimiento (público y privado) y nivel de urbanidad de las es-cuelas (urbana y rural).

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R105

Figura D1. Estratificación de la población

Cuando se realiza esta división de la población, se obtienen estratos que no contienen alumnos, los cuales son eliminados y no se consideran para la selección.

Cálculo de tamaño de la muestraPara definir el tamaño de la muestra se consideraron las proporciones de las variables aso-ciadas a los dominios de estudio. A lo largo de los años se ha mantenido constante el error máximo de muestreo al 5% y un nivel de confianza del 95% asumiendo una tasa de no res-puesta de 5%.

Tomando en cuenta que se estima la proporción de respuesta a cada reactivo, se utilizó la siguiente fórmula:

donden0 = Número de alumnos necesarios para la estimación de un reactivodeff = Efecto de diseñoTNR = Tasa de no respuesta de alumnosδ = Error de muestreo máximo admisibleP = Proporción de la poblaciónz α/2 = Cuantil de distribución normal estándar con α2 a la derecha de élN = Tamaño de la población.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

106

Considerando el diseño matricial del pretest y de las pruebas para estudios experimen-tales, el número total de alumnos necesario está dado por la siguiente fórmula:

donden = Número de alumnos necesarios para la estimación de todos los reactivos de la pruebaC = Número de cuadernillos en la pruebaA = Número de apariciones de un reactivo en los cuadernillos

En este diseño se considera que α = 0.05, es decir z α/2 = 1.96 lo cual fija el nivel de confianza de los intervalos en 95%. También se determina que C = n_cuadernillos, A = 1 apariciones en cada cuadernillo y como porcentaje de falta de respuesta de los alumnos se usa TNR = 5%, dada la existencia de escuelas pequeñas. Se fijó el efecto de diseño debido al muestreo en deff = 1.2 que es un valor promedio que efectivamente ha aparecido en otras evaluaciones.

El estimador de P tiene su varianza máxima cuando P = 0.5 por lo que se fija y se usa como margen de seguridad para los otros valores estimados de P diferentes a 0.5. Se esta-bleció como criterio general que en cada dominio de estudio las estimaciones resultantes alrededor de las proporciones tuvieran un error de muestreo máximo de 5% correspondiente a una confianza del 95%.

Distribución de la muestraEn cuanto a la distribución muestral se procura que la distribución de los alumnos sea pro-porcional al total de la matrícula en el estrato con el que se está trabajando. Para este cálculo se utiliza la siguiente fórmula:

dondenh = Es el número de alumnos en la muestra para el estrato muestral n = Es el número de alumnos en la muestraNh = Es el número de alumnos del último año de bachillerato en el estrato N = Es el número de alumnos en la población

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R107

La distribución de la muestra se realizó tomando en cuenta el total de alumnos de:• • • la población• • • cada tipo de bachillerato• • • cada entidad.

Procedimiento de selecciónPara cada aplicación la muestra se selecciona a partir de una base de datos integrada con la información que envía cada entidad federativa y que incluye únicamente a los planteles que manifestaron su interés en participar en la prueba. Esta permite las variables que caracterizan a cada escuela y conformar el marco muestral. Las variables son:• • • Clave del centro de trabajo (cct), turno y extensión del plantel (instalaciones periféricas

que pueden tener los centros escolares, para efectos de la extracción de las escuelas cada plantel periférico se contabiliza como una escuela independiente)

• • • Modalidad de la escuela la cual se divide en bachillerato general, técnico y tecnológico• • • Tipo de sostenimiento: público y privado• • • Tipo o nivel de urbanidad: rural o urbano• • • Matrícula de cada escuela: comprende el total de alumnos objeto de estudio.

La selección de unidades muestrales se realiza de forma proporcional a la cantidad de alumnos, lo que implica que escuelas con mayor matrícula tienen más probabilidad de selección que las que tienen menos. Esta selección es aleatoria y se procura que al realizar la extracción de los ct, los estratos queden conformados con al menos dos centros.

Considerando los aspectos definidos en relación con el tamaño y la distribución mues-tral, la forma en que quedó conformada la muestra por escuelas y número de alumnos para las aplicaciones 2011 y 2012 se presenta en la Tabla C1.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R109

Anexo DEstudio de factibilidad

de mantenimiento de puntos de corte

En este anexo se reproduce el informe de resultados de los análisis realizados para verificar si los puntos de corte determinados en el 2008, para las áreas de Habilidad

Lectora y Habilidad Matemática de la prueba enlace ms, pueden seguir siendo utilizados en el 2011 sin importar los cambios que sufrió la estructura de la prueba a causa de su adap-tación para dar seguimiento a la Reforma Integral de la Educación Media Superior (riems).

Para realizar el estudio se partió de los siguientes supuestos: que los puntos de corte establecidos en 2008 son adecuados en las dos áreas que evalúa la prueba (Gaviria, 2008)1, y que se continúa evaluando el mismo constructo en ambos campos disciplinares ya que las bases teóricas en las que se fundamentan son las mismas (contenidos y procesos cognitivos); por ello se habla de una adaptación en la estructura.

Antes de describir el proceso de verificación de los puntos de corte, se presenta aquí la comparación de las estructuras 2008 y 2011, posteriormente se describen los análisis realiza-dos para comprobar empíricamente si las modificaciones en las áreas que integran la prueba implican que puedan o no seguir siendo utilizados los mismos puntos de corte.

1 Gaviria, S. (2008). Informe de validación de puntos de corte en las pruebas de Matemáticas y Comprensión Lectora de enlace Me-dia Superior. Universidad Complutense de Madrid. En Ceneval, Manual Técnico enlace Media Superior 2008-2010, (pp. 126-129). Disponible en http://enlace.sep.gob.mx/content/ ms/docs/2012/Manual_Tecnico_enlace_ms.pdf

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

110

Comparación de las estructuras

El área de Habilidad Lectora cambió de nombre por el de Comunicación (Comprensión Lectora). A pesar de esto, la manera en que se concibió el constructo se mantuvo, por lo que la evaluación continúa realizándose a partir de cuatro tipos de textos (expositivo, narrativo, argumentativo y apelativo) y tres procesos cognitivos (extracción, interpretación, y reflexión y evaluación). El total de reactivos asociados a esta área también se conservó (50), aunque se redistribuyeron los subtotales por tipo de texto.

Los cambios más notables entre las estructuras de 2008 y 2011 se encuentran en la distribución de los reactivos por grupo de proceso. En el perfil 2008 hay mayor cantidad de reactivos en los procesos cognitivos de interpretación y de extracción, mientras que en el perfil del 2011 la cantidad de reactivos en el proceso de extracción disminuye para incrementar el número en los procesos que evalúan reflexión y evaluación, lo cual resulta congruente con el enfoque comunicativo-funcional que establece la riems (ver Tablas D1 y D2).

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R111

La redistribución de reactivos por grupo de procesos implicó eliminar, construir y mo-dificar algunas especificaciones para conformar la nueva estructura. En total se eliminaron 13 especificaciones, se crearon otras 13, se hicieron modificaciones mínimas a 11 y 26 se dejaron sin cambio.

En cuanto al área de Habilidad Matemática, su nombre cambió para referirse al campo disciplinar de manera global: Matemáticas. Respecto a la definición del constructo se man-tuvieron los mismos procesos cognitivos (reproducción, conexión y reflexión), y se con-servaron tres de los cuatro contenidos (cantidad, cambios y relaciones, espacio y forma). Se eliminó por completo el contenido de matemáticas básicas puesto que corresponde con competencias disciplinares extendidas2 y la nueva prueba busca evaluar únicamente los con-tenidos compartidos entre las diferentes opciones de bachillerato. Por lo anterior, se modificó el total de reactivos de 90 a 60; se eliminaron 20 especificaciones de matemáticas básicas, 5 especificaciones del área de cantidad y otras 5 de cambios y relaciones por considerar que evaluaban habilidades meramente académicas sin aplicación en la vida cotidiana.

La distribución de los reactivos de ambas estructuras se presenta en las Tablas D3 y D4.

2 El área de matemáticas básicas incluía reactivos relacionados con geometría analítica y trigonometría.

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

112

En las Tablas D3 y D4 se puede observar que en la estructura 2008 la mayor cantidad de reactivos se encuentra en el proceso cognitivo de conexión, mientras que en la estructura basada en la riems los reactivos se distribuyen de manera más homogénea en los tres proce-sos. La reestructuración del área de Matemáticas implicó eliminar 46 especificaciones, crear 16 nuevas, hacer modificaciones mínimas en 6 y mantener 38 iguales.

Aunque ambas áreas de la prueba enlace ms tuvieron modificaciones, la de Matemá-ticas fue la que presentó mayores cambios: la eliminación de una subárea completa, además de la incorporación de especificaciones nuevas. Lo anterior podría tener un impacto en la manera en que se distribuyen los alumnos en los diferentes niveles de desempeño, aunque la delimitación del constructo se haya mantenido.

MétodoA fin de explorar empíricamente si los cambios realizados en la estructura de Matemáticas impactaban de manera significativa los resultados de los alumnos y por tanto a los puntos de corte, se planteó comparar el rendimiento de una muestra de estudiantes en el área de Matemáticas que respondió tanto la prueba con la estructura del 2011 como la prueba con la estructura 2008. Además se planteó comprobar si los posibles cambios en los resultados se debían al contenido eliminado de matemáticas básicas.

Para el estudio se determinó obtener y comparar la media de calificaciones de los alum-nos que contestaron el área de matemáticas con la estructura:

• • • enlace ms 2011 (60 reactivos)• • • enlace ms 2008 (90 reactivos)• • • enlace ms 2008, sin los reactivos de matemáticas básicas (70 reactivos)

ParticipantesSe realizó un muestreo no probabilístico de tipo intencional. La muestra estuvo compuesta por 3,159 alumnos de diferentes escuelas del Distrito Federal y del Estado de México, entre otras razones porque son dos estados en los que hay representatividad por tipo de bachille-rato, sostenimiento y nivel de urbanidad.

MaterialesPara evaluar el rendimiento de los alumnos con la estructura del 2008 se construyó una prueba extra denominada “extendida”. Este instrumento se integró por 46 reactivos de las

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R113

especificaciones eliminadas de Matemáticas, de los cuales 20 corresponden al contenido de matemáticas básicas y 26 a cantidad, cambios y relaciones, y espacio y forma. Los otros 44 reactivos que completan la estructura original de 90 se comparten con la estructura de 2011 por lo que no se incluyeron en la prueba extendida. La estructura de la prueba se muestra en la Tabla D5.

Para conformar la prueba extendida se seleccionaron los reactivos que presentaron las mejores características psicométricas de alguna de las pruebas operativas 2008 a 2010: el 41.3% de los reactivos se retomaron de la prueba operativa 2008, el 26.1% de la de 2009 y el 32.6% de la operativa 2010.

Por otro lado, para evaluar el rendimiento de los alumnos con la nueva estructura, se utilizaron sus resultados obtenidos en el área de Matemáticas de la aplicación de la prueba enlace ms 2011.

ProcedimientoLas pruebas extendida y enlace ms 2011 se aplicaron de manera controlada del 5 al 7 de abril. Los alumnos de la muestra contestaron ambos instrumentos.

Para la calificación de los alumnos con los reactivos que integran la prueba extendida se retomaron los parámetros equiparados de las aplicaciones anteriores. Asimismo, se utilizaron los parámetros equiparados de los reactivos de la prueba 2011. En ambos casos, se toma-ron en cuenta solo aquellos reactivos con características técnicas y psicométricas adecuadas. Bajo esta consideración se trabajó con 45 reactivos de la prueba extendida ya que se eliminó un reactivo correspondiente al contenido de espacio y forma; y con 57 reactivos de la prueba

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R

114

enlace 2011 debido a que se eliminaron 3, dos reactivos de cambios y relaciones y uno de espacio y forma.

Con los datos de la aplicación y con los parámetros equiparados se estimó la califica-ción de los alumnos. Primero se les calificó con los 57 reactivos del área de Matemáticas de la prueba enlace ms 2011.

En segundo lugar se obtuvo la calificación de los alumnos que contestaron los 89 re-activos correspondientes a la estructura 2008(44 de la prueba enlace ms 2011 y 45 de la prueba extendida)

En tercer lugar se estimó la calificación de los alumnos que contestaron los reactivos de la estructura 2008 sin considerar matemáticas básicas (44 reactivos de la estructura enlace ms 2011 más 25 reactivos de la prueba extendida que en total sumaban 69). Este ejercicio se realizó de manera adicional con la finalidad de verificar el posible efecto del área de matemá-ticas básicas sobre las estimaciones.

Finalmente, con los datos estimados de las calificaciones se obtuvo la media para pos-teriormente compararlas. ResultadosLas medias de las calificaciones estimadas fueron las siguientes:

MA

NU

AL

TÉCN

ICO

EN

LACE

MED

IA S

UPE

RIO

R115

Como se puede observar, la media de calificación obtenida a partir de la estructura de enlace 2011 varía apenas .02 puntos al compararla con la estructura de 2008. Esta di-ferencia es igual cuando se compara enlace 2011 con enlace 2008 sin el contenido de matemáticas básicas. También se observa que prácticamente no hay diferencias si se compara la media de calificaciones de la estructura completa de 2008 con la misma estructura pero sin matemáticas básicas. Finalmente, con los resultados de la desviación estándar, se aprecia que la distribución de las puntuaciones de habilidad es similar independientemente de la estruc-tura aplicada.

ConclusionesIndependientemente de la combinación de reactivos que se utilice para calificar a los sus-tentantes, las medias y las desviaciones estándar obtenidas para enlace ms no presentan cambios estadísticamente significativos. Lo anterior permite confirmar que la estimación de la calificación de los alumnos con la prueba basada en la riems no se ve afectada significati-vamente comparándola con la forma en que se hubiera comportado de haberse mantenido la misma estructura que la prueba anterior. Por lo tanto, se concluye que es factible mantener los mismos puntos de corte.

www.ceneval.edu.mx

Manual técnico 2011 - 2012

Documents

Transcript of Manual técnico 2011 - 2012