Adivinar en Examenes

Inv Ed Med. 2016;5(17):55---63

http://riem.facmed.unam.mx

ARTCUL

Reexmltip

Alma Ju

a Programade Mxico, b Departamde Mxico,

Recibido elDisponible

PALABRExmenemltipleAdivinarTeora CTests;Teora dal tem;Mxico

KEYWOMultipleGuessingClassical

Autor paC.U., C.P. 04

Correo eLa revisi

http://dx.d2007-5057/Dabierto distrrado-Nneza e Iwin Leenenb,

de Apoyo y Fomento a la Investigacin Estudiantil (AFINES), Facultad de Medicina, Universidad Nacional AutnomaMxico D.F., Mxicoento de Evaluacin, Secretara de Educacin Mdica, Facultad de Medicina, Universidad Nacional AutnomaMxico D.F., Mxico

18 de enero de 2015; aceptado el 27 de julio de 2015en Internet el 9 de septiembre de 2015

AS CLAVEs de opcin;;lsica de los

e Respuesta

Resumen Los exmenes de opcin mltiple (EOM) son la herramienta ms difundida en edu-cacin mdica, pero su utilidad est supeditada a la conabilidad del instrumento y la validezde las inferencias que emanan de la medicin. La posibilidad de adivinar, inherente al formatode evaluacin, puede introducir varianza irrelevante a la medicin y reducir la representacindel rasgo latente en la calicacin del examen por diferencias individuales respecto a educatedguessing, testwiseness y la tendencia a adivinar. En este artculo se presentan brevemente lascaractersticas generales de la Teora Clsica de los Tests (TCT) y la Teora de Respuesta al tem(TRI) y su abordaje al problema de adivinar. Asimismo, se propone un modelo terico dentro dela TCT que integra los mecanismos que afectan la adivinacin y se determina la variacin de laprobabilidad de aprobar un EOM, en funcin de ciertos supuestos respecto a adivinar a travsde un anlisis terico dentro de un modelo TRI. Es posible concluir que algunas caractersticasde los tems propician la adivinacin, y cuando sta ocurre se encuentran inmersas diversasvariables, relacionadas o independientes, del rasgo que se pretende medir, que determinan lamagnitud de su efecto.Derechos Reservados 2015 Universidad Nacional Autnoma de Mxico, Facultad de Medicina.Este es un artculo de acceso abierto distribuido bajo los trminos de la Licencia CreativeCommons CC BY-NC-ND 4.0.

RDS-choice tests;;

Test Theory;

Insights into guessing in multiple choice questions and its effect in the assessmentoutcome

Abstract Multiple-choice tests (MCT) are the most employed assessment tool in medical educa-tion; however, its use is limited to the instrument reliability and validity of the inferences made

ra correspondencia: Departamento de Evaluacin, Secretara de Educacin Mdica. Av. Universidad N 3000, Edif. B, 3er piso,510, Mxico D.F., Mxico. Tel.: +56-23-23-00 Ext. 43034.lectrnico: [email protected] (I. Leenen).n por pares es responsabilidad de la Universidad Nacional Autnoma de Mxico.

oi.org/10.1016/j.riem.2015.07.004erechos Reservados 2015 Universidad Nacional Autnoma de Mxico, Facultad de Medicina. Este es un artculo de accesoibuido bajo los trminos de la Licencia Creative Commons CC BY-NC-ND 4.0.O DE REVISIN

iones sobre adivinar en preguntas de opcinle y cmo afecta el resultado del examen

56 A. Jurado-Nnez, I. Leenen

Item ResponseTheory;Mexico

upon the measurement. Guessing, an inherent element of this evaluating tool, may introduceconstruct-irrelevant variance and reduce the load of the latent trait in the score of the examdue to individual differences regarding educated guessing, testwiseness and guessing tendency.This article presents an overview of Classical Test Theory (CTT) and Item Response Theory (IRT),

ory aodee a t on cn, vplaceeped Na

und

Introduc

Los exmemienta muna evaluaeciente1---3

de forma ccesos cogntoma de dems extennistracin poblacioneha utilizadtema centrpasado. Loeducativa posible dedez del mtrata de epara tomarmdica, cosin de unPor ello, ede mediciposible.

Respectinherente cuestionadde que losdominio soque apruebpio formata ciegas. Siadivinar a con decieuna o ms con un base conoce ccon base edescartar udenominadEn generamedicin Por lo tan

r y rtajeenid

a el , exi

Cls (TRerenervatas.ma nenta

resereveml (pacadato, ie af

, y bcoslisis a pro

supe esilidaiegaivamincluding a discussion of how each thethe latter, we propose a theoretical mthe CTT framework. We further includthe probability of passing a MCT relianto a particular IRT model. In conclusioof guessing, and, when guessing takes variables that can be dependent or indAll Rights Reserved 2015 UniversidaThis is an open access item distributed

cin

nes de opcin mltiple (EOM) son la herra-s utilizada en educacin mdica al hacer posiblecin objetiva, estandarizada, costo-efectiva y. Un tem de opcin mltiple (IOM) desarrolladoorrecta puede evaluar desde memoria hasta pro-itivos superiores como razonamiento clnico ycisiones. Otras ventajas incluyen: a) un muestreoso del contenido por evaluar, y b) una admi-y calicacin en poco tiempo, aun en grandess de estudiantes4. Esta forma de evaluacin seo a gran escala internacionalmente y ha sido unal en investigacin en educacin desde el siglo

que se espera de cualquier mtodo de evaluacines que proporcione una medicin lo ms certeral rasgo latente que se pretende medir. La vali-todo es especialmente trascendente cuando se

xmenes sumativos, donde el puntaje se utiliza decisiones sobre los sustentantes (en educacinncretamente, de ste puede depender la emi-

ttulo o el acceso a un curso de especialidad).s indispensable que los EOM, como instrumenton, sean lo ms conables, vlidos y justos

o a estas tres caractersticas, surge un elementoa este formato de evaluacin que siempre se hao: la posibilidad de adivinar. Existe la posibilidad

sustentantes sumen puntos que no representenbre el tema e incluso, al menos tericamente,en un examen a expensas de una ventaja del pro-

aprobaporceno contazar.

Parcco)Teoraal temzar infde obspregunde fory enfrcin.

El pmos bgeneracmo respecmos qula TCTespecun ancmo lciertostados dplausibnar a cexcluso. Esta posibilidad se presenta aunque se adivinen embargo, pocas veces el sustentante tiene queciegas. Por un lado, los EOM suelen incluir temsncias en su construccin, que permiten descartaropciones o inferir la respuesta correcta, inclusojo nivel de conocimiento5---7. Este fenmenoomo testwiseness8. Por otro lado, es comn que,n un conocimiento parcial, el sustentante puedano o ms distractores de un IOM, lo cual se hao informed guessing o educated guessing9---11.l, adivinar constituye una fuente de error deque puede convertirse en sesgo estadstico12.to, la decisin sobre el punto de corte entre

Dos marcal proble

ConceptoTests

Los supuessimples y centre dos f(comnmecin verdadddresses the guessing phenomenon. With respect tol that integrates factors related to guessing withintheoretical analysis, which displays the variation ofertain assumptions regarding guessing that are akin

arious features of the items increase the likelihood, the magnitude of its effect is determined by somendent of the latent trait.cional Autnoma de Mxico, Facultad de Medicina.er the Creative Commons CC License BY-NC-ND 4.0.

eprobar un EOM debera tomar en cuenta que un de los aciertos no reeja el dominio del temao evaluado por la pregunta, sino que se debe al

anlisis de pruebas en general (y EOM en espe-sten dos enfoques psicomtricos principales: laica de los Tests (TCT) y la Teora de RespuestaI). Ambos modelos tienen como objetivo reali-cias sobre uno o ms rasgos latentes, imposiblesrse directamente, a partir de las respuestas a las

Por otro lado, sus supuestos subyacentes dierenotable, incluyendo la forma en que consideran

n el problema de acertar preguntas por adivina-

nte artculo tiene dos objetivos: primero, revisa-ente las caractersticas de la TCT y la TRI, enra una revisin ms extensa, vase Leenen13) y

teora ha abordado el problema de adivinar. Alncluimos a) un modelo que integra los mecanis-ectan la adivinacin con los conceptos claves de) una breve descripcin de algunos modelos TRI

para EOM. Segundo, investigamos, a partir deterico enmarcado dentro del modelo Nedelsky,babilidad de aprobar un EOM vara en funcin de

uestos o estrategias respecto a adivinar. Los resul-ta investigacin aportan evidencia sobre la (baja)d de acreditar un examen a expensas de adivi-s o con base en testwiseness o educated guessingente.os psicomtricos y cmo tratanma de la adivinacin

s generales de la Teora Clsica de los

tos y procedimientos de la TCT son relativamenteonsideran la prueba en su totalidad. Distingueactores que componen la puntuacin observadante representada por X) en el examen: la puntua-era (V) y el error de medicin (E):

X = V + E (1)

Reexiones sobre adivinar en preguntas de opcin mltiple 57

TW

TA

Figura 1 testwisenescentrales d(), error dintegra suea adivinar (cin verdadpuntuacin

La TCTde que el veces y qules (por ejsegn la tde las prersticas inccircunstancdera, por des decir, cas. sta se pretendde otros fcaso de inrespuesta.tral al colos demsconstructosistemticohipotticasvocarse poruido excecuatro varicin.

Sigue detantes respdiferenciasconabilidrencias verentender lque tienenconcepto emedicin spara la puobservada1

El conceel construgura 1, la validez d

Adivinar en la Teora Clsica de los Tests

Suerte al adivinar, testwiseness, educated guessing y latendencia a adivinar

e la TCT y sus conceptos centrales reeren a la pruebaotalurreto, ede lacin aloraejarsten

anlde lamalmilidaentar. En

correguest)os sutico

la tantebabinticterv

ar al.la inos cog (Eplaucione

uni, las

a ca y sido, es denalentaV X E

SA

Modelo terico que integra suerte al adivinar (SA),s (TW), tendencia a adivinar (TA) con los conceptose la TCT, puntuacin verdadera (V), rasgo latentee medicin (E) y la puntuacin obModelo terico querte al adivinar (SA), testwiseness (TW), tendenciaTA) con los conceptos centrales de la TCT, puntua-era (V), rasgo latente (), error de medicin (E) y la

observada (X).

parte de la concepcin terica e hipotticaexamen se puede replicar un gran nmero dee, en cada rplica, las caractersticas esencia-emplo, ciertos contenidos que se deben cubrirabla de especicaciones y el nivel taxonmicoguntas) permanecen, mientras que las caracte-identales (como las preguntas concretas y lasias de aplicacin) varan. La puntuacin verda-enicin, recoge todos los efectos sistemticos,de los factores que permanecen entre rpli-incluye el efecto del constructo latente quee medir (habitualmente representado por ) yactores, como las estrategias para adivinar encertidumbre o la familiaridad con el formato de

Como se explicar posteriormente, es cen-nsiderar la validez del examen, mientras que

factores generan varianza irrelevante para el14,15. El error de medicin rene los efectos nos, o sea aquellos que varan entre las rplicas, como por ejemplo, la mala suerte de equi-r la presencia de una distraccin (como por

Aunquen su tque ocrespectcito valoraestas vbien, dsi el suque sua una

Forprobabel sustpondeopcinesta pen el tminamsistem(vasesustenlas proson idbin inelimintantes

En cionadguessinrar la valorades node TWdebenticalesotro laopciontante sincremsivo). La parte gris de la gura 1 representa lasables principales en el modelo clsico y su rela-

la ecuacin (1) que las diferencias entre susten-ecto de su puntuacin observada reejan tanto

verdaderas como diferencias incidentales; laad en la TCT se dene como la proporcin de dife-daderas en las diferencias observadas. Se puedea conabilidad en trminos del efecto relativo

los factores V y E sobre (la varianza en) X. Elstrechamente relacionado del error estndar dee suele usar para derivar un intervalo de conanzantuacin verdadera con base en la puntuacin6,17.pto de validez15,18,19 se reere al efecto que tienecto latente sobre X. Como se muestra en laste se maniesta a travs de V y deja claro queepende de la conabilidad de un instrumento16.

racin con Puede ser, efecto engla probabil

Aunque forma simuconcepcindad del susun efecto shacia V en lla ausenciaEG es una el proceso sin que stera de unadepende tocon nivelesdel sustentidad, es conveniente analizar el proceso interno en el sustentante al enfrentarse con un IOM. Als razonable suponer que ste realiza un anlisiss m opciones de respuesta, el cual resulta en unasobre la plausibilidad de cada opcin. Con base enciones, elegir entre las alternativas ofrecidas, o la pregunta sin responder. La adivinacin ocurretante decide contestar la pregunta, a pesar deisis no haya conducido a la certidumbre respectos opciones.ente, estas valoraciones desembocan en m + 1des: una probabilidad para cada opcin de quente la elija, y otra de dejar la pregunta sin res-

el caso de que la probabilidad asociada con larecta sea diferente de 0 o 1, la puntuacin ennta (y, por lo tanto, la puntuacin observada X

est inuida por un factor aleatorio que deno-erte al adivinar (SA). La SA tiene un efecto no, por lo cual es parte del error de medicin Egura 1). Obviamente, la SA interviene cuando el

adivina a ciegas. En este caso, por denicin,lidades asociadas con las m opciones de respuestaas. Sin embargo, es vital enfatizar que la SA tam-iene, por ejemplo, cuando el sustentante sabegn distractor y adivina entre las opciones res-

troduccin se mencionaron dos conceptos rela-n la adivinacin: testwiseness (TW) y educatedG). Ambos se relacionan con el proceso de valo-sibilidad de las opciones de los IOM al implicars distintas que, por ende, llevan a probabilida-formes de que se elija cada opcin. En el caso

valoraciones de las m opciones de respuesta seractersticas relacionadas con aspectos grama-ntcticos del tem, no con el rasgo . EG, porentra en escena cuando la diferenciacin entree respuesta se debe al rasgo latente. Es impor-ar que los efectos de TW y EG no necesariamenten la probabilidad de acertar el tem (en compa-la probabilidad de acertarla al adivinar a ciegas).por ejemplo, que en un tem concreto, tengan unanoso, esto es, que lleven al sustentante a bajaridad que le asigna a la respuesta correcta.estos dos conceptos a menudo se consideran deltnea9,20,21, es bsico reconocer que tienen una

psicolgica distinta. TW reere a una capaci-tentante, es decir, es un constructo que ejerceistemtico sobre X (vase la echa directa de TWa gura 1), pero sin relacin directa con (ntese

de una echa entre TW y ). A diferencia de TW,conducta que se maniesta cuando inuye ende la valoracin de las opciones de respuesta,te lleve al sustentante a la identicacin cer-

opcin como la correcta. Debe ser claro que EGtalmente de y que est tpicamente asociado

intermedios de , donde el conocimiento parcialante es suciente para, por ejemplo, descartar


un distractor, pero insuciente para reconocer la respuestacorrecta. Puesto que EG es una conducta subordinada total-mente a , est implcitamente presente en la echa queindica el efecto de sobre V en la gura 1.

La gura 1 incluye un tercer factor que afecta V: la ten-dencia a adTA no conlpuesta, sinel tem ense aplica utentantes contestar20

a la prctisobre la manar que eso que adivitanto, la mcionar quegeneral delsistemticoque inuye

La regla paTpicamentnmero depuesta corscoring (NRmaximizar nar.

Con el la adivinacde correccialternativatas incorremencionarque existircon respuesin respondm de opciociones conrespuesta esperada (de adivinartrascendeny a su potede intentarAs, la frmparacin ceste ltimodesconocen

Sin embporque estapara el conde forma da los estudimentos, cohacia el rieexamen y la propensvuelven mque la prop

Es interesante plantear el debate entre defensores y opo-nentes de la frmula de correccin dentro del modelo que sepresent en la gura 1. El argumento a favor enfatiza la dis-minucin del efecto de la SA sobre la puntuacin observada,la cual benecia la conabilidad del examen. El argumento

tra rre V n. S

se ry seanza

ora

conso detral erstnado

(ca matisos

TCTla TCven2

tro derecaraersttica lo, eupon) un

la pro solrrectumeode

ar e

opieilidal dera m

una susespoos TRacin

algu

elo delo

EOMarm

la p psebabinit

el ivinar (TA). Contrario a TW y EG, la accin de laleva una distincin entre las m opciones de res-o afecta la probabilidad de dejar o no en blanco

caso de incertidumbre. Especialmente cuandona frmula de correccin (vase abajo), los sus-dieren respecto a la decisin de dejar IOM sin. La aversin al riesgo y la concepcin respectoca de adivinar son algunos factores que incidengnitud de la TA. Por ejemplo, alguien puede opi-

incorrecto sumar puntos a travs de la suertenar distorsiona la calicacin en el examen; poragnitud del efecto de la TA sera baja. Cabe men-

el efecto de la TA, al referirse a una tendencia sustentante hacia la incertidumbre en los IOM, es

sobre V; se considera una variable moderadora en cmo y TW afectan a V.

ra calicare, la calicacin en un EOM se calcula como el

tems en los que el sustentante marc la res-recta. Esta regla se conoce como number rightS) y, bajo la premisa que el sustentante deseasu puntuacin, siempre es una invitacin a adivi-

n de obtener una calicacin menos afectada porin, en algunos contextos se aplica una frmulan al nmero de respuestas correctas. Esta regla

castiga----es decir, resta puntos por----las respues-ctas. Si se decide aplicar la frmula, es esencialle a los sustentantes, previo al inicio de la prueba, dicha penalizacin y que se aplicar a los temssta incorrecta (dejando sin penalizacin los temser). La penalizacin suele depender del nmerones de respuesta y en la mayora de las aplica-siste en restar un valor de 1/(m --- 1) por cadaincorrecta. Con esta correccin, la puntuacinen el examen o en cada IOM) bajo el supuesto

a ciegas es cero22. No obstante, el efecto mste de la frmula se debe al discurso precautorioncial de lograr que los sustentantes se abstengan

adivinar, ms que a la deduccin de puntos12,22.ula puede reducir la varianza del error en com-

on la calicacin obtenida por el NRS, ya que cuasi fuerza a los sustentantes a adivinar cuando

la respuesta.argo, la frmula de correccin ha sido criticada

regla introduce varianza sistemtica irrelevantestructo, debido a que los sustentantes reaccionaniferente a la posible penalizacin22---24. Al prevenirantes sobre la frmula, se introducen nuevos ele-mo su personalidad y principalmente su actitudsgo, que afectan la estrategia de resolucin deldistorsionan el puntaje nal. En otras palabras,in a tomar riesgos y la tendencia a adivinar ses trascendentes para los parmetros del examenia frmula de correccin25.

en conTA sobexamede quelogra, la vari

La Te

La TRIproceses cencaractexamiciertasmentoy preccon laentre y Ergu

Denque dide las caractbabilsejempTRI---- stad); bc) quemodelo inco --- aotros m

Adivin

Una prprobabel niveconsidinclusobilidadPara rmodeladivinmente

El modEl mosis detres pmente(, dela promuy/incia conesalta que la frmula fortalece la inuencia de laa expensas de y, por ende, atena la validez delegn los detractores de la frmula, la intencineponga la conabilidad perdida en adivinar no se

compromete ms la validez del instrumento por irrelevante agregada a la medicin.

de Respuesta al tem

tituye una familia de modelos que formalizan el responder a un tem. En cualquier modelo TRIla funcin caracterstica, la cual relaciona lasicas de los tems con los rasgos latentes de loss a n de precisar las probabilidades de observartegoras de) respuestas. La TRI tiene un funda-emtico ms robusto, con supuestos ms fuertese interpretaciones ms claras en comparacin

26,27. Para conocer ms respecto a las diferenciasT y la TRI, vase Leenen13, Hambleton y Jones28

9.e la TRI, se encuentra una diversidad de modelosn en el nmero de parmetros (cuanticacionesctersticas de personas e tems), y en la funcinica que los une para llegar a la armacin pro-de acertar el tem o marcar cierta opcin. Porl modelo de Rasch30 ----uno de los pioneros de lae a) un parmetro para cada tem (, su dicul-parmetro por persona (su nivel de habilidad), yobabilidad de que una persona acierte un tem (elo considera dos categoras de respuesta, correctaa) crece montonamente conforme la diferencianta. El modelo es unidimensional y, como muchoslos de la TRI, asume independencia local.

n la Teora de Respuesta al tem

dad importante del modelo de Rasch es que lad de acertar un tem se acerca a cero conformee la persona disminuye. Por ello, el modelo no seuy apropiado para el anlisis de EOM, puesto que

persona totalmente ignorante tiene una proba-tancialmente superior a cero de acertar el tem.nder a esta inconveniencia, se han propuestoI alternativos que explcitamente consideran la

en los IOM. A continuacin, se describen breve-nos de stos.

logstico de tres parmetrosTRI ms popular y ms comn para el anli-

es, indudablemente, el modelo logstico deetros (3PL)31. Este modelo incorpora explcita-osibilidad de adivinar, al incluir un parmetro

udoadivinacin) para cada tem que representalidad de acertarlo para personas de un nivelamente bajo. (Cabe mencionar que, a diferen-modelo de Rasch, el 3PL incluye otro parmetro


para cada tem, , su discriminacin; sin embargo, ste noes relevante para este artculo.)

La interpretacin ms comn del modelo 3PL supone unproceso en dos pasos: a) el sustentante analiza el tem y, conbase en el resultado de este anlisis, b) provee la respuestacorrecta (sbilidad totla funcin bilidades: acierta concer la resp

Un modeloadivinaciEl 3PL resdependienembargo, desconoceel tem es entonces, qde adivinaet al.33 proacertar el la variable

El modelo Tanto el 3Ptractores yincorrectala costumbcero puntodida de inopcin incomacin mrelativame

Se han lizar las mel primeronominal36,nes de resatraccin sros positivmodelo espj (donde j

La fuerzvaloracin describi e. . ., am de den) tantocomo de la

El modelles tericacaracterstsiempre espoco plausindiferenteSamejima3

y Bolt21, re

El modelo NedelskyEl modelo Nedelsky38 asimismo distingue entre los distin-tos distractores de un IOM, pero adopta unos supuestos mssimples ----y sobre todo psicolgicamente diferentes---- quelos mencionados en el prrafo anterior. Supone un proceso

nsis formpues

poscta.erststentspec

quein ctameazo te adaso es dtore

una0.

nal em ncludelole la

el idadnaleonste ac

oban m

a serico rios o de itualere

opcky (v

cadte pida,n deto des.ablasceniegatar nse s) disadiv

dos)tresi la conoce) o adivina (si la desconoce). La proba-al de acertar el tem, como est formalizado encaracterstica del 3PL, es la suma de dos proba-la de conocer la respuesta correcta, en cuyo caso

certeza, y la probabilidad conjunta de descono-uesta correcta y acertar por adivinacin32.

Teora de Respuesta al tem en el cual lan depende de la personatringe el parmetro de pseudoadivinacin a serte del tem y no de la persona que responde. Sines poco plausible suponer que, si el estudiante

la respuesta y adivina, la probabilidad de acertarja, o sea, que no depende de l. Ms probable es,ue utilice informacin parcial durante el proceso

r. Para remediar este inconveniente, San Martinpusieron un modelo en el cual la probabilidad detem por adivinacin depende en cierto grado de

latente .

de respuesta nominal y sus generalizacionesL como el modelo de San Martn et al. unen los dis-

la no respuesta en una categora, la respuesta. Esta prctica, aunque es muy comn y reejare de otorgar un punto a la respuesta correcta ys a cualquier respuesta incorrecta, implica pr-formacin. Posiblemente, tomar en cuenta culrrecta eligi una persona puede llevar a una esti-s precisa de la de sta, sobre todo para nivelesnte bajos de la variable latente34,35.propuesto varios modelos TRI que permiten ana-ltiples categoras de respuesta en los IOMs;

y ms conocido es el modelo de respuesta el cual parte del supuesto de que las m opcio-puesta en un IOM ejercen diferentes grados deobre el sustentante. Si a1, a2, . . ., am son nme-os que cuantican dicha atraccin, entonces elecica que la probabilidad de escoger la opcin

es un ndice entre 1 y m) se da por:

Pr(opcinj) = aja1 + a2 + + am . (2)

a de atraccin es conceptualmente similar a lade las opciones de respuesta en el modelo que sen la seccin Adivinar en la TCT. Los valores a1, a2,la ecuacin (2) son una funcin (es decir, depen-

de los parmetros de las opciones de respuesta persona.lo de respuesta nominal comprende algunos deta-mente menos deseables. Por ejemplo, la funcinica implica que personas totalmente ignorantestarn atradas a una opcin especca, lo cual esible; es ms verosmil que estas personas seans entre las opciones ofrecidas. Los modelos de

7, Thissen y Steinberg34, y ms recientemente Suhmedian estos inconvenientes.

que coliza dede resluacinincorrecaractdel suren reNtesela opccorrecal rechtentanen el popciondistracelegirde 0.5

Nota para tPara colos movariabcuandoposibilmensiootros clidad d

La propci

En estsis teescenacriteries hablisis recuatroNedelsque ententanensegutes (sirespecnativa

La tcada enar a cdescarnario, (o dosvale a tres (omeros te en dos pasos. Primero, el sustentante rea-a independiente una evaluacin de cada opcin

ta; en el caso de que sea un distractor, la eva-iblemente le lleva a identicar la opcin como

La probabilidad de que esto ocurra depende deicas de la opcin (como su dicultad) y del nivelante en la variable latente (las personas die-to a su habilidad para identicar distractores).

el modelo excluye la posibilidad de rechazarorrecta en este paso (se supone que en un IOMnte desarrollado, ningn nivel de puede llevarde la opcin correcta). En el segundo paso, el sus-ivina a ciegas entre las opciones que no rechazanterior. Si, por ejemplo, en un tem de cuatroe respuesta, el sustentante sabe identicar doss en el primer paso, entonces en el segundo paso

de las dos opciones restantes con probabilidad

sobre los modelos Teora de Respuesta al temde opcin mltipleir esta seccin, es importante resaltar que todoss descritos, excepto el 3PL, al permitir que latente intervenga en el proceso de respuestasustentante adivina, incorporan y formalizan la

de EG. Al mismo tiempo, siendo modelos unidi-s, excluyen explcitamente la posibilidad de queructos, como TW o la TA, determinen la probabi-ertar el tem o escoger cierta opcin.

bilidad de aprobar un exmenes deltiple

ccin, se presentan los resultados de un anli-de la probabilidad de aprobar un EOM bajo seisdiferentes. Como estndar de pase tomamos elobtener el 60% de la calicacin mxima, lo cual

en el sistema educativo de Mxico. Todos los an-n a exmenes de hasta 60 tems, cada uno coniones, y se pueden enmarcar dentro del modeloase la seccin anterior). En particular, se suponea tem ocurre una de cuatro alternativas: el sus-uede descartar 0, 1, 2, o los 3 distractores y,

adivina ciegamente entre las opciones restan-jar tems sin contestar). Los escenarios dieren

las probabilidades que se asocian a estas alter-

1 presenta la distribucin de probabilidades paraario. El primer escenario corresponde con adivi-s todo el examen (en el 100% de los tems no sabeingn distractor). En el segundo (y tercer) esce-upone que el sustentante puede descartar unotractores de cada tem. Ntese que esto equi-inar a ciegas en un examen donde los IOM tienen

opciones de respuesta. En contraste con los pri- escenarios, los ltimos permiten que las cuatro


Tabla 1 Probabilidades de eliminar cierto nmero de distractores en una pregunta de cuatro opciones de respuesta para seisescenarios hipotticos analizados bajo el modelo Nedelsky

Escenarios Probabilidad de eliminar x distractores

1 2 3 4 5 6

alternativade probabiautores al snario especde los temrespectivam30% de losel desempPor otro laddiantes de

En la en funcinpara cada aplicando lrespuesta eque la proadivinandocin se obde aprobaraprobar unfrmula dea la asntot

Cuando en cada tparticular, (es decir, des desprecidenticar nan a ciegade 50 temtante resaluna probabdiante aprcorrecta etual de stopciones (cbados adivreeren al las probabse ejemplievitar que acumulen p

Las grponde a unel examenla frmula 60 tems.

a as al ronue la ms eabil

ms aun ein coidencendepondde ap

8 tste judicun nabil

sin

anos res ma

la erceya qubarg

que cin,uenccionin ddistrne uentx = 0

Adivinar a ciegas 100% Descartar un distractor 0% Descartar dos distractores 0% Estudiante nivel bajo 10% Estudiante nivel medio 5% Estudiante nivel alto 1%

s ocurran en el mismo examen. La distribucinlidades en stos responde a la experiencia de losustentar exmenes. Por ejemplo, el cuarto esce-ica que el sustentante adivina a ciegas en el 10%s, descarta uno o dos distractores en el 40% y 20%,ente, y que descarta los tres distractores en el

casos. Este escenario se puede relacionar coneno de un estudiante de bajo nivel acadmico.o, los dos ltimos escenarios reeren ms a estu-nivel acadmico medio y alto, respectivamente.gura 2, se muestra la probabilidad de aprobar

del nmero de tems que contiene el examen,escenario y bajo dos reglas para calicar: NRS ya frmula de correccin (restando 1/(m1) porrrnea). El grco superior izquierdo evidencia

babilidad de aprobar un examen con 10 tems, a ciegas, es aproximadamente 2%, si la calica-tiene por NRS. Desde 20 tems, la probabilidad

se vuelve despreciable (< 0.1%) y con 50 tems EOM a ciegas es prcticamente imposible. Con la

correccin, obviamente, se llega an ms rpidoa de 0.el sustentante puede descartar un distractor

em, el patrn de probabilidades es similar: ense evidencia que, para los exmenes comunese 50 tems o ms), la probabilidad de aprobariable. En cambio, los sustentantes que puedendos opciones incorrectas en cada tem y adivi-s entre las dos restantes, tienen, en un examens, una probabilidad de 10% de aprobar. Es impor-tar dos implicaciones de este resultado: a) existeilidad signicativa (aunque baja) de que un estu-uebe un EOM sin poder identicar la respuestan ningn tem, an si contiene un nmero habi-os, y b) exmenes donde los tems tienen slo dosomo verdadero-falso) son susceptibles a ser apro-inando a ciegas. Las implicaciones anteriores se

reducedientemuy pcin dde tela probde te0. En 87% (splo evtransccorresdades de solocin. Eno pertenga la prob

Discu

Tras elcular llos dosucedeque ejvada, Sin emlada, resoluconsecms opcondicde un TW tietpicamcaso de NRS; aplicando la correccin por adivinarilidades se reducen a valores despreciables. As,ca la utilidad de la frmula de correccin paraaquellos que desconocen la respuesta correctauntos.cas correspondientes al Escenario 4, que corres-

estudiante de bajo nivel que no debera pasar, muestran que la probabilidad de aprobar, sinde correccin, no es inferior a 30%, incluso conSi se aplica la penalizacin, la probabilidad se

variantes minuencia evarianza irlas inferen

Las prodesencadeautores haciencias dede pregraddirectricesx = 1 x = 2 x = 3

0% 0% 0%100% 0% 0%0% 100% 0%40% 20% 30%30% 20% 45%10% 19% 70%

proximadamente 2%. En las grcas correspon-estudiante de nivel medio, se observa un efectonciado de la frmula de correccin: la evolu-probabilidad de aprobar en funcin del nmerost totalmente supeditada a sta. Con el NRS,idad de aprobar tiende a 1 conforme el nmeroumenta, mientras que con la frmula tiende axamen de 60 tems, las probabilidades son derreccin) versus 32% (con correccin). El ejem-ia que la decisin sobre la regla para calicar esntal. Bajo las condiciones del ltimo escenario,iente al sustentante de alto nivel, las probabili-robar el examen exceden 95% an con un examen

ems, mientras no se aplique la frmula de correc-escenario muestra que la frmula generalmentea al estudiante de alto nivel, siempre que con-mero suciente de tems (a partir de 17 tems,idad de aprobar el examen excede 90%).

y conclusiones

lisis terico en la seccin anterior, es preciso vin-sultados con los abordajes de la adivinacin segnrcos psicomtricos. El Escenario 1, donde sloadivinacin a ciegas, ejemplica la gran cargara el efecto de SA sobre la puntuacin obser-e el resultado dependera directamente de ste.o, la adivinacin a ciegas es una prctica ais-difcilmente se sistematiza como estrategia de

especialmente en exmenes de medianas o altasias. En los dems escenarios, al descartar una oes, se introducen los efectos de TW y EG. Bajo lae unidimensionalidad de la TRI, la identicacinactor slo podra deberse a EG; si el efecto dena inuencia signicativa, las pruebas de ajustee llevan a un rechazo del modelo y se requieren

ultidimensionales. Desde la TCT, mientras msjerce la accin de la TA y TW sobre V, mayor es la

relevante al constructo, y menos vlidas resultancias realizadas sobre la puntuacin observada.pias caractersticas de los tems son las quenan ms o menos efecto de EG y TW. Variosn identicado que la mayora de los EOM en

la salud ---especialmente en educacin mdicao y posgrado--- albergan tems que violan las

de construccin7,10,39,40,45. En general, dos


0,350,3

0,250,2

0,15

Sin frmula de correccin Con frmula de correccin

abilid

ad

ario

1

0,350,3

0,250,2

0,15abilid

ad

0

0

Figura 2 correccin,

distractoreun IOM, y asegurar laAdems, etres o cuates no funcdel efecto basan en lpuntajes csi se trata contexto d0,10,05

0,4

0,3

0,2

0,1

0

0 00 20 30 40

Nmero de tems

Prob

Prob

abilid

ad

Esce

nario

2Es

cen 0,1

0,05

0,4

0,3

0,2

0,1

0

Prob

Prob

abilid

ad

50 6010

0 20 30 40 50 60100,60,50,40,30,20,1

0

10,80,60,40,2

0

Prob

abilid

adPr

obab

ilidad

10,80,60,40,2

0

Prob

abilid

ad

10,80,60,40,2

0

Prob

abilid

ad

Esce

nario

6Es

cena

rio 5

Esce

nario

4Es

cena

rio 3

0,60,50,40,30,20,1

0

10,80,60,40,2

0

Prob

abilid

adPr

obab

ilidad

10,80,60,40,2

0

Prob

abilid

ad

10,80,60,40,2

0

Prob

abilid

ad0

0

0

00 20 30 40Nmero de tems

50 6010


50 6010


50 6010


50 6010

Nmero de tems

Probabilidad, bajo el modelo Nedelsky, de aprobar un examen en para cada escenario descrito en la tabla 1.

s constituyen un lmite natural y asequible parase sugiere que slo se incluyan ms si se logra

calidad y pertinencia de los excedentes41---43.xiste suciente evidencia sobre exmenes conro distractores en donde al menos uno de ellosional6,10,11,14,39,44,45, lo cual propicia un aumentode EG y TW y hace debatibles los juicios que seos resultados del examen, principalmente paraercanos al estndar de pase y preocupantementede un examen de altas consecuencias. Desde ele educacin mdica, es evidente la preocupacin

asociada cuando se respuestas que el estreconocer

La frmpara cada convenient3, 4 y 5), dominan cola compete20 30 40Nmero de tems

50 6010

20 30 40 50 6010

Nmero de tems

20 30 40Nmero de tems

50 6010


50 6010


50 6010


50 6010

funcin del nmero de tems, con y sin frmula de

con acertar por adivinacin, especialmenteasume correspondencia entre el porcentaje decorrectas y el porcentaje de preguntas en lasudiante tiene el conocimiento suciente parala respuesta correcta.ula de correccin tradicional, que resta 1/(m1)respuesta incorrecta, resulta sustancialmentee para estudiantes de nivel medio (Escenariosdonde es imperativo discriminar entre los quen suciencia el tema y aquellos que no alcanzanncia mnima. Empero, tambin puede afectar a


estudiantes aversos al riesgo y no solo reducir su puntua-cin, sino mermar su probabilidad de aprobar22. En efecto,adivinar casi siempre es ventajoso, incluso con la frmula decorreccin tradicional, porque es infrecuente que el susten-tante sea incapaz de, al menos, descartar un distractor4,46.Existen docin de la finuencia dcarga de valizacin paComo alterse ha sugerpara desalprecautorioal desempadivinar48.

Los Esceplemente aen todos sdeterminadcacin mdy altas conlos estudiaa su trayecresultan mcin de proanlisis teasigne el ina adivinar, decisin soincertidum

Con basrecomendaren los eleque inuyemenos estcorte no sela calicacpara asegulas pruebacin, sugerdel modelodeterminarres TA, TWpara evalude la TA, atems que de TW y EG

Contribu

AJN conciba cabo los IL concibiestructura para el annal del ar

Presenta

Ninguna.

Responsabilidades ticas

Proteccin de personas y animales. Los autores declaranque para esta investigacin no se han realizado experimen-tos en sere

encirtcu

ho as detes.

cia

a.

icto

tores

eci

o

enc

ning Normionalcrechoubr

ns: a ts LR

guesmina9;34ng Sxpec. 200adynice ias Edefoww RHd Mere J, roduckes elmanchol ningc. 20ausckes mion by0;10ado-Nmer

Distra de mativs circunstancias propiciadas por la implementa-rmula que contradicen su objetivo: a) la fuertee sta hacia el efecto la TA (ms la consecuenterianza irrelevante al constructo)22,24, y b) su uti-ra paliar la validez perdida en el contenido15.nativas a la frmula de correccin tradicional,ido aumentar la penalizacin por tem incorrectoentar a los sustentantes que ignoran el discurso47, o modicar el estndar de pase en funcin

eno de los sustentantes y a la probabilidad de

narios 4, 5 y 6 parecen ms plausibles que sim-sumir que los tems son uniformes (es decir, queucede lo mismo: adivinar a ciegas, o descartaro nmero de distractores). En el mbito de edu-ica, especialmente para exmenes de medianassecuencias, es totalmente verosmil asumir quentes poseen un cierto nivel de y de TW debidotoria acadmica y experiencia con EOM, por esos apropiados los supuestos en los que la asigna-babilidad vara. Es importante enfatizar que en elrico se supone que, sin importar la valoracin quedividuo a cada opcin o su concepcin respectosiempre da respuesta a los tems. En realidad, labre responder los tems introduce otra fuente debre que no se investig en este anlisis.e en los resultados de este trabajo, es posiblerle a los tomadores de decisiones que conside-mentos ajenos al rasgo que se pretende medirn en el puntaje obtenido en el examen, o aln conscientes de ellos, de modo que el punto dea arbitrariamente localizado en un porcentaje dein mxima, y/o que se establezcan estndaresrar la calidad de los reactivos que constituyens. Finalmente, como futura lnea de investiga-imos explorar experimentalmente la pertinencia

terico propuesto con la intencin principal de el efecto de la regla de calicar sobre los facto-

y EG. En especco, podra denirse un mtodoar cmo la regla para calicar modica el efecto

travs de la percepcin del riesgo, utilizandodieran en el grado que permiten la ocurrencia.

cin de cada autor

i mltiples ideas, desarroll el trabajo y llevanlisis tericos basados en el modelo Nedelsky.

las ideas principales del artculo, determin lade las ideas, y desarroll el programa informticolisis terico. Ambos autores aprobaron la versintculo.

ciones previas

Condeste a

Derecautorepacien

Finan

Ningun

Con

Los au

Agrad

Ningun

Refer

1. DowEn:natDor

2. McCtio

3. Betforexa200

4. ChauneSoc

5. HalchoMe

6. JozGleAca

7. Waintsta

8. MilPsy

9. DowEdu

10. Rogstanit201

11. JurSomM. tessums humanos ni en animales.

alidad de los datos. Los autores declaran que enlo no aparecen datos de pacientes.

la privacidad y consentimiento informado. Losclaran que en este artculo no aparecen datos de

cin

s de inters

declaran no tener conictos de inters.

mientos

ias

SM. Assessment of knowledge with written test forms.an GR, Van der Vleuten C, Newble DI, editores. Inter-

handbook of research in medical education Volume II.t: Kluwer Academic Publishers; 2002. p. 647---72.ie P. Improving the fairness of multiple-choice ques-literature review. Med Teach. 2004;26(8):709---12., Elder TJ, Hartley J, Trueman M. Does correctionsing reduce students performance on multiple-choicetions? Yes? No? Sometimes? Assess Eval High Educ.(1):1---15.H, Lin PC, Lin ZC. Measures of partial knowledge andted responses in multiple-choice tests. J Educ Techno7;10(4):95---109.a TM, Downing SM, Rodriguez MC. A review of multipletem-writing guidelines for classroom assessment. Appluc. 2002;15(3):309---34.icz RF, Koeppen BM, Case S, Galbrath R, Swanson D,. The quality of in-house medical school examinations.d. 2002;77(2):156---61.Torstein V. Quality assurance of item-writing: during thetion of multiple choice questions in medicine for highxaminations. Med Teach. 2009;31(3):238---43.

J, Bishop C, Ebel R. An analysis of test-wiseness. EducMeas. 1965;25:707---26.

SM. Guessing on selected-response examinations. Med03;37(8):670---1.h A, Hofer R, Krebs R. Rarely selected distractors in highedical multiple- choice examinations and their recog-

item authors: a simulation and survey. BMC Med Educ.:85.nez A, Flores-Hernndez F, Delgado-Maldonado L,

-Cervantes H, Martnez-Gonzlez A, Snchez-Mendiolactores en preguntas de opcin mltiple para estudian-edicina: cul es su comportamiento en un examen

o de altas consecuencias? Inv Ed Med. 2013;2(8):202---10.


12. Chiu, TW. Correction for guessing in the framework of the3PL item response theory. Disertacin doctoral, 2011 [con-sultado 2 Dic 2014]. Disponible en: https://rucore.libraries.rutgers.edu/rutgers-lib/27294/pdf/1

13. Leenen I. Virtudes y limitaciones de la teora de respuesta altem para la evaluacin educativa en las ciencias mdicas. InvEd Med. 2014;3(9):40---55.

14. Downing SM. Construct-irrelevant variance and awed testquestions: do multiple choice item-writing principles make anydifference? Acad Med. 2002;77(10):S103---4.

15. Messick S. Validity of psychological assessment: Validation ofinferences from persons responses and performances as scien-tic inquiry into score meaning. Am Psychol. 1995;50(9):741---9.

16. Downing SM, Reliability:. on the reproducibility of assessmentdata. Med Educ. 2004;38(9):1006---12.

17. Gempp R. El error estndar de medida y la puntuacin ver-dadera prctica

18. Downingassessm

19. Muniz J.port. 20

20. Burton misappr

21. Suh Y, Bponse d

22. Lesage choice of numb2013;39

23. Burton Rsures anHigh Edu

24. Bar-Hilletiple ch2005;4:3

25. Ziller R.tests. Ps

26. Prez-Gsupuestolos Itemles de (Tema 1sidad dhttp://i

27. Muniz JRespues

28. HambletItem Rement. E

29. Erguvensical te2014;2(2index.ph

30. Rasch Gment teoriginal

31. Birnbaum A. Some latent trait models and their use in inferringan examinees ability. En: Lord FM, Novick MN, editores.Statistical theories of mental test scores. Reading, MA: Addison-Wesley; 1968. p. 396---479.

32. Cao J, Stokes L, Bayesian IRT. guessing models for partial gues-sing behaviors. Psychometrika. 2008;73(2):209---30.

33. San Martn E, Del Pino G, De Boeck P. IRT Models for Ability-BasedGuessing. Appl Psychol Meas. 2006;30(3):183---203.

34. Thissen D, Steinberg L. A response model for multiple choiceitems. Psychometrika. 1984;49(4):501---19.

35. Levine M, Drasgow F. The relation between incorrectoption choice and estimated ability. Educ Psychol Meas.1983;43:675---85.

36. Bock D. Estimating item parameters and latent ability whenresponses are scored in two or more nominal categories. Psy-chometrika. 1972;37(1):29---51.

ejima F. A new family of models for the multiple-choice. Kn

logy;hgerdel f, Sijtslysis rencning

les ons onlth Srant

wrkes n---63.ek Gions 4;54(d FJ

alte1;13(rigues: A

ct. 20ek GJ

look.rant M

nonescripCannions del. Pinosa

in ---25.hy Fects o

of bc Evade los tests psicolgicos: algunas recomendacioness. Ter Psicol. 2006;24(2):117---30.

SM. Validity: on the meaningful interpretation ofent data. Med Educ. 2003;37(9):830---7.

La validez desde una ptica psicomtrica. Acta Com-05;13(1):9---20.R:. Multiple-choice and true/false tests: myths andehensions. Assess Eval High Educ. 2005;30(1):65---72.olt D. Nested logit models for multiple-choice item res-ata. Psychometrika. 2010;75(3):454---73.E, Valcke M, Sabbe E. Scoring methods for multiple-assessment in higher education ---Is it still a matterer right scoring or negative marking? Stud Educ Eval.(3):188---93.. Multiple choice and true/false tests: reliability mea-d some implications of negative marking. Assess Evalc. 2004;29(5):585---95.l M, Budescu D, Attali Y. Scoring and keying mul-oice tests: a case study in irrationality. Mind Soc.---12.

A measure of the gambling response-set in objectiveychometrika. 1957;22(3):289---92.il, JA. Modelos de Medicin: Desarrollos actuales,s, ventajas e inconvenientes: Teora de Respuesta as (TRI). Apuntes de la asignatura: Desarrollos actua-la medicin: Aplicaciones en evaluacin psicolgica). Departamento de Psicologa Experimental. Univer-e Sevilla. [consultado 2 Dic 2014]. Disponible en:nnoevalua.us.es/les/irt.pdf. Las teoras de los tests: Teora Clsica y Teora deta a los tems. Papeles Psicol. 2010;31(1):57---66.on R, Jones R. Comparison of Classical Test Theory andsponse Theory and Their Applications to Test Develop-duc Meas. 1993;12(3):38---47.

M. Two approaches to psychometric process: Clas-st theory and item response theory. IBSU J Educ.):23---30. Disponible en: http://journal.ibsu.edu.ge/p/sje/article/view/537

. Probabilistic models for some intelligence and attain-sts. Chicago: University of Chicago Press; 1980 (Trabajopublicado en 1960).

37. Samitemcho

38. BecmoMAanaLaw

39. DowcipitemHea

40. Taritemsta354

41. Cizopt199

42. Ababer200

43. RoditemPra

44. Cizser

45. Taranda d

46. Macoptmo

47. Espsing415

48. DocefftionEduoxville: University of Tennessee, Department of Psy- 1979.

T, Verstralen H, Maris G, Verhelst N. The Nedelskyor multiple choice items. En: van der Ark LA, Croonma K, editores. New developments in categorical datafor the social and behavioral sciences. Mahwah, NJ:e Erlbaum Associates; 2005. p. 187---206.

SM. The effects of violating standard item writing prin- tests and students: The consequences of using awed

achievement examinations in medical education. Advci Educ. 2005;10(2):133---43.M, Knierim A, Hayes S, Ware J. The frequency ofiting aws in multiple-choice questions used in highursing assessments. Nurse Educ Pract. 2006;6(6):

J, ODay DM. Further investigation of nonfunctioningin multiple-choice test items. Educ Psychol Meas.4):861---87., Olea J, Ponsoda V. Analysis of the optimum num-rnatives from the Item Response Theory. Psicothema.1):152---8.z MC. Three options are optimal for multiple-choice

meta-analysis of 80 years of research. Educ Meas Issues05;24(2):3---13., Robinson L, ODay DM. Nonfunctioning options: A clo-

Educ Psychol Meas. 1998;58(4):605---11., Ware J, Mohammed AM. An assessment of functioning

- functioning distractors in multiple-choice questions:tive analysis. BMC Med Educ. 2009;9:40.

R. Reliability as a function of the number of itemderived from the knowledge of random guessingsychometrika. 2004;69(1):147---57.

MP, Gardeazabal J. Optimal correction for gues-multiple-choice tests. J Math Psychol. 2010;54(5):

, Kyndt E, Baeten M, Pottier S, Veestraeten M. Thef different standard setting methods and the composi-orderline groups: A study within a law curriculum. Studl. 2009;35(4):174---82.

Reflexiones sobre adivinar en preguntas de opcin mltiple y cmo afecta el resultado del examenIntroduccinDos marcos psicomtricos y cmo tratan al problema de la adivinacinConceptos generales de la Teora Clsica de los TestsAdivinar en la Teora Clsica de los TestsSuerte al adivinar, testwiseness, educated guessing y la tendencia a adivinarLa regla para calificar

La Teora de Respuesta al temAdivinar en la Teora de Respuesta al temEl modelo logstico de tres parmetrosUn modelo Teora de Respuesta al tem en el cual la adivinacin depende de la personaEl modelo de respuesta nominal y sus generalizacionesEl modelo NedelskyNota final sobre los modelos Teora de Respuesta al tem para tem de opcin mltiple

La probabilidad de aprobar un exmenes de opcin mltipleDiscusin y conclusionesContribucin de cada autorPresentaciones previasResponsabilidades ticasProteccin de personas y animalesConfidencialidad de los datosDerecho a la privacidad y consentimiento informado

FinanciacinConflictos de intersAgradecimientos

Referencias

Adivinar en Examenes

Documents

Transcript of Adivinar en Examenes