COMO ESTUDIAR UN ESTUDIO Y PROBAR UNA PRUEBA - La selección de una prueba estadística 1

download COMO ESTUDIAR UN ESTUDIO Y PROBAR UNA PRUEBA - La selección de una prueba estadística 1

of 34

Transcript of COMO ESTUDIAR UN ESTUDIO Y PROBAR UNA PRUEBA - La selección de una prueba estadística 1

~

Seccin

4

.

CAPTULO 26

p

RINOP[OS

BSICOS

La estadstica aplicada a la investigacin mdica persigue tres finalidades: 1) sintetizar numerosas mediciones en un nmero limitado de datos manejables, 2) realizar estimaciones e inferencias a partir de las muestras extradas de pobladones, teniendo en cuenta la irluenda de] azar, y 3) ajustar los datos segn la influencia de las variables de confusin en esasestimaciones e inferencias. Nul?Stroobjetivo en l seleccin UllO de prueba estadstim arrojar algo de luz sobre la forma en que la estadstica es puede ayudar a conseguir estos fines. No suponemos que la infom\acin brindada en estas pocas pginas pueda reemplazar la participacin de un estadstico en las fasesde planificacin, ejecucin e interpretacin de la mayor parte de los proyectos de in\'estigacin mdica; pero s esperamos proporcionar las herramientas necesarias para que los lectores de la literatura de investigacin sepan valorar la seccin de los "mtodos estadsticos" de tal forma que el Jnlisis, la interpretacin y la extrapolacin delos resultados de la investigacin se puedan comprender totalmente. Parautilizar la estadsticaen la investigacin mdica, en primer lugar es preciso escoger un mtodo estadstico apropiado. En segundo lugar, las mediciones de la investigacin deben ser manipuladas de acuerdo con el mtodo seleccionado. Por ltimo, los resultados de estas manipulaciones han de interpretarse correctamente. La primera y la ltima de estas tareasestn ntimamente relacionadascon el tema de la ~ccin .J,La Sl.'lecci1l tllla prllCmt'Stalistica. embargo, no trataremos de discutir a (ic Sin fondo las manipul,lcionl'S de los datos que son neceSclrias para producir los resultados est.1dsticos.Sin lug.1ra dud.1s, el estudio de estas mJnipulaciones requiere una comprensin ms profunda de los mtodos estadsticos, pero, en nuestra opinin, no es preciso tener ese nivel de cunocimientos par.1poder evaluar por que se selecciona un mtodo determinado y cmo podemos interpretar los resultados de su aplicacin. Empezaremos echando un vistazo a la fonna de enfocar las primeras dos finalidades de la estadstica. La tercera, ajustar los datos segn el efecto de las variables de confusin, se realizar mediante el anlisis multivariable, que se presentar en el captulo 29. SNTESIS DE LAS MEDIDAS

Como se ha afirmado anteriormente, una de las finalidades de los mtodos estadsticos consiste en resumir grandes cantidades de datos en un nmero reducido y manejable de ellos. Para cumplir con esta tarea debemos ,jamos cuenta, en primer lugar, de que las mediciones realizadas en los sujetos de una investigacin son una parte o una 1IIueslra un grupo ms numeroso de individuos que podran haber de sido incluidos en la misma. Este grupo ms numeroso se denomina ,voblacin.1

"J) '""

'..J :;. - VI " ~ O Z ~

I En ml-dicind,

hdbitu"lml.ntl.

p'-.n~mos

I!n ml-dicionl!';

rl!aliZ.lua,; I!n pl'rsonas,

I!n lu~ar de animall!';

u obil'!~

Esto pu..UI!Crl'dr I" f"l,;. imprl!silinuequl! 1!1 t~rmino I!';tddstico ,\I/4",.ij"I!';1!1 mismoque se utiliza pdr" dl.S..-nNr di,;tinto,; COn,unll"' JI! ~1l.r"""",; I!n ~",Itio:a u I!n ;l't';rafa. I\unllue un" pobl"o:i"n e,;t"uishca P'-"jri" ",r uno JI! ~s ;rup"'; dl! pl""""d';. "'} ,;c. limit" " elk,,; Und 1~'I.II..,lj" t'Sllld,;li..1l se uefinl! como 1!1conjunt,} J.. t0\!"" .l" ml-diC1on..s posibll'S (no nl't:e,;.riaml!nte rl"'lizauas en pl'rsonas) ue la,; cuales ,;e selecciona una mu"stra

173

~ I .-~' :t:

RGURA26-1. Una distribuclOn poblacional hipot~tica de las mediciones de la concentraciOnde billrrubina srica

FIGURA 26-2. Unadistribucing;Jusiana hipottica la concentracin bilimlbina "" de de srica conunamediade 0,9 mg/CII una y :~ desviacin eslndar 0,3 mg/dl las de Ifneasdiscontinuas indicanlos valores igualesa la media ;t: la desviacin estlMjar

~ ~ a .:

o.~

0.60

O.~

120

1~

~

o

o.~

o.ro

o!X)

120

1.50

90

8lllrut)na serca (mgi nlO" de llIs dat", (~,) r..'spt.'Cto dl'l.1 m..-dI.J ( ..) .11 cu.1dradll. [\,r III tal1tll. I.. de"viacil1 l.'St.}l1dar pobl ,lIn.lll:S

17-l

v

~N

Para demostrar lo que queremos decir con la posicin de una distribucin, supongamos que la media de la concentracin srica de b,ilirrubina en la poblacin es de 1,2 mVdl, en lugar de 0,9 mrJdl. La distribucin gausiana de la concentracin srica de la bilirrubina sera entonces como la que aparece en la figura 26-3. Observe que la forma general de la distribuci(,n de la figura 26-3 no se modifica al cambiar la media, pero la posicin de su centro de I~avedad se mueve 0,3 mrJdl hacia la derecha. No obstante, si hubisemos cambiado la dispersin de la distribucin de la figura 26-2, su forma se habra modificado sin cambiar su posicin. Por ejemplo, compare la distribucin de la figura 26-2 con la de la figura 26-4, en la cual se ha cambiado la distribucin estndar de 0,3 mg/dl a 0,4 mrJdl.

ESTIMAON

E INFERENOA

En muy pocas ocasiones podemos realizar todas las mediciones posibles en una poblacin. No obstante, podemos calcular valores numricos para esti,nar el valor de los parmetros de la poblacin mediante el empleo de las mediciones observadas en una muestra extrada de esa poblacin. Estas estimaciones muestrales de los parmetros poblacionales son el fin que persiguen los mtodos estadsticos. De hecho, jesasestimadones se denominan estadsticos! estadstico individual utilizado Un para estimar el valor de un parmetro pobladonal determinado se conoce como c.'Stillracinprmtual. Estas estimadones puntuales son los estadsticos que usamos para resumir grandes cantidades de mediciones en unas pocas manejables. Hasta el momento, solo hemos considerado la primera finalidad de los mtodos estadsticos: sintetizar las observadones. No obstante, es un paso importante para valorar la influencia del aL1r en esas observaciones. Como hemos afirmado anteriormente, una muestra es un subgrupo de todas las posibles mediciones de una poblacin. En tOlfos mtodos estadsticos se supone que la muestra es un sublos grupo alc.'atorio la poblacin de la que se ha extrado. Aunque los ;ubgrupos aleatode

FIGURA26-3. Una distribucin gausiana hipotatica de la concentracin de bilirrubina sarica con una media de 1,2 mg'dly una desviacin estndar de 0,3 mg/dl. la comparacin de esta distribucin con la de la figura 26-2 ilustra lo Quese pretende decir con posiciones diferentes de las distribuciones poblacionales

FIGURA26-4. Una distnbuciOn gauslana hipottica de la concentracin de bilirrubina srica con una media dl~0,9 mgdl. La comparacin de esta di~;tribuciOn la de con la figura 25-2 ejemplifica lo que se pretende decir con dispersiones cliferentes de las distribuciones poblacionales

~ ~ ~ .:

i &! ~

"" Q u ~ ~ '= "" ~ u "Z; ~

.30

060

O.!X!

120

150

so

o

O.:X>

0.60

090

120 sra

1.~ (mg/d)

80

~lIrubna sIx:a (mgl dI}

~Irut)na

175

,rioS se pueden obtener por distintoS mtodos, en La selecci6nde Ulla prueOO estadstiCllsolo consideraremos el ms simple de todos ellos (y el ms habitual), denominado muestra ~, a~toria simple, En una muestra aleatoria simple, todas las mediciones de la poblacin7;;* tienen la misma probabilidad de ser incluidas en la muestra.5 Por consiguiente, el azar dicta cules de esas mediciones se incluyen realmente en la muestra. Cuando se estiman loS parmetros poblacionales utilizando estadisticos muestrales, la seleccin aleatoria de las mediciones realmente incluidas en la muestra determina cunto se aproxima el estadstico muestral al valor real del parmetro poblacional, Lamentablemente, nunca sabemos cun correctamente un estadstico refleja el valor del parmetro poblacional correspondiente, porque tendramos que efectuar mediciones en todos los integrantes de la poblacin para conocer los parmetros poblacionales reales, No obstante, lo que podemos saber es cunto se espera que vare el estadstico en relacin con el valor hipottico del parmetro poblacional sobre la base de la varabilidad del azar entre las muestras aleatorias. Este conocimiento constituye la base de la inftorenciaL'Stadsticao de las pruebas de significacin L'Stadstial, El marco de la inferencia estadstica ha sido descrito en la Seccin 1. En ese apartado se seal que las pruebas de significacin estadstica se realizan suponiendo que la hiptesis nula es cierta. La hiptesis nula nos proporciona el \'alor hipottico con el que podemos comparar nuestras estimaciones. Como se ha comentado en la Seccin 1, el "objeti\'0" en las pruebas de significacin estadstica es el clculo del \'alor p .b El valor p se calcula a partir de las observaciones de la in\'estigacin con\'irtindolas, en primer lugar, a una distribucin t.'$tndar, Utilizamos una distribucin estndar, porque los valores p se pueden obtener a partir de las tablas estadsticas en cualquier lugar de estas distribuciones, Buena parte de lo que se considera metodologia de la estadistica tiene que ver con la conversin de las observaciones a una distribucin estndar,;En la Seccin I tambin comentamos que una alternativa al uso de las pruebas de significacin estadstica para in\'estigar la influencia del azar en las estima~iones muestra les es el clculo del illtt.'r1.a/Jc ((Jllflan:ll o lat.'StilIlllt.-itn I\)r intt.r:,JJ.' Dentro de un intervalo de confianza, tenemos un nivel de confianza detenTlinado (con frecuencia de 95'70 de que est incluido 1.'1 ) parjmetro poblacional,.. Genl.'ralmente, los intervalos de confianza se calculan modificando mediante el lgebra los clculos realizados en las pruebas de significal.in est.Jdstic.J, Cuando realiz.Jmos una prueba de significacin estadstica o calculamos un intervalo de confianza, podemos usar tcnic.Js milatt.'ralt.'S bilatL'ralcs. Una o prueba de significacin estadstica bilatt.'rlll o estimacin por intervalo se emplea cu.mdo

-

'.

~ ~ :.: $ 3 ~ ;3 ~ ,.. ~ % ~ :(; "'

'J\ '-J ::I ~ ""

~

En un ",nti,jo ~,'n,'r"l. lin" mu,.,tr.1 .I1,..11l)ri.l imr"'..1,,",. ..u.l14l1i,.r in.jividu" ,'n 1.1 f"~I.1,.i,in ti"n" un.l rrob.lb,"d.l,1 ..."ru, dd d,. ",.r In,-Iuld" ,.n 1.1 mu,.,lr.l '\4"i "mlt.lm"' ..."', pr"b.lb,lid.ld", .."n,'Cld", .11.1 ",ndi,ln d" qu" "'Jn i~u.ll", Recu"rd" qu" ,,1vd")r l' ,'S 1.1 pr,1b.Ibiljddd J" obt"n,.r und mu"str.l qu" ...'.1 comt>minlmt> tan distinta J" 1.1 indi,add p')r 1.1 hipt,'Sls nul.l ,t>mt>Id mu,..tr.1 r,'alm"nt" "bt~rud.l SI IJ hip'it,'si~ nuld re"lm~nt~ Jes.:ri~ 1.1 p"blddn. ."' t'5. ,"mt> ~ sup')ne irc.:u~nt,.m~nt". Id pl\1bdblliddd ,'u" ,.1aZdr hdya inlluidt) ~rp I.ls t>~r"'.a,.iones mu~str.ll"s. Esa prt>bdbiliddd ~s igu.ll d I (,'S Jc.:ir. ,."t.lm"s "'~ur",, d~ qu~ ,.I.I.Ir hd Iniluid" ~n nu..stras t>~rvaCIt>n"s). EI"mplt>s de distribuCIt>nes,..t.ndan.'Sson la nt>rm..l. I.. J" I.. t J" Stud,-nt. Id Je jj ..1r:uadraJo y la de Id F. Estas djstnbudon"s se pr~...'nt..r.n ~n r:apitul,)s f")stcrit>r~s. AI~unds \~'t:"s. ,.~t" Int"rvalt> -"' J"n"mjn.l ..Iimit,',; J., r:"nti.lnLo1.. En 1" termjn"It>~a ~stadistlca. It>slimlt~ ,je .:,)niianL.1st>nII)Sv..l"re" num~ric", qu" m.'n:.In I"" lmlt,., J" un int,.rv.,", Je ..,)nii.lnLo1 En 1.1 ",tadi~ti.:a cl."i.:.I. una ..'.tl"""1ti"I"'r j/IhTr"h, "~njfi.:.14u,,. "i "xdmin.lm,)~ un nm,.ro jnfinitt>d~ mu,'StrJ~ d" un mi~m" t.l"",". un p"n:,-nt.ll'. d~termln.ld,) (~,t" ,... ~I 'J5," ) ,Ic 1.."""timddt>n,'S p')r intcrvalt> in.:lulr.n ,,1 parm,.tr,' p')blol.:i,)n.ll. L'nd vi,i,in m.i" m,1d,.rn.l,.ntl\.I.", ,.,td't,.tic", ,.. 4u,. ,..t,) "'luiv.lI,. .1,up')n"r qu" '.XI't" un.. d"t~rmin.ldd pI",ibIliddd (d,,'J~'-;) J,,'1u,.,.1v.,I"rJ,.1 pdr.lm,.tr" pl1bld'.")n..l"st~ incluid",.n,.1 int~r\.II.J E"td ltlmd Int"rpr,.td.:l'in ,." Id 4u" h.,bitu..lm"nt.. tI",,~ int"r.:., f'dra ,.1in\",ti~"dt>r "n m,-di.:in...

el investigador no est seguro en qu lado del valor del parmetro implicado en la hiptesis nula se encuentra realmente el parmetro poblacional. Esta es la situacin habitual, pero en algunas circunstanciasse pueden encontrar en la literatllra mdica pruebas de significacin estadstica o estimaciones por intervalo unilaterales. Una prueba o intervalo de confianza unilateral se aplica cuando el investigador est di~;puestoa suponer que conoce la direccin del efecto estudiado y el anlisis solo se centIa en el examen de la magnitud o de la fuerza de tal efecto. Para ilustrar la distincin entre las tcnicas Unillterales o bilaterales, imaginaremos un ensayo clnico en el que se mide la tensin arterial diastlica en un grupo de individuos antes y despus del tratamiento con un nue".o frmaco antihipertensivo. Antes de examinar los datos resultantes de este estudio, podramos suponer en nuestra hiptesis de estudio que la tensin arterial diastlica clisminuye cuando los pacientes toman el medicamento. En otras palabras, supondramos que es imposible que el medicamento aumente la tensin arteria! diastlica. Con este supuesto, la prueba de significacin estadstica o la estimacin por intervalo puede ser unilateral y la potencia estadstica de nuestro anlisis aumentar. Por otro lado, si nuestr'ahiptesis de estudio es que la tensin arterial diastlica cambiar cuando los pacientes tomen el medicamento, las pruebas de significacin o la estimacin por intervalo delJenser bilaterales. Esto se debe a que consideramos posible,aunque improbable, que el nuevo medicamento antihipertensivo aumente la presin arterial diastlica. .

LA SELECCIN

DE LOS MTODOS

ESTADSTlCOS

Centremos ahora nuestra atencin en la selecd()n de los mtodos estadsticos para analizar los datos de la investigacin mdica. Antes de seleccionar un mtodo, debemos tomar dos decisiones: I) cul es la \.ariable dependiente y cul la independi~nte, y 2) qu tipo de datos constituyen cada una de esasvaliables. En primer lugar, veamos qu queremos decir con variables dependientes e independientes. Una urbll.' una c.Jracteristicaque se mide el:\ un estudio. Por es ejemplo, si medimos la edad, podemos hablar de la edad como una de las variables de nuestro estudio. L1 ma}'or parte de los mtodos estadsticos distingu1~nentre variables ,iept'7ldi,'1lfesilutt'pt.'1IdiI.'1Ifl.'s. se indican las funciones o el propsito de una variable e As en un anlisis determinado. Por lo general, una serie de variables diseadas para investigar una hiptesis de estudio solo incluir una variable dependiente. Esta variable dependiente puede identificarse como la de inters principal o el desenlace principal del estudio. Queremos contrastar hiptesis o hacer estimaciones, o efect11ar ambos procedimientos, acercade la variable dependiente. Por otro lado, en la seriede variablespuede que no haya ninguna variable independiente o que se incluya una o ms. Las variables independientes determinan las carat:tersticas que es necesario tener en-cuenta o las condiciones en que se contrastan las hiptesis o se realizan las estim,ciones. Para ilustrar la distincin entre variables dependientes e independientes, considere un estudio de cohortes en el que se investiga la rela,jn entre el consumo de tabaco y la enfermedad coronaria. Suponga I.lue solo se miden dos variables en cada individuo: consumo de tabaco (frente a no consumo) y enfen:nedad coronaria (frente a no enfermedad). Para analizar estos datos, primero decidin:\os que estamos interesados principalmente en estimar o contrastar una hiptesis sobre el riesgo anual de enfermedad coronaria. Por consiguiente, la enfermedad coronaria es la variable dependiente. Adems, deseamos comparar el riesgo de enfermedad coronaria entre los fumadores y los no fumadores. Por este motivo, el consumo de tab;co la variable es independiente.

."" ~ :, :1) ~

B :: =J ~ ~

177

El nmero de variables independientes detennina el tipo de mtodo estadstico que es apropiado para analizar los datos, Por ejemplo, si nos interesara estimar el riesgo anual de enfermedad coronaria en una comunidad sin tener en cuenta el consumo de tabaco o cualquier otra caracterstica de los individuos, aplicaramos los mtodos estadsticosconocidos como alllisisunituriantes.Estas tcnicasse aplican a una serie de observaciones que contienen una variable dependiente y ninguna independiente. Para examinar el riesgo de enfermedad coronaria en relacin con el hecho de ser fumador, como en el ejemplo anterior, usaramos los mtodos de anlisisbi~lriante.Estos mtodos se aplican a grupos de observaciones con una variable dependiente y una independiente. Por ltimo, si nos interesara el riesgo de enfermedad coronaria en los individuos de diversasedades,sexoy hbito de fumar, aplicaramoslos mtodos de anlisis multimriante (multimriable en ingls). 10 Estos mtodos se utilizan para grupos de observaciones que consisten en una variable dependiente y ms de una independiente, como la edad, el sexo y el hbito tabquico. Los mtodos multivariantes se aplican con frecuencia para cumplir la tercera finalidad de los mtodos estadsticos: ajustar segn la influencia de las variables de confusin, Las investigaciones mdicas suelen incluir diversas series o grupos de variables, Por ejemplo, suponga que hemos realizado un ensayo clnico controlado en el cual los sujetos han recibido el frmaco X o un placebo para facilitar su recuperacin de una enfermedad detenninada. Dado que nos interesa conocer la influencia de la edad y el sexo en la recuperacin (porque la edad y el sexo pueden ser variables de confusin). las incluimos en los registros de datos de la investigacin. Por lo tanto. nuestro estudio contiene cuatro variables; tratamiento (frmaco X o placebehCIente de 1Ia,,~cl6n

rde SUJdent

Ji aadtado

ldi, Slude~

184

En los si~uientes captulos centraremos

nu~stro inters ~n la posi..i6n.

';4 ,~

Si seguimos estps pasos en la figura 27-1, observamos que nos conducen al nombre de un tipo general de pruebas estadsticas. l::Staspruebas suelen ser apropiadas tanto para determinar la significacin estadstica CI)mopara calcular los intervalos de confianza. Inters en la posicin

Como se ha afinnado anterionnente, la medil muestra! es una estimacin de la posicin de la media poblacional. A menudo, la media poblaaonaJ es el parmetro que intentamos estimar. Para calcular el intervalo de confianza de la media de una muestra, la distribucil/de la t de StUde1lt la ms frecuentemente empleada. La es distribucin de la t de student es una distribucin estndar en la cual se transfonnan las medias de variables dependientes continuas para facilitar el anlisis. Esta distribucines pareada a la gausiana, pero requiere de un parmetro adicional conoddo como gradosde libertad.El propsito de los grados de libertad en la distri~tucin de la t de student es reflejar el papel del azar en la estimacin de la desviaan estndar.3 La distribuan de la t de Student nos permite construir los intervalos de confianza a partir de la media observada y de su error estndar. En la Seccin 3 se seal que el error estndar de una media disminuye a medida que aumenta el tamao de la muestra. De forma ms preasa, el error estndar es igual a la desviacin estndar dividida por la raz cuadrada del tamao de la muestra. El error estndar se emplea en la distribucin de la t de student para calcular las estimaaones por intervalo de las medias de las variables continuas. El intervalo de confianza de una media es igual a la estimacin muestra! de la media + el valor de la t de student para el nivel de confianza deseado y multiplicado por el error estndar. Para una estimacin bilateral con un nivel de confianza de 95':'c el valor de la , t de Student es aproximadamente igual a 2 si las muestras contienen 20 casos o ms. Sumando y restando a la estimaan puntual de la media un valor igual al doble del error est.indar, se puede obtener un intervalo de confianza i11".0.\"imatto.deCir, la media poEs blaaonal se encuentra en el intervalo comprendido entre la media muestral :!: dos errores estndares, con un nivel de confianz.l de 95("'r' Por ejemplo, si leemos en un infom1e de investigaan que la media:!: el error estndar de la concentraan de colesterol srico en una muestra es igual a 150 :!: 30 mg/d!, podemos tener un ru.velde confianza de 95':'0de que la media poblaaonal se encuentra dentro del intervalo aproximado comprendido entre 120y 180mg/dl. Como se mencion anteriormente, en el anlisis univarianteexiste una situaan especial en la que se pueden aplicar las pruebas de significacin estadistica. El caso ms frecuente es el de un estudio en el que una variable dependiente continua se mide dos veces en el mismo individuo. Por ejemplo, podriamos medir la tensinarteriaJ antes y dt.'Spus que un pacientereciba un medicamento antihipertensi\'O. de Si lo que realmente nos interesa no son las mediaones antes y despus del tratamiento,

~ ~ ~ :;r; ~ ~

I Al utilizar la di,tnbucin de la I d~ student para realizar estimacjone, pl,r intcr\'alo d~ las m..-dias,se rpconoccel h~cho de qu\'la d~svjacjl;n est.indar 'e t'stima " p..rtir de I" mu\',tr" Es dt't:ir, no se ContXecon pr\'Clsin 1. des\';"""n \'Stnd"r. .~ ionna 'Im'l.1r, ,;e pu..-d\'ne,lim"r l'lros intervalos de coniidnzd ron"der"nJo mltiplos del error estnd"r '\proximdddmente do,; tercios de la, mt-dids muestrdles pl)sibl..'s,;eencuentran dentro ,le un ~m>r estnddr dt'!" mt-dia pl,bl"clOndl. Mj, de 99~ de I", pl"iblt.'. m..-di", muestr,,e, "', encuentr"n dentro d~1int~r\.alo de 1" me,!", f't,bl"ciondl "' Irt.'. ern'rt" t'St,\nd"res Sin emb..r,'t', e' impl'rtdnte rt'C"rd..r 'IUt'. ,u.njo "plicdmos estds int"rrret"'iunt'S d k" int"rvdl", d" "miidnZd u " 'u, "pro.imac;on",. "'tdmo",up'm,end., 'luC Id p'>bldt;nde tt>dd" I", medids posIble,; tiene una distribuci,m ;aU';idnd.

'II ~ ~

185

". sino la diferencia entre las mediciones, nos enconh'amos frente a un un diseo~r-Este es ~~ problema un;ivariante, d~do q.uela vari~ble depen~iente es la.dif~rel1ciaen~,,~ las medicones y no eXISteuna vanable mdependiente. MedIante un dISeno a]:>aread~ hemos tratado de eliminar la influencia de la variacin entre los sujetos en la [:tedicin inicial o debase.De la misma manera que se emplea en otros anlisis univariantes , la distribucin t de student se emplea para contrastar hiptesis o para realizar estiIrladones por intervalo para los datos continuos a partir de un diseo apareado. AUnque las pruebas estadsticas utilizadas para analizar los datos de un diseo apareado no SOn distintas de otras pruebas univariantes, en los textos introductorios de estadstica frecuentemente se tratan por separado. En estos casos, la prueba utilizada para examinar la diferencia entre las medias de los datos de un diseo apareado se denomina ,vruebz de la t de StudentfXlradatosafXlreados. Ms que la media de la muestra :t el error estndar, con frecuenda vemos los datos univariantes presentados como la media de la muestra:!: la desviacin estndar. La media mestral :t el error estndar informa del nivel de confianza que podemos tener en nuestra estimacin de la media pobladonal. El error estndar es un indicador de la dispersi6nde las medias ml/t'Stralt'S podran obtenerse extrayendo que una muestra de la poblacin. Sin embargo, la media de la muestra :t la desviacin estndar plantea una cuestin distinta. La desviacin estndar de los datos de la :nuestra estima la dispersi6nde las mediciO1It'S la poblacin. Aproximadamente, el 95~7c los en de ..'aloresde una poblacin se encuentran dentro del intervalo de la media poblacional :t dos desviaciones estndares." Por lo tanto, cuando aplicamos una prueba estadstica univariante a una variable dependiente continua, podemos estar interesados tanto en la estimacin de la posicin de la media poblacional y, por ese motivo, en su {'rror estndar, como en la descripcin de la dispersin de los valores y, pr consiguiente, en la desviacin estndar. Para ilustrar cmo se escogeentre la presentacin de la media :t la desviacin estndar y la media = el error estndar, imaginemos un estudio en el que se describe una serie de casos de una enfermedad determinada. Supongamos que una de las variables medidas en esos pacientes es la conce-lltrdl'lndel colesterol srico. Si el objetivo del estudio es estimar los valores de la concentracin del colesterol srico que se podran observar en los padentes i,lltividualescon esaenfermedad, se debe presentar la desviacin estndar, dado que estamos interesados en la dispersin de los di.ltos poblacionales. Si, por otro lado, el propsito del estudio es estimar la media de la concentracin del colesterol srico de un gnlpo de pacientes con la enfermedad, se debe presentar el error estndar (o la estimacin por intervalo), pues estamos interesados en la dispersin de las medias muestrales obtenidas al azar de la poblacin. Es importi1nte entender la diferencia entre los supuestos que realizamos cuando int('rpretdmos lil medid = el error estnddr y la media = la desviacin estndar. Cuando utilizamos el error estndar,suponemos que las medias de las muestras obtenidas al azar de la pobladn siguen una distribudn gilusiana. En el ca5() de la media = la desviacin estndar, su~)nemos que los datos pobklcionalespor s n1Smos

~ :::

~ ~ Q ~ ~ :... o c :3 I"' "" ~ :3 ~ ~

~ ~ ~ ~

'"" '.J :) ~ '"'

1~6

Otr" di,;eo ..p..r"..do ,;eria ,,1")rr,.,p')ndi"nt,, .1Ul\.. v..n..bl...dcp"ndi"nt" l.')ntn".I m,.,jda ~n d"" indviduos apar~..dosqu" 5e..nslmlart!s ,.n I.., ,..r.1t:t"ristk.1S ,,)mp..rtdas llu~ "' (Onsid,.r.. p"slblt! qu~ ,"tluy..n ~" la mag. ntud d~ la variabl~ dep"ndl~ntl! AsImismo. apro\m.ld..menl" dos t"n:i"" d" I"s dal,)s p,)bl.1(i,.n.lJl'S "ncu~nlr.ln dentrt) d~1inlerv.llo il)rrn.ldl) ,;e p')r I.. m..-dia "' un.. ,1~Sl.'..cln~,tjnd..r v mjs d~ '/lJ'1.d...ntr" d~1inl~rval,) d...I.. m...,j,a "' trl!S d~S':I.1(I"n~, t!stjndar~s r.lr.. ..pli'..r ,.st..s Int"rrn.t.l'..';I\~' dt!bt.m"s sup')n~r 'lu~ los dal,)s p',l-I.I,,)n..I,.,. ,i;Ul.n UI1..di,tri. "u"n ;..usI.ln.l.

FIGURA27-2. Demostracin del teorema central del Ifmlte. Cuando medimos la tensin intraocular en muchos Individuos (A) observamos que la distribucin de las mediciones individuales no es gausiana. A pesar de ello, la distribucin de la media de la presin intraocular tiende a seguir una distribucin gausiana (B-D). Esta tendencia aumenta a la par que el tamano muestral

la ~ ., ~ ~ .:

.0 ~ ;:) !: .J:

Tamaomuesrral :O ="' ~ "' "' ~

o

5

10

15

20

25 PIO

30

35

.:0

.:5

50

-, o 5 lO 15 20 25 PlO 30 35 40 -15 ~

siguen una distribudn gausiana. A menudo este supuesto serdern) p.1tala media:!: el em)r est.ind1r. como \'l'remos, si escogL'mos muL'Stras sufidentemente grandes. Sin embargo. ~I supuesto muchas \\.~es no ~r derto para la media :!: la des\iacin estndar. Si los datos poblacionales siguen una distribudn gausiana, las m~dias de las muestras de esa poblacin tambin seguirn una dislribudn gausiana. Incluso cuando los datos poblacional~sno siguen una distribucin gausiana, las medias de un elevado nmero de muestras obtenidas mediante muestreos aleatorios repetidos de la misma poblacin a la larga seguirn una distribucin gausiana (figura 27-2). La probabilidad de que las medias sigan una distribucin gausiana aumenta a la par que el nmero de observacionesen cada muestra. Este importante fenmt'no se conocecomo el tl'Orl'7'/il cl'1ltraldd /[mite y explica el inters de los estadsticos tanto t~nlas medias como en la distribucin gausiana. Tambin les permite a los investigadores mdicos emplear los mtodos estadsticos que suponen una distribucin gausiana para analizar los valores de las medias obtenidas de poblaciones en las que los datos no siguen una distribucin gausiana. Esto supone una gran ventaja, ya que muchas de las variables de inters ~n medicina provienen de poblaciones en las cuales las distribuciones de los datos no son gausianas.

~ 'z; ~ ~ ~ ~ ~ ~ ~ ~

Inters en la dispersinCon mucho, la media es el parmetro poblacional que se estima con mayor frecuencia en el anlisis univariante de las variables continuas. Sin embargo, este no es el nico prmetro que podemos estimar con ese tipo de datos y no es siempre el que mejor refleja nuestro inters por una serie de observaciones. Quiz nos in-

18/

}~ '.

'

"

1

"

terese la dispersin de las mediciones en la poblacin. En este caso, nuestro iJ1~ ~ centra en la varianza o, de forma equivalente, en su raz cuadrada; la deS'wiaci,n estlt-' dar de la poblacin. ~t Cuando queremos obtener una medida de posidn de la pobla:cin de la cual hemos extrado una serie de observaciones univariantes, geneI'almente estimamos esa posicin con la media de la muestra. El error estndar refleja 1&1 dispersin de las medias de la muestra. Empleamos la distribucin de la t de student para contrastar hiptesis estadsticas o para realizar estimadones por inten.'3lo de :lamedia poblacional. Por otro lado, cuando nos interesa la dispersin de los datos de la poblacin por s mismos, estimamos la desviacin estndar o la varianza de la f'(X)lacin a partir de nuestras observaciones muestrales. Si deseamos contrastar hiptesis esta~ ticas o construir intervalos de confianza de la varianza poblacional, empleam,:>sla dis;tribIICi6ndeji al cuadrado.Sin embargo, el uso de la varianza o de la des"iadn I~tndar puede inducir a error si deseamos comparar la dispersin entre grupos distintos. Examinaremos esta siruacin y una solucin habirual. Una de las propiedades tericas de los datos que siguen una distribucin gausiana es que la desviacin estndar y la media son independientes. Es deLir, para una media determinada, cualquier desviacin estndar es igualmente probable. En la prctica, esto no ocurre con frecuencia. Por ejemplo, considere los pesos corporales desde el nacimiento hasta los Saos de edad (cuadro 27-1). Qu~ claro que la variacin del peso aumenta con la edad, as como el propio peso. Sin embargo, la asociacin entre la media y la desviacin estndar hace difcil comparar medidas de dispersin correspondientes a diferentes pesos medios. Por ejemplo, las \ -ariaciones de un kilogramo entre lactantes representan una variabilidad mucho ma~-orpara su tamao que una variacin de un kilogramo en nios de 5 aos de edad. Una solucin sencilla para este problema consiste en di..idir Ladesviacin estndar por la media con el fin de "ajustar" los datos segn las diferencias entre las medias. Si multiplicamos esta razn por 100, obtenemos lo que St? conoce como el cVt'ficit'llte ttlriacill. En el cuadro 27-2 se presentan los coeficientes de \ -ariacin de Lit' los pesos corporales de nios varones.

~ ::: '.J :J ~

~ :J ~ "= ~ ::) ~ ~ >::) o :J :;; 'IJ :? :J ~ ~ a :J ... ~ 'IJ ::) ~ '9

CUADRO 27-1. Medias y desviaciones eslndares del peso corporal (ninos)Peso (kg)

0.53 1.01

5(FuenI8: 5mlth

2.17~D5. Growt/1 ana its iJisoraBrs. Philadelphla 5aunders; 19" )

CUAORO27-2. Medias y coeficientes de variacin del peso corporal (ninos)Peso (kg)

'5.1:0, 9.9, ",~,

188

(Fuenle: Smith DS. Growth lnd ,ts disorders

Phlladelphla Saunders. 19771

El examen de la$ variaciones absolutas de los pesos, estimadas mediante la desviacin estndar, sugiere que la menor variacin se observa entre los recin nacidos (cuadro 27-1). Sin embargo, esta variacin se da entre nios que, como promedio, pesan menos. La variacin del peso en relacinCO1lla me,(iadel peso en cada grupo, tal como muestran los coeficientes de variacin, sugiere precisamente lo contrario (cuadro 27-2). La variacin del peso al nacer en relacin con el peso total al nacer es mayor que en cualquier otra edad considerada. Por este motivo, el coeficiente de variacin es una medida til para examinar la dispersin relativa de las variables dependientes continuas cuando se cree que la media y la desviacin estndar no son independientes y queremos comparar estimaciones univariantes de dispersin. En los intervalos de confianza y las pruebas de hiptesis estadsticas del coeficiente de variacin se utiliza la distribucin de la t de student. VARIABLE OEPENDIENTE OROINAL

Los mtodos estadsticos univariantes para las variables dependientes ordinales se presentan en la figura 27-3. A diferencia de las variables continuas, con las variables ordinales no suponemos una distribucin concreta de los datos poblacionales, tal como la distribucin gausiana. Los mtodos utilizados para las variables ordinales se denominan por este motivo de ,iistribllcin libre o no paramtricos.Es importante darse cuenta de que estos mtodos no estn libres de supuestos. Por ejemplo, seguimos suponiendo que nuestra muestra es representativa de alguna poblacin de inters.Inters en la posicin

Dado que no suponemos una distribucin detem1inada de los datos medidos en una escala ordinal, no podemos estimar parmetros poblacionales que sinteticen la distribucin. :'.'o obstante, es posible que nos interese describir la posi\.in de los d.ltos ordinales en un.l escala continua. Eso lo podemos hacer mediante la media,la. La mediana es el punto medio de una serie de datos, seleccionada de fom1a tal que la mitad de loS valores sean ms altos y la otra mitad ms bajos que la mediana. AGURA 27-3. Esquemapara seleccionar un mtodo estadlstico univariante para una variable dependiente ordinal (continuacin de la figura 26-5)Vanable ~(e orinaJ

Inters enia poscM)n I I MedIana A~lCud

InroJls en ~ disporsn I I

=j :"2; " ~ ~ z == (.t) :;; ::i "' "2; "

Ampllnld K1lercuan:ca

Prul)adel rango de W;colon o Prul)adel sogno

189

La mediana no tiene una distribucin poblacional terica ('omo medida de su posicin, pero puede utilizarse como una estimacin robusta7 la media de de una distribucin gausiana. La mediana soslayaun supuesto que realizamos cuando calculamos la media: que los intervalos entre las mediciones de una distribucin son uniformes y conocidos, Como la mediana se calcula empleando solamente el ran~;orelati\'O u orden de las mediciones, la estimacin de la mediana seria la misma independientemente de que los intervalos sean conocidos y uniformes o no. Por lo tantc, podemos usar la mediana para estimar la media de una poblacin de datos continuos. Esto se lleva a cabo organizando las observaciones muestralesen orden relativo. De este mock>, los datos continuos se convierten a una escala ordinal mediante la sustitucin d.e los rangos por las observaciones reales. En sentido estricto, la mediana puede emplearse como una estimacin de la media poblacional solo cuando la distribucin de la poblacin es simtrica. Si esto es cierto, la media y la mediana poblacionales tienen el mismo valor (figw'a 274). No obstante, aunque la distribucin poblacional sea simtrica, es posible que la,sobservaciones obtenidas en una muestra de esa poblacin sean, sin lugar a dudas, asimtricas. Un motivo habitual de esaasimetra es la posibilidad de incluirtulores ext'"l'mOS o aislados(outliers)en la muestra. Estos valores extremos se producen en la poblilcin con muy poca frecuencia, En ocasiones, una muestra incluir uno o ms de estcls valores extremos. Cuando esto sucede, las observaciones muestra les sugieren que esos valores extremos han aparecido con una frecuencia mayor de la que realmente tienen en la poblacin. Debido a que la media es el "centro de gravedad" de una distribucin, su valor es influido ms por los valores extremos que por los cercanos al centro

t ,

, ~ ~ ~ ~ ~ :o ::) ~ ;.. ::) 3 ~ j ?;

FIGURA27-4. PosiciOnde la media en una distribuciOn simtrica (A) y en distribuciones asimtricas (B.C). Xindica la posiciOn de la mediana

A

"' ~ "' :J ~ .zI I Media I I

x B~ "' ~ Q) " ~ :

~~

2 4) :) ~

Mec:a

Meala

~ .oJ ~ < ""' '-' '.)

x

1~

I:n Il'rmlnu, ",t-,di,tio:l'... un.ll-'.ti,n.l.:\i)n m'u,.t-1l"' -\'IUl-Il..'iu" n" M-"" ,u,I-,no:ialm"nl" inllulda por d",;VI.ll'onl"' m,'nur"" d" h" 'UrUl'..t"" ,1" la pru"ba

de la distribucin. Por consiguiente, en las muesh"asque incluyen valores extremos, la media muestra! puede ser bastante distinta de la poblacional. La mediana muestra!, por su lado, es resistente aquellos valores extremos. Es decir, los valores extremos tienen el a mismo impacto sobre la mediana que los valores que se encuenh"ancerca del centro de la distribucin muestral. Por lo tanto, paradjicamente, cuando una muesh"a de una distribucin poblacional simtrica incluye valores extremos, la mediana muesh"ales un estimador de la media pobladonal mejor que la media muestral. El uso de la mediana para estimar la media pc.blacionalconstituye, sin embargo, un inconveniente. Dado que la mediana se basa solamente en la clasificacin relativa de las observaciones, contiene menos informacin que la media. siempre que utilizamos menos informacin al aplicar mtodos estldstia>s corremos un riesgo ms elevado de cometer un error de tipo II. En oh"aspalabras, la probabilidad de no poder rechazar una hiptesis nula incorrecta es ms alta, Solo vale la pena correr ese riesgocuando hay razonespara sospecharque la informacin e.xcluida crearlaotros errores ms graves si se incluyera en el anlisis de los datos. Aunque la mediana se emplea como una estimacin robusta y resistente de la media poblacional, es importante recordar que tambin es por derecho propio una medida legtima de la posicin de una distribucin. Por ejemplo, si una distribucin poblacionales asimtrica, podria interesar menos su centro de gra\'edado media que su punto medio o mediana. Si nos interesa contrastar la hiptesis nula de que la mediana es igual a cero en un anlisis univariante, podemos emplear tanto 1.1 prlleOO rangocon del signo de Wilcoxoncomo la pnU?iX1 signo. Habida cuenta de que la mediana no es un dcl parmetro de ninguna distribucin determinada, en general no podemos construir un inter\'alo para ese parmetro. Sin embargo, cuando se emplea la mediana como estima(.in robusta y resistente de la media poblacional, es correcto realizar una estimacin por intervalo de esa media. Para esta estimacin se dispone de m(.todos basadosen la prueba del rango con signo de Wilcoxon yen la prueba del signo."

Inters en la dispersinComo ocurre con la media muestral, el clculo de la des\;acin estndar supone que los intervalos entre los valores son conocidos y uniformes. El clculo de la desviacin estndar est influido en gran medida por los valores extremos. Como alternativa, en los artculos de in\-estigacin frecuentemente se presenta como medida de dispersin el recorrido(ral/ge)(diferencia entre el valor ms alto,! el ms bajo). Aunque el recorrido es til para describir la dispersin de un conjunto de observaciones muestrales, no es una buena estimacin de la dispersin de los datos poblacionales. Esto se de~ ,11 hecho de que los valores de los extremos de la mayor parte de las distribuliones poblacionales raramente se observan en las poblaciones y, por este motivo, tampoco en las muestras. El recorrido se calcula a partir de esos f'xtremos, as que el recorrido calculado en una muestra subestima el recorrido poblacional casi con toda seguridad. Por eso, segn se reduce el tamao muestral, la probabi!i,jad de observar valores extremos tambin decrece. El resultado es que las estimacionE'S muestrales del recorrido varan directamente con el tamao de la muestra.

~ i"Z; ~ ~ ~ ~ ::J 1/1 ;; ~ .: "Z; ~

Dt.1 mi"mo ml,.Jo, St! pl,.Jrd .:dl.:uldr und ""Iilndcin robustd y rt!si"tt!nt" d., lil dt!s'riacin "sl.1ndilr (d.!,;.:ntd mj" dJl.ldnt,,) ~'"mplt!dr Id Ji.'itnbu.:i.:m Je Id t Je Stud"nl pilril construir un intervillo Je confi.lnL.l J" I.JmloJid pl)bld..'ndl.

191

JComo alternativa, se puede utilizar el recorridointerruartilico (inttr.. ,-.j quartile ~ange) par~ des~bir la dispersi~~ de una mu~stra ~e.observaci.ne~, as~CO~~ ~ para estimar la d1Sperslon en la poblaaon. Los cuartiles diVIden una distribuan en~'Y!~ cuatro partes que contienen el mismo nmero de observaciones, de la misma forma que la mediana divide una distribucin en dos partes iguales. El intervalo entre el valor de los da tos que se encuentran un cuartil por debajo de la mediana y un cuartil por ericiIna de la mediana se conoce como recorrido intercuarh1ico. Dentro de ese intervalo o re.. corrido se encuentran la mitad de los datos muestrales. Dado que el recorrido inter~ \.""Uartl1ico depende de los valores extremos de una distribucin, es mucho menos no dependiente del tamao de la muestra que el recorrido. En una distribucin gausiana, dos tercios de los valores poblacionales se encuentran en el intervalo comprendido por la media :t una desviacin estndar. Por lo tanto, en una distribucin gausiana, la media poblacional :t 7.3 recorrido del intercuarh1ico se puede considerar una estimacin robusta y resistente de la media :t una desviacin estndar. Si nos preocupa el supuesto de los intervalos conocidos y uniformes o si la muestra contiene valores extremos de validez cuestionable, podemos estimar la desviacin estndarpoblacional calculando los dos tercios del recorrido intercuartilico en lugar de usar la des,,;acinestndarcalculadaa partir de los datos muestraIes. No se realizan pruebas de significacin estadstica ni clculo de los intervalos de confianza del recorrido o del recorrido intercuartl1ico. Por otro lado, si el recorrido intercuartilico se emplea para estimar la desviacin estndar poblacional, podemos contrastar una hiptesis estadstica o calcular un intervalo de confianza. En ese caso, el mtodo sugerido para la medida de la dispersin podra utilizarse para las "4riables dependientes continuas.

VARIABLE

DEPENDIENTE

NOMINAL

... .,

~ ::: '::, ;.:

:t: ;? -

Como indica el trmino, una IYlriall/edept'1ldiL'1'te II011li,UlI consiste solamente en el nombre de una condicin determinada. Adems, recuerde que hemos limitado los datos nominales a indicadores de que la condicin existe o, por defecto, no existe. Ejemplos de las \'ariables Liependicntes nominales incluyen \'ivo o muerto, curado o no curado y enfermo o sano. La cantidad de informacin contenida en una ""ariable dependiente aislada es bastante limitada, en comparacin con la que contienen las variables dependientes continuas, como la edad, o las ordinales, como el estadio de la enfermedad. Cuando utilizamos variables dependientes nominales solo es necesario referimos a medidas de posicin. Esto puede sorprender, dado que, cuando considerbamos las variables dependientes continuas u ordinales, discutimos la importancia de las estimaciones de 1.1 dispersin y de la posicin: En las variables dependientes continuas, 1.1 dispersin constituye una cuestin importante, porque frecuentemente se supone que siguen una distribucin poblacional gausiana caracterizada, en parte, por la independencia entre la posicin y la dispersin. Esto equivale a decir que, para una distribucin gausiana, el conocimiento de la media no nos dice nada acerca de cul puede ser la varianza de la distribucin. Paraun.1media determinada, son posibles infinitas varianzas. Esto 110 verdad para las distribuciones aplicables a las variables es nominales. Antes bien, esas distribuciones tienen medidas de dispersin que dependen totalmente de 1015 m~-dili.1s posicin (lo cual significa que pueden calcularse a de partir de las medidas de posicin o son iguales a un valor constante). Por eso, una \'eZ que conocemos la medilia lie posicin, sabemos o podemos calcular la medida de dispersin.

El mtodo estadstico univariante espefico que utilizamos para analizar una variable dependiente nominal (figura 27-5) vara segn se trate de una proporcin como la prevalencia o de una tasa como la incidencia. Veamos en primer lugar, los mtodos aplicables a las proporciones.

Inters en las proporciones Para cada medicin u observacin de una variable compuesta por datos nominales, solo determinaremos la presencia o la ausencia de la condicin en estudio. Porejemplo, podemos determinar si un individuo de una muestra tiene o no una enfermedad concreta. En una muestra constituida por ms de una observacin podemos estimar la frl.'Cuerlcia el nmero de vecesque la condicin ocurre en la poblacin. o Por ejemplo, podemos estimar el nmero de personas que tienen una enfermedad en la poblacin. Ms a menudo esa frecuencia nos interesa en relacin con el nmero de observaciones en la muestra. Si dividimos el nmero de vecesque se observa una condicin en una muestra por el nmero de observaciones, estamos calculando la proporcil/ de observaciones en la muestra que tienen esacondicin. Una proporcin calculada a partir de las observaciones muestra les es una estimacin puntual de la proporcin de la poblacin con la condicin. Una forma equivalente de interpretar la proporcin de la muestra es estimar la pr1I~lbitilltlli la presencia de la condicin en la poblacin. Dos I.ie proporciones o probabilidades I.lue se calculan habitualmente en la investigacin mdica son la prevalencia y el riesgo. Estas medidas se comentan en la Seccin 1 y en la Seccin 3. Las probabilidades no siguen una distribucin gausiana. Se supone que siguen una distribucin billIJl11ial una de PoisSIJIl. puede aplicar una diso Se tribucin binomial a toda probabilidad c;lculada a partir de datos nominales que cumplan los siguientes criterios; I) la probabilidad de que cualquier observacin obtenida mediante un muestreo aleatorio pertenezca a una categora determinada. denominada llmdicill lIo111i,UII. la misma para cada observ;cin y 2) las observaciones son indees pendientes entre s. Indl'pl'1'dielltL' quiere decir que el resultado de una observacin no intlu~.e en ~lresulti1do deotril. Una distribucin de Poisson es un caso especial de la distribucin nominal en la cual el suceso nominal observado, como la muerte o la enfermedad, esFIGURA 27-5. Esquemapara seleccionar un mtodo estadfstico univariante para una variable dependiente nominal (continuacin de la figura 26-5) Vani)le ~Mien18 nominalInteres en ~ posK:ln

:.r: 'o?:; "' ~ ~Tasa

P~ I Desenlace colTain I I I I I I Desenlace raro I I

~ ".I". ':2;'"" "Z. "'

IBWIOmIaI Aproximacin normal ala biIoInial PolSSOn Aproximacin normal a la Poisson

Aproxlmacm normal la a Poisson

193

muy infrecuente y el nmero de observaciones es elevado. de Poisson es ms sencillo que el de la binomial. En general, cons titu ye una buena a~ ximacin a la disbibucin binomial cuando el nmero de individuos observado cOnIa~ condicin es 5 o menos y, adems, el nmero de individuos en la muestra es 100o ms. Las pruebas de significacin estadstica y el clculo de los intervalos de confianza de las disbibuciones binomial y de Poisson resultan difciles si deseamos utilizar tcnicas exactas que realmente usen las disbibuciones de Poisson o binomial. Afortunadamente, muchas veces no nos vemos en la necesidad de usar esas tcnicas. Es mucho ms sencillo calcular los intervalos de confianza o realizar las pruebas de significacin estadstica para variables dependientes nominales cuando, en ciertas condiciones, se puede realizar una aproximacin a las distribuciones binomial o de Poisson mediante la distribucin gausiana. podemos utilizar una aproximacin gausiana, casi siempre denominada aprvrimacin 1Iomlal, a las distribuciones binomial o de Poisson cuando el nmero de indi~;duos con la condicin es mayor de 5 y el nmero de observaciones es mayor de 10.9 Inters en las tasas

,

"

;?: ~ ~ "t: "Z; ::J ~ '"0: :t '"' ,.J ~ ;... ',:) 3 ::J j ~ ~ ~ ;"' ;.. ,.., ~

En la terminologa estadstica se reserva el trmino tasapara hacer referencia a una razn que incluya una medida del tiempo en el dt?nominador. en contraposicin con el trmino proporcin, que solo incluye el nmero total de obSt?r\-aciones en el denominador. L.1medida de inters ms h.1bitual en la in\.estigacin mdica que cumple la definicin de tasa es la incidencia. rara ilustrar esta distincin, imagine que hemos obser\.ado 100 personas que, al inicio de nuestro perodo de observacin, no tenan cierta enfennedad. A los tres aos, 30 de las 100haban enfermado. Si estuviramos interesados en conocer la probabilidad de que una persona seleccionada al azar de la poblacin de la que se ha extrado la muestra desarrolle esa enfermed.1d en un perodo de tres aos, caIL-uI.1ramos proporcin trianu.11 el riesgo de padecer la t?nfermedad di\'djendo 30 la o por 100 = 0,30. Sin I!mb.1rgo, si estuviramos interesados en la tasacon la que aparecen nuevos casosde la enfennedad en la muestra de poblacin, calcularamos la incidencia de la enfermedad como 301(100 3) = 0,10por ao. Obser\"e que las probabilidades no x tienen unidades y que las tasas se expresan en unidades de 1itiempo o de sucesos por unidad de tiempo. Dado que las enfermedades por lo comn se producen de forma infrecuente por unidad de tiempo, en el anlisis univariante muchas \.eces ~ supone que las tasas siguen una distribucin de Poisson. Al igual que sucede con lds proporLiones. es posibll.' aplic.1r tL'cnic.1s ex.1ctas las tasas, pero habitualmente las pruebas de a jignific;cin I.'stadsticay la construccin del intervalo de confianZ.1 se basan ~n la aproximacin normal. De este modo, se emplean las mismas tcnicas para las tasas y las probabilidades, excepto cuando se realizan pruebas de significacin estadstica yestimaciones por intervalo, para las cuales se emplea la distribucin de Poisson o su aproximacin normal.

194

En I;J ..proxim;Jcin ",)rm;JI ;J I;J di,tribucl)n dl! I\)is,,)n .) ;J I.. b,n.)mi.)I. s.)I,) ne.:I!"t..m.'., ..,.llm;Jr I;J ;""".lb.1bilid;Jd de ob",rv;r un .UCI!s.'. d..do ,!UI! ,,1 "rror ",t.nd..r ,;e c;JlclIl.. .1 pdrtir .t,. "Sd prob;Jbllld.1d Eslo dlr.