Una Mirada Al Valor de p en Investigación

12
Disponible en: http://www.redalyc.org/articulo.oa?id=80634308 Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Sistema de Información Científica Jacky F. Gil, Javier A. Castañeda Una mirada al valor de p en investigación Revista Colombiana de Psiquiatría, vol. XXXIV, núm. 3, julio-septiembre, 2005, pp. 414-424, Asociación Colombiana de Psiquiatría Colombia ¿Cómo citar? Fascículo completo Más información del artículo Página de la revista Revista Colombiana de Psiquiatría, ISSN (Versión impresa): 0034-7450 [email protected] Asociación Colombiana de Psiquiatría Colombia www.redalyc.org Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

description

METODOLOGIA DE LA INVESTIGACION.

Transcript of Una Mirada Al Valor de p en Investigación

Page 1: Una Mirada Al Valor de p en Investigación

Disponible en: http://www.redalyc.org/articulo.oa?id=80634308

Red de Revistas Científicas de América Latina, el Caribe, España y Portugal

Sistema de Información Científica

Jacky F. Gil, Javier A. Castañeda

Una mirada al valor de p en investigación

Revista Colombiana de Psiquiatría, vol. XXXIV, núm. 3, julio-septiembre, 2005, pp. 414-424,

Asociación Colombiana de Psiquiatría

Colombia

¿Cómo citar? Fascículo completo Más información del artículo Página de la revista

Revista Colombiana de Psiquiatría,

ISSN (Versión impresa): 0034-7450

[email protected]

Asociación Colombiana de Psiquiatría

Colombia

www.redalyc.orgProyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

Page 2: Una Mirada Al Valor de p en Investigación

414 Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Gil J., Castañeda J.

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Metodologíade investigación y lectura crítica de estudios

Una mirada al valor de p en investigación

Jacky F. Gil1

Javier A. Castañeda2

Resumen

La búsqueda de datos dentro de la bibliografía científica ofrece tanto al lector espontáneocomo al investigador diferentes retos al momento de leer, comprender y analizar los resulta-dos de un artículo publicado, principalmente cuando los resultados contienen informaciónsobre procedimientos estadísticos empleados en el análisis, como es el caso del reporte devalores de p. Este artículo ofrece al investigador y al usuario de la bibliografía científicaelementos y conceptos que le permitan, entre otras: identificar y entender los componentesde una prueba de hipótesis, interpretar adecuadamente los valores de p, reconocer las ven-tajas que tiene el uso de intervalos de confianza frente a los valores de p, diferenciar entresignificación estadística y significación clínica en una prueba de hipótesis y reconocer laimportancia del cálculo del tamaño de la muestra, desde la planeación de este tipo de estudios.

Palabras clave: estadística, tamaño de la muestra, intervalos de confianza.

Title: A Look at p-values in Research.

Abstract

Researchers and spontaneous readers both have to face several challenges when they arelooking for evidence in scientific papers, especially when statistical procedures are developedduring the analysis phase, such as the use of hypothesis testing and p-values. This paperoffers concepts and pointers to assist researchers and readers of scientific literature toidentify and understand the components within a statistical test of hypothesis, to appropriatelyinterpret p-values, to recognize the advantages in using confidence intervals rather than p-values, to establish the difference between statistical significance and clinical relevance inthe use of hypothesis testing and to recognize the importance of sample size calculationfrom the beginning of a study.

Key words: Statistic, sample size, confidence intervals.

1 Bioestadístico, profesor instructor, Unidad de Epidemiología Clínica y Bioestadística,Pontificia Universidad Javeriana, Bogotá, Colombia.

2 Estadístico, profesor instructor, Unidad de Epidemiología Clínica y Bioestadística, PontificiaUniversidad Javeriana, Bogotá, Colombia.

Page 3: Una Mirada Al Valor de p en Investigación

415Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

Una mirada al valor de p en investigación○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Un investigador interesado enconocer la prevalencia de depresiónen Colombia realiza una búsquedaen los diversos estudios científicosexistentes. A partir de ahí encuentraalgunas referencias que considerarelevantes y se dispone a extraer losdatos que, cree, son de interés. Unejemplo de estas referencias es, en-tre otros, el trabajo de Gómez-Res-trepo y colaboradores (1), quienesdescriben la prevalencia de depre-sión y los factores asociados con ellaen la población colombiana. Losautores anotan en uno de los apar-tes el siguiente resultado: «La pro-porción de depresión grave fue ma-yor en mujeres que en hombres, enel último mes (29,2% frente a 19,6%,respectivamente; p <0,001)». Delmismo modo, puede hacerse refe-rencia al artículo de Mantilla y cola-boradores (2), quienes describen laprevalencia de sintomatología de-presiva en niños y niñas escolaresde Bucaramanga, y dentro de losresultados comentan lo siguiente:«En relación con el género la fre-cuencia de depresión fue mayor enlas niñas, con un 13,3%, que en losniños, con un 6,4%. Sin embargo,esta diferencia no fue significativa(p = 0,07)».

El investigador, luego de leer losfragmentos de los resultados men-cionados, se plantea las siguientespreguntas: ¿cómo se debe interpre-tar la afirmación expresada en elprimer estudio? ¿Qué significa enel segundo estudio que la diferen-

cia no es significativa? Con los ha-llazgos reportados por Gómez-Res-trepo y colaboradores, ¿es posibledeterminar la magnitud de la dife-rencia en las prevalencias de depre-sión por sexo? ¿Cuál es el efecto deltamaño de la muestra en las conclu-siones derivadas por los estudios?

El investigador considera per-tinente responder a estos interro-gantes antes de generar conclusio-nes y usar esta información en suestudio.

Pruebas de hipótesisy valor de p

El reporte de valores de p den-tro de los resultados de una publi-cación es la prueba del uso de lasmetodologías de inferencia estadís-tica, es decir, a partir de los resul-tados de las muestras selecciona-das en un estudio, se derivan con-clusiones para las poblaciones delas cuales provienen éstas. De ma-nera particular, los valores de p in-dican el uso de pruebas de hipóte-sis en los parámetros de las pobla-ciones de interés, motivo por el cuales necesario abordar inicialmenteeste tema.

Una prueba de hipótesis es unaforma de realizar inferencias induc-tivas (a partir de casos particularesse concluye para casos generales),en la cual inicialmente se planteauna hipótesis de investigación (un

Page 4: Una Mirada Al Valor de p en Investigación

416 Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Gil J., Castañeda J.

enunciado sobre la naturaleza delproblema) y a través de los hallazgosobservados en un experimento sedecide sobre su factibilidad (3).Estadísticamente, el desarrollo deuna prueba de hipótesis requiereplantear dos enunciados excluyen-tes que se refieran al parámetro quese desea evaluar, denominados hi-pótesis nula e hipótesis alterna.

La hipótesis nula recibe su nom-bre por afirmar la inexistencia deasociación o de diferencia; mientrasque la hipótesis alterna correspondea la negación de la hipótesis nula yusualmente expresa lo que el inves-tigador desea concluir: que existediferencia o asociación. El proce-dimiento para desarrollar la pruebade hipótesis puede semejarse al ejer-cicio hecho en una corte por el sis-tema de justicia, donde un acusado(hipótesis nula) es sometido a la eva-luación de un conjunto de pruebas(estadísticas muestrales), con el ob-jetivo de valorar su culpabilidad (ve-racidad de la hipótesis nula). En lacorte, el jurado evalúa las pruebaspresentadas por la fiscalía y la defen-sa desde el supuesto de la inocenciadel acusado, y se pronunciará decla-rando al acusado ‘culpable’ cuandolas pruebas sean incompatibles coneste supuesto de inocencia; en otrocaso, cuando las pruebas no sean losuficientemente contundentes, de-clarará al acusado ‘no culpable’.

La estadística emplea el mismométodo al evaluar una prueba de

hipótesis, pues partiendo del su-puesto de que la hipótesis nula esverdadera, evalúa en términos deprobabilidad la validez del supuesto,a la luz de la información conteni-da en la(s) muestra(s). Si la proba-bilidad de validez del supuesto esmuy pequeña, se concluye que lahipótesis nula es falsa, y se aceptael enunciado establecido por la hi-pótesis alterna; en otro caso, nopuede argumentarse la falsedad dela hipótesis nula y, por lo tanto, nose rechaza (4-6).

Si bien puede concluirse un re-sultado correcto, como rechazaruna hipótesis nula cuando es falsa,o no rechazar una hipótesis nulaaunque es verdadera; también pue-de producirse uno de dos posiblesresultados erróneos: error tipo I (fal-so positivo), que consiste en recha-zar una hipótesis nula a pesar deque es verdadera, conocido comoerror alfa (α); y un error tipo II (falsonegativo), que consiste en no recha-zar una hipótesis nula aun cuandoes falsa, conocido como error beta(β). Sin embargo, cuando la mues-tra es recolectada aleatoriamentepor medio de un método de mues-treo probabilístico, es posible con-trolar a priori y cuantificar a poste-riori la magnitud en probabilidad deestos errores (Tabla 1). De esta for-ma, a pesar de que la conclusiónderivada de la prueba de hipótesisno sea ciento por ciento confiable,sí tiene una probabilidad controladade ser acertada (7).

Page 5: Una Mirada Al Valor de p en Investigación

417Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

Una mirada al valor de p en investigación○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Tabla 1. Decisiones en la prueba de hipótesis

Verdad en la población

Hipótesis Hipótesisnula falsa nula verdadera

Resultado Rechazar Potencia Error tipo Ide la hipótesis 1-β αprueba nulade hipótesis

No rechazar Error tipo II 1-αhipótesis βnula

El resultado de la prueba de hi-pótesis se basa principalmente en elcálculo, en términos de probabilidad,de la fuerza de los hallazgos a favorde la hipótesis nula. Esta probabili-dad recibe el nombre de valor de p,y se define como la probabilidad decometer un falso positivo por efectodel azar, cuando la hipótesis nulaes verdadera. Para ejemplificar lanoción de valor de p suponga el si-guiente experimento: una monedalegal (no cargada) es lanzada al airey se obtiene como resultado una‘cara’. Desde el supuesto inicial, laprobabilidad de que esto suceda es0,5. Ahora, en una repetición delexperimento, la misma moneda eslanzada, de nuevo, al aire y el resul-tado vuelve a ser ‘cara’. La probabi-lidad de que esto suceda es 0,5 x 0,5= 0,25 (aproximadamente en 25 decada 100 veces que se lance al aire

dos veces una moneda legal se ob-serva como resultado dos ‘caras’).

Si se repite de manera sistemá-tica el mismo experimento, lanzandola moneda 3, 4, 5, 6 y 7 veces, y cadavez el resultado del lanzamiento es‘cara’ y se cuantifica la probabilidadde que esto suceda desde el supuestoinicial, se obtienen los resultados dela Tabla 2. Es probable que ningunade las personas que observe el expe-rimento tenga comentarios durantelas tres primeras repeticiones; sinembargo, al aumentar el número de‘caras’ obtenidas de manera conse-cutiva, es muy posible que algunosobservadores duden del supuesto delegalidad de la moneda empleada,puesto que cada vez es menos proba-ble observar un resultado similarcuando se usa una moneda comple-tamente balanceada. El número de

Tabla 2. Cálculo de probabilidades de obtener siempre ‘cara’al lanzar una moneda entre 1 y 7 veces al aire

Número de lanzamientos 1 2 3 4 5 6 7

Número de ‘caras’ 1 2 3 4 5 6 7

Probabilidad 0,5000 0,2500 0,1250 0,0625 0,0313 0,0156 0,0078

Page 6: Una Mirada Al Valor de p en Investigación

418 Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Gil J., Castañeda J.

lanzamientos necesarios para quecada persona ponga en tela de juicioel supuesto de legalidad de la mo-neda es personal y subjetivo; noobstante, al observar siete ‘caras’consecutivas, seguramente nadiecuestionará que la moneda está car-gada, debido a que las posibilidadesde observar tal resultado son de 78en 10.000 (¡realmente baja!).

En investigación, el análisis delos valores de p necesita reglas obje-tivas y acordes con la naturaleza delfenómeno que se está evaluado. Poresta razón, cuando se realiza unaprueba de hipótesis, es preciso defi-nir un umbral por debajo del cual serechace la hipótesis nula. Este um-bral recibe el nombre de nivel de sig-nificación, y representa el máximonivel en términos de probabilidadque el investigador está dispuesto acometer un falso positivo (α).

En la bibliografía científica losniveles de significación común-mente utilizados son 0,10, 0,05 y0,01; valores por arriba de 0,10 noconstituyen ninguna prueba y sonrechazados dentro de la comunidadcientífica. Para tomar una conclu-sión al probar una hipótesis de for-ma estadística se compara el valorde p y el nivel de significación alfaque se fijó con antelación. Si el valorde p es menor que alfa, se rechazala hipótesis nula (es muy poco pro-bable que la hipótesis nula sea ver-dadera). En otro caso, no se puederechazar la hipótesis nula, pero

tampoco se acepta, puesto que pue-de estarse en presencia de un errortipo II, y se concluye diciendo quelas pruebas aportadas por las mues-tras son insuficientes para rechazarel enunciado descrito por la hipó-tesis nula (8).

Es importante señalar que elprocedimiento descrito sólo es váli-do cuando el nivel de significaciónes especificado por el investigadorantes de observar el valor de p. Si elnivel de significación no se estable-ce, el criterio para rechazar la hipó-tesis nula se restringe a valores dep menores de 0,01; mientras quepara no rechazar la hipótesis nulael valor de p debe ser mayor o iguala 0,10. Cuando el valor de p tomaun valor en el rango entre 0,01 y0,10, lamentablemente no se puedetomar una decisión y es necesariorecolectar una nueva muestra y re-petir la prueba de hipótesis deter-minando con anterioridad el nivelde significación. De lo anterior, sederiva la importancia de especificareste último incluso desde la escri-tura del protocolo de investigación.

Interpretación de los valores de p

Las dos primeras preguntasplanteadas por el investigador delejemplo se refieren a cómo interpre-tar y entender los resultados deriva-dos de la prueba de hipótesis en lasdos referencias mencionadas; poresta razón, es necesario retomar los

Page 7: Una Mirada Al Valor de p en Investigación

419Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

Una mirada al valor de p en investigación○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

resultados de ambos trabajos pararesponder estos interrogantes.

El primer paso consiste en es-tablecer un nivel de significacióncomo umbral para comparar el valorde p obtenido de la prueba de hipó-tesis, el cual en ambas publicacio-nes se reporta como α = 0,05. Ensegundo lugar, debe establecersecon claridad cuál es la hipótesisnula que se va a probar en cada si-tuación y cuál es la respectiva hipó-tesis alterna. Finalmente, se debecomparar el α establecido y el valorde p encontrado, indicando unaconclusión adecuada con la natu-raleza del estudio.

Al retomar el primero de los tra-bajos referenciados, se tiene que lahipótesis nula debe enunciar que laprevalencia (proporción poblacional)de depresión en hombres y mujereses la misma; mientras que la hipóte-sis alterna plantea que este trastor-no es mayor en la población de mu-jeres, comparada con la prevalenciaen la población de hombres (estetipo de hipótesis alterna se denominahipótesis unilateral, porque estableceuna única dirección para la evalua-ción de la diferencia). Dado que elvalor de p reportado, a pesar de notener una cifra exacta (p <0,001),es menor que el nivel de significa-ción preestablecido (0,05), la con-clusión en este caso señala que lamagnitud de la diferencia observa-da en las muestras constituye unafuerte prueba para afirmar que la

prevalencia de depresión en la po-blación de mujeres es mayor, com-parada con la prevalencia en lapoblación de hombres. En otras pa-labras, este resultado señala que laprobabilidad de que la diferencia ob-servada entre las prevalencias mues-trales de hombres y mujeres se debansolamente al efecto del azar es menorde 1 en 1.000, lo cual es remota-mente posible.

Por otra parte, en el trabajo deMantilla y colaboradores (2), la hi-pótesis nula plantea que las preva-lencias de depresión son iguales paraniñas y niños; mientras que la hipó-tesis alterna enuncia que estas dosprevalencias son diferentes. Este tipode hipótesis alterna recibe el nombrede hipótesis bilateral, puesto que noespecifica mayor prevalencia deltrastorno depresivo en alguno de losdos grupos. La conclusión en estecaso, al ser mayor el valor de p (0,07)que el valor de α, es que los datosencontrados en las muestras soninsuficientes para afirmar que lasprevalencias son distintas en los dosgrupos; sin embargo, sería incorrectoconcluir que la prevalencia en ambosgrupos es igual, pues aunque remota,la probabilidad de cometer un falsonegativo existe. De esta forma, laconclusión en términos prácticos esno rechazar la hipótesis nula deigualdad.

En situaciones como la obser-vada en el segundo ejemplo, dondelos resultados no logran concluir

Page 8: Una Mirada Al Valor de p en Investigación

420 Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Gil J., Castañeda J.

contra la hipótesis nula (llamadosresultados negativos), los editores delas publicaciones científicas solicitanel reporte de una cifra que cuantifi-que la capacidad del estudio de re-chazar la hipótesis nula cuando real-mente el enunciado expuesto porésta es falso (9), la cual nuevamentees una probabilidad y recibe el nom-bre de nivel de potencia estadísticade la prueba, denotado por 1-β (com-plemento de la probabilidad de co-meter un falso negativo) (4-6).

Los investigadores deben tenerprecaución cuando plantean hipóte-sis bilaterales y cuando se encuen-tran diferencias estadísticas que per-miten rechazar la hipótesis nula deigualdad, porque erróneamente sepodría argumentar, por ejemplo, quela característica medida es mayor omenor en alguno de los grupos, ba-sados en las cifras muestrales. Estaconclusión constituye un error, debi-do a que este enunciado se deriva deuna nueva hipótesis planteada aposteriori (luego de ver el valor de p ylas cifras muestrales), la cual requie-re diseñar y conducir un nuevo proto-colo de investigación para ser proba-ba (10) (excepto cuando el valor de pa dos colas sea menor de 0,02, valorumbral para hipótesis planteadas aposteriori). Por consiguiente, se reco-mienda establecer desde etapas tem-pranas del proceso de investigaciónla dirección deseada para las prue-bas de hipótesis. De otra forma, seasegura la validez de las conclusio-nes derivadas en el estudio.

En términos prácticos, la deci-sión de emplear una hipótesisalterna unilateral o bilateral debeestar basada en los conocimientosprevios del problema que se va atratar. Las hipótesis unilateralessolamente deben plantearse en si-tuaciones donde se tenga una ex-pectativa a priori del sentido en elque se puede observar la diferenciade interés o cuando se tiene cono-cimiento de la imposibilidad bioló-gica, física, etc. de observar unadiferencia en una dirección deter-minada. Por el contrario, las hipó-tesis bilaterales suelen plantearsecuando se desconoce la direcciónen que puede presentarse la dife-rencia de interés y solamente sequiere establecer la existencia deuna diferencia sin concluir especí-ficamente una dirección (8).

Frecuentemente, algunos inves-tigadores suelen comparar los valo-res de p obtenidos en estudios dife-rentes o incluso dentro del mismoestudio, a fin de intentar decidircuál de los dos es más significativo.Sin embargo, esto representa unerror, puesto que los valores de pcorresponden a variables aleatorias,cuyos valores dependen de la mues-tra estudiada. Por ejemplo, un valorde p de 0,048 y otro valor de p de0,001 tienen la misma interpreta-ción (dicótoma) cuando se ha fijadoun nivel de significación del 5%: serechaza la hipótesis nula, sin poderconcluir que uno es más significa-tivo que el otro.

Page 9: Una Mirada Al Valor de p en Investigación

421Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

Una mirada al valor de p en investigación○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Diferencia estadísticamentesignificativa frente

a la diferencia clínicamentesignificativa

A pesar de que el resultado dela prueba de hipótesis puede arro-jar como resultado el rechazo de lahipótesis nula, al indicar que existediferencia entre los parámetros po-blacionales de interés, esta conclu-sión no siempre representa el mis-mo significado en la práctica. Enalgunas ocasiones se puede encon-trar que una diferencia estadística-mente significativa no representauna diferencia de magnitud relevan-te para la naturaleza del problemaque se está estudiando.

Un principio general de la esta-dística cuando se realiza inferenciaseñala que a mayor tamaño de lamuestra, mayor control del error alea-torio; por lo tanto, mayor potencia dela prueba de hipótesis para detectardiferencias de cualquier magnitudcuando éstas existen. De esta forma,el rechazo de la hipótesis nula depen-de ampliamente del tamaño de lamuestra: cuando es grande casi siem-pre permitirán rechazar la hipótesisnula, mientras que cuando es peque-ño, difícilmente podrán concluir sig-nificación estadística (10).

La significación práctica repre-senta la verdadera magnitud de ladiferencia, que se considera útil orelevante para la naturaleza del pro-blema. Dentro de la investigación en

salud este concepto es conocidocomo diferencia clínicamente signi-ficativa o tamaño del efecto (11).

La magnitud de la diferenciaclínicamente significativa la estable-ce el investigador basándose en múl-tiples factores, como la gravedad delproblema que se va a investigar, lamorbimortalidad asociada con elfenómeno, los costos que conllevala implementación de nuevos trata-mientos o la presentación de efec-tos secundarios, entre otros (12). Noobstante, antes de concluir que exis-te una diferencia clínicamente sig-nificativa, es necesario asegurar, enprincipio, la significación desde elpunto de vista estadístico.

Valores de p frentea los intervalos de confianza

A pesar de que el investigadordel ejemplo ya está en capacidad deinterpretar los resultados publica-dos en ambos artículos, y concluirque la prevalencia de depresión gra-ve es significativamente mayor enmujeres que en hombres, surgen lossiguientes nuevos interrogantes: ¿esposible conocer sobre la magnitudde esta diferencia? ¿Es esta diferen-cia clínicamente relevante?

Por desgracia, una de las prin-cipales debilidades que caracterizaa las pruebas de hipótesis, y que esseñalada por muchos autores paradesmotivar su uso en la investiga-

Page 10: Una Mirada Al Valor de p en Investigación

422 Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Gil J., Castañeda J.

ción (14), es la poca información queaporta al conocimiento del tema enestudio, puesto que el valor de p sólodetermina si la diferencia es o nosignificativa, y de ninguna manerapermite cuantificar la magnitud dedicha diferencia.

Puede ocurrir que un lector queesté en búsqueda de un cálculo parala magnitud de la diferencia encon-trada pueda verse tentado a utilizarla prevalencia de depresión grave en-contrada en la muestra de mujeres(29,2%) y la prevalencia calculada enla muestra de hombres (19,6%), rea-lizar una sustracción directa de es-tos dos porcentajes y encontrar quela magnitud de la diferencia es un9,6% (mayor en las mujeres). Sinembargo, este procedimiento es in-correcto, debido a que las prevalen-cias 29,2% y 19,6% son valores en-contrados en la muestra, por lo quees posible que al tomar otras mues-tras, y producto del error aleatorio,estos valores cambien, lo mismo quela diferencia entre ellos (15).

Para controlar este error de tipomuestral se recomienda construirun intervalo de confianza (IC) parael parámetro de interés, que en estecaso corresponde a la diferencia deproporciones (16). El IC del 95%construido para este caso es 7,4%y 11,8%, el cual tiene dos interesan-tes interpretaciones. La primera esque con un IC del 95%, la prevalen-cia de depresión grave en mujerescolombianas es mayor que en hom-

bres colombianos entre un 7,4% yun 11,8%. Esta interpretación co-rresponde a la determinación de lamagnitud de la diferencia en lasprevalencias en las dos poblaciones.

La segunda interpretación estárelacionada con la inclusión del valor0 dentro del IC. Si está presente, estosignifica que no se puede descartarque las dos prevalencias sean iguales.Por el contrario, si el intervalo no in-cluye el valor 0, que corresponde alcaso presente, se puede interpretarque a un IC del 95% existen prue-bas para argumentar que las preva-lencias en las dos poblaciones sondiferentes y que se puede identificarla dirección de dicha diferencia. Parael caso de los datos reportados porGómez-Restrepo y colaboradores, esde esperar este resultado, porque elIC debe reflejar similares hallazgosque los obtenidos con el valor de p,con la ganancia de poder cuantifi-car probabilísticamente la diferenciaentre las prevalencias y el error enel cálculo.

De esta forma, se puede decirque el IC es más informativo que unvalor de p; pero a diferencia del pro-cedimiento de prueba de hipótesis,en la construcción del IC no existeel concepto de falsos negativos. Deesta forma, para permitir al lectorhacer mejores y más completas in-terpretaciones, preferiblemente sedeben informar los dos resultadosen la publicación, intervalos de con-fianza y valores de p (17).

Page 11: Una Mirada Al Valor de p en Investigación

423Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

Una mirada al valor de p en investigación○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Importancia del tamañode la muestra

Las pruebas de hipótesis, aligual que las demás metodologíasestadísticas relacionadas con la in-ferencia, requieren un cálculo apro-piado del tamaño de la muestra,puesto que éste es uno de los másimportantes factores que aseguranal investigador obtener resultadoscon una precisión deseada y a la vezcontrolar el error aleatorio.

Los factores que influyen en ladeterminación del número de indivi-duos requeridos para un estudio quepretende probar una hipótesis son:

1. Los índices máximos aceptablesde error tipo I y error tipo II,pues entre menores sean, ma-yor es el tamaño de la muestra.

2. La diferencia mínima que se vaa detectar (mínima diferenciaque desde el punto de vista clí-nico resulta ser significativa). Amenor diferencia se requierenmayores pruebas para tomardecisiones, lo que conlleva unmayor tamaño de la muestra.

3. La variabilidad de la variable deinterés. Cuando la característicade interés en el estudio es pocohomogénea, se hacen necesariosmayores tamaños de la muestra.

4. La razón de asignación a losgrupos, cuando la asignación delos pacientes en los grupos delestudio es 1 a 1, el tamaño dela muestra resulta ser menor,

comparado con otras razones deasignación.

Como se ve, el cálculo del tama-ño de la muestra integra, entreotros, tanto el nivel de significaciónestadística (nivel α) como el nivel designificación clínica (diferencias queclínicamente son relevantes). Dennisy Pérez (11) ilustran las fórmulasempleadas para el cálculo del tama-ño de la muestra en estas situacio-nes y comentan el efecto de cadauno de los factores en el resultadodel cálculo.

Para concluir, es importante se-ñalar que el cálculo del tamaño dela muestra, además de ser un ejer-cicio necesario durante la elabora-ción de un protocolo de investiga-ción, es también una buena herra-mienta para evaluar la factibilidaddel estudio, en términos del númerode pacientes necesarios y la precisiónque se desea en los resultados. Deesta forma, un estudio conducidocon un tamaño pequeño puede servisto con buenos ojos desde unaperspectiva económica (a menor nú-mero de pacientes en el estudio,menores serán los costos); pero altiempo puede carecer de capacidadpara detectar diferencias que des-de el punto de vista clínico puedenser relevantes.

Por otra parte, si se emplean ta-maños de muestra muy grandes, elestudio puede derivar en la detec-ción de diferencias no relevantes

Page 12: Una Mirada Al Valor de p en Investigación

424 Revista Colombiana de Psiquiatría, vol. XXXIV / No. 3 / 2005

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Gil J., Castañeda J.

desde el punto de vista clínico, locual representaría un mal uso de losrecursos, debido a los gastos inne-cesarios que esto conlleva. De igualforma, estudios con un número depacientes mayor o menor al estric-tamente necesario no son aceptablesdesde el punto de vista ético.

Bibliografía

1. Gomez-Restrepo C, Bohórquez A, Pin-to D, Gil JF, Rondón M, Díaz-GranadosN. Prevalencia de depresión y factoresasociados con ella en la población co-lombiana. Revista Panamericana deSalud Pública. 2004 Dec;16(6):378-86.

2. Mantilla LF, Sabalza L, Díaz LA, Cam-po-Arias A. Prevalencia de sintomatolo-gía depresiva en niños y niñas escola-res de Bucaramanga, Colombia. RevistaColombiana de Psiquiatría 2004;33(2):163-71.

3. Goodman SN. Toward evidence-basedmedical statistics. 1: the p value fallacy.Ann Intern Med. 1999;130(12):995-1004.

4. Bernard R. Fundamentals of biostatis-tics. 3rd ed. Belmont (CA): DuxburyPress; 1990.

5. Hogg R, Craig A. Introduction tomathematical statistics. New York:MacMillan Publishing; 1978.

6. Gonick L, Smith W. The cartoon guideto statistics. New York: Harper Perennial;1993.

7. Pagano M, Gauvreau K. Principles ofbiostatistics. 2nd ed. Pacific Grove (CA):Duxbury Thomson Learning; 2000.

8. Dawson B, Trapp R. Bioestadística médi-ca. 3rd ed. México: Manual Moderno; 2002.

9. Randy SH, Scott MW, Robert SD, TomAE. Prominent medical journals oftenprovide insufficient information toassess the validity of studies withnegative results. J Negat ResultsBiomed. 2002;1(1):1-5.

10. Good P, Hardin J. Common errors instatistics: and how to avoid them. NewJersey: John Wiley & Sons; 2003.

11. Dennis R, Pérez A. Cálculo del tamañode la muestral. En: Ruiz A, Morillo L.Epidemiología clínica: investigaciónmédica aplicada. Bogotá: Editorial Mé-dica Panamericana; 2004. p. 141-62.

12. Pita S, Pértega S. Significancia estadís-tica y relevancia clínica serie [Metodo-logía de la investigación]. Fisterra.com[Portal de internet]. 2001[último acce-so 2005 junio 30]. Disponible en http://www.f isterra.com/mbe/invest iga/signi_estadi/signi_estadi.htm..

13. Lozano J, Dennis R. Medidas de fre-cuencia, de asociación y de impacto.En: Ruiz A, Morillo L. Epidemiología clí-nica: investigación médica aplicada. Bo-gotá: Editorial Médica Panamericana;2004. p. 181-97.

14. Clark M. Los valores p y los intervalosde confianza: ¿en qué confiar? [edito-rial]. Revista Panamericana de la Sa-lud;15(5):293-6.

15. Castañeda J, Gil F. Una mirada a los in-tervalos de confianza en investigación.Revista Colombiana de Psiquiatría.2004;33(2):193-201.

16. Daniel W. Bioestadística base para elanálisis de las ciencias de la salud.México: Limusa; 2002.

17. Altman D, Machin D, Bryant T, GardnerM. Statistics with confidence. 2nd ed.Bristol: BMJ Books; 2000.

Recibido para publicación: 3 de marzo de 2005Aceptado para publicación: 12 de mayo de 2005

CorrespondenciaJacky F. Gil

Hospital Universitario San IgnacioUnidad de Epidemiología Clínica y Bioestadística

Carrera 7 No. 40-62, Bogotá[email protected]