2da Monografia - Estadistica en La Medicina

21
Estadística descriptiva de los datos en las distintas Especialidades Medicas Introducción Existen diferentes razones por las cuales los profesionales de la atención primaria deben conocer los fundamentos de la epidemiología y la estadística como instrumentos del trabajo cotidiano. Entre dichas razones señalamos las siguientes: los términos estadísticos y epidemiológicos invaden la literatura médica, la medicina es cada vez más cuantitativa, su conocimiento nos permitirá leer la bibliografía médica con más capacidad crítica para detectar errores potenciales y falacias. Nos será también útil para llegar a conclusiones correctas acerca de procedimientos para el diagnóstico y del resultado de las pruebas. Su conocimiento nos permitirá a su vez valorar protocolos de estudio e informes remitidos para su publicación y participar, en definitiva, en la investigación médica. Resulta imprescindible, por lo tanto, conocer los conceptos básicos de estadística que nos faciliten la realización de estudios y conocer las posibilidades a desarrollar con ayuda de profesionales estadísticos para mejorar dicho análisis. En este trabajo se pretende dar a conocer algunas nociones estadísticas que nos ayudarán a explorar y describir, en un primer momento, nuestros datos. Poblaciones y muestras Cuando se realiza un estudio de investigación, se pretende generalmente inferir o generalizar resultados de una muestra a una población. Se estudia en particular a un reducido número de individuos a los que tenemos acceso con la idea de poder generalizar los hallazgos a la población de la cual esa muestra procede. Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la probabilidad. La población representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo que reúne unas características determinadas.

Transcript of 2da Monografia - Estadistica en La Medicina

Papel de la Estadstica en la Investigacin Cientfica

Estadstica descriptiva de los datos en las distintas Especialidades MedicasIntroduccin

Existen diferentes razones por las cuales los profesionales de la atencin primaria deben conocer los fundamentos de la epidemiologa y la estadstica como instrumentos del trabajo cotidiano. Entre dichas razones sealamos las siguientes: los trminos estadsticos y epidemiolgicos invaden la literatura mdica, la medicina es cada vez ms cuantitativa, su conocimiento nos permitir leer la bibliografa mdica con ms capacidad crtica para detectar errores potenciales y falacias. Nos ser tambin til para llegar a conclusiones correctas acerca de procedimientos para el diagnstico y del resultado de las pruebas. Su conocimiento nos permitir a su vez valorar protocolos de estudio e informes remitidos para su publicacin y participar, en definitiva, en la investigacin mdica. Resulta imprescindible, por lo tanto, conocer los conceptos bsicos de estadstica que nos faciliten la realizacin de estudios y conocer las posibilidades a desarrollar con ayuda de profesionales estadsticos para mejorar dicho anlisis.

En este trabajo se pretende dar a conocer algunas nociones estadsticas que nos ayudarn a explorar y describir, en un primer momento, nuestros datos.

Poblaciones y muestras

Cuando se realiza un estudio de investigacin, se pretende generalmente inferir o generalizar resultados de una muestra a una poblacin. Se estudia en particular a un reducido nmero de individuos a los que tenemos acceso con la idea de poder generalizar los hallazgos a la poblacin de la cual esa muestra procede. Este proceso de inferencia se efecta por medio de mtodos estadsticos basados en la probabilidad.

La poblacin representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogneo que rene unas caractersticas determinadas.

La muestra es el conjunto menor de individuos (subconjunto de la poblacin accesible y limitado sobre el que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la poblacin ). El individuo es cada uno de los componentes de la poblacin y la muestra. La muestra debe ser representativa de la poblacin y con ello queremos decir que cualquier individuo de la poblacin en estudio debe haber tenido la misma probabilidad de ser elegido.

Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos sealar:

a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.

b. Como consecuencia del punto anterior ahorraremos costes.

c. Estudiar la totalidad de los pacientes o personas con una caracterstica determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar.

d. Aumentar la calidad del estudio. Al disponer de ms tiempo y recursos, las observaciones y mediciones realizadas a un reducido nmero de individuos pueden ser ms exactas y plurales que si las tuvisemos que realizar a una poblacin.

e. La seleccin de muestras especficas nos permitir reducir la heterogeneidad de una poblacin al indicar los criterios de inclusin y/o exclusin.

Tipos de datos

Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensin arterial sistlica, etctera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos adems concretar la escala de medida que aplicaremos a cada variable.

La naturaleza de las observaciones ser de gran importancia a la hora de elegir el mtodo estadstico ms apropiado para abordar su anlisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos tipos: variables cuantitativas o variables cualitativas.a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse numricamente. Las variables cuantitativas pueden ser de dos tipos:

i) Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numrico determinado (edad, peso, talla).

ii) Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango.

Suelen tomar solamente valores enteros (nmero de hijos, nmero de partos, nmero de hermanos, etc.).

b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de varias categoras. La situacin ms sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotmicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificacin no es suficiente y se requiere de un mayor nmero de categoras (color de los ojos, grupo sanguneo, profesin, etctera).

En el proceso de medicin de estas variables, se pueden utilizar dos escalas:

1.- Escalas nominales: sta es una forma de observar o medir en la que los datos se ajustan por categoras que no mantienen una relacin de orden entre s (color de los ojos, sexo, profesin, presencia o ausencia de un factor de riesgo o enfermedad, etctera).

2.- Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarqua entre las categoras (grados de disnea, estadiaje de un tumor, etc.).Estadstica descriptiva

Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al anlisis descriptivo de los mismos. Para variables categricas, como el sexo o el estadiaje, se quiere conocer el nmero de casos en cada una de las categoras, reflejando habitualmente el porcentaje que representan del total, y expresndolo en una tabla de frecuencias.

Para variables numricas, en las que puede haber un gran nmero de valores observados distintos, se ha de optar por un mtodo de anlisis distinto, respondiendo a las siguientes preguntas:

a. Alrededor de qu valor se agrupan los datos?

b. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy concentrados? muy dispersos?

a. Medidas de tendencia central

Las medidas de centralizacin vienen a responder a la primera pregunta. La medida ms evidente que podemos calcular para describir un conjunto de observaciones numricas es su valor medio. La media no es ms que la suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone.

Como ejemplo, consideremos 10 pacientes de edades 21 aos, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos ser de:

Ms formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestin, el valor medio vendr dado por:

Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observacin equidistante de los extremos.

La mediana del ejemplo anterior sera el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:

15, 21, 32, 59, 60, 60,61, 64, 71, 80.

Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez 60, que es el valor de la mediana.

Si la media y la mediana son iguales, la distribucin de la variable es simtrica. La media es muy sensible a la variacin de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.

Por ltimo, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo ste el valor de la variable que presenta una mayor frecuencia.

En el ejemplo anterior el valor que ms se repite es 60, que es la moda.

b. Medidas de dispersin

Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersin de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de los datos es la ms utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.

En el ejemplo anterior la varianza sera:

Sx =2

La desviacin tpica (S) es la raz cuadrada de la varianza. Expresa la dispersin de la distribucin y se expresa en las mismas unidades de medida de la variable. La desviacin tpica es la medida de dispersin ms utilizada en estadstica.

Aunque esta frmula de la desviacin tpica muestral es correcta, en la prctica, la estadstica nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.

Por tanto, la medida que se utiliza es la cuasidesviacin tpica, dada por:

Aunque en muchos contextos se utiliza el trmino de desviacin tpica para referirse a ambas expresiones.

En los clculos del ejercicio previo, la desviacin tpica muestral, que tiene como denominador n, el valor sera 20.678. A efectos de clculo lo haremos como n-1 y el resultado seria 21,79.

El haber cambiado el denominador de n por n-1 est en relacin al hecho de que esta segunda frmula es una estimacin ms precisa de la desviacin estndar verdadera de la poblacin y posee las propiedades que necesitamos para realizar inferencias a la poblacin.

Cuando se quieren sealar valores extremos en una distribucin de datos, se suele utilizar la amplitud como medida de dispersin. La amplitud es la diferencia entre el valor mayor y el menor de la distribucin.

Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.

Como medidas de variabilidad ms importantes, conviene destacar algunas caractersticas de la varianza y desviacin tpica:

Son ndices que describen la variabilidad o dispersin y por tanto cuando los datos estn muy alejados de la media, el numerador de sus frmulas ser grande y la varianza y la desviacin tpica lo sern.

Al aumentar el tamao de la muestra, disminuye la varianza y la desviacin tpica. Para reducir a la mitad la desviacin tpica, la muestra se tiene que multiplicar por 4.

Cuando todos los datos de la distribucin son iguales, la varianza y la desviacin tpica son iguales a 0.

Para su clculo se utilizan todos los datos de la distribucin; por tanto, cualquier cambio de valor ser detectado.

Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida de dispersin relativa de los datos y se calcula dividiendo la desviacin tpica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersin o variabilidad de dos o ms grupos. As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviacin tpica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviacin tpica de 21,3. La pregunta sera: qu distribucin es ms dispersa, el peso o la tensin arterial? Si comparamos las desviaciones tpicas observamos que la desviacin tpica de la tensin arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variacin:

CV de la variable peso = 15%CV de la variable TAS = 12.8%A la vista de los resultados, observamos que la variable peso tiene mayor dispersin.

Cuando los datos se distribuyen de forma simtrica (y ya hemos dicho que esto ocurre cuando los valores de su media y mediana estn prximos), se usan para describir esa variable su media y desviacin tpica.

En el caso de distribuciones asimtricas, la mediana y la amplitud son medidas ms adecuadas. En este caso, se suelen utilizar adems los cuartiles y percentiles.

Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posicin. El percentil es el valor de la variable que indica el porcentaje de una distribucin que es igual o menor a esa cifra.

As, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de s al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de s el 25%,

50% y el 75% del total de las puntuaciones y as tenemos por tanto el primer cuartil (Q1), el segundo (Q2)

y el tercer cuartil (Q3).

Representacin grfica en el Anlisis de Datos

La realizacin de los estudios clnico-epidemiolgicos implica finalmente emitir unos resultados cuantificables de dicho estudio o experimento. La claridad de dicha presentacin es de vital importancia para la comprensin de los resultados y la interpretacin de los mismos. A la hora de representar los resultados de un anlisis estadstico de un modo adecuado, son varias las publicaciones que podemos consultar. Aunque se aconseja que la presentacin de datos numricos se haga habitualmente por medio de tablas, en ocasiones un diagrama o un grfico pueden ayudarnos a representar de un modo ms eficiente nuestros datos.

En esta monografa se abordar la representacin grfica de los resultados de un estudio, constatando su utilidad en el proceso de anlisis estadstico y la presentacin de datos. Se describirn los distintos tipos de grficos que podemos utilizar y su correspondencia con las distintas etapas del proceso de anlisis.

Anlisis descriptivo.

Cuando se dispone de datos de una poblacin, y antes de abordar anlisis estadsticos ms complejos, un primer paso consiste en presentar esa informacin de forma que sta se pueda visualizar de una manera ms sistemtica y resumida. Los datos que nos interesan dependen, en cada caso, del tipo de variables que estemos manejando.Para variables categricas, como el sexo, estadio TNM, profesin, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categora. Una forma muy sencilla de representar grficamente estos resultados es mediante diagramas de barras o diagramas de sectores.En los grficos de sectores, tambin conocidos como diagramas de "tortas", se divide un crculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de crculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la Figura 1. Como se puede observar, la informacin que se debe mostrar en cada sector hace referencia al nmero de casos dentro de cada categora y al porcentaje del total que estos representan. Si el nmero de categoras es excesivamente grande, la imagen proporcionada por el grfico de sectores no es lo suficientemente clara y por lo tanto la situacin ideal es cuando hay alrededor de tres categoras. En este caso se pueden apreciar con claridad dichos subgrupos.

Figura 1. Ejemplo de grfico de sectores. Distribucin de una muestra de pacientes segn el hbito de fumar.

Los diagramas de barras son similares a los grficos de sectores. Se representan tantas barras como categoras tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase (Figura 2). Estos mismos grficos pueden utilizarse tambin para describir variables numricas discretas que toman pocos valores (nmero de hijos, nmero de recidivas, etc.).

Figura 2. Ejemplo de grfico de barras. Estadio TNM en el cncer gstrico.

Para variables numricas continuas, tales como la edad, la tensin arterial o el ndice de masa corporal, el tipo de grfico ms utilizado es el histograma. Para construir un grfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectngulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectngulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el rea de los rectngulos. Como ejemplo, la Tabla I muestra la distribucin de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 aos. Si se divide este rango en intervalos de dos aos, el primer tramo est comprendido entre los 18 y 19 aos, entre los que se encuentra el 4/100=4% del total.

Por lo tanto, la primera barra tendr altura proporcional a 4. Procediendo as sucesivamente, se construye el histograma que se muestra en la Figura 3. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen que se llama polgono de frecuencias. Dicha figura pretende mostrar, de la forma ms simple, en qu rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la Figura 4.

Tabla I. Distribucin de frecuencias de la edad en 100 pacientes.EDADN DE PACIENTES

181

193

204

217

225

238

2410

258

269

276

286

294

303

314

325

333

342

353

361

372

383

391

411

421

Figura 3. Ejemplo de un histograma correspondiente a los datos de la Tabla I.

Figura 4. Polgono de frecuencias para los datos de la Tabla I.

Otro modo habitual, y muy til, de resumir una variable de tipo numrico es utilizando el concepto de percentiles, mediante diagramas de cajas. La Figura 5 muestra un grfico de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango en el que se concentra el 50% central de los datos.

Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribucin. La lnea central en la caja es la mediana. De este modo, si la variable es simtrica, dicha lnea se encontrar en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribucin. Se suelen tambin representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente til para comprobar, grficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan ms apropiados para representar variables que presenten una gran desviacin de la distribucin normal. Como se ver ms adelante, resultan adems de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.

Por ltimo, y en lo que respecta a la descripcin de los datos, suele ser necesario, para posteriores anlisis, comprobar la normalidad de alguna de las variables numricas de las que se dispone. Un diagrama de cajas o un histograma son grficos sencillos que permiten comprobar, de un modo puramente visual, la simetra y el "apuntamiento" de la distribucin de una variable y, por lo tanto, valorar su desviacin de la normalidad. Existen otros mtodos grficos especficos para este propsito, como son los grficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las de una distribucin normal. Si la variable seleccionada coincide con la distribucin de prueba, los puntos se concentran en torno a una lnea recta. Los grficos Q-Q se obtienen de modo anlogo, esta vez representando los cuantiles de distribucin de la variable respecto a los cuantiles de la distribucin normal. En la Figura 6 se muestra el grfico P-P correspondientes a los datos de la Tabla I que sugiere, al igual que el correspondiente histograma y el diagrama de cajas, que la distribucin de la variable se aleja de la normalidad.Figura 5. Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I.

Figura 6. Grfico P-P de normalidad para los datos de la Tabla I.

Comparacin de dos o ms grupos.

Cuando se quieren comparar las observaciones tomadas en dos o ms grupos de individuos una vez ms el mtodo estadstico a utilizar, as como los grficos apropiados para visualizar esa relacin, dependen del tipo de variables que estemos manejando.

Cuando se trabaja con dos variables cualitativas podemos seguir empleando grficos de barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la frecuencia de sujetos que padecen una enfermedad coronaria es ms frecuente en aquellos que tienen algn familiar con antecedentes cardiacos. A partir de dicha muestra podemos representar, como se hace en la Figura 7, dos grupos de barras: uno para los sujetos con antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes. En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaos de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el grfico podra resultar engaoso.

Figura 7. Diagrama de barras agrupadas. Relacin entre la presencia de alguna enfermedad coronaria y los antecedentes cardiacos familiares en una muestra.

Por otro lado, la comparacin de variables continuas en dos o ms grupos se realiza habitualmente en trminos de su valor medio, por medio del test t de Student, anlisis de la varianza o mtodos no paramtricos equivalentes, y as se ha de reflejar en el tipo de grfico utilizado. En este caso resulta muy til un diagrama de barras de error, como en la Figura 8. En l se compara el ndice de masa corporal en una muestra de hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser estadsticamente significativa, pero s nos puede servir para valorar la magnitud de la misma. As mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente tiles aqu: no slo permiten ver si existe o no diferencia entre los grupos, sino que adems nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hiptesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de anlisis paramtricos.

Figura 8. Barras de error. Variacin en el ndice de masa corporal segn el sexo.

Por ltimo, sealar que tambin en esta situacin pueden utilizarse los ya conocidos grficos de barras, representando aqu como altura de cada barra el valor medio de la variable de inters. Los grficos de lneas pueden resultar tambin especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo (Figura 9). No son ms que una serie de puntos conectados entre s mediante rectas, donde cada punto puede representar distintas cosas segn lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categora, el valor mximo en cada grupo, etc).Figura 9. Grfico de lneas. Nmero de pacientes trasplantados renales en el Complexo Hospitalario "Juan Canalejo" durante el periodo 1981-1997.

Relacin entre dos variables numricas.

Cuando lo que interesa es estudiar la relacin entre dos variables continuas, el mtodo de anlisis adecuado es el estudio de la correlacin. Los coeficientes de correlacin (Pearson, Spearman, etc.) valoran hasta qu punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, grficamente, si existe una correlacin alta, es mediante diagramas de dispersin, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la relacin entre el peso y la talla de un sujeto. Partiendo de una muestra arbitraria, podemos construir el diagrama de dispersin de la Figura 10. En l puede observarse claramente como existe una relacin directa entre ambas variables, y valorar hasta qu punto dicha relacin puede modelizarse por la ecuacin de una recta. Este tipo de grficos son, por lo tanto, especialmente tiles en la etapa de seleccin de variables cuando se ajusta un modelo de regresin lineal.

Figura 10. Diagrama de dispersin entre la talla y el peso de una muestra de individuos.

Otros grficos.

Los tipos de grficos mostrados hasta aqu son los ms sencillos que podemos manejar, pero ofrecen grandes posibilidades para la representacin de datos y pueden ser utilizados en mltiples situaciones, incluso para representar los resultados obtenidos por mtodos de anlisis ms complicados. Podemos utilizar, por ejemplo, dos diagramas de lneas superpuestos para visualizar los resultados de un anlisis de la varianza con dos factores (Figura 11). Un diagrama de dispersin es el mtodo adecuado para valorar el resultado de un modelo de regresin logstica (Figura 12). Existen incluso algunos anlisis concretos que estn basados completamente en la representacin grfica. En particular, la elaboracin de curvas ROC (Figura 13) y el clculo del rea bajo la curva constituyen el mtodo ms apropiado para valorar la exactitud de una prueba diagnstica.

Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones grficas pueden alcanzar en el proceso de anlisis de datos. La mayora de los textos estadsticos y epidemiolgicos hacen hincapi en los distintos tipos de grficos que se pueden crear, como una herramienta imprescindible en la presentacin de resultados y el proceso de anlisis estadstico. No obstante, es difcil precisar cundo es ms apropiado utilizar un grfico que una tabla. Ms bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La creciente utilizacin de distintos programas informticos hace especialmente sencillo la obtencin de las mismas. La mayora de los paquetes estadsticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen grandes posibilidades en este sentido. Adems de los grficos vistos, es posible elaborar otros grficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de exportacin a otros programas para presentar finalmente los resultados del estudio.

Figura 11. Dos diagramas de lneas superpuestos. Variacin en el peso medio de una muestra de recin nacidos segn el control ginecolgico del embarazo y el hbito de fumar de la madre.

Figura 12. Diagrama de dispersin (regresin logstica). Probabilidad de padecer cirrosis heptica, segn un modelo de regresin logstica ajustando por el % de protrombina y el presentar o no hepatomegalia.

Figura 13. Curva ROC para el porcentaje de protrombina en la prediccin de cirrosis.