Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual...

103
Breve manual de Bioestad´ ıstica para las Ciencias de la Salud Jes´ us Montanero Fern´ andez

Transcript of Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual...

Page 1: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Breve manual de Bioestadıstica

para las Ciencias de la Salud

Jesus Montanero Fernandez

Page 2: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de
Page 3: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Indice general

I Estadıstica Descriptiva 9

1. Estudio de una variable 111.1. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2. Representacion grafica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3. Valores tıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3.1. Medidas de centralizacion . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3.2. Medidas de posicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.3.3. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.3.4. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2. Relacion entre variables numericas 292.1. Relacion entre dos variables numericas . . . . . . . . . . . . . . . . . . . . . . . 292.2. Diagrama de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.1. Diagrama de dispersion simple . . . . . . . . . . . . . . . . . . . . . . . . 302.2.2. Diagrama de dispersion matricial . . . . . . . . . . . . . . . . . . . . . . 31

2.3. Coeficientes de correlacion y determinacion . . . . . . . . . . . . . . . . . . . . . 312.4. Regresion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4.1. Regresion lineal multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.4.2. Regresion no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.5. Relacion entre una variable numerica y otra cualitativa . . . . . . . . . . . . . . 41

3. Relacion entre variables cualitativas 473.1. Estudio general de las tablas de contingencia . . . . . . . . . . . . . . . . . . . . 47

3.1.1. Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.1.2. Diagrama de barras agrupadas . . . . . . . . . . . . . . . . . . . . . . . . 503.1.3. Coeficiente de contingencia C de Pearson . . . . . . . . . . . . . . . . . . 513.1.4. Tablas 2× 2. Coeficiente φ . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2. Factores de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.2.1. Tipos de disenos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.2.2. Medidas de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3. Diagnostico Clınico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.3.1. Lımites de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.3.2. Fiabilidad de un procedimiento de diagnostico . . . . . . . . . . . . . . . 60

II Inferencia Estadıstica 65

4. Introduccion a la Inferencia Estadıstica 674.1. Parametros poblacionales y muestrales . . . . . . . . . . . . . . . . . . . . . . . 684.2. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.3. Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3

Page 4: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

4.4. Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.4.1. El test de Student como ejemplo . . . . . . . . . . . . . . . . . . . . . . 744.4.2. Tests parametricos vs tests no parametricos . . . . . . . . . . . . . . . . 764.4.3. Pruebas de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5. Metodos de Inferencia Estadıstica 795.1. El problema de correlacion-regresion . . . . . . . . . . . . . . . . . . . . . . . . 79

5.1.1. Test de correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.1.2. Regresion multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.2. Relacion entre dos variables cualitativas . . . . . . . . . . . . . . . . . . . . . . 815.3. Comparacion de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.3.1. Test de Student(1) para muestras relacionadas . . . . . . . . . . . . . . . 835.3.2. Test de Student(2) para muestras independientes . . . . . . . . . . . . . 845.3.3. Anova de una vıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.3.4. Otras tecnicas relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . 87

III Tutorial SPSS 91

Page 5: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Introduccion

Este volumen pretende ser un breve manual de iniciacion a la Estadıstica. En principio,esta concebido como apoyo en la docencia de las asignaturas correspondientes a la materia deBioestadıstica en el Grado de Enfermerıa, aunque puede resultar tambien util para alumnosque cursan estudios en cualquier titulacion relacionada con las Ciencias de la Salud.

Es un hecho notorio que la Estadıstica es demandada por diversas ramas del saber: laEconomıa, las Ciencias Sociales en general, la Fısica, la Quımica, la Biologıa y la Medicina.Entendemos por Bioestadıstica a la variedad de la Estadıstica vinculada a estas dos ultimasramas, aunque en nuestro caso nos centraremos mayormente en la sanitaria.

La demanda de la Estadıstica por parte de las Ciencias de la Salud viene motivada por laenorme incertidumbre que presentan los fenomenos estudiados y que, lejos de reducirse, pareceincrementarse a medida que se profundiza en la investigacion. De ahı que sea necesario disenartecnicas de recogida y tratamiento de datos, con la idea de extraer la mayor informacion posi-ble acerca del fenomeno a estudiar. ¿Como recoger los datos y como tratarlos? La respuesta aesta pregunta es la Estadıstica. La siguiente definicion de Estadıstica es debida a Barlett: “LaEstadıstica es la Ciencia que nos indica el proceso a seguir en el tratamiento de la informacionen aquellas circunstancias que envuelve la incertidumbre”. En este modesto manual nos aven-turamos con otra: la Estadıstica debe entenderse como la metodologıa a seguir para aprenderde las observaciones con el objetivo de explicar los diferentes fenomenos (biomedicos ennuestro caso) excluyendo en lo posible el concepto de azar.

Aunque teorıas cientıficas vigentes nos disuaden de buscar explicaciones meramente deter-mistas de los fenomenos observables, nos resulta util expresarlos como una composicion deuna parte determinista y otra sujeta a una incertidumbre (llamemosla azar) que pretendemosacotar de la mejor manera posible. En el contexto de las Ciencias de la Salud se precisa puesde la Bioestadıstica cada vez que pretendamos determinar las causas de un fenomeno biomedi-co, salvo un mayor o menor grado de incertidumbre que desearıamos eliminar. Estudiemosprimeramente cuatro nociones elementales:

Conceptos basicos

Poblacion: es el objeto del estudio. Se trata de un concepto bastante abstracto, aunque enel caso de las Ciencias de la Salud, se identificara normalmente con la acepcion comun deltermino, es decir, un amplio colectivo de individuos.

Caracter y variable: sobre la poblacion se estudiaran uno o varios caracteres. No daremosuna definicion de caracter sino que lo entenderemos como una nocion comun. Son ejemplos decaracteres el sexo, la edad, el peso, la talla, el nivel de colesterol, etc. La expresion de un caracteren cada individuo da lugar a una funcion o aplicacion matematica que, en este contexto, sedenomina variable estadıstica. Se nombra ası porque en un ambiente de incertidumbre tomadistintos valores sin que sepamos bien por que. Segun la forma en que expresan los respectivoscaracteres, las variables se clasifican en dos categorıas fundamentales:

5

Page 6: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

6 INDICE GENERAL

Cuantitativas o numericas: se dice que una variable es cuantitativa cuando mide numeri-camente el caracter respecto a una unidad de referencia. Son ejemplos de variables cuan-titativas la edad medida en anos, la concentracion de colesterol medida en mg/mm, o latemperatura medida en grados Celsius, la estatura medida en cm, etc.

Cualitativas: se dice que una variable es cualitativa cuando no expresa un caracter de formanumerica sino que distingue entre varias categorıas. Son ejemplos de variables cualitativasel sexo si distinguimos entre varon y hembra, el grupo sanguıneo si distinguimos entre A,B, AB y 0, etc.

No obstante, podemos mencionar una tercera categorıa que en rigor pertenece a la segundapero que en la practica puede recibir el tratamiento estadıstico de la primera. Se trata de lasvariables ordinales, que expresan un caracter cualitativo mediante categorıas que presentan unorden o gradacion natural. Son ejemplos de variables ordinales el grado de una enfermedad(nulo, leve, moderado, severo) o el nivel de dolor de un paciente (bajo, medio, alto). Confrecuencia, se asigna un valor numerico a dichos niveles empezando por 0 o 1 y siguiendo elorden natural. Ası podemos obtener por ejemplo las escala de dolor EVA, la de movilidadWOMAC, etc. El programa SPSS denomina nominales a las variables cualitativas puras paradistinguirlas de estas ultimas y, con el mismo fin, denomima de escala a las cuantitativas puras.Es decir, distingue entre variables nominales, ordinales y de escala. Como hemos indicadoantes, las ordinales reciben en ocasiones el mismo tratamiento que las nominales (cualitativas)y en otras el de las de escala (numericas), dependiendo fundamentalmente de la variedad decategorıas que distingan.

Ejercicio 1. Indica otras tres variables nominales, tres ordinales y tres cuantitativas.

Muestra: ya hemos dicho que sobre una poblacion se va a estudiar un cierto caracter quedara lugar a una variable, denotese por X, y que la poblacion suele ser demasiado grande. Ellonos obliga a contentarnos con estudiar el caracter sobre un subconjunto de n individuos de lapoblacion. De dicho subconjunto se dice que es una muestra de tamano n. Podemos entenderpor muestra tanto a los n individuos como a los n datos correspondientes a la medicion de lavariable. En todo caso, la letra n queda reservada para denotar el tamano de muestra.

Tipos de estudios

Como ya hemos comentado, nuestro objetivo final es determinar las causas de un deter-minado fenomeno biomedico, lo cual nos conduce a relacionar las variables que intervienen endicho fenomeno. Esto puede dar lugar a una amplia casuıstica segun la naturaleza (cualitativao cuantitativa) y cantidad de las mismas. Si imponemos una restriccion a la cantidad y nosrestringimos al estudio con dos variables, podemos distinguir tres posibilidades:

Relacion cuantitativa ↔ cuantitativa

Relacion cualitativa ↔ cualitativa

Relacion cuantitativa ↔ cualitativa

Ejercicio 2. Se pretende estudiar si existe relacion entre el sexo y la estatura. ¿A cual de lostres tipos de estudio nos estamos refiriendo? ¿Puedes indicar al memos dos ejemplos de cadatipo?

Page 7: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

INDICE GENERAL 7

Fases del proceso estadıstico

En el proceso estadıstico podemos distinguir tres fases:

1. Muestreo: seleccion de la muestra que se analizara.

2. Descriptiva: analisis particular de los datos de la muestra seleccionada.

3. Inferencia: estudio de la posible generalizacion de los resultados obtenidos en la muestraal global de la poblacion.

En la primera y tercera fase es fundamental el concurso del Calculo de Probabilidades. Estoes ası porque, en rigor, solo a partir de una muestra seleccionada aleatoriamente es posibleobtener una extrapolacion al global de la poblacion de la que procede, que en tal caso seefectuara en terminos probabilısticos.

Figura 1: Esquema del proceso estadısticoEstudio estadístico

Iniciación a la Investigación en Ciencias de la Salud

Población

Muestra

Descripción

Descriptiva

Muestreo

Inferencia

Probabilidad

Nuestra intencion es completar el esquema desde un punto de vista basico, lo cual da lugar atres tipos de problemas segun hemos indicado antes, aunque pueden ampliarse si se introducenmas variables en el estudio. No obstante, en la primera parte del manual nos limitaremos aun estudio de la relacion entre variables desde un punto de vista meramente descriptivo, esdecir, sin animo de extrapolar los resultados al global de la poblacion. Se trata pues de unaEstadıstica Descriptiva para varias variables (fundamentalmente dos). No obstante y con uncaracter meramente preliminar, debemos aprender a describir una unica variable de maneraaislada (capıtulo 1).

La extrapolacion de estos resultados al global de la poblacion, es decir, la Inferencia Es-tadıstica, ası como unas nociones mınimas de probabilidad y muestreo, se abordan en la segundaparte.

Algunas consideraciones de caracter didactico

La exposicion de la materia es heterodoxa. Estamos dispuestos a asumir diversas inconsis-tencias que, desde un punto de vista formal, conlleva esta transgresion en aras de facilitar alalumno el estudio de la Estadıstica a nivel basico. Concretamente, el concepto de probabili-dad se trata fundamentalmente en el capıtulo 4 y a un nivel intuitivo, aunque, realmente, el

Page 8: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

8 INDICE GENERAL

concepto ya se adelanta en la primera parte (por ejemplo, en el ultimo apartado de la seccion3.3). Nuestra experiencia nos hace entender que un tratamiento riguroso de este concepto escontraproducente cuando el objetivo es que el alumno aprenda a manejar por sı mismo losmetodos de analisis de datos mas utilizados en las Ciencias de la Salud.

Como hemos dicho, los metodos de Inferencia Estadıstica se estudian en un mismo capıtu-lo, el quinto, donde se muestra mayor interes por clasificarlas que por describirlas de maneraexhaustiva. Optamos por esta disposicion en virtud del papel preponderante que desempenanlos programas estadısticos en el proceso al que se someten los datos. A dıa de hoy y para unusuario de la Estadıstica, saber que tecnica debemos aplicar y como se interpretan los resul-tados obtenidos priman sobre los detalles tecnicos y calculos numericos de los procedimientosutilizados. Es claro que lo ideal serıa dominar todos los aspectos, pero el hecho es que el tiempoque se asigna a esta materia es limitado y nos hemos decantado por lo primero. El alumno quepretenda llevar a cabo estudios estadısticos de mayor envergadura o entender con mayor rigorlos metodos aquı descritos debera ampliar su formacion. En la bibliografıa indicamos materialesdiversos que pueden ser de utilidad en tal caso.

Por ultimo, se hace referencia en el capıtulo 5 a diversos archivos tipo SPSS que estan adisposicion de los alumnos de la UEx. El SPSS es el software estadıstico utilizado en nues-tro caso por dos razones: primero, porque resulta muy sencillo de manejar; segundo, porqueesta universidad tiene contratada una licencia para su uso. Por ello, hemos incluido una ter-cera parte que, a modo de tutorial, recoge algunas capturas de pantallas relacionadas con elmenu de SPSS. Tambien coviene informar a quien no disponga de dicho programa que pode-mos ejecutar todos los metodos estadısticos que estudiamos aquı de una forma muy similarmediante el paquete Rcomander del programa R, que puede descragarse gratuitamente desdehttp://www.r-project.org/.

Page 9: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Parte I

Estadıstica Descriptiva

9

Page 10: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de
Page 11: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Capıtulo 1

Estudio de una variable

En un sentido muy amplio, la Estadıstica Descriptiva es la parte o fase de la Estadısticadedicada a la descripcion (entendemos por descripcion la clasificacion, representacion graficay resumen) de un conjunto de n datos. En un contexto mas general esos n datos constituiranuna muestra de tamano n extraıda de una poblacion y la descripcion de dicha muestra habrade completarse posteriormente con una inferencia o generalizacion al total de la poblacion.

El presente capıtulo se dedica a la descripcion de una variable mientras que los dos siguientesabordan el estudio correlativo de dos variables. En todo caso distinguiremos entre la clasificacionde los datos en tablas, la representacion grafica y el calculo de parametros que resuman lainformacion. A su vez, distinguiremos entre variables cualitativas y cuantitativas.

1.1. Tablas de frecuencias

La construccion de tablas de frecuencias ha sido hasta hace bien poco la fase preliminara cualquier estudio descriptivo, utilizandose como medio para la elaboracion de graficos y elcalculo de valores tıpicos. Hoy en dıa no se entiende el proceso estadıstico sin el concurso deun programa informatico que facilita automaticamente los graficos y calculos deseados, de ahıque las tablas de frecuencia hayan perdido cierto protagonismo.

Construir una tabla de frecuencias basica equivale a determinar que valores concretos se danen la muestra y con que frecuencia. Se denomina tambien distribucion de frecuencias. Veamosuna serie de sencillos ejemplo para distintos tipos de variables.

Ejemplo 1: variable cualitativa. En estudio sobreel grupo sanguıneo realizado con n = 6313 individuos seobtuvo la siguiente tabla de frecuencias:

Grupo i fi0 2892A 2625B 570

AB 226Total 6313

Esta tabla puede completarse con una columna donde queden reflejadas las correspondientesproporciones:

Grupo i fi pi0 2892 0,458A 2625 0,416B 570 0,090

AB 226 0,036Total 6313 1

11

Page 12: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

12 CAPITULO 1. ESTUDIO DE UNA VARIABLE

Los terminos fi y pi hacen referencia, respectivamente, a los conceptos de frecuencia y propor-cion y se denominan comunmente frecuencia absoluta y frecuencia relativa. La frecuencia rela-tiva se expresa en ocasiones mediante un porcentaje, de manera que en nuestro caso tendrıamos45.8 %, 41.6 %, 9.0 % y 3.6 %. El sımbolo ∧ que encontramos encima de pi hace referencia alhecho de que la proporcion es relativa a la muestra, en contraposicion con el estudio poblacionalo probabilıstico que abordaremos en capıtulos posteriores.

Ejemplo 2: variable cuantitativa. Las edades en anos en ungrupo de n = 25 estudiantes universitarios son las siguientes: 23,21, 18, 19, 20, 18, 23, 21, 18, 20, 19, 22, 18, 19, 19, 18, 23, 22, 19,22 , 21, 18, 24, 24, 20.

Al contrario que en el ejemplo anterior, los datos que obtenemos son numericos. Se denotarapor x1 el primero de ellos segun el orden en que nos llegan los datos, es decir, en nuestro casox1 = 23. Ası se denotara x2 = 21 y sucesivamente hasta llegar a x25 = 20. Para organizar estainformacion debemos considerar el valor mas pequenos que aparece, en nuestro caso 18. Dichovalor se denotara en lo sucesivo por x1. Se contabilizara el numero de ocasiones en las que sepresenta, el cual sera su frecuencia absoluta y se denotara por f1, que en nuestro caso es 6; elsegundo valor es x2 = 19, que aparece f2 = 5 veces y ası sucesivamente hasta llegar a x7 = 24que aparece f7 = 2 veces. Ası pues, obtenemos la siguiente tabla de frecuencias absolutas a laque anadimos las frecuencias relativas:

xi fi pi18 6 0.2419 5 0.2020 3 0.1221 3 0.1222 3 0.1223 3 0.1224 2 0.08

Total 25 1

En total, tenemos pues k = 7 valores distintos. La suma de sus respectivas frecuencias absolutasdebe ser igual al numero total de datos. Analogamente, la suma de sus frecuencias relativas hade ser igual a 1:

k∑i=1

fi = n

k∑i=1

pi = 1

Notese que, al tratarse de datos numericos, existe un orden preestablecido en los mismos, cosaque no sucedıa en el ejemplo anterior. Eso nos permite construir otra columna, la de frecuenciasabsolutas acumuladas, donde se anota, para cada valor xj, el numero Fj total de datos menoreso iguales al mismo, es decir,

Fj =

j∑i=1

fi

A esta columna puede anadırsele la de frecuencias relativas acumuladas que resulta de dividirlas anteriores por el numero total de datos (aunque no se hara uso de la misma en este manual)

Hi = Fi/n

Page 13: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

1.2. REPRESENTACION GRAFICA 13

xi fi pi Fi Hi

18 6 0.24 6 0.2419 5 0.20 11 0.4420 3 0.12 14 0.5621 3 0.12 17 0.6822 3 0.12 20 0.8023 3 0.12 23 0.9224 2 0.08 25 1

Total 25 1

1.2. Representacion grafica

El segundo paso del proceso consiste en ilustrar mediante un grafico lo obtenido en la tablade frecuencias. Existen varios tipos de graficos. El mas simple es el conocido como diagrama desectores. En el caso del ejemplo 1, la tabla de frecuencia quedarıa plasmada segun la figura 1.1.

Figura 1.1: Diagrama sectores grupo sanguıneo

Para ilustrar la tabla de frecuencias del ejemplo 2 podrıamos escoger tambien un diagramade sectores. No obstante, dado el orden natural que existe en los valores de la variable, se sueleoptar por otro tipo de grafico denominado diagrama de barras. Presentamos a continuacion eldiagramas de barras para las frecuencias absolutas:

Ejercicio 3. Explica que te sugiere la figura 1.2.

Los diagramas de barras para las frecuencias relativas ofrecerıan un aspecto identico al delos anteriores graficos pero con diferente escala en el eje OY. Las lıneas que unen las distintasbarras se denominan polıgonos de frecuencia.

La variable estudiada en el ejemplo 2 admite 7 posibles valores, de ahı que el diagramade barras resulte muy ilustrativo. Imaginemos por un momento que sucederıa si en vez decuantificar la edad por anos cumplidos se midiera por dıas, o incluso por segundos. En esecaso, lo mas probable serıa que no hubiera dos estudiantes con la misma edad con lo que latabla de frecuencias perderıa su sentido ultimo. Consistirıa en una larga ordenacion verticalde los valores obtenidos donde todos ellos presenta frecuencia absoluta 1. El diagrama debarras resultante se antojarıa claramente mejorable en cuanto a su poder ilustrativo. Es lo queocurre si, por ejemplo, representamos el diagrama de barras correspondiente a la medicion dela colesterolemia (mg/cm3) en una muestra de n = 30 individuos:Ante tal situacion y si nuestra intencion es obtener una grafico que nos ayude a entenderfacilmente la distribucion de los datos obtenidos, parece razonable empezar por agrupar los

Page 14: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

14 CAPITULO 1. ESTUDIO DE UNA VARIABLE

Figura 1.2: Diagrama de barras para edad alumnos

Rec

uen

to

6

5

4

3

2

1

0

Edad

24232221201918

Página 1

Figura 1.3: Diagrama de barras para colesterolemia

Rec

uen

to

1,0

0,8

0,6

0,4

0,2

0,0207.0936342556276

201.50242574309618

196.52959391286672

188.18835541945276

187.9957284987757

182.5434655197335

181.1897043629511

179.9311189026346

174.3895958640551

173.64090329642116

170.2943128558843

164.40721169190735

157.21725341985768

155.5551931664666

132.1491201450705

Página 1

datos en clases (intervalos). De esta manera, en la columna de frecuencias absolutas se conta-bilizara el numero de veces que aparece cada clase. Las demas columnas se elaboraran a partirde esta como ya sabemos. Los graficos correspondientes se denominan histogramas. En el casodel ejemplo 3 podemos obtener el siguiente histograma de frecuencias absolutas:

En definitiva, agrupar en clases significa simplificar, perder una parte de la informacion, enaras de una mejor ilustracion de la misma. El procedimiento a seguir a la hora de construirlas clases y representar los histogramas puede llegar a resultar bastante complejo a la par quepuramente convencional. En Milton (2007) podemos encontrar un algoritmo perfectamentedescrito. En la actualidad, todas las tareas graficas se encomiendan a programas estadısticosque tiene implementados sus propios algoritmos. Por todo ello pasaremos de puntillas por estacuestion. Tan solo destacaremos que el asunto mas crucial en lo que respecta al aspecto delgrafico es el numero de intervalos que debemos considerar. Parece claro que dicho numero debeguardar algun tipo de relacion con el numero total de datos n. Efectivamente, si el numero deintervalos escogido es demasiado pequeno el grafico resultara excesivamente simplista, como enel grafico de la izquierda de la figura 1.5; por contra, si el numero de intervalos es demasiadogrande el histograma resultara demasiado abrupto, como en el grafico de la derecha:

Con caracter orientativo, la ley de Sturges (el programa SPSS no la respeta) sugiere que,

Page 15: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

1.2. REPRESENTACION GRAFICA 15

Figura 1.4: Histograma para colesterolemia

Colesterolemia

225200175150125F

recu

enci

a

15

10

5

0

Página 1

Figura 1.5: Colesterolemia con 3 y 50 clases

Colesterolemia

225200175150125

Fre

cuen

cia

20

15

10

5

0

Página 1

Colesterolemia

225200175150125

Fre

cuen

cia

3

2

1

0

Página 1

si disponemos de n datos, contruyamos el siguiente numero de intervalos:

Ent(1 + log2 n

).

De esta forma, si hay entre 16 y 31 datos, se debera tomar 5 clases, si hay entre 32 y 63, setomaran 6, etc. Insistimos en que esta ley es meramente orientativa. En nuestrao caso, quedarıacomo sigue:

Ejercicio 4. Explica que te sugiere la figura 1.6.

Veamos otro ejemplo:

Ejemplo 3: variable cuantitativa continua. La exposicionaguda al cadmio produce dolores respiratorios, danos en los rinonesy el hıgado, y puede ocasionar la muerte. Por esta razon se controlael nivel de polvo de cadmio y de humo de oxido de cadmio en elaire. Este nivel se mide en miligramos de cadmio por metro cubicode aire. Una muestra de 35 lecturas arroja estos datos (Basado enun informe de Environmental Management, septiembre de 1981):

En este caso sucede tambien que la variedad de valores posibles es demasiado amplia enrelacion con el numero de datos, es decir, que estos no se repiten o se repiten demasiado pococomo para que merezca la pena construir una tabla de frecuencias con su correspondientediagrama de barras, de ahı que optemos tambien por un histograma con 5-6 intervalos.

Page 16: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

16 CAPITULO 1. ESTUDIO DE UNA VARIABLE

Figura 1.6: Colesterolemia con 6 intervalos

Colesterolemia

225200175150125

Fre

cuen

cia

12

10

8

6

4

2

0

Página 1

Cuadro 1.1: Concentracion cadmio0.044 0.030 0.052 0.044 0.0460.020 0.066 0.052 0.049 0.0300.040 0.045 0.039 0.039 0.0390.057 0.050 0.056 0.061 0.0420.055 0.037 0.062 0.062 0.0700.061 0.061 0.058 0.053 0.0600.047 0.051 0.054 0.042 0.051

Ejercicio 5. Representar los datos anteriores haciendo uso de una hoja de calculo o un pro-grama estadıstico.

En el contexto de la Estadıstica Descriptiva se denominan continuas las variables numericasque precisan de un histograma para ser representadas, en contraposicion con las que puedenrepresentarse aceptablemente por un diagrama de barras, que se denominan discretas. No obs-tante, el diagrama de barras puede ser igualmente util para representar variables cualitativas,en especial si son de tipo ordinal. Otro tipo de grafico de gran interes en estas situaciones yque guarda gran similitud con el histograma de frecuencias absolutas es el denominado dia-grama tallo-hoja, en el que cada dato se identifica con una cifra de la derecha que indica elvalor de las unidades, siendo la correspondiente a su izquierda el valor de las decenas. Tambienconsideraremos los denominados diagrama de caja o box-plot, pero eso sera mas adelante.

Figura 1.7: Diagrama tallo-hoja para los datos del ejemplo 3

Page 17: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

1.3. VALORES TIPICOS 17

Ejercicio 6. Identificar los datos del ejemplo 3 en el diagrama tallo-hoja de la figura 1.7.

La Campana de Gauss: Para acabar esta seccion, destacamos que histogramas como el dela figura 1.6 sugieren un tipo de curva muy bien caracterizada que denominamos curva normalo campana de Gauss. Concretamente, en casos como estos solemos afirmar que los datos seajustan aproximadamente a un modelo de distribucion tipo normal. Hablamos de tipo porque nose trata de un modelo unico sino de una familia que depende de dos parametros. Variables quese ajustan aproximadamente a un modelo normal son relativamente frecuentes en la naturale-za, de ahı que la curva normal desempene un papel destacado en la Estadıstica. Fue estudiadainicialmente por Laplace y Gauss. Ambos se ocupaban de problemas de astronomıa y en amboscasos una distribucion normal explico el comportamiento de los errores en medidas astronomi-cas. La aplicacion de la distribucion normal no quedo reducida al campo de la astronomıa. Lasmedidas fısicas del cuerpo humano o de un caracter psıquico en una poblacion, las medidasde calidad de productos industriales y de errores en procesos fısico-quımicos de medicion engeneral, se distribuyen con frecuencia segun curvas normales. Desde un punto de vista teoricoes el denominado Teorema Central del Lımite el que confiere a la distribucion normal un papelpreponderante en la Estadıstica. Este viene a decirnos, en terminos intuitivos (se enunciaraformalmente en la seccion 4.1), lo siguiente: una variable cuyo resultado se debe a una sumade causas independientemente y de similar importancia se distribuye aproximadamente segunun modelo de distribucion tipo normal.

1.3. Valores tıpicos

El tercer paso del proceso descriptivo consiste en calcular una serie de numeros cuyo proposi-to es sintetizar la informacion que aportan los n datos de la muestra considerada. Los valorestıpicos son, precisamente, esos numeros que pretenden caracterizar la muestra. Esta fase delestudio solo tiene sentido cuando la variable estudiada es cuantitativa. Distinguiremos entremedidas de centralizacion, medidas de posicion, medidas de dispersion y medidas de forma:

1.3.1. Medidas de centralizacion

Las mas importantes sin duda aunque por sı mismas no suelen bastar para resumir lainformacion. La idea puede ser la siguiente: si pretendemos explicar la mayor parte posible deinformacion con un unico numero, ¿cual escogemos? Buscamos pues un numero representativo,un valor central en algun sentido. De todos los que mencionaremos a continuacion, los querealmente nos interesan son la media aritmetica y la mediana.

Moda: es el valor de la muestra que mas se repite.

Media aritmetica: es el valor central en sentido aritmetico. Se obtiene sumando los n datosde la muestra y dividiendolos por el tamano de esta, es decir,

x =∑n

i=1 xin

donde cada dato xi aparece en el sumatorio tantas veces como se repita en la muestra, es decir,si los datos estan agrupados en una tabla de frecuencias, se puede calcular tambien de la forma:

x =

∑ki=1 xifin

=k∑i=1

xipi (1.1)

Page 18: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

18 CAPITULO 1. ESTUDIO DE UNA VARIABLE

Como podemos apreciar en la expresion anterior, a cada dato xi se le asigna un peso pi equiva-lente a la proporcion que representa en la muestra. Podemos establecer una analogıa entre lamedia aritmetica y el concepto fısico de centro de gravedad, es decir, la media aritmetica puedeentenderse como el centro de gravedad de los datos de la muestra, y como tal puede verse muyafectada ante la presencia de valores extremos.

En el ejemplo 2 de las edades de 25 estudiantes tenemos x = 20.36 anos. La media seexpresa, logicamente, en las mismas unidades que los datos originales. Indicar dicha unidad esaconsejable. El hecho de que los datos esten agrupados en intervalos, como ocurre en el ejemplo3, no debe afectar al calculo de la media. Es decir, la media debe calcularse a partir de losdatos originales sin agrupar. En ese ejemplo, obtenemos precisamente x = 0.0493.

Ejercicio 7. Que le sucede a la media aritmetica si a todos los datos les sumamos una mismacantidad k? ¿Y si los multiplicamos por una misma cantidad k?

Ejercicio 8. ¿Es cierto que sumar n datos es equivalente a sumar la media de los mismos nveces?

Ejercicio 9. Averigua que entendemos por esperanza de vida.

Media geometrica: es el valor central en el sentido del producto, pues se define como laraız n-esima del producto de los datos de la muestra.

Media truncada: es la media aritmetica que se obtiene una vez se han excluido el 5 % dedatos mas extremos.

Mediana: es el valor central x en el sentido del orden, es decir, aquel que quedarıa en elmedio una vez ordenados los datos de menor a mayor, repitiendose si es necesario tantas vecescomo aparezcan en la muestra. Para calcularla basta pues con ordenar los datos y determinarla posicion del medio. Si el numero de datos n es impar no cabe duda de que la mediana es eldato que ocupa la posicion n+1

2. Si n es par tenemos un conflicto que puede resolverse mediante

un convenio: definir la mediana como la semisuma de los datos que ocupen las posiciones n2

yn2

+1. En este proceso puede ser de utilidad la columna de las frecuencias absolutas acumuladaso un diagrama tallo-hoja. De todas formas, lo ideal es delegar el calculo de media o medianaen un programa estadıstico. Si es ası, todos estos detalles resultan irrelevantes. En el ejemplo2, el valor mediano es 20, que ocupa la posicion 13. En el ejemplo 3 tenemos x = 0.051, queocupa la posicion 17.

Figura 1.8: Volumen tumor

Volumen tumor

50,0040,0030,0020,0010,00,00

Fre

cuen

cia

40,0

30,0

20,0

10,0

0,0

Página 1

Page 19: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

1.3. VALORES TIPICOS 19

Al contrario de lo que sucede con la media, la mediana es robusta en el sentido de queno se ve afectada por la presencia de valores extremos. Efectivamente, es obvio que podemosreemplazar el valor mayor de la muestra por otro mucho mas grande sin que ello afecte a lamediana. Esta cualidad podrıa considerarse negativa por denotar un caracter menos informativoque la media pero tambien puede resultar positiva cuando una clara asimetrıa con presencia devalores extremos desplaza fuertemente la media restandole representatividad. Es lo que puedesuceder en un caso como el de la figura 1.8, en el que se recogen el volumen de un tumor deprostata de n = 97 pacientes. De este tipo de distribucion asimetrica se dice que tiene un sesgopositivo o hacia la derecha.

Ejercicio 10. ¿Que relacion se da entre la media y la mediana si el sesgo es positivo, es decir,cual es mayor? ¿Que relacion se dara entre la media y la mediana si la distribucion es normal?

Ejercicio 11. Calcula la media y la mediana del siguiente conjunto de datos: 8,0,10,9,9.

1.3.2. Medidas de posicion

Se trata de una serie de numeros que dividen la muestra ordenada en partes con la mismacantidad de datos. La principal medida de posicion ya la hemos estudiado: la mediana, puesdivide la muestra en dos mitades. Efectivamente, sabemos que el 50 % de los datos debe serinferior a la mediana y el resto superior.

Cuartiles: si pretendemos dividir la muestra ordenada en cuatro partes iguales obtenemoslos denominados cuartiles, que se denotan por Q1, Q2 y Q3. El primero deja a su izquierda (odebajo, segun se prefiera) el 25 % de los datos; el segundo deja a la izquierda el 50 %, por lo quese trata de la propia mediana; el tercero deja a la derecha el 25 %. Respecto al calculo de Q1 yQ3, lo ideal es encomendarse a un programa estadıstico. Si no se cuenta con el convenimos, porejemplo, lo siguiente: para una muestra de tamano n y ordenada de menor a mayor Q1 sera eldato que tenga por posicion la parte entera de n/4. Q3 sera el datos que ocupe esa posicionpero contando desde el final.

Deciles Si dividimos la muestra en diez partes iguales obtenemos los denominados decilesque van de D1 a D9. Obviamente, la mediana coincidira con el el decil D5.

Percentiles Si dividimos la muestra en 100 partes iguales, obtendremos los percentiles, quevan de p1 a p99. De nuevo, la mediana coincide con el percentil 50 y los cuartiles Q1 y Q3

con p25 y p75, respectivamente. Los percentiles se utilizan mucho en pediatrıa para analizar elcrecimiento de los recien nacidos.

En general, podemos hablar de los cuantiles. Dado un valor γ en el intervalo (0, 1), el cuantilγ se define como el valor que deja a su izquierda el γ × 100 % de los datos. De esta forma,el decil D2 serıa el cuantil 0.20, por ejemplo. Hemos de tener en cuenta que solo para unamuestra amplia (la cual hace imprescindible el uso de un programa estadıstico) tiene sentidoconsiderar divisiones finas de la misma. Por ello, si contamos con pocos datos es absurdo hablarde percentiles, o incluso de deciles.

1.3.3. Medidas de dispersion

Tienen por objeto completar la informacion que aportan las medidas de centralizacion puesmiden el grado de dispersion de los datos o, lo que es lo mismo, la variabilidad de la muestra.Las fundamentales son la desviacion tıpica y el rango intercuartılico.

Page 20: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

20 CAPITULO 1. ESTUDIO DE UNA VARIABLE

Rango: es el mas inmediato pues expresa la diferencia entre el valor mayor y el menor. Enel ejemplo 2 serıa igual a 24− 18, es decir, 6.

Varianza: nos da una medida de dispersion relativa al tamano muestral de los distintos datosrespecto a la media aritmetica x. Una primera definicion es la siguiente:

s2 =

∑ni=1(xi − x)2

n

El hecho de elevar las diferencias respecto a x al cuadrado se debe a que, como es facil decomprobar,

∑ni=1(xi−x) = 0, pues los datos que quedan a la derecha de la media se compensan

con los que quedan a su izquierda. Se podrıa haber optado por considerar el valor absoluto delas diferencias, lo cual darıa a lo que se conoce como desviacion media, pero eso conllevarıanumerosas inconvenientes tecnicos. Si los datos estan tabulados, la expresion anterior equivalea la siguiente:

s2 =k∑i=1

(xi − x)2pi (1.2)

No obstante, con vista a una posterior Inferencia Estadıstica aparecera dividida por n − 1 envez de n Suele denominarse en tal caso varianza insesgada o cuasi-varianza. En la segunda partedel manual y si no se especifica lo contrario, cada vez que hablemos de varianza nos estaremosrefiriendo a la insesgada (n − 1). El hecho de dividir por n − 1 en lugar de n el contexto dela Inferencia Estadıstica es apenas apreciable cuando n es grande, por o que no debe desviarnuestra atencion de la esencia del parametro. El calculo de la varianza lo encomendamos elprograma estadıstico o, en su defecto, a la calculadora. En el ejemplo 2, de las edades en anosde 25 alumnos, se obtiene una varianza s2 = 4.157 anos2.

Desviacion tıpica: podemos observar que en la varianza anterior las unidades originales seperdieron por la necesidad de elevar al cuadrado las diferencias. Para recuperarlas basta conefectuar la raız cuadrada de la varianza obteniendo lo que denominamos desviacion tıpica, quese denotara por s. Ası pues,

s =

√∑ni=1(xi − x)2

n

Igualmente, en la Inferencia EStadıstica, se utilizara la cuasi-desviacion tıpica que se obtienea partir de la cuasi-varianza. En el ejemplo 2, tendrıamos s = 2.039 anos.

Ejercicio 12. ¿Puede ser negativa la desviacion tıpica? ¿Como se interpreta una desviaciontıpica nula?

Ejercicio 13. ¿Que le sucede a la desviacion tıpica si a todos los datos les sumamos una mismacantidad k? ¿Y si los multiplicamos por una misma cantidad k?

Ejercicio 14. Se denomina tipificacion o estandarizacion a la accion de restar a cada dato xide la muestra la media aritmetica y, posteriormente, dividir el resultado entre la desviaciontıpica, es decir, calcular

zi =xi − xs

(1.3)

¿Cuales seran entonces la media y la desviacion tıpica de los datos tipificados? ¿En que dimen-siones se expresaran?

La desviacion tıpica funciona como complemento de la media dado que, mientras la ultimaindica el centro aritmetico de los datos, la primera expresa el grado de dispersion respecto adicho centro. De esta forma, el par de numeros (x, s) pretende resumir la informacion contenida

Page 21: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

1.3. VALORES TIPICOS 21

en los n datos de la muestra. En concreto, si nuestros datos se distribuyeran segun una distribu-cion normal, el mero conocimiento de x y s permitirıa reproducir con exactitud el histograma.Ası, ocurre por ejemplo que entre los valores x − s y x + s se encuentra ua proporcion muycercana al 68 % de los datos, o que entre x− 2 · s y x+ 2 · s se encuentra una proporcion muycercana al 95 %. En ese sentido afirmamos que el par (x, s) resume perfectamente la informa-cion contenida en una muestra cuando los datos de la misma se distribuyen segun una curvanormal. Entendemos tambien que, a medida que nos alejamos de dicho modelo el par, anteriorpierde su capacidad de sıntesis. De hecho, sabemos que en determinadas situaciones la mediaaritmetica puede considerarse menos representativa que la mediana. En tal caso necesitamosuna medida de dispersion que complemente dicho valor central.

Rango intercuartılico o amplitud intercuartil: pretende ser un complemento adecuadoa la mediana. Esta basado al igual que esta en el orden de los datos y se define medianteRI = Q3 −Q1. En el caso de los datos del ejemplo 2, obtenemos RI = 2.

A partir de los cuartiles y el rango intercuartılico podemos construir un grafico denominadode cajas o box-plot, muy utilizado. Se trata de una caja cuyos bordes son los cuartiles primeroy tercero, con una linea gruesa a la altura de la mediana. Conociendo el rango intercuartılicose determinan unos lımites (distan del los cuartiles Q1 y Q2 1.5 veces el rango intercuartılico) apartir de los cuales los valores se consideraran extremos y se marcan los valores no extremos masproximos a dichos lımites. Los valores que queden fuera de esos lımites o vallas se representaranmediante cırculos o asteriscos segun el grado de extremismo que alcancen.

Figura 1.9: Box plot para volumen tumor

Vo

lum

en

tu

mo

r

50,00

40,00

30,00

20,00

10,00

,00

97

94

9186

76

75

55

Página 1

En definitiva, si pretendemos resumir lo mejor posible la informacion contenida en la muestradebemos escoger al menos una medida de centralizacion junto con otra de dispersion. Lo masfrecuente es considerar el par (x, s). Esta opcion es la ideal en el caso de que los datos se distri-buyan segun una curva normal. A medida que nos diferenciamos de ese modelo de distribucionla media adolece de falta de representatividad y el par anterior pierde su capacidad de resumen.La otra opcion es el par (x, RI). Nos decantaremos por esta opcion cuando observemos unafuerte asimetrıa con presencia de valores extremos. Esta eleccion deberıa ir acompanada deluso de tecnicas no parametricas en la posterior inferencia (capıtulo 5).

Por ejemplo, en el siguiente cuadro se muestra una descriptiva basica de varias cinco varia-bles medidas en mujeres de unos 20 anos, distinguiendo entre celiacas y no celiacas:

Page 22: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

22 CAPITULO 1. ESTUDIO DE UNA VARIABLE

Cuadro 1.2: Ejemplo descriptiva basica

N válidoDesviación

típicaMedia N válidoDesviación

típicaMedia

CeliacaSana

Celiaquia

Menarquía años

Talla en cm

Antigladina IgG

Antigladina IgA

Hemoglobina g/dl N=783.3510.93N=792.3514.31

N=7812.6941.35N=7910.9525.65

N=784.198.29N=791.104.25

N=785.59164.20N=795.12163.94

N=781.9013.33N=791.4812.74

Página 1

Coeficiente de variacion: se trata de un coeficiente adimensional relacionado con la mediay la desviacion tıpica que es de gran utilidad para comparar la dispersion de distintos grupos dedatos, dado que nos da una medida de la dispersion de los datos relativa al orden de magnitudesque estos presentan. Concretamente, se define mediante

C.V. =s

x× 100.

Ejercicio 15. Se tienen 30 datos numericos correspondientes a la medicion del peso en kg.de 30 individuos. ¿En que dimensiones se expresaran la media aritmetica, varianza, desviaciontıpica y coeficiente de variacion?

Ejercicio 16. Considera los dos grupos de datos (a) y (b) siguientes: (a)1.80, 1.79, 1.77,1.83, 1.52. (b) 180, 179, 177, , 183, 152. ¿Tienen la misma media?¿Tienen la misma desviaciontıpica?¿Tienen en comun algun parametro descriptivo de los considerados anteriormente?

1.3.4. Medidas de forma

Por ultimo, mencionaremos dos parametros que pretenden dar cierta idea de la forma en laque se distribuyen los datos. Deben guardar pues una estrecha correspondencia con lo observadoen los histogramas, diagramas tallo-hoja y diagramas de caja. Las dos medidas que definimosa continuacion son muy difıciles de calcular si no se hace uso de un programa estadıstico. Perolo que nos interesa de ellas no es su calculo sino su interpretacion.

Coeficiente de asimetrıa: es, como su propio nombre indica, una medida del grado deasimetrıa o sesgo que se da en la distribucion de los datos. Se define mediante

g1 =m3

s3, siendo mk =

∑ni=1(xi − x)k

n, k = 1, 2, 3...

Distinguimos a grandes rasgos tres situaciones:

1. g1 > 0: Distribucion asimetrica de los datos con sesgo positivo (figura 1.8).

2. g1 < 0: Distribucion asimetrica con sesgo negativo.

3. g1 = 0: Distribucion simetrica.

Coeficiente de aplastamiento o de Curtosis: expresa el grado de aplastamiento de unadistribucion simetrica respecto al que corresponderıa a una distribucion normal con su mediay desviacion tıpica, de manera que un valor 0 equivale a una campana de Gauss, mientras queun valor negativo indica un aplastamiento excesivo. Un valor positivo indica lo contrario.

Page 23: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

1.3. VALORES TIPICOS 23

Otras cuestiones propuestas

Ejercicio 17. Se midio, a traves de cierto aparato, una determinada variable bioquımica,obteniendo un total de 146 datos numericos, que presentaron una media aritmetica de 4.2 yuna desviacion tıpica de 1.1, en las unidades de medida correspondientes. Tras representar elhistograma de frecuencias absolutas, se comprobo que los datos configuraban aproximadamenteuna Campana de Gauss.

Indica un intervalo que contenga aproximadamente al 68 % de los datos.

Se averigua posteriormente que el aparato de medida comete un error sistematico consis-tente en indicar, en todo caso, media unidad menos que el verdadero valor de la variable.¿Cuales seran entonces la media aritmetica y desviacion tıpica de los 146 verdaderosvalores?

Ejercicio 18. Se mide cierta variable sobre una muestra de 10 individuos, obteniendose lossiguientes datos.

4 5 4.5 3.9 5.2 4 5.2 5.3 23 4.1

Dar una medida de centralizacion y otra de dispersion adecuadas.

Ejercicio 19. Indica dos grupos, de 5 datos cada uno, que presenten...

La misma media pero distinta desviacion tıpica.

La misma desviacion tıpica pero distinta media.

La misma mediana y distinta media.

La misma media y distinta mediana.

Ejercicio 20. Los individuos A y B manejan un ecografo. Se pretende dilucidar cual de los dostiene mayor precision a la hora de efectuar mediciones. Para ello se asigno a A la medicion de unmismo objeto en 10 ocasiones diferentes, anotandose los resultados. Al individuo B se le asignaun objeto diferente que mide en otras 10 ocasiones. Razona que parametro (o parametros)estadıstico consideras mas apropiado para efectuar la comparacion.

Ejercicio 21. Razona si son verdaderas o falsas cada una de las siguientes afirmaciones:

Si una muestra de datos presenta media 0, su desviacion tıpica sera pequena.

Cuanto mayor es el tamano de la muestra, mayor es su varianza.

Cuanto mayor es el tamano de la muestra, mayor es su media.

Si g1 ' 0 la media y la mediana deben ser parecidas.

Ejercicio 22. La siguiente tabla representa el numero de infartos de miocardio por dıa que seatendieron en un servicio especializado durante 30 dıas:

Infartos 0 1 2 3 4 5 6fi 2 3 8 11 2 3 1

a) Representar el diagrama de barras para frecuencias absolutas y frecuencias absolutasacumuladas.

b) Calcular la media, varianza, desviacion tıpica y coeficiente de variacion de los datosanteriores.

Page 24: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

24 CAPITULO 1. ESTUDIO DE UNA VARIABLE

c) Calcular la mediana y el rango intercuartılico.

Ejercicio 23. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla a ninos.El nivel de proteccion estandar obtenido por antiguas vacunas es de 1 µg/ml un mes despuesde la inmunizacion. Se han obtenido estos datos del nivel de proteccion de la nueva vacuna altranscurrir un mes: (Basado en un informe del Journal of Family Practice, enero 1990.)

12.5 13.5 13 13.5 1312.5 13.5 14 13.5 1313 14 14.5 13 12

13.5 13.5 12.5 12.5 12.5

a) Representa el diagrama de barras para las frecuencias relativas acumuladas.

b) Calcula la media, mediana, desviacion tıpica y rango intercuartılico.

c) ¿Que proporcion de datos son inferiores o iguales a 13?

Ejercicio 24. Considerar los datos del ejemplo 3.

a) Obtener mediante una calculadora o un programa estadıstico los valores de la mediaartimetica, la desviacion tıpica y el coeficiente de variacion.

b) Obtener, a partir del diagrama tallo-hoja, la mediana y el rango intercuartılico.

c) Indica un par de numeros que resuman lo mejor posible esos 35 datos.

d) Razona cual debe ser el signo del coeficiente de simetrıa. ¿Y el del coeficiente de aplas-tamiento?

Ejercicio 25. Los datos del siguiente diagrama tallo-hoja corresponden a la concentracion demercurio [µgr/cm3] en la sangre de 25 individuos de una zona contaminada. Se utiliza comounidad 1:

0 81 0 22 0 5 73 0 2 5 5 6 6 84 0 0 1 4 5 55 0 2 36 1 27 0

Calcula, ayudandote si lo consideras necesario de una calculadora o programa estadıstico, lamedia, mediana, desviacion tıpica y rango intercuartılico de estos 25 datos. ¿Que par de valoresconsideras que resumen adecuadamente la informacion de toda la muestra? ¿Por que? ¿Quevalores cabe esperar para los coeficientes de simetrıa y aplastamiento?

Ejercicio 26.

En una zona boscosa cerca de Seattle se tomaron 35 medidas de concentraciones de ozono(partes por billon), obteniendose como resultados los graficos de la figura 1.10 y la tabla delcuadro 1.3. Comentar los aspectos mas destacados de la distribucion de los datos y seleccionarun par de parametros que resuman lo mejor posible la informacion que contiene la muestra.

Page 25: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

1.3. VALORES TIPICOS 25

Figura 1.10: Concentracion de ozono en Seattle (I)

Concentración de Ozono

220210200190180170160

Fre

cuen

cia

20

15

10

5

0

Página 1

Co

nce

ntr

ació

n d

e O

zon

o

220

210

200

190

180

170

160

35

Página 1

Cuadro 1.3: Concentracion de ozono en Seattle (II)

Ejercicio 27. Se midio el peso en kg de 500 varones recien nacidos despues de la semana 38de gestacion. Los resultados aparecen en la figura 1.11. Comentar los aspectos graficos masdestacados e indicar un par de medidas que resuman satisfactoriamente la informacion queaporta la muestra. Dar un valor aproximado para la mediana y para el percentil p84. Razonarsi deben aparecer valores extremos en el diagrama de caja.

Ejercicio 28. Tipifica (ver (1.3)) los valores correspondientes al peso en kg de 10 personas:35,92,71,64,72,101,45,83,60,72. ¿Como se interpreta una puntuacion tipificada positiva? ¿Ynegativa? ¿Cuales seran las puntuaciones tipificadas de los mismos datos expresados en gramos?

Ejercicio 29. Cuando los datos de una variable se ajustan aproximadamente a un modelo dedistribucion normal, la distribucion de las puntuaciones tipificadas sigue a su vez un modelode distribucion que se denomina normal estandar, cuya media es 0 y cuya desviacion tıpica es1. El modelo se denota por N(0, 1). Es frecuente en general calificar como extremos a los datosmas alejados del centro de la distribucion hasta completar un 5 %. Si la distribucion es deltipo campana de Gauss, seran entonces calificados como extremos los datos cuya distancia a lamedia sea superior al doble de la desviacion tıpica. ¿Por que? ¿Como debe ser la puntuaciontipificada de un dato extremo en una campana de Gauss, es decir, que caracteriza a los valoresextremos en una distribucion normal estandar?

Page 26: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

26 CAPITULO 1. ESTUDIO DE UNA VARIABLE

Figura 1.11: Peso de varones recien nacidos

Figura 1.12: Distribucion N(0, 1)

2-2

2.5 %

Extremos

2.5 %

Extremos

95 %

Ejercicio 30. Un total de 100 jugadores lanza tres dados cada uno y suman sus puntuaciones,obteniendose por lo tanto 100 numeros entre el 3 y el 18 cuyo histograma se representa en lafigura 1.13. ¿Como se explica a nivel intuitivo que los datos se ajusten aproximadamente a unacurva normal? Segun el grafico, ¿cual es aproximadamente el valor de la media? ¿Y el de lamediana? ¿Y el de la desviacion tıpica?

Ejercicio 31. Considera los dos diagramas de cajas de la figura ??, correspondiente a lapuntuacion de ansiedad de Hamilton sobre 20 individuos que viven solos y otros 20 que vivenacompanados. ¿Con que diagrama tallo-hoja de la figura 1.15 se identifica cada grupo? Indicaun par de medidas que resuma lo mejor posible la informacion que aportan los 20 datos. ¿Quepodemos decir del coeficiente de asimetrıa?

Page 27: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

1.3. VALORES TIPICOS 27

Figura 1.13: Suma de tres dados n = 100

Suma

20151050

Fre

cuen

cia

40,0

30,0

20,0

10,0

0,0

Página 1

Figura 1.14: Puntuacion de ansiedad de Hamilton (I)

Estilo de vida

Viven acompañadosViven solos

Pu

ntu

ació

n d

e an

sied

ad d

e H

amilt

on

20,0

15,0

10,0

5,0

0,0

5

Página 1

Figura 1.15: Puntuacion de ansiedad de Hamilton (II)

Page 28: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

28 CAPITULO 1. ESTUDIO DE UNA VARIABLE

Page 29: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Capıtulo 2

Relacion entre variables numericas

Si en el capıtulo anterior se afrontaba el estudio descriptivo de una variable (cualitativa ocuantitativa), en el presente se aborda el estudio conjunto de varias variables. Nos centraremosaquı principalmente en el caso de dos variables numericas aunque tambien consideraremos elestudio conjunto de mas de dos e, incluso, introduciremos una variable cualitativa en la ultimaseccion. El objetivo es analizar la posible relacion entre las variables consideradas. En general,entendemos que entre dos variables, numericas o no, existe relacion o dependencia cuando uncambio en el valor de una de ellas se asocia a un cambio en el de la otra. La situacion contraria,es decir, la ausencia de relacion, se denomina independencia. Por ejemplo, nada nos hace pensarque un valor mayor o menor en la ultima cifra del DNI se asocie a un valor mayor o menoren la concentracion de plaquetas en la sangre, por lo que, en principio, podemos pensar queambas variables son independientes.

Para llevar a cabo el estudio de relacion entre las variables es preciso efectuar un analisisprevio de las mismas por separado segun vimos en el capıtulo anterior. El estudio de la relacionentre variables cualitativas lo abordaremos en el siguiente capıtulo. En buena logica, deberıamosdedicar otro capıtulo mas a la relacion entre una variable cualitativa y otra numerica, pero estetema se tratara de manera mas exhaustiva en la segunda parte. En esta primera parte noscontentaremos con una breve introduccion que incluiremos al final del presente capıtulo. Dadoque nos encontramos en un contexto descriptivo, el analisis de los datos pasa en principio pororganizarlos en tablas, representarlos graficamente y calcular los respectivos valores tıpicosaunque, dado el tipo de grafico que vamos a utilizar, la tabulacion no tiene el menor interes.

2.1. Relacion entre dos variables numericas

Supongamos que contamos con n individuos o unidades experimentales sobre los que semiden numericamente dos caracteres, dando lugar a sendas variables cuantitativas X e Y . Dela medicion de dichos caracteres sobre las unidades experimentales resultaran n pares de datosnumericos, que se denotaran ası: (x1, y1), (x2, y2), ..., (xn, yn). La primera componente del par(xi, yi), es decir, el valor xi, corresponde a la medicion de X en la i-esima unidad experimentaly la segunda corresponde a la variable Y . Veamos un ejemplo de caracter didactico con unapequena muestra de tamano n = 12:

Ejemplo 4: dos variables cuantitativas. Se indica a continuacion elpeso (kg) y la estatura (cm) de 12 personas (no se especifica edad, sexo niningun otro aspecto):

X =peso(kg) 80 45 63 94 24 75 56 52 61 34 21 78Y =altura(cm) 174 152 160 183 102 183 148 152 166 140 98 160

El estudio debe empezar con una estadıstica descriptiva de cada variable por separado, quedeberıa incluir sendos histogramas, ası como al menos una medida de centralizacion y otra de

29

Page 30: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

30 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

dispersion (en principio estamos pensando en la media y la desviacion tıpica). A continuacion,nos dedicamos al estudio descriptivo de la relacion entre ambas variables. Como hemos dichoantes, la tabla de frecuencias, que deberıa contabilizar el numero de ocasiones en el que aparececada par, no posee utilidad practica.

2.2. Diagrama de dispersion

Ası pues, lo primero que nos interesa realmente el la representacion grafica de la muestra.Esta tarea debe encomendarse a un programa estadıstico aunque, en este caso y dado el escasotamano de la misma, podemos hacerlo nosotros mismos.

2.2.1. Diagrama de dispersion simple

El grafico mas adecuado para apreciar la relacion entre dos variables numericas es el de-nominado diagrama de dispersion o nube de puntos, que consiste en identificar cada unidadexperimental (xi, yi) con el punto del plano que tenga por coordenadas xi para el eje OX e yipara OY. De esta forma, los datos anteriores se verıan como sigue:

Figura 2.1: Altura vs peso

Peso10080604020

Alt

ura

200,0

175,0

150,0

125,0

100,0

Página 1

En este otro diagrama de dispersion se aprecia la relacion entre la longitud y la anchura dela cabeza para n = 356 espermatozoides pertenecientes a cierta especie animal:

En ambos casos se observa en la muestra una relacion positiva en el sentido de que elcrecimiento de una variable suele venir emparejado al crecimiento de la otra. Para llegar auna conclusion de este tipo es indiferente cual de las dos variables se identifique con el ejeOX. Veamos, por ejemplo, el grafico de dispersion correspondiente a n = 12 mediciones de lasconcentraciones de hormona paratiroidea (µg/ml) y calcio (mg/100ml) en sangre:

Como denominador comun a los tres ejemplos considerados podemos resaltar que la relacionentre el incremento de la variable X y el correspondiente incremento (posiblemente negativo)de Y es constante. Dicho de una manera mas grafica, la nube se forma en torno a una lınearecta, que puede ser creciente o decreciente. Este tipo de relacion se denomina lineal y esel objeto principal de estudio en este capıtulo. Con ello no queremos decir que sea la unicarelacion posible. Lo que sı es claro es que es la mas sencilla. Mas adelante veremos que, en lapractica, puede servirnos como referencia para abordar problemas en los que las relaciones quese observan no son lineales.

Page 31: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

2.3. COEFICIENTES DE CORRELACION Y DETERMINACION 31

Figura 2.2: Anchura vs longitud cabeza espermatozoides

Longitud

9,2009,0008,8008,6008,4008,2008,0007,800

An

chu

ra

5,200

5,100

5,000

4,900

4,800

4,700

4,600

4,500

Página 1

Figura 2.3: [Ca] vs Pth

Concentración de hormona paratiroidea (mug/ml)

5,004,003,002,001,000,00

Co

nc

en

tra

ció

n d

e c

alc

io (

mg

/10

0m

l)

11,00

10,00

9,00

8,00

7,00

6,00

5,00

Página 1

2.2.2. Diagrama de dispersion matricial

Cuando estudiamos conjuntamente mas de dos variables numericas precisamos un tipo degrafico mas complejo. La mejor opcion, posiblemente, es el grafico de dispersion matricialque confronta las diferentes variables por parejas. Se trata pues de una matriz de graficos dedispersiones simples.

En la figura 2.4 se muestra el grafico de dispersion matricial para las variables longitud defemur (F), circunferencia craneal (C) y circunferencia abdominal (A), medidas en mm para 40fetos de 26 semanas de gestacion.

2.3. Coeficientes de correlacion y determinacion

Abordamos a continuacion el calculo de valores tıpicos. En primer lugar, necesitamos cono-cer la media y desviacion tıpica de cada una de las variables por separado, es decir,

x =

∑i xin

, sx =

√∑i(xi − x)2

n,

y =

∑i yin

, sy =

√∑i(yi − y)2

n

Page 32: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

32 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

Figura 2.4: Femur-craneo-abdomen

ACF

FC

A

Página 1

En el ejemplo 4 correspondiente a los datos de peso (X) y altura (Y ) se tiene:

x = 56.92kg, sx = 22.96kg, y = 151.5cm, sy = 27.47cm

Hecho esto, nos interesa calcular un valor tıpico que exprese el grado de relacion (o corre-lacion) lineal entre ambas variables observado en la muestra. Al contrario que los parametrosanteriores, dicho valor debe conjugar las informaciones que aportan ambas variables. Empeza-remos definiendo la covarianza muestral como sigue:

sxy =

∑ni=1(xi − x)(yi − y)

n

La covarianza, que en el caso del ejemplo 4 se expresara en kg · cm, puede ser tanto positivacomo negativa, pero debe quedar necesariamente acotada por los valores siguientes

− sx · sy ≤ sxy ≤ + sx · sy

En el ejemplo 4, se tiene que sxy debe estar comprendido entre −630.71 y 630.71, siendoconcretamente su valor 577.86 kg · cm. La covarianza pretende expresar el grado de correlacionlineal existente entre las variables X e Y de la siguiente forma:

Un valor positivo de sxy significa una tendencia creciente en la nube de puntos, es decir:si los valores de X crecen, los de Y tambien. Existira por tanto correlacion directa entreambas variables, segun la muestra. El caso extremo sxy = +sx ·sy significa una correlacionlineal perfecta, es decir, que la nube de puntos esta incluida en una unica recta, que seraademas creciente.

Un valor negativo de sxy significa una tendencia decreciente en la nube de puntos, esdecir: si los valores de X crecen, los de Y decrecen. Existira por tanto correlacion inversaentre ambas variables, segun la muestra. El caso extremo sxy = −sx · sy significa unacorrelacion lineal perfecta, es decir, que la nube de puntos esta incluida en una unicarecta, que sera ademas decreciente.

sxy = 0 se traduce, por contra, en la ausencia de relacion lineal en los datos de la muestra.

En la figura 2.5 se ilustra lo dicho anteriormente.

Page 33: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

2.3. COEFICIENTES DE CORRELACION Y DETERMINACION 33

Figura 2.5: izquierda sxy = sxsy; centro sxy ' 0; derecha sxy = −sxsy

-

6

X

Y

r r rr

r r r

-

6

X

Y

r r

rr

r

r

r-

6

X

Y

r r r rr r r

Figura 2.6: Altura vs peso

Peso

10080604020

Alt

ura

200

175

150

125

100

Página 1

Segun lo dicho, en la figura 2.1 correspondiente al ejemplo 4 se observa una alto grado decorrelacion lineal positiva. En el grafico siguiente se aprecia el porque:

Las lıneas de referencia se corresponden con las medias x y y. Determinan cuatro cuadrantes.Los puntos que se encuentran en los cuadrantes superior derecho e inferior izquierdo aportansumandos positivos a la expresion

∑ni=1(xi− x)(yi− y). Los que se encuentran en los restantes

aportan sumandos negativos. En este caso, abunda claramente lo primero, por lo cual la sumaresultante sera un numero positivo y bastante grande.

Para evaluar que entendemos por grande hemos de tener en cuenta la cota maxima que sepuede alcanzar, que no es universal. Nos referimos a sxsy. De hecho, un cambio de unidades(pasar de centımetros a metros, por ejemplo), hace variar tanto las desviaciones tıpicas comola covarianza. Todo ello complica la interpretacion del parametro sxy. Nos interesarıa pues otroparametro que se interprete de forma analoga pero cuyas cotas sean universales. La soluciones facil considerando

rxy =sxysx · sy

Este parametro, que se denotara igualmente por r a secas, se denomina coeficiente de correlacionlineal muestral, se interpreta en los mismos terminos con la salvedad de que se encuentra entodo caso entre -1 y 1 y alcanza esos valores cuando se da en la muestra una correlacion

Page 34: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

34 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

lineal perfecta, bien sea inversa o directa, respectivamente. La proximidad a 0 indica que enla muestra se observa escasa correlacion lineal. Ası, a los datos del ejemplo 4 le corresponder = 0.9161.

Ejercicio 32. ¿En que dimensiones se expresara el coeficiente r en el ejemplo 4?

Ejercicio 33. ¿Que le sucede a r si permutamos las variables en el ejemplo 4, es decir, siidentificamos el peso con el eje OY y la altura con el eje OX?

Desde el punto de vista formal es mas interesante el parametro r2xy, denominado coeficiente

de determinacion muestral. Mas adelante veremos su interpretacion. En el caso del ejemplo 4tenemos r2 = 0.83.

A la figura 2.2 le corresponde un coeficiente de correlacion r =0.618, lo cual expresa unacorrelacion positiva pero mas debil que la observada anteriormente, cosa que debe quedar clarasi en el diagrama de dispersion trazamos las lineas de referencia que pasan por las medias:

Figura 2.7: Anchura vs altura cabeza espermatozoides

Longitud

9,2009,0008,8008,6008,4008,2008,0007,800

An

chu

ra

5,200

5,100

5,000

4,900

4,800

4,700

4,600

4,500

Página 1

Ejercicio 34. La figura 2.4 se corresponde con una matriz de coeficientes de correlacion. ¿Quecaracterısticas generales tendra una matriz de este tipo? ¿Entre que dos variables se dara unmayor coeficiente de correlacion?

2.4. Regresion lineal

En el caso de que se observe una correlacion lineal significativa entre los datos de X ylos de Y (realmente, el lımite entre lo que consideramos significativo y no significativo loestableceremos en la segunda parte), puede ser interesante obtener una ecuacion que permitarelacionar de manera aproximada ambas variables. Esto es de especial interes cuando una delas variables puede medirse de manera sencilla pero otra no. Si entre ambas existe un altogrado de correlacion, el valor de la primera puede utilizarse para pronosticar con mayor omenor fiabilidad el de la segunda. Por ejemplo, la longitud del femur en un feto de 26 semanaspuede medirse de forma sencilla mediante un ecografo. Si dicha longitud correlaciona con elpeso (gr), podemos servirnos de la misma para predecirlo. En nuestro caso, dado que estamosconsiderando por el momento relaciones exclusivamente lineales, la ecuacion que buscamos seradel tipo

Y = B0 +B1X

y se denomina ecuacion de regresion lineal muestral simple. Se corresponde obviamente con unrecta de pendiente B1 y termino independiente B0. Parece logico pensar que la recta idonea sera

Page 35: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

2.4. REGRESION LINEAL 35

la que mejor se ajuste a nuestra nube de puntos, aunque habra que especificar primeramente queentendemos por “ajuste”. En nuestro caso utilizaremos el criterio muy utilizado en Matematicasconocido como el de Mınimos Cuadrados, cuya conveniencia fue argumentada hace casi dos siglospor el propio Gauss. Veamos en que consiste.

Como hemos dicho, una recta en el plano puede expresarse de la forma Y = B0 + B1X.Dada una unidad experimental de la muestra (xi, yi), al valor xi correspondiente a la variableX (abcisas) le corresponde, segun la recta anterior, el valor B0 + B1xi para la variable Y(ordenadas). La diferencia entre dicho valor y el que realmente corresponde a la variable Y , esdecir, yi, se considera un error cometido al intentar explicar yi mediante la ecuacion anterior.El metodo de mınimos cuadrados propone cuantificar el error total mediante la suma de loscuadrados de los errores particulares, es decir,

n∑i=1

[yi − (B0 +B1xi)]2

La recta que minimice dicho error sera la solucion deseada. La solucion resulta ser la siguiente:

B1 = sxy/s2x

B0 = y −B1x.

En la figura 2.8 se muestra el diagrama de dispersion simple para el peso y la longitud defemur, ası como la recta de regresion lineal correspondiente a esta muestra concreta de datos,cuya ecuacion es Peso=-29.1+13.1Femur.

Figura 2.8: Peso del feto vs longitud de femur

F

504540353025

Pes

o

700

600

500

400

300

200

Página 1

Cabe realizar tres observaciones:

(i) El signo de B1 es el que le otorga la covarianza sxy, que es a su vez el mismo de r. Esdecir, que si la correlacion es directa, la recta de regresion tiene pendiente positiva, y sies inversa, negativa, como cabıa esperar.

(ii) En todo caso, la recta pasara por el punto (x, y). Por decirlo de alguna forma, pasa porel centro de la nube de puntos.

Page 36: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

36 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

(iii) La recta de regresion puede calcularse siempre, independientemente del grado de corre-lacion existente entre las variables.

Ejercicio 35. ¿Es importante determinar que variable identificamos con el eje OX antes decalcular la ecuacion de la recta de regresion o, por el contrario, resulta indiferente cual de lasdos desempena ese papel?

Ejercicio 36. ¿Que peso predecirıas a un feto cuyo femur mide 35mm?

Ejercicio 37. Segun la ecuacion de regresion, ¿cuantos gramos aumenta o disminuye el pesodel feto por cada mm que aumenta el femur?

En la figura 2.9 se representa la recta de regresion lineal correspondiente a la muestradel ejemplo 4, en la que se miden la talla y el peso de 12 adultos, cuya ecuacion resulta sery = 89.11 + 1.10x. En este caso, el interes practico de la ecuacion es discutible pues ambasvariables pueden medirse trivialmente.

Figura 2.9: Peso vs altura

En la figura 2.9 hemos marcado para cada punto una linea que expresa el error cometido porla recta en su prediccion. Desde un punto de vista numerico, en la primera columna de lasiguiente tabla se muestran los valores de X para los 12 datos de la figura; en la segunda, loscorrespondientes valores de Y ; en la tercera, los valores de las ordenadas que se obtienen segunla recta de regresion y = 89.11+1.10x; por ultimo, en la cuarta columna tenemos precisamentelas diferencias al cuadrado entre los valores reales de Y y sus predicciones, de manera que susuma cuantifica el error cometido por la recta de regresion.

xi yi (B0 + B1xi) [yi − (B0 + B1xi)]2

80 174 176.80 7.8645 152 138.44 183.9463 160 158.17 3.3694 183 192.15 83.7024 102 115.42 180.0575 183 171.32 136.3756 148 150.50 6.2352 152 146.11 34.6961 166 155.98 100.4834 140 126.38 185.5121 98 112.12 199.6678 160 174.61 213.47

1335.32

Page 37: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

2.4. REGRESION LINEAL 37

Esa suma total, denominada error cuadratico, podra resultarnos grande o pequena, perolo que es incuestionable es que cualquier otra recta que podamos considerar ofrecera un errorcuadratico mayor. Tambien es claro que cuantos mas puntos tengamos mayor sera el errorcuadratico. Necesitamos pues una medida del grado de error relativa al tamano de la muestra.Ese parametro se denomina varianza residual o parcial:

s2y←x =

1

n

n∑i=1

[yi − (B0 +B1xi)]2

La varianza residual viene a expresar pues la parte de la variabilidad de los datos de Y noexplicada por la variabilidad de los datos de X mediante la recta de regresion lineal. Este valordebe pues relacionarse de alguna forma con rxy. Efectivamente, puede demostrarse facilmenteque

s2y←x

s2y

= 1− r2xy

La interpretacion de esta expresion es fundamental pues permite entender el significado exactode r2 como la proporcion de variabilidad de Y explicada linealmente por X y viceversa.

Figura 2.10: Interpretacion intuitiva de r2

Y X

X1

Y

X2

r2

R2

En el caso de la prediccion del peso mediante la longitud del femur en fetos, la muestraaporta un valor de r2 = 0.643 (r = 0.802), lo cual se traduce en que, en esta muestra concreta, larecta de regresion permite explicar a partir de la longitud del femur un 64.3 % de la variabilidaddel peso o, lo que es lo mismo, que conlleva un 35.7 % de error. Obviamente, r2 mide globalmentela fiabilidad de las predicciones. En la segunda parte ampliaremos este estudio valorando dichafiabilidad de manera mas precisa.

Los casos extremos serıan r2 = 1 y r2 = 0. El primero se corresponde con s2y←x = 0, es

decir, la recta de regresion lineal predice sin error los datos de Y a partir de X. Se da por lotanto una correlacion lineal perfecta. El caso r2 = 0 se corresponde con s2

y←x = s2y. Significa

que toda la variabilidad de Y es error de regresion, es decir, que la recta de regresion no ayudaen absoluto a predecir los valores de Y . Este caso se corresponde con una recta de regresion dependiente nula, es decir, constante. Concretamente, se trata de la constante y, por ser la mejoropcion posible. En definitiva, no aporta nada a la explicacion de los datos de Y .

Tal es aproximadamente el caso de la figura 2.11, donde se expresan las tallas e ındices demasa corporal de 100 individuos adultos. A esta muestra le corresponde r = −0.035.

Ejercicio 38. ¿Como interpretamos el valor de r = −0.035 en la figura 2.11? ¿Te resultaparadojico? ¿Como sera r si reemplazamos la talla por el peso: positivo, negativo o proximo a0?

Ejercicio 39. En el ejemplo de relacion entre el peso y la longitud del femur del feto, ¿afectarıaal valor de r2 el hecho de expresar el peso en kg en lugar de en gr?

Ejercicio 40. En el mismo ejemplo, si reemplazamos la muestra de n = 40 fetos por otra dife-rente, de otros 40 fetos, por poner un numero, ¿obtendremos un mismo valor de r2?¿Obtendremosuna misma ecuacion de regresion? ¿Seran parecidas?

Page 38: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

38 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

Figura 2.11: IMCvs Talla

Talla

200190180170160150140

índ

ice

de

mas

a co

rpo

ral

40,00

30,00

20,00

10,00

Página 1

2.4.1. Regresion lineal multiple

Ya hemos visto que en lo que respecta a las variables peso y longitud de femur (F), el gradode correlacion observado en la muestra de n = 40 fetos es r = 0.802, por lo que la ecuacionde regresion obtenida para dicha muestra, Peso=-29.1+13.1F permite explicar un 64.3 % (r2)de la variabilidad del peso. Que esta proporcion resulte grande o pequena depende del gradode fiabilidad que necesitemos en la prediccion. Si no fuera suficiente, podrıa considerarse laposibilidad de explicar el peso a traves de la circunferencia craneal (C) o abdominal (A). Noobstante, lo mas interesante es utilizar las tres variables medidas directamente por el ecografo,F, C y A, como variables independientes X1, X2 y X3 en una ecuacion de tipo lineal cuyavariable dependiente Y sea el peso (ni que decir tiene que a esta ecuacion podrıan anadirsemas variables independientes). Es decir, se trata de construir a partir de la muestra una ecuaciondel tipo

Y = B0 +B1X1 +B2X2 +B3X3

En general, la ecuacion concreta que buscamos, siguiendo de nuevo el criterio de mınimoscuadrados, es la que minimice la suma

n∑i=1

[yi − (B0 +B1x1 +B2x2 +B3x3)]2

La solucion a este problema la obtendremos mediante cualquier programa estadıstico. En el pro-blema del peso del feto, la ecuacion de regresion multiple obtenida para la muestra consideradaes

Peso = −149.0 + 12.6 · F + 9.8 · C − 9.4 · A (2.1)

Ejercicio 41. Segun eso, ¿que peso cabrıa predecir a un feto con medidas F=43, C=172,A=167?

Para valorar globalmente la fiabilidad de las predicciones que efectuemos mediante la ecua-cion anterior necesitamos un valor tıpico que generalice el coeficiente de correlacion simpleal cuadrado, r2. Dicho coeficiente, que se obtiene mediante calculos matriciales, se denominacoeficiente de correlacion multiple al cuadrado, y se denota por R2. Expresa, por lo tanto, laproporcion de variabilidad de Y explicada entre todas las variables independientes.

Ejercicio 42. Segun eso, ¿puede disminuir R2 si se introduce una nueva variable independienteen la ecuacion, por ejemplo la longitud de la tibia?

Page 39: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

2.4. REGRESION LINEAL 39

Figura 2.12: Interpretacion intuitiva R2

Y X

X1

Y

X2

r2

R2

En el caso del peso del feto, obtenemos un valor R2 = 0.915, lo cual justifica la inclusionde las dos nuevas variables dado que inicialmente tenıamos r2 = 0.643.

Puede llegar a pensarse que del hecho de anadir variables independientes a la ecuacion solose derivan ventajas, pero no es ası. En primer lugar, estas variables hay que medirlas; en segundolugar, nos impiden tener una vision grafica sencilla de los datos, pues debemos recurrir a losaparatosos diagramas de dispersion matricial; por ultimo, pueden generar ciertas confusionescomo consecuencia de la posible correlacion lineal entre las distintas variables independientes,cosa que puede apreciarse incluso en la ecuacion propuesta para el peso del feto. Lo masaconsejable es introducir una nueva variable en la ecuacion solo si su presencia incrementasustancialmente el valor de R2.

Ejercicio 43. ¿Que aspecto de la ecuacion (2.1) puede resultar paradojico?

2.4.2. Regresion no lineal

Hasta ahora hemos afrontado unicamente el estudio de aquellas muestras en las que larelacion entre las variables X e Y es de tipo claramente lineal, excluyendo situaciones dudosascomo la de figura 2.13. Corresponde al diagrama de dispersion simple entre el marcador tumoralPSA y el volumen de un tumor prostatico estudiado en una muestra de n = 97 pacientes. Seincluye la recta de regresion lineal.

Figura 2.13: Volumen tumor vs PSA

PSA

300,00250,00200,00150,00100,0050,00,00

Vo

lum

en

tu

mo

r

50,00

40,00

30,00

20,00

10,00

,00

Página 1

La recta de regresion logra un aceptable ajuste a la nube de puntos, obteniendose r = 0.625.No obstante, un estudio mas profundo de ambas variables revela una relacion lineal mucho mas

Page 40: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

40 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

clara entre los logaritmos del volumen y del PSA, tal y como queda patente en el grafico de lafigura 2.14, al que corresponde un coeficiente de correlacion r = 0.734.

Figura 2.14: Log volumen vs log PSA

Logaritmo PSA

6,0004,0002,000,000

Lo

gar

itm

o V

olu

men

4,000

3,000

2,000

1,000

,000

-1,000

-2,000

Página 1

La ecuacion de la recta de regresion representada en la figura anterior es y = −0.590 + 0.750x.Por lo tanto, las variable originales se relacionan aproximadamente segun la ecuacion

log vol = −0.509 + 0.750 log PSA

Luego, despejando, obtenemos vol = 0.601 · PSA0.750 , que es la curva que se representa en lafigura 2.15.

Figura 2.15: PSA vs volumen tumor

PSA

300,00200,00100,00,00

50,00

40,00

30,00

20,00

10,00

,00

Volumen tumor

Página 1

Este ejemplo ilustra como, en ciertas ocasiones, podemos lograr una mejor explicacion de lavariable dependiente si no nos restringimos a ecuaciones de tipo lineal, lo cual suele traducirsea grandes rasgos en considerar distintas transformaciones de las variables en juego, en especialla logarıtmica. El programa estadıstico SPSS ofrece la posibilidad de tantear con diferentes po-sibilidades. No obstante, debemos advertir que este tipo de estudios puede llegar a ser bastantecomplicado.

Page 41: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

2.5. RELACION ENTRE UNA VARIABLE NUMERICA Y OTRA CUALITATIVA 41

Ejercicio 44. Si entre dos variables se da una relacion de tipo exponencial y = a · bx, ¿quetransformaciones debemos aplicar a las variables X e Y para obtener una relacion lineal?

Ejercicio 45. En las figuras 2.16 y 2.17, extraıdas de Wikipedia, se ilustra la relacion entre laesperanza de vida global y la renta per capita por un lado, y entre la esperanza de vida de loshombres y la de las mujeres por otro, calculadas todas ellas en 2009 para todos los paıses delmundo. Comenta que te sugiere cada grafico.

Figura 2.16: Esperanza de vida vs renta

Figura 2.17: Esperanza de vida hombres vs mujeres

2.5. Relacion entre una variable numerica y otra cuali-

tativa

Como ya hemos comentado, este problema lo trataremos de manera mas extensa en lasegunda parte. El estudio a nivel meramente descriptivo es escueto y hemos optado por ubicarlo

Page 42: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

42 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

en este capıtulo porque, desde un punto de vista teorico, el problema se formaliza mediante elmismo modelo que el de regresion.

Ejemplo 5: cualitativa vs numerica. Se estudia la posible relacion en-tre la acidosis en recien nacidos y la glucemia medida en el cordon umbi-lical. Para ello se toma una muestra de 200 recien nacidos distribuidos apartes iguales en cuatro grupos: sanos, enfermos con acidosis respiratoria,con acidosis metabolica y mixta. Los datos quedan representados mediantelos diagramas de dispersion en la figura 2.18 y mediante diagramas de caja(mas habitual) en la figura 2.19.

Figura 2.18: Glucemia vs acidosis (nube de puntos)

Tipo de acidosis

Acidosis MixtaAcidosis MetabólicaAcidosis RespiratoriaControl

Niv

el d

e g

luce

mia

en

el

cord

ón

um

bil

ical

105,000

85,000

65,000

45,000

25,000

Página 1

Figura 2.19: Glucemia vs acidosis (box-plots)

Tipo de acidosis

Acidosis MixtaAcidosis MetabólicaAcidosis RespiratoriaControl

Niv

el d

e g

luce

mia

en

el c

ord

ón

um

bil

ical

90,000

80,000

70,000

60,000

50,000

40,000

Página 1

Podemos observar que los niveles de glucemia son mayores en los enfermos con acidosisrespiratoria que en los sanos, al menos por termino medio (mediano); que los niveles de glucemiaen los enfermos de acidosis metabolica es aun mayor y que los enfermos de acidosis mixta poseenvalores de glucemia similares al de los individuos sanos, al menos, insistimos, por termino medio.Simplificando el asunto, podemos afirmar que la relacion entre un variable cualitativa y otranumerica se traduce en un problema de comparacion de las diferentes medias (o medidas decentralizacion en general) que dicha variable numerica alcanza en las distintas categorıas dela variable cualitativa. Concretamente, entendemos las distancias entre las medias como unaprueba de la relacion entre ambas variables, que sera mas fuerte cuanto mayor sean dichasdiferencias. la cuestion es algo mas compleja pues esta distancia debe evaluarse teniendo encuenta el grado de variabilidad que presentan los datos, lo cual afecta a la variabilidad de las

Page 43: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

2.5. RELACION ENTRE UNA VARIABLE NUMERICA Y OTRA CUALITATIVA 43

propias medias aritmeticas calculadas. Es una situacion analoga a la de regresion lineal, pues setrata en definitiva de medir la proporcion de variabilidad explicada por la variable cualitativa,lo cual da lugar a un coeficiente R2. No obstante, no entraremos en esos detalles, por lo menospor el momento. Ello es debido a que el problema de comparacion de medias presenta unacasuıstica algo compleja que abordaremos en el contexto de la Inferencia Estadıstica (segundaparte). En esta primera parte nos contentaremos con un primer analisis meramente intuitivo apartir del grafico.

Otras cuestiones propuestas

Ejercicio 46. Indica un ejemplo de 4 pares de datos que presenten un coeficiente de correlacionlineal r = −1. Indica un ejemplo de 4 pares de datos que presenten un coeficiente de correlacionlineal r = 0.

Ejercicio 47. Supongamos que contamos con una muestra de tamano n de una cierta variableX, y que procedemos a tipificar los n datos, con lo cual obtenemos otros n valores de una nuevavariable Z. Razona cuanto debe valer el coeficiente de correlacion lineal r entre X y Z.

Ejercicio 48. En un estudio de regresion lineal se obtuvo, a partir de una muestra de tamanon = 12, una recta de regresion lineal y = 3.2 − 4.1x, y un coeficiente de correlacion linealr = +0.93. ¿Existe alguna contradiccion entre estos resultados?

Ejercicio 49. Se midieron la presion sistolica (mmHg) y la concetracion de colesterol LDL(mg/litro) a 462 personas obteniendose, entre otros resultados, los siguientes valores tıpicos:

Presión (mmHg) LDL (mg/litro) Media 138.33 57.40 Mediana 134 43.4 Desviación típica 20.50 20.71 Rango intercuartílico 24 25.2 Coeficiente de correlación 0.158

Razona brevemente, a partir de estos resultados, cual de las dos variables posee un mayorsesgo positivo.

Razona cual debe ser el valor del coeficiente de correlacion lineal entre la presion arterialy el LDL si medimos este ultimo en mg/decilitro.

Se detecta posteriormente a la toma de datos que el medidor de tension arterial cometeun error sistematico consistente en indicar siempre 2mmHg mas de la cuenta. Sabidoesto, ¿cuales deben ser los verdaderos valores de la mediana y el rango intercuartılico dela presion arterial? ¿Cual debe ser el verdadero valor el coeficiente de correlacion linealentre la presion arterial y el LDL (medido en mg/litro)?

Ejercicio 50. En el siguiente diagrama de dispersion se presentan 24 datos correspondientes ala medicion del peso de un feto en funcion de su edad de gestacion, comprendida en todo casoentre 28 y 38 semanas.

El valor del coeficiente de determinacion es r2 = 0.964 y la recta de regresion muestral esy = −4301 + 192x. Comentar los aspectos mas relevantes, interpretando en terminos muypracticos el valor de r2. ¿Que utilidad puede tener la recta anterior?

Ejercicio 51. Se ha medido la presion sistolica (mm. Hg) en 12 individuos para relacionarlacon la edad (anos) de los mismos. Los resultados fueron los siguientes

X (edad) 30 50 60 30 70 60 60 40 40 50 70 40Y (presion) 107 136 148 109 158 150 145 120 118 134 162 124

Page 44: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

44 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

Figura 2.20: Peso vs edad

Edad de gestación (en semanas)

383634323028

Pes

o d

el f

eto

(en

gr)

3500

3000

2500

2000

1500

1000

Página 1

a) Representa la nube de puntos.

b) Haciendo uso de un programa estadıstico, calcular r y la recta de regresion muestral.Interpretar r2 en terminos muy practicos.

Ejercicio 52. Indicar que valor aproximado puede tener r en los siguientes ejemplos:

X

8,006,004,002,00

Y

-2,00

-4,00

-6,00

-8,00

Página 1

X

8,006,004,002,00

Y

5,00

4,00

3,00

2,00

1,00

Página 1X

8,006,004,002,00

Y

40,00

30,00

20,00

10,00

Página 1

Ejercicio 53. El sustrato Inosina monofosfato reacciona produciendo Xantosina monofosfatoante la presencia de la enzima IMP de Hidrogeno. Se intenta explicar la velocidad de dichareaccion (medida en incremento de la densidad del producto por minuto) a partir de la con-centracion de sustrato (medido en µmoles/l). Tras medir ambas variable en 7 ocasiones, conlas mismas condiciones ambientales, se obtuvo:

[S] 3.4 5.0 8.4 16.8 33.6 67.2 134.4V 0.10 0.15 0.20 0.25 0.45 0.50 0.53

a) Representa la nube de puntos.

b) Realiza el siguiente cambio de variables: X = 1/[S], Y = 1/V . Efectua un estudio decorrelacion-regresion lineal entre las variables X e Y mediante un programa estadıstico.

Page 45: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

2.5. RELACION ENTRE UNA VARIABLE NUMERICA Y OTRA CUALITATIVA 45

c) En general, en los procesos de reaccion ante la presencia de una enzima, la velocidad dela reaccion se relaciona con la concentracion del sustrato segun una ley del siguiente tipo:

V =Vmax × [S]

Km + [S],

donde Vmax es la velocidad maxima posible en el proceso, que se corresponde con unaconcentracion de sustrato muy grande, y donde Km es una valor constante para condi-ciones ambientales fijas, denominado constante de Michaellis-Menten. Estima el valor deKm y Vmax en este proceso concreto.

Ejercicio 54. El diagrama de dispersion de la figura 2.21 representa el area de la cabeza yla velocidad para una muestra de n = 356 espermatozoides con r = 0.20. ¿Que proporcionde variabilidad de la velocidad es explicada linealmente por el tamano de la cabeza? ¿Queproporcion de variabilidad del tamano de la cabeza es explicado linealmente por la velocidad?¿Que puedes extraer de este dato en terminos practicos?

Figura 2.21: Area vs velocidad

Área cabeza

40,00038,00036,00034,00032,00030,000

Vel

oci

dad

180,0

160,0

140,0

120,0

100,0

80,0

Página 1

Ejercicio 55. Observa la figura 1.14 y comenta a un nivel puramente intuitivo si existe relacionentre el estilo de vida y el nivel de ansiedad segun la escala de Hamilton.

Ejercicio 56. Se lleva a cabo un estudio con n = 100 individuos para determinar si el tipo dedieta (distinguiendo entre A y B) influye en el IMC (contamos con 54 individuos que siguenla dieta A y 46 que siguen la B). En la figura 2.22 se muestra el correspondiente diagrama decajas. Responde a la cuestion a un nivel puramente intuitivo.

Figura 2.22: Dieta vs IMC

Tipo de dieta

Dieta BDieta A

índ

ice

de

mas

a co

rpo

ral

40,00

30,00

20,00

10,00

,00

Página 1

Page 46: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

46 CAPITULO 2. RELACION ENTRE VARIABLES NUMERICAS

Page 47: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Capıtulo 3

Relacion entre variables cualitativas

En el capıtulo anterior se estudio la relacion entre dos variables numericas y entre unanumerica y otra cualitativa. Para completar el esquema logico falta estudiar la relacion entredos variables cualitativas. Entendemos que existe relacion entre ambas cuando un cambio decategorıa en una variable se asocia a un cambio de categorıa en la otra y viceversa. El hechode expresar un caracter de forma cualitativa puede resultar mas sencillo que medirla numeri-camente, lo cual explica la abundancia de disenos de tipo cualitativos en la investigacion expe-rimental. Paradojicamente, desde un punto de vista meramente estadıstico, el tratamiento delas variables cualitativas es mucho mas engorroso que el de las numericas, cosa que tendremosla oportunidad de apreciar en este mismo capıtulo.

3.1. Estudio general de las tablas de contingencia

Empezaremos con un estudio de caracter general para pasar despues a analizar problemasmas concretos en el contexto biomedico. En todo caso, repetiremos las mismas fases que en loscapıtulos anteriores pues estamos en un marco descriptivo, es decir: tabulacion, representaciongrafica y calculo de los valores tıpicos correspondientes al estudio de relacion.

3.1.1. Tabla de contingencia

Partimos de una muestra compuesta por n individuos o unidades experimentales pertene-cientes a una determinada poblacion sobre los que se evaluan simultaneamente dos caracterescualitativos, lo cual dara lugar a una tabla de frecuencia bidimensional o de doble entradadenominada usualmente tabla de contingencia.

Ejemplo 6: dos variables cualitativas. Muchos investigado-res sostienen la teorıa de que un ICC o ındice cintura-cadera (co-ciente entre el perımetro de la cintura y el de la cadera) elevado seasocia a la aparicion de ciertas patologıas, como la diabetes y en-fermedades cardiovasculares, de una manera mas clara que un IMC(ındice de masa corporal) elevado. Supongamos que, con el objetode apoyar, esa teorıa se analiza una muestra de n = 252 varonesde mas de 40 anos que son clasificados, por una parte, en funcionde su ICC como normales (ICC≤ 0.94) o con cuerpo de manzana(ICC> 0.94). Por otra parte, son tambien valorados medicamentedistinguiendo entre sanos, diabeticos y enfermos cardiovasculares.Ambas clasificaciones se recogen de manera simultanea en la si-guiente tabla de contingencia:

47

Page 48: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

48 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

Valoracion medica

Tipo ICC

(2× 3) Sano Cardio Diabetes Total

Normal 114 22 20 156Manzana 52 28 16 96

Total 166 50 36 252

Veamos otro ejemplo:

Ejemplo 7: otras dos variables cualitativas. Se realiza unestudio a nivel cualitativo para considerar la posible asociacionentre el nivel de SO2 en la atmosfera (contaminacion) y el estado desalud de cierta especie arborea, en funcion del nivel de cloroplastosen las celulas de sus hojas. Se distinguen tres tipos de areas segunel nivel de SO2: nivel alto, medio y bajo. Ası mismo, se distinguenotros tres niveles de salud en los arboles: alto, medio y bajo. Encada zona se selecciono una muestra de 20 arboles, con lo que elnumero total es n = 60. En cada caso se determina su nivel decloroplastos. La tabla obtenida tras clasificar los 60 arboles fue lasiguiente:

Nivel cloroplastos

Nivel SO2

(3× 3) Alto Medio Bajo Total

Alto 3 4 13 20Medio 5 10 5 20Bajo 7 11 2 20

Total 15 25 20 60

Empecemos con una breve descripcion de la tabla correspondiente al ejemplo 6. En estecaso se distinguen r = 2 categorıas (filas) diferentes en la la variable ICC y s = 3 categorıas(columnas) diferentes en la valoracion medica, por lo que decimos que se trata de una tabla tipo2×3. En los margenes derechos e inferior de la tabla aparecen las frecuencias que denominaremosmarginales, que corresponderıan a un estudio por separado de las variables ICC y valoracion,respectivamente. como en el caso del ejemplo 1. Las 2 × 3 = 6 frecuencias que aparecen en elinterior de la tabla pueden denominarse conjuntas o, tambien, observadas. Se denotan medianteOij, dnde el subındice i hace referencia a las filas y el j a las columnas (por ejemplo, O12 seentiende como la frecuencia observada en la fila 1 y columna 2, es decir, como el numero deindividuos con ICC normal y diabeticos). Es obvio que la suma de frecuencias observadas deuna misma fila es la frecuencia marginal que aparece a la derecha, y lo mismo sucede con lascolumnas. La suma total es n = 252.

La cuestion es en que medida la tabla anterior corrobora la idea de que existe relacion entreel estado de salud y el tipo de ICC, y en que sentido. ¿Que debe ocurrir para que podamosafirmar eso? ¿Como cuantificamos el grado de correlacion observado? Para responder a estaspreguntas debemos efectuar un inciso para distinguir entre proporcion marginal, proporcioncondicionada y proporcion conjunta.

Primeramente, podemos calcular las ya conocidas proporciones marginales o proporciones(a secas). Por ejemplo, P (Cardio) denota la proporcion de individuos de la muestra con enfer-

Page 49: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

3.1. ESTUDIO GENERAL DE LAS TABLAS DE CONTINGENCIA 49

medad cardiovascular, y ası con todas las categorıas:

P (Sano) =166

252= 0.659

P (Cardio) =50

252= 0.198

P (Diabetes) =36

252= 0.143

P (Normal) =156

252= 0.619

P (Manzano) =96

252= 0.381

Hemos de destacar que las proporciones se denotan por P en lugar de P con la idea deresaltar que son parametros descriptivos, es decir, que se refieren a la muestra estudiada, no altotal de la poblacion objeto del estudio, como veremos en la segunda parte del manual.

Por otra parte, P (Sano|Normal) se entiende como la proporcion de individuos con ICCnormal que estan sanos segun la valoracion medica. Es lo que denominamos una proporcioncondicionada por fila, que se calculan, por ejemplo, mediante los siguientes cocientes:

P (Sano|Normal) =114

156= 0.731

P (Diabetes|Normal) =20

156= 0.128

P (Diabetes|Manzana) =16

96= 0.167

De manera totalmente analoga pueden calcularse proporciones condicionadas por columnas:

P (Normal|Sano) =114

166= 0.659

P (Normal|Diabetes) =20

36= 0.556

P (Nanzana|Diabetes) =16

36= 0.444

Por ultimo, P (Sano y Normal) denota la proporcion de individuos de la muestras que sonsanos segun la valoracion medica y, ademas, poseen un ICC normal. Es lo que denominamosproporcion conjunta, que se calculan, por ejemplo, ası:

P (Sano y Normal) =114

252= 0.452

P (Diabetes y Normal) =20

252= 0.079

P (Diabetes y Manzana) =16

252= 0.063

En definitiva se trata siempre de calcular un cociente, aunque la composicion del numeradory el denominador varıa en funcion del tipo de proporcion considerada.

Ejercicio 57. Indica las siguientes proporciones relativas al ejemplo 7 (puedes expresarlas silo prefieres en porcentajes):

Proporcion de arboles con alto nivel de cloroplastos entre aquellos que crecen en zonaspoco contaminadas.

Page 50: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

50 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

Proporcion de arboles que crecen en zonas poco contaminadas entre aquellos que cuentancon alto nivel de cloroplastos.

Proporcion de arboles de la muestra que crecen en zonas poco contaminadas y ademascuentan con un alto nivel de cloroplastos.

Proporcion de arboles de la muestra que crecen en zonas poco contaminadas.

Proporcion de arboles de la muestra que cuentan con un alto nivel de cloroplastos.

3.1.2. Diagrama de barras agrupadas

Se trata de un grafico muy util a la hora de ilustrar la asociacion existente entre las dosvariables estudiadas. Consiste en representar un diagrama de barras para las frecuencias ob-servadas pero agrupadas por filas o columnas, segun se desee. En el caso del ejemplo 6 puederesultar mas ilustrativo agruparlas en funcion del tipo de ICC. Tambien podemos agrupar lasfrecuencias del ejemplo 7 en funcion del nivel de de SO2. Ambos diagramas se aprecian en lafigura 3.1.

Figura 3.1: Diagrama de barras agrupadas

Rec

uen

to

120

100

80

60

40

20

0

ICC_categorías

Cuerpo manzanaNormal

Gráfico de barras

DiabetesEnf cardioSano

Estado

Página 1

Rec

uen

to

12,5

10,0

7,5

5,0

2,5

0,0

Nivel de SO2

SO2 bajoSO2 medioSO2 alto

Gráfico de barras

Cloroplatos bajoCloroplastos medioCloroplastos alto

Nivel de cloroplastos

Página 1

Un diagrama de barras agrupado por filas nos da una informacion visual sobre las pro-porciones condicionadas por filas. Lo mismo sucede con las colummas. Ası, en el diagramacorrespondiente al ICC observamos, por ejemplo, que la proporcion de sanos (azules) es mayorentre los normales que entre los de cuerpo de manzana, lo cual se corresponde con una menorproporcion de enfermos, sobre todo cardio, entre los primeros. Esas diferencias pueden resultarmas acusadas en el caso del SO2, donde apreciamos que la proporcion de arboles con un nivelbajo de cloroplastos es mucho mayor en las zonas muy contaminadas (SO2 alto). Realmente,podrıamos haber llegado a conclusiones analogas si hubieramos condicionado por columnas, esdecir, eso es indiferente desde el punto de vista teorico aunque no siempre lo es desde el puntode vista intuitivo.

En terminos estadısticos, entendemos que la correlacion a nivel muestral entre las dos va-riables cualitativas observadas es tanto mas fuerte cuanto mayores sean las diferencias entre las

Page 51: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

3.1. ESTUDIO GENERAL DE LAS TABLAS DE CONTINGENCIA 51

proporciones condicionadas. Esta afirmacion es valida solo si estamos condicionando respectoa una variable con la suficiente heterogeneidad (es decir, tal que las frecuencias marginales deambas categorıas sean suficientemente grandes). A la luz de los graficos podemos intuir puesque la correlacion observada entre la valoracion medica y el ICC es mas debil que la corre-lacion observada entre la salud de los arboles y la contaminacion, pues en el segundo caso seaprecia una alteracion drastica en el patron de distribucion cuando pasamos de una zona decontaminacion baja o media a otra de contaminacion alta. No obstante y al igual que sucedieracon el coeficiente r en el caso numerico, necesitamos un coeficiente muestral que cuantifique dealguna forma el grado de correlacion observado. En este caso sera el denominado coeficiente decontingencia C de Pearson.

3.1.3. Coeficiente de contingencia C de Pearson

Para medir el grado de correlacion muestral procederemos de manera similar a la forma demedir la variabilidad de un conjunto de datos numerico unidimensional: recordemos que no setrataba de evaluar las diferencias entre los datos, sino la distancia (al cuadrado) entre cadauno de ellos y una medida central de referencia, la media aritmetica, que en ocasiones no es nisiquiera un valor posible (como sucede, por ejemplo, cuando se dice que el numero medio dehijos por mujer en Espana es 1.2), dando como resultado la varianza. En nuestro caso, vamosa construir una tabla bidimensional de referencia que posea las mismas frecuencias marginalesque la nuestra pero con frecuencias conjuntas Eij calculadas de tal manera que las proporcionescondicionadas permanezcan constantes al pasar de una fila (o columna) a otra, en cuyo casoseran iguales a las proporciones marginales por filas (o columnas, respectivamente). La tablade valores Eij para el ejemplo 6 resulta ser la siguiente:

Valoracion medica

Tipo ICC

(3× 3) Sano Cardio Diabetes Total

Normal 102.8 31.0 22.3 156Manzana 63.2 19.0 13.7 96

Total 166 50 36 252

Podemos comprobar que, efectivamente, con los datos de esta tabla se verifica

P (Sano) = P (Sano|Normal) = P (Sano|Manzana) = 0.659

P (Cardio) = P (Cardio|Normal) = P (Cardio|Manzana) = 0.198

P (Diabetes) = P (Diabetes|Normal) = P (Diabetes|Manzana) = 0.143

Las diferentes proporciones conjuntas pueden entenderse desde un punto de vista graficocomo las respectivas areas de 2× 3 = 6 subconjuntos en los que se divide la muestra, a la quese le asigna un area total 1. De esta forma, la independencia o correlacion nula se observarıa silos diferentes subconjuntos mostraran la configuracion de la izquierda en la figura 3.2, mientrasque lo realmente observado se ajusta a la configuracion de la derecha.

En el caso del ejemplo 7, la tabla de valores Eij resulta ser la siguiente:

Nivel cloroplastos

Nivel SO2

(3× 3) Alto Medio Bajo Total

Alto 5 8.3 6.7 20Medio 5 8.3 6.7 20Bajo 5 8.3 6.7 20

Total 15 25 20 60

Page 52: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

52 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

Figura 3.2: Valores esperados vs valores observados

2 x 3 Sano Cardio Diabetes Total Normal 156 Manzana 96 Total 166 50 36 252

2 x 3 Sano Cardio Diab. Total

Normal 156

Manzana 96

Total 166 50 36 252

2 x 3 Sano Cardio Diab. Total

Normal 102.8 31.0 22.2 156

Manzana 63.3 19.0 13.7 96

Total 166 50 36 252

Ejercicio 58. Supongamos que se lleva a cabo un estudio para analizar la posible relacion entreel factor Rh y el sexo. Se estudian un total de n = 100 personas con los siguientes resultados(parciales):

Rh

Sexo

(2× 2) + − Total

M 40F 60

Total 75 25 100

¿Que cantidad de datos Eij deberıa aparecer en cada una de las cuatro celdas interiores paraque la proporcion de Rh positivo fuera identica en hombres y mujeres. ¿Que ocurrira entoncescon la proporcion de Rh negativo?

Ejercicio 59. En general, ¿serıas capaz de determinar una formula general para calcular losvalores Eij a partir de las frecuencias marginales? Esto valores suelen denominarse esperados.

Una vez construida esta matriz de referencia, entendemos que el grado de correlacion co-rrespondiente a nuestra muestra es mas fuerte cuanto mayor sea la distancia (entiendase enprincipio en sentido amplio) entre nuestra tabla de valores observados y la tabla de valoresesperados. Ası, en el ejemplo de la figura 3.2 se trata de cuantificar de alguna manera la dife-rencia entre la configuracion esperada de la izquierda y la observada de la derecha. La distanciaconcreta que viene a medir la diferencia entre ambas tablas es la siguiente:

χ2exp =

∑i,j

(Oij − Eij)2

Eij

Debe quedar pues claro que un valor χ2exp proximo a 0 debe entenderse como una correlacion

casi nula en la muestra, y que, cuanto mayor sea el valor de χ2exp, mas fuerte sera la dependencia

o correlacion observada en la muestra.Es util normalizar la distancia χ2 para obtener un valor con cotas universales. La norma-

lizacion mas popular es posiblemente el coeficiente de contingencia de Pearson, que pretendedesempenar un papel similar al coeficiente de correlacion r, tambien de Pearson. Se definemediante

C =

√χ2exp

χ2exp + n

Este coeficiente debe estar comprendido, para toda tabla r × s, entre 0 y√q−1(q − 1), siendo

q = mın{r, s}. La cota 0 corresponde a la ausencia total de correlacion y la cota superior, que

Page 53: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

3.1. ESTUDIO GENERAL DE LAS TABLAS DE CONTINGENCIA 53

depende unicamente de las dimensiones de la tabla, a la maxima dependencia posible. En elejemplo 6, la cota maxima es, en general 0.707, por ser una tabla 2 × 3, y el valor obtenidoen esta tabla concreta es C = 201; en el ejemplo 7 la cota maxima es 0.816, al ser una tabla3× 3, y el valor concreto obtenido es C = 0.444. Es decir, en terminos relativos se observa unamayor correlacion en el segundo ejemplo en el sentido que indica el diagrama de barras de lafigura 3.1 (se asocia normal a sano). En el ejemplo 6 observamos una correlacion debil y en elsentido que indica el diagrama de barras (se asocia poca contaminacion a sano).

Nos preguntamos como deberıan ser los datos observados en el ejemplo 7 para alcanzar elmaximo grado de correlacion, que se corresponde con C = 0.816. Podrıa valer la siguiente tablade datos observados (que no es lo que ha ocurrido en nuestro caso):

Nivel cloroplastos

Nivel SO2

(3× 3) Alto Medio Bajo Total

Alto 0 0 20 20Medio 0 20 0 20Bajo 20 0 0 20

Total 20 20 20 60

3.1.4. Tablas 2× 2. Coeficiente φ

Este caso particular, en el que se distinguen unicamente dos categorıas en las dos variablesconsideradas, puede recibir, ademas del tratamiento estudiado anteriormente, otro especıficoque destaca por su sencillez. Aquı la tabla de contingencia tendra la siguiente estructura:

(2× 2) B1 B2 Total

A1 a b a+bA2 c d c+d

Total a+c b+d n

Ejemplo 8: tabla 2 × 2. Se pretende averiguar en que medidaes efectiva una vacuna contra la hepatitis. Se estudio una muestrade 1083 individuos de los cuales algunos habıan sido vacunados yotros no; transcurrido un largo periodo de tiempo, algunos habıanllegado a contraer la hepatitis mientras que otros estaban sanos.La tabla de contingencia resultante es la siguiente:

Vacunacion

Hepatitis

(2× 2) Sı No Total

Sı 11 70 81No 538 464 1002

Total 549 534 1083

Para un caso de este tipo y a la hora de medir el grado de asociacion de las variablespodemos utilizar, ademas del conocido coeficiente C, el denominado coeficiente φ, que se definemediante φ2 = χ2

exp/n, que resulta ser equivalente a

φ =

√(ad− bc)2

(a+ b)(c+ d)(a+ c)(b+ d)

Page 54: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

54 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

Si analizamos detenidamente la ultima expresion, concluiremos que φ2 es un parametro com-pletamente analogo al coeficiente de correlacion lineal r2 (es mas, si para ambas variablescualitativas asignamos sendos codigos numericos a cada una de las posibles categorıas, φ equi-vale al coeficiente de correlacion r entre las variables numericas resultantes). Concretamente,puede tomar cualquier valor entre 0 y 1. El valor 0 se corresponde con asociacion nula y elvalor 1, con una asociacion maxima.

Ejercicio 60. Comprobar que el valor de φ para los datos del ejemplo 8 es 0.211.

Por su parte, el coeficiente de contingencia, que en una tabla 2× 2 debe estar comprendidoentre 0 y 0.707, da como resultado en esta caso C = 0.206. Ambos valores coinciden en expresarun grado de relacion medio-bajo en la muestra observada. El valor maximo φ = 1 se correspondecon una tabla diagonal. Es lo que lo que habrıa ocurrido si los datos de la muestra hubieransido los siguientes:

Vacunacion

Hepatitis

(2× 2) Sı No Total

Sı 0 81 81No 1002 0 1002

Total 1002 81 1083

Por contra, el valor φ = 0 se corresponde con un grado nulo de relacion, que se habrıa alcanzadosi nuestros datos hubieran sido los siguientes (estamos hablando nuevamente de la tabla devalores esperados):

Vacunacion

Hepatitis

(2× 2) Sı No Total

Sı 334 27 361No 668 54 722

Total 1002 81 1083

Efectivamente, si fuera este el caso podrıamos observar que, tanto en el caso de vacunadoscomo en el de no vacunados, la proporcion condicionada de individuos afectados serıa 1/3. Lomismo ocurrirıa con la tabla resultante en el ejercicio 58.

Con un proposito meramente didactico y para hacer hincapie en la semejanza entre losparametros r y φ, podemos convertir en cualitativas (categorizar) las variables numericas Xe Y del ejemplo 4 (r = 0.91) que se representan en la figura 2.6, asignandoles “+” cuandoel valor queda por encima de su correspondiente media y “–” cuando queda por debajo. Ası,obtendrıamos la siguiente tabla 2× 2 , a la que corresponde un valor de φ = 0.86.

X

Y

– + Tot

+ 2 6 8– 4 0 4

Tot 6 6 12

Ejercicio 61. Comparar el valor de φ que corresponde a esta tabla con el valor r obtenido paralos datos numericos originales. Confrontese esta tabla con las figuras 2.6 y 1.14 para entenderel concepto de relacion estadıstica.

Ejercicio 62. Confrontese la tabla obtenida en el ejercicio 58 con las figuras 2.11 y 2.22 paraentender el concepto de independencia.

Page 55: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

3.2. FACTORES DE RIESGO 55

Recordamos que las conclusiones obtenidas en esta fase del estudio se cinen exclusivamentea la muestra considerada, es decir, no estamos aun en condiciones de extrapolarlas al conjuntode la poblacion, entre otras cosas porque no sabemos en que condiciones ha sido escogida esamuestra. Cabe incluso pensar que los individuos hayan sido seleccionados intencionadamentepara obtener unos resultados concretos.

3.2. Factores de riesgo

Nos centramos en esta ocasion en un tipo particular de tabla 2 × 2 de especial interes enEpidemiologıa. Supongamos que una de la variables cualitativas estudiadas es la ausencia opresencia de una enfermedad E, como puede ser un cancer de pulmon, hepatitis, osteoporosis,etcetera, siendo la otra la ausencia o presencia de un posible factor de riesgo FR de cara apadecer dicha enfermedad, como, respectivamente, el hecho de fumar, el de no estar vacunadocontra la hepatitis, el de no alimentarse correctamente, etc. El proposito de este tipo de estudioses determinar, a partir de una muestra, si ese supuesto factor de riesgo lo es efectivamente y enque medida. Dado que en esta primera parte estamos en un contexto meramente descriptivo,nos limitaremos por el momento a calcular una medida apropiada del riesgo que comporta elfactor en la muestra considerada. Las inferencias o generalizaciones se llevaran a cabo en lasegunda parte.

Ejercicio 63. Indica 5 enfermedades y 5 respectivos posibles factores de riesgo. ¿Crees queestan todos ellos confirmados estadısticamente o estamos hablando de meras suposiciones teori-cas?

En este tipo de estudios pueden considerarse diferentes parametros de interes para unaenfermedad concreta:

Prevalencia: la proporcion de individuos enfermos P (E) en un instante dado en la poblacion.

Incidencia: la proporcion de individuos que, estando sanos al inicio de un periodo de tiempo,enferman a lo largo del mismo. Se pueden distinguir distintos tipos de incidencias, por ejemplo,la incidencia entre los individuos que presentan un posible factor de riesgo o la incidencia entrelos que no lo presentan. A partir de estas dos incidencias se calculan los riesgos relativo yatribuibles, que definiremos mas adelante

Estos parametros son de caracter poblacional y han de ser estimados a partir de una muestraconcreta de tamano n. No obstante, que un parametro determinado pueda ser o no estima-do directamente a partir de la muestra estudiada depende del diseno escogido a la hora deseleccionarla. De esta forma, estamos llevando a cabo una primera incursion en la InferenciaEstadıstica (segunda parte del manual), una de cuyas maximas podrıa enunciarse ası: A travesde una muestra solo podemos aspirar a estimar parametros poblacionales relativos a variables que nohan sido controladas durante el proceso de seleccion de la misma. Efectivamente si, por ejemplo,escogemos una muestra de una poblacion con el requisito de que la mitad san hombres y la otramitad mujeres, esta no es valida para estimar la proporcion de hombres en dicha poblacion.

De esta forma, en lo relativo al estudio de factores de riesgo, distinguiremos tres tipos dedisenos:

3.2.1. Tipos de disenos

Estudios transversales o de prevalencia: su objetivo principal es poder estimar la preva-lencia, para lo cual se selecciona una gran muestra representativa de la poblacion y se determina

Page 56: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

56 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

la cantidad de enfermos en un momento dado. La prevalencia P (E) se estima entonces de ma-nera obvia mediante la proporcion de enfermos en la muestra, P (E).

Estudios de seguimiento o de cohortes: se selecciona una muestra de individuos expuestaal factor de riesgo y otra de no expuestos para estudiar su evolucion durante un periodo detiempo, que suele ser largo, anotandose cuantos llegan a contraer la enfermedad en cada caso.Este diseno permite estimar las incidencias de la enfermedad para ambas cohortes, P (E|FR) yP (E|FR), con el fin de compararlas entre sı1.

Estudios retrospectivos o de caso-control: en un determinado momento se escoge unamuestra de enfermos (caso) y otra de sanos (control), para a continuacion averiguar que in-dividuos han estado expuestos al factor de riesgo. Suelen ser los menos costosos pues los deprevalencia requieren muestras muy grandes para que puedan registrarse suficientes enfermos,mientras que los de cohortes requieren de un seguimiento de las cohortes durante un largointervalo de tiempo para que exista la posibilidad de que surja la enfermedad. Sin embargo, enlos estudios tipo caso-control se seleccionan intencionadamente un grupo de enfermos que secomparan con otro de sanos, con lo que la presencia de la enfermedad en el estudio queda asıgarantizada. El peaje que debemos pagar por este tipo de diseno consiste en que, al estar laenfermedad controlada en el estudio, no es posible dar, a partir de la muestra, una estimacionvalida de las incidencias ni de las prevalencias. Por contra, dado que la presencia del factorde riesgo no esta controlada, sı podemos estimar las proporciones P (FR|E), P (FR|E), lo cual dauna justificacion formal al concepto de Odds Ratio, que definiremos mas tarde.

En todo caso, nuestros datos se recogeran en una tabla 2×2 donde se indicara, por un lado,si el individuo presenta el factor de riesgo y, por otro, si padece o desarrolla la enfermedadestudiada.

(2× 2) Sı factor No factor Total

Sı enfermo a b a+bNo enfermo c d c+d

Total a+c b+d n

En el ejemplo 8, la enfermedad estudiada es la hepatitis y el posible factor de riesgo el hechode no estar vacunado. Se supone que estamos ante un estudio de cohortes pues se efectua unseguimiento de individuos inicialmente sanos. Como hemos dicho anteriormente, en un estudiode cohortes tiene sentido estimar las incidencias de la enfermedad por grupos a traves de latabla. Concretamente:

P (E|FR) =a

a+ cP (E|FR) =

b

b+ d

y se entenderan respectivamente como el riesgo observado en la muestra de contraer la enfer-medad si se esta expuesto al factor y en caso contrario. En un estudio caso-control tiene sentidoestimar a partir de la muestra la proporcion de individuos enfermos que presentan el factor deriesgo. Concretamente, tomarıamos

P (FR|E) =a

a+ b

1Se denota con A el suceso contrario a A. Ası pues, FR indica el hecho de no estar expuesto al factor deriesgo.

Page 57: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

3.2. FACTORES DE RIESGO 57

3.2.2. Medidas de riesgo

Veamos cuales son las medidas mas populares del riesgo que comporta un factor determi-nado. Aunque todas pueden en principio calcularse a partir de la tabla 2 × 2, estos valorespodran o no considerarse estimaciones razonables de los valores poblacionales en funcion deltipo de estudio del que se trate. Hemos de percatarnos tambien de que los propios coeficientesC y φ pueden entenderse como medidas de riesgo dado que expresan el grado de relacion entreel factor y la enfermedad. No obstante, cuando la enfermedad estudiada no es muy frecuenteestas medidas no suelen resultar intuitivas para explicar el grado de riesgo, de manera que seutilizan generalmente otras mas especıficas del contexto epidemiologico.

Riesgo atribuible: Es la diferencia entre las incidencias de enfermos, es decir,

RA = P (E|FR)− P (E|FR)

Este parametro tiene sentido en estudios de cohortes. Un valor positivo indica que en la muestrase observa una mayor tendencia a la enfermedad en los que presentan el factor de riesgo. Unvalor aproximadamente nulo indica escasa relacion entre el factor de riesgo y la enfermedad.

Con los datos del ejemplo 7 y si consideramos como factor de riesgo el hecho de no estarvacunado, obtenemos una estimacion del riesgo atribuible de

RA = 13.1 %− 2.0 % = 11.1 %

El porcentaje de enfermos entre los no vacunados es 11.1 puntos superior al de lo vacunados.Esta medida adolece del mismo problema que el coeficiente φ pues, al restarse incidencias quesuelen ser pequenas aporta valores a su vez bajos.

Fraccion atribuible a la exposicion: Se define como el cociente

FA =RA

P (E|FR)=P (E|FR)− P (E|FR)

P (E|FR)

Se interpreta como la parte del riesgo de los expuestos que se debe al factor propiamente,entendiendo que una parte de los que estan expuestos enferman por otras causas que compartencon los no expuestos. En el caso del ejemplo anterior es del 84 %. Logicamente, este parametrosolo puede estimarse en los estudios de cohortes.

Riesgo relativo: Es seguramente la mas intuitiva de todas las medidas de riesgo. Se tratade determinar en que medida incrementa el factor de riesgo la incidencia de la enfermedad. Seestima en un estudio de cohortes mediante

RR =P (E|FR)

P (E|FR)

A partir de la tabla se obtiene ası:

RR =a

a+ c:

b

b+ d

Para los datos de la hepatitis tendrıamos la siguiente estimacion

RR =13.1

2.0= 6.55

Es decir, en esta muestra se observa que el hecho de no estar vacunado aumenta 6.55 veces laproporcion de enfermos.

Page 58: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

58 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

Odds Ratio: Constituye una alternativa muy socorrida al riesgo relativo que puede ser es-timada razonablemente tanto en los estudios tipo cohortes como caso-control. La definicionformal del parametro a nivel poblacional es la siguiente,

OR =P (E|FR)/P (E|FR)

P (E|FR)/P (E|FR)

de manera que un valor superior a 1 se entiende como una asociacion entre el factor de riesgo yla enfermedad. No obstante, mediante una sencilla regla proporcional que volveremos a utilizarmas adelante, denominada Formula de Bayes, se deduce que OR puede expresarse tambien ası:

OR =P (FR|E)/P (FR|E)

P (FR|E)/P (FR|E)

Notese que esta expresion sı puede estimarse directamente en un estudio de casos-control apartir de la tabla de contingencia mediante la denominada razon de productos cruzados:

OR =ad

bc, o bien OR =

bc

ad

Se define de acuerdo con la expresion de la izquierda o de la derecha segun como entendamosen principio el riesgo. Esta es la definicion que consideraremos en lo sucesivo. Ası, en el ejemplo7 obtenemos:

Vacunacion

Hepatitis

(2× 2) Sı No Total

Sı 11 70 81No 538 464 1002

Total 549 534 1083

OR =70 · 538

11 · 464= 7.10

Esta medida no goza de una interpretacion tan clara e intuitiva como el riesgo relativo. Ademas,cuando ambos gozan de sentido estadıstico el Odds Ratio suele aportar valores ligeramentemayores que el Riesgo Relativo (como ha sido el caso). No obstante, es frecuente permitirse lalicencia de entenderlos de forma identica como medidas del incremento del riesgo. Es de vitalimportancia entender bien la tabla para saber que diagonal debe aparecer en el numerador ycual en el denominador.

Ejercicio 64. ¿Que diferencia existe entre RR y RR?

Ejercicio 65. Razona lo mejor posible por que en un estudio de tipo caso-control no podemosobtener una estimacion razonable del riesgo relativo.

Ejercicio 66. ¿Con que valores de RA, FA, RR y OR se corresponde φ = 0?

Ejercicio 67. ¿Como interpretar un valor RR = 0.50?

Ejercicio 68. Si se afirma que un habito determinado incrementa en un 20 % el riesgo depadecer una enfermedad concreta, ¿que podemos decir del riesgo relativo asociado?

3.3. Diagnostico Clınico

Otra cuestion de gran interes en Epidemiologıa que guarda una estrecha relacion con lastablas 2× 2 es el estudio de la eficacia de los diferentes procedimientos de diagnostico de unapatologıa o de deteccion de sustancias dopantes. Primeramente, hemos de destacar que una

Page 59: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

3.3. DIAGNOSTICO CLINICO 59

gran cantidad (por no decir la mayorıa) de procedimientos de diagnostico tienen una importantecomponente estadıstica.

Efectivamente, nos referimos a aquellos metodos que consisten en medir una variable detipo numerico que puede proceder de una analıtica (concentracion de leucocitos, marcadorPSA, urea), de una ecografıa (anchura de un conducto, fraccion de acortamiento entre sıstoley diastole), etc. Si para una variable concreta conocemos la distribucion aproximada (es decir,los valores que puede tomar y en que proporciones) para los individuos sanos, un valor anomalorespecto a dicha distribucion puede ser considerado en principio patologico, lo cual supondraun resultado positivo en el diagnostico, que seguramente debera ser corroborado medianteotra prueba mas exhaustiva. Por contra, un valor dentro de los lımites correspondientes a lapoblacion sana supondra un resultado negativo, lo cual no tiene por que excluir la posibilidadde que el individuo este enfermo.

La forma de valorar la fiabilidad de un procedimiento de este tipo es aplicarlo a una muestrade individuos con un diagnostico previo certero (sano o enfermo) y comprobar en que medidalos enfermos coinciden con los positivos. Se trata pues de un diseno tipo caso-control que daralugar a una tabla 2× 2 como la que aparece en el siguiente ejemplo:

Ejemplo 9: Diagnostico clınico Se aplica un test diagnosticoa 1000 individuos, 200 de los cuales sabemos que estan enfermosmientras que de los 800 restantes sabemos que estan sanos. Losresultados son los siguientes:

Diagnostico

Enfermedad

(2× 2) + - Total

E 120 80 200S 90 710 800

Total 210 790 1000

3.3.1. Lımites de normalidad

Antes de cuantificar la fiabilidad del procedimiento diagnostico vamos a intentar detallar queentendemos por valores anomalos. Por lo general, consideramos anomalos los valores extremos(demasiado grandes o demasiado pequenos) en relacion con la distribucion considerada, hastacompletar un 5 % (aproximadamente). Si la variable se ajusta aproximadamente a un modelode distribucion de campana de Gauss, los lımites a partir de los cuales los valores se consideranextremos son, segun el ejercicio 29,

x± 2 · s (3.1)

Ası pues, para el caso de la figura 1.6, a la que corresponde una media de 179 y una desviaciontıpica de 20, tendrıamos unos lımites de normalidad de 159-219, de manera que todo valorpor debajo de 159 o por encima de 219 se considerarıa anomalo. Realmente, estos lımitesdenominados de normalidad o tolerancia deben ser determinados a partir de muestras muchomas grandes que la de la figura 1.6 para que puedan ser fiables. En el caso del colesteroly en otro muchos, no se ha descrito, hasta donde sabemos, asociacion entre la presencia devalores demasiado bajos y enfermedad cardiovascular, por lo que el resultado de la analıtica seconsidera positivo solo cuando el valor es excesivamente alto.

En casos como el de la figura 3.3, la variable no se ajusta satisfactoriamente a un modelo dedistribucion normal, por lo que los lımites de normalidad no deben calcularse segun (3.1). Entales situaciones se pueden determinar los lımites de tolerancia de diferentes formas, aunque eneste concreto, cabe mencionar que una transformacion logarıtmica de la variable PSA conducecuriosamente a una distribucion aproximadamente normal (como se aprecia en la figura 3.4),en la cual sı podemos aplicar (3.1).

Page 60: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

60 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

Figura 3.3: PSA

Antígeno prostático específico

300,00250,00200,00150,00100,0050,00,00

Fre

cuen

cia

60,0

50,0

40,0

30,0

20,0

10,0

0,0

Página 1

Figura 3.4: log PSA

Logaritmo Psa

6,0004,0002,000,000

Fre

cuen

cia

40,0

30,0

20,0

10,0

0,0

Página 1

Segun el histograma de la figura 3.4, suponiendo que corresponda a una amplia muestra deindividuos sanos, un valor del log PSA de 7 debe interpretarse como un positivo en la analıticaque conducira seguramente a la realizacion de pruebas complementarias. Por ultimo, citamosciertos lımites de tolerancia facilitados por los Servicios de Bioquımica y Hematologıa de unhospital universitario espanol.

Glucosa (mg/dl) [70,110]Urea (mg/dl) [10,40]Hematocrito ( %) [36,46]Eosinofilos ( %) <4

3.3.2. Fiabilidad de un procedimiento de diagnostico

Una vez hemos entendido como puede disenarse a grandes rasgos un procedimiento dediagnostico, vamos intentar analizar la fiabilidad del mismo partiendo de una tabla de contin-gencia 2 × 2 donde se confronta la enfermedad con el resultado del diagnostico, como la delejemplo 8. Efectivamente, es posible, como se aprecia en la tabla, que un individuo sano seadiagnosticado erroneamente como enfermo (positivo), lo cual se denomina falso positivo.

Page 61: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

3.3. DIAGNOSTICO CLINICO 61

Tambien es posible que un individuo enfermo sea diagnosticado como sano (negativo), lo cualserıa un falso negativo. Por ello, definimos las siguientes medidas:

Sensibilidad: proporcion de enfermos que son diagnosticados como positivos.

Especificidad: proporcion de sanos diagnosticados como negativos.

Para el metodo diagnostico del ejemplo 9, obtendrıamos las siguientes estimaciones a partirde la tabla obtenida:

sens = P (+|E) =120

200= 0.600

esp = P (−|S) =710

800= 0.887

Es decir, la proporcion de falsos negativos en la muestra es del 40.0 % y la de falsos positivosdel 11.3 %. Estamos suponiendo que en el estudio la enfermedad esta controlada, es decir,que hemos escogido un grupo de enfermos y otro de sanos, lo cual se conoce mediante undiagnostico veraz previo. Sin embargo, desconocemos de antemano si estos individuos daranpositivo o negativo con el nuevo procedimiento.

Ejercicio 69. ¿Que sensibilidad y especificidad se espera de un procedimiento de diagnosticocompletamente fiable?

Curvas COR Ya hemos comentado que uno de los procedimientos mas habituales de diagnosti-co consiste en observar si una cierta variable, que correlaciona con la enfermedad estudiada,presenta un valor anomalo desde el punto de vista de la poblacion sana, pero verosımil desdeel punto de vista de la poblacion enferma. Por ejemplo, es conocido que la enfermedad celiacase asocia a concentraciones excesivamente elevadas del anticuerpo IgA en una analıtica. Por lotanto, un primer procedimiento para detectar la enfermedad puede consistir en establecer unumbral concreto de manera que un valor de IgA por encima del mismo se considere positivo enel test de diagnostico. Si utilizamos uno de los dos lımites de normalidad estudiados anterior-mente podemos garantizar un procedimiento con una especificidad superior al 95 %, pero quepuede ser poco sensible. Por contra, desplazar el umbral para aumentar la sensibilidad conducenecesariamente a una reduccion de la especificidad.

Ejercicio 70. Razonar las dos afirmaciones anteriores.

El problema estadıstico se reduce pues a encontrar un umbral de la variable que permitaobtener simultaneamente una sensibilidad y una especificidad razonables, lo cual se analizagraficamente mediante la curva COR (caracterıstica receptiva del operador), como la que apa-rece en la figura 3.5. En general, la variable analizada es tanto mas valida cuanto mas seaproxime a 1 el area subyacente a la curva, y el umbral ideal se corresponde con el punto de lacurva mas proximo al punto de coordenadas (1,1). En este caso particular, el area subyacenteresulta ser 0.825, y el umbral que permite la mejor aproximacion es IgA=33.8, para el cualse obtienen una especificidad del 80 % y una sensibilidad del 73 %, segun indica el programaSPSS, aunque esta decision es muy discutible.

Valor predictivo positivo: se entiende como la probabilidad2 de estar enfermos si se hadado positivo en el test.

2Es la primera vez que mencionamos este concepto de manera explıcita. Podemos interpretarlo de maneraintuitiva.

Page 62: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

62 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

Figura 3.5: Curva COR diagnostico de celiaquıa a partir de IgA

1 - Especificidad

1,00,80,60,40,20,0

Sen

sib

ilid

ad

1,0

0,8

0,6

0,4

0,2

0,0

Página 1

Valor predictivo negativo: se entiende como la probabilidad de estar realmente sano si seha dado negativo en el test.

Ejercicio 71. ¿Que valores predictivos positivo y negativo cabe esperar de un metodo dediagnostico completamente certero?

Ejercicio 72. ¿Como estimarıas en principio los valores predictivos positivo y negativo di-rectamente a traves de la tabla? ¿Por que el diseno habitual de caso-control utilizado en elejercicio 8 no permite unas estimaciones adecuadas segun el procedimiento anterior?

Dado que el diseno habitual de estos estudios no permite estimar los valores predictivospositivo y negativo directamente a traves de las tablas, procederemos a estimarlos a partir de lasensibilidad y especificidad, supuesta conocida de de antemano la prevalencia de la enfermedad.Para ello utilizaremos de nuevo la Regla de Bayes para obtener las siguientes formula:

V P+ =sens× prev

sens× prev + (1− esp)× (1-prev)

V P− =esp× (1− prev)

(1− sens)× prev + esp× (1-prev)

Ası, si suponemos conocido que la enfermedad considerada en el ejemplo 8 presenta una pre-valencia del 2 %, tendremos:

V P+ =0.60× 0.02

0.60× 0.02 + 0.113× 0.98= 0.097

V P− =0.887× 0.98

0.40× 0.02 + 0.887× 0.98= 0.990

El procedimiento empleado parece ser pues mucho mas util para descartar la enfermedad quepara detectarla. Otras veces ocurre lo contrario, por lo que la practica habitual es combinardiferentes tests. Para mas detalles al respecto consultar la bibliografıa recomendada, en esespecial Cobo, Munoz y Gonzalez (2007).

Otras cuestiones propuestas

Ejercicio 73. Completa la siguiente tabla de contingencia de manera que podamos obtenerun valor φ = 1. ¿Como lo interpretarıas en terminos epidemiologicos?

Page 63: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

3.3. DIAGNOSTICO CLINICO 63

2× 2 Hombre Mujer TotalEnfermoSanoTotal 6000 4000 10000

Ejercicio 74. Si pretendemos probar la eficacia de una vacuna mediante una tabla 2×2 comoen el caso del ejemplo 7, ¿como debemos interpretar en terminos clınicos un resultado φ = 0.02?

Ejercicio 75. Para estudiar la posible relacion entre la exposicion a un agente radioactivo selleva a cabo un seguimiento durante 20 anos de 5.000 individuos proximos a dicho agente y otros95.000 lejanos, contabilizando en cada caso los tumores de tiroides que fueron diagnosticandose.Los resultados del estudio quedan recogidos en la siguiente tabla:

Exposicion

Tumor

(2× 2) Sı No Total

Sı 25 30 55No 4975 94970 99945

Total 5000 95000 100000

¿De que de diseno se trata?

Calcular dos medidas del riesgo que, segun la muestra, supone la proximidad al agenteradioactivo.

¿Cual de ellas crees que es la mas apropiada? Interpretala en terminos clınicos.

Calcula el coeficiente φ y comparalo con la medida anterior para entender por que enepidemiologıa se utilizan parametros de correlacion especıfico.

Ejercicio 76. Se piensa que la presencia de cierta variedad de un gen puede predisponer a uncierto tipo de tumor. Para contrastarlo se seleccionaron 1000 individuos sanos y otros tantosafectados por el tumor. A continuacion, se procedio a efectuar un analisis genetico de todoslos individuos de la muestra para determinar si presentaban o no la variedad del gen. Losresultados aparecen en la siguiente tabla:

Tumor

Gen

Sı No Total

Sı 610 360 970No 390 640 1030

Total 1000 1000 2000

¿De que tipo de diseno se trata?

Calcula una medida de riesgo adecuada e interpretala en terminos clınicos.

Ejercicio 77. Calcula el valor de φ en las tablas anteriores.

Ejercicio 78. Considera una determinada enfermedad, un posible factor de riesgo asociado ydisena un hipotetico estudio con vistas a medir el grado de riesgo de dicho factor.

Ejercicio 79. En funcion de los datos del ejercicio 27 determinar los lımites a partir de loscuales un bebe varon puede considerarse anormalmente pesado y anormalmente liviano.

Ejercicio 80. Se pretende valorar la efectividad de una prueba diagnostica A para una enfer-medad presente en el 2 % de la poblacion. Para ello fue aplicada a una muestra constituida por750 enfermos y 250 sanos con los siguientes resultados:

Page 64: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

64 CAPITULO 3. RELACION ENTRE VARIABLES CUALITATIVAS

+ - Total

Enfermos 730 20 750Sanos 50 200 250

Total 780 220 1000

Estimar la sensibilidad y especificidad de la prueba diagnostico, ası como las proporcionesde falsos positivos y falsos negativos. Estimar los valores predictivos positivos y negativos.Valorar los resultados en terminos muy practicos.

Ejercicio 81. Disponemos de otro procedimiento diagnostico B para la misma enfermedad.Sus resultados tras aplicarlo a los mismos individuos son los siguientes:

+ - Total

Enfermos 610 140 750Sanos 3 247 250

Total 613 387 1000

Estimar nuevamente la sensibilidad, especificidad y los valores predictivos positivo y nega-tivo. Valorar los resultados y compararlos con los del procedimiento A.

Page 65: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Parte II

Inferencia Estadıstica

65

Page 66: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de
Page 67: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Capıtulo 4

Introduccion a la Inferencia Estadıstica

Tal y como indicamos en la introduccion, el proposito final de la Bioestadıstica es determinarlas causas de un fenomeno biomedico, que estara en principio sujeto a un grado mayor o menorde incertidumbre, con el proposito de eliminar esta en la medida de lo posible. Con esa intencionse procede al analisis descriptivo de una muestra, en la que podemos observar un grado mayoro menor de correlacion y en un sentido determinado. Por ejemplo:

En el estudio de la longitud del femur y el peso de 40 fetos ilustrado por la figura 2.8 hemosobservado una correlacion lineal directa entre ambas variables (r = 0.802), que se mejorasi anadimos al estudio las circunferencias de cabeza y abdomen, obteniendo entonces laecuacion (2.1) para predecir el peso del feto a partir de las medidas del ecografo.

En el estudio de relacion entre la acidosis y el nivel de glucemia en 200 recien nacidos,ilustrado por la figura 2.19, observamos que la acidosis respiratoria y, en especial lametabolica, se asocian a un incremento del nivel medio de glucemia, cosa que no parecesuceder con la acidosis mixta.

En el estudio de eficacia de una vacuna contra la hepatitis expuesto en el ejemplo 7,observamos que los individuos no vacunados de la muestra presentan un riesgo 6.5 vecesmayor de padecer la hepatitis que los vacunados de la muestra.

Lo que resta es completar el esquema de la figura 1 determinando en que medida lo ob-servado en la muestra puede generalizarse a la poblacion de la que procede. Efectivamente,el hecho de que en una muestra concreta apreciemos cierto grado de correlacion no debe ha-cernos descartar que, si la reemplazamos por otra diferente, nuestra conclusion sea otra. Estavariabilidad de las posibles muestras se debe a que el caracter que pretendemos explicar (peso,acidosis, hepatitis) se rige en buena parte por un conjunto de variables que no controlamosen el experimento y que por lo tanto, fluctuan de una muestra a otra. Es lo que se entiendecomunmente como azar. Debemos decidir pues si la correlacion observada en la muestra esclara, es decir, significativa, o bien si puede ser explicada por el azar. Especialmente en el pri-mer caso conviene determinar tambien un margen de error para los diferentes valores tıpicos,dado que estos varıan de una posible muestra a otra. En definitiva, en Inferencia Estadısticadistinguimos dos tipos de problemas: de contraste de hipotesis y de estimacion.

Obviamente, la Inferencia Estadıstica debe formularse en un lenguaje probabilıstico. Noobstante, haremos un uso intuitivo del concepto de probabilidad (que ya ha sido tratado, aun-que no de forma explıcita, en el capıtulo anterior) que, en ultima instancia, se trata de unaproporcion. Es mas, en el contexto de las Ciencias de la Salud podemos permitirnos la licenciade identificar probabilidad con proporcion calculada respecto al total de una poblacion. Ası,por ejemplo, la probabilidad de medir mas de 1.70 no es sino la proporcion de individuos de lapoblacion estudiada que verifica tal propiedad.

67

Page 68: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

68 CAPITULO 4. INTRODUCCION A LA INFERENCIA ESTADISTICA

4.1. Parametros poblacionales y muestrales

Todos los valores tıpicos estudiados en los capıtulos 1, 2 y 3 a partir de una muestra detamano n pueden definirse teoricamente a partir de todos los valores de la poblacion estudiada.Decimos teoricamente porque en la practica no podran ser calculados. Ası por ejemplo, segunvimos en (1.1),

x =k∑i=1

xipi (4.1)

donde pi denota la proporcion de datos de la muestra que presenta el valor xi. El homologopoblacional µ se define entonces mediante

µ =∑i

xipi (4.2)

donde pi denota la proporcion de datos de la poblacion que presenta el valor pi, es decir, laprobabilidad de xi. De la misma forma que redefinimos la media, podemos redefinir todos losdemas valores tıpicos. Es costumbre denotar por letras griegas los parametros poblacionalespara distinguirlos de sus homologos muestrales o decriptivos, que se denotan por letras latinas.En otras ocasiones, los parametros poblacionales se expresan directamente con letras latinas ylos muestrales con la misma letra y, encima, el signoˆ.

Muestral Poblacional

x µs2 σ2

r ρBj βjRR RR

OR OR

Las conclusiones definitivas del estudio dependen de lo que sepamos acerca de los parametrospoblacionales. Por ejemplo, en el problema de relacion entre el peso y la longitud del femuren fetos, que exista relacion equivale a que el coeficiente de correlacion lineal poblacional ρ nosea nulo; es directa si es positivo y mas fuerte cuanto mayor sea ρ2. La mejor ecuacion parapredecir el peso a partir de las medidas del ecografo viene dada por los valores β0, β1, β2 y β3

de la ecuacion de regresion poblacional. Por otra parte, concluirıamos que la acidosis influyeen el nivel de glucemia si encontramos difernecias entre las medias de glucemia de las cuatrocategorıas poblacionales, µ1, µ2, µ3 y µ4 (sanos, acidosis respiratoria, metabolica y mixta), yen ese caso, el sentido de la relacion vendrıa dado por el signo de las diferencias y el gradode relacion por la magnitud de las mismas. Por ultimo, que el hecho de no estar vacunadoincremente el riesgo de padecer hepatitis equivale a que el riesgo relativo poblacional RR seamayor que 1, incrementandose mas cuanto mayor sea RR.

Queremos decir que, si pudieramos calcular los parametros poblacionales como calculamoslos muestrales, el problema finalizarıa aquı pues las conclusiones serıa inapelables. La cuestiones que los parametros poblacionales no pueden obtenerse en la practica, sino que tenemos queconformarnos con sus homologos muestrales, es decir, estimarlos a partir de unas muestras delas cuales nos fiamos en parte.

Ejercicio 82. ¿Por que no podemos calcular en la practica los parametros poblacionales? Depoder hacerlo, indica como probarıas que se da una relacion inversa entre la concentracion ensangre de calcio y hormona paratiroidea. ¿Como determinarıas una ecuacion para explicar unavariable a partir de la otra? ¿Serıan exactas las predicciones?

Page 69: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

4.2. MUESTREO 69

4.2. Muestreo

Ası pues, dado que las posibles conclusiones de nuestro estudio pasan por el analisis previode una muestra, deberıamos dar unas nociones mınimas de como deben seleccionarse. Si lo quepretendemos es extrapolar al global de la poblacion la descripcion de la muestra, la segunda de-berıa ser representativa de la primera. La forma teorica de obtener una muestra representativaes mediante un muestreo aleatorio, que consiste basicamente en seleccionar a los individuos dela muestra mediante un proceso analogo a una loterıa. Efectivamente, cualquiera de nosotrospuede comprobar que si lanza un dado simetrico un numero n suficientemente grande de oca-siones, las proporciones de unos, doses, treses, cuatros, cincos y seises obtenidas se aproximana 1/6. Es decir, que los resultados de n lanzamientos de un dado explican aproximadamentesu estructura. Este hecho se denomina Ley de azar, y constituye en la practica el fundamentode la Inferencia Estadıstica.

Ejercicio 83. Relacionar en estos terminos las ecuaciones (4.1) y (4.2) suponiendo que la mues-tra a partir de la cual se ha calculado x es aleatoria y grande, para ası entender la aproximacionde x a µ y, en general, de los valores tıpicos a sus respectivos homologos poblaciones.

En ocasiones, como en el problema de la acidosis en bebes, se precisa elegir una muestraaleatoria para cada categorıa estudiada; ocurre lo mismo en los estudios de cohortes, dondese elige una muestra de expuestos y otra de no expuestos a un posible factor de riesgo, o enlos de caso-control, donde se elige una muestra de enfermos y otra de sanos (el problema deacidosis es una variante de este tipo). En el caso del estudio del femur y el peso de los fetos, nodeberıamos considerar ninguna estratificacion a la hora de seleccionar la muestra, sino efectuarun sorteo simple.

Hay que advertir claramente que, salvo en estudios de gran calado, la obtencion de la mues-tra mediante un sorteo en la poblacion es casi utopica; que debemos conformarnos con analizarlos datos de los que disponemos, siempre y cuando podamos descartar un claro sesgo o intencio-nalidad espuria a la hora de incluirlos en el estudio. Si es ası, la muestra puede considerarse, sino aleatoria, al menos arbitraria, lo cual puede ser suficiente si no sobrevaloramos los metodosque vamos a aplicar. Ello supone un primer error de partida que debemos estar dispuestosa arrastrar en el resto del estudio y al que se anadiran otros, cosa que debemos tener muypresente en nuestras conclusiones, que deben relativizarse.

Un punto de partida teorico: una buena parte de los prodecimientos que vamos a aplicaren lo sucesivo se basan de manera directa o indirecta en el resultado teorico que enunciaremosa continuacion (ya se introdujo intuitivamente en la seccion 1.1). Previamente, debemos tenerpresente que, si estamos estudiando una variable X definida sobre una poblacion, con media µy varianza σ2, a partir de una muestra supuestamente aleatoria de tamano n, tanto la mediaaritmetica x como la varianza s2 de la muestra pueden entenderse asimismo como variablesnumericas, en el sentido de que pueden tomar diferentes valores en funcion de la muestraparticular considerada, y como tales poseen a su vez una media y una varianza en relacion alconjunto de las posibles muestras de tamano n que pueden constituirse en la poblacion.

Proposicion 4.2.1. En ese caso, se verifica que la media aritmetica calculada a partir deuna muestra de tamano n tiene media µ y varianza σ2/n, y se distribuye aproximadamentesegun un modelo de campana de Gauss si n es lo suficientemente grande. En consecuencia, sitipificamos las variable x se verifica, para n suficientemente grande, que

√n(x−µ)/σ sigue un

modelo de distribucion N(0, 1) (ver figura 4.1). Si reemplazamos σ por la desviacion tıpica dela muestra obtenemos una distribucion muy similar a la N(0, 1), que se denomina distribuciont de Student. En definitiva, se verifica aproximadamente:

x− µs/√n∼ N (0, 1) (4.3)

Page 70: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

70 CAPITULO 4. INTRODUCCION A LA INFERENCIA ESTADISTICA

En consecuencia, para un 95 % de las posibles muestras de tamano n se verifica que∣∣∣∣x− µs/√n

∣∣∣∣ ≤ 1.96 (4.4)

Es decir, |x − µ| ≤ 1.96 · s/√n. El valor 1.96 ha aparecido ya en otras ocasiones pero

redondeado como 2, por ejemplo en la pagina 21 y en el ejercicio 29. Se trata del valor quedelimita dos colas con el 5 % de los datos mas extremos en la distribucion N(0, 1). De hecho,cuando en el capıtulo 1 afirmabamos que, en una camapana de Gauss aproximadamente el 95 %de los datos quedan comprendidos en el intervalo x± 2s, estabamos redondeando el valor 1.96.

Figura 4.1: Distribucion N(0, 1)

1.96-1.96

2.5 %

Extremos

2.5 %

Extremos

95 %

4.3. Estimacion

Ya sabemos que los valores tıpicos estudiados en la primera parte constituyen estimacioneso aproximaciones de los correspondientes parametros poblacionales, que seran mas certeroscuanto mas grande sea la muestra. No obstante, suponiendo que la muestra sea aleatoria, esta-mos en condiciones de acotar el error con un cierto grado de confianza, es decir, de aportar unintervalo en el cual esperamos que se encuentre el valor desconocido del parametro poblacional.Estas cotas se basan en calculos probabilısticos mas o menos basicos segun el caso.

Intervalo de confianza: el intervalo al 95 % de confianza para la media poblacional µ deuna variable numerica a partir de una muestra de tamano n con media x y desviacion tıpica ses, segun (4.4):

x± 1.96s√n

Ası pues, el margen maximo de error de la estimacion x con una confianza del 95 % es

Emax = 1.96 · s/√n (4.5)

Ejemplo 9: intervalo de confianza para una media. Se pre-tende estimar la media µ de la estatura X de las mujeres de entre16 y 50 anos pertenecientes a una amplia poblacion. Para ello seescogio una muestra supuestamente aleatoria de n = 40 mujeres,las cuales aportaron una media aritmetica de 162.3 cm con unadesviacion tıpica de 5.2 cm.

Page 71: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

4.3. ESTIMACION 71

En consecuencia, ya tenemos una estimacion puntual de la media µ: la media aritmetica x =162.3. El margen maximo de error al 5 % de confianza es

Emax = 1.96 · 5.2√40

= 1.6

Por lo tanto, el intervalo de confianza al 95 % correspondiente es 162.3 ± 1.6. En definitiva,podemos afirmar con una confianza del 95 % que la media de altura de la poblacion se encuentraentre 160.7 cm y 163.9 cm.

La expresion (4.5) merece algunos comentarios aclaratorios:

Cuanto mayor sea la desviacion tıpica muestral s, es decir, cuanto mas variabilidad seaprecie en la muestra, mayor sera el margen de error. Efectivamente, una gran dispersionobservada en la variable a traves de la muestra se traduce a su vez en una variabilidad dela media aritmetica muestral, en el sentido de que puede variar mucho de una muestra aotra y, por lo tanto, es poco fiable.

Cuanto mayor sea n menor es el margen de error. Efectivamente, es el tamano de la mues-tra el que puede amortiguar la variabilidad cuantificada por s. De hecho, a medida queel tamano tiende a infinito, el margen de error tiende a 0. En la practica, podemos apro-vechar la expresion (4.5) para determinar de manera aproximada el tamano de muestranecesario, en funcion de un margen maximo de error establecido de antemano y con unaconfianza determinada (usualmente del 95 %), supuesta conocida una estimacion inicialde la desviacion tıpica mediante una pequena muestra piloto.

En ocasiones se desea una confianza mayor, por ejemplo del 99 %. En ese caso, debemosreemplazar 1.96 por el valor que permite delimitar dos colas iguales con el 1 % del area enla curva anterior. Se trata concretamente de 2.58. Se denotan respectivamente por z0.05

en el primer caso y z0.01 en el segundo. En general, zα es el valor que permite delimitardos colas cuya suma de areas sea α. Los distintos valores (cuantiles) pueden obtenersea partir de una tabla numerica asociada a la distribucion N(0, 1). Existen otras tablasprobabilısticas muy utilizadas en Inferencia Estadıstica y relacionadas con la N(0, 1)que tambien consideraremos, como la t-Student (ya mencionada), la χ2 y la F -Snedecor.Todas ellas llevan asociados unos parametros enteros denominados grados de libertad quelas modulan.

Cuando hablamos de 95 % de confianza no estamos expresando de forma vaga un gradode certeza psicologica sino que queremos decir lo siguiente: el procedimiento expresado en(4.5) aplicado a una gran cantidad de muestras de tamano n conducirıa a unos margenesde error que se respetarıan en el 95 % de los casos, es decir, que para un 5 % de lasposibles muestras, las mas extremas, la diferencia entre su media aritmetica x y µ serıasuperior al Emax calculado. Esas muestras nos conducirıan pues a error. En la practica,solo disponemos de una muestra y no sabemos si pertenece a ese 5 % de muestras extremasque conducen a un intervalo erroneo. Si deseamos aumentar nuestra confianza, podemosconstruir el intervalo al 99 %, pero teniendo en cuenta que eso se consigue a costa deagrandarlo y perder por lo tanto precision.

Cuando estudiamos una variable cualitativa con dos categorıas, como por ejemplo el hechode padecer o no cierta dolencia, y pretendemos calcular un intervalo de confianza parala proporcion global de enfermos p a partir de la proporcion p en la muestra estudiada,se procede aplicando la proposicion anterior a la variable numerica X que asigna un 1al individuo que padece la enfermedad y un 0 al que no la parece (notese que la mediaaritmetica de dicha variable equivale a la proporcion muestral de enfermos), y teniendo

Page 72: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

72 CAPITULO 4. INTRODUCCION A LA INFERENCIA ESTADISTICA

en cuenta que la varianza de dicha variable es p(1 − p), que es en todo caso inferior a1/4. En ese caso, para calcular un tamano de muestra (conservador) que garantize unamargen maximo de error Emax en la estimacion de la proporcion poblacional p, basta condespejar n en la formula siguiente

Emax ≤1√n

Es una equivocacion muy comun asumir por defecto un margen maximo de de error del5 % en la estimacion de la proporcion p (es decir, confundirlo con la probabilidad de que elintervalo sea correcto), porque esa cantidad puede resultar o no aceptable en funcion delpropio valor de p (desconocido). Por ejemplo, considerar un margen de error del 5 % enla estimacion de la prevalencia de una enfermedad relativamente infrecuente es absurdo.

En general, conocer de antemano el tamano de muestra preciso para afrontar congarantıas un estudio estadıstico es uno de las grandes deseos del investigador experimen-tal. Sin embargo y a pesar de las creencias que se propagan desde muchos ambitos esmuy difıcil satisfacer dicho deseo porque requiere del conocimiento de ciertos parametros(en sentido amplio) mas delicados y conflictivos que el propio tamano de muestra. Noobstante, formulas hay, y muchas, como podemos comprobar, por ejemplo, en Martınez-Gonzalez et al. (2014), capıtulo 7. Rogamos encarecidamente no hacer un mal uso dedichas formulas para aparentar rigor cientıfico cuando se carece por completo del mismo.

Ejercicio 84. Estamos realmente en condiciones de determinar de manera aproximadaun tamano de muestra suficiente como para alcanzar el grado deseado de precision en laestimacion. ¿Como?

4.4. Contraste de hipotesis

Como ya hemos comentado, distinguimos en Inferencia Estadıstica dos tipos de problemas:de estimacion y de contraste de hipotesis. El segundo consiste en decidir a partir de la muestraconsiderada si un modelo teorico inicial concreto es o no aceptable. El estudio de relacion entrevariables puede entenderse como el contraste de un modelo inicial de independencia. Es decir,que se presupone la hipotesis inicial de que entre las variables consideradas no existe relacionalguna, que se denota por H0, y se contrasta si la muestra observada contradice significati-vamente o no dicha hipotesis. Ademas, la hipotesis inicial puede expresarse con frecuencia enterminos de parametros poblacionales, como en los siguientes ejemplos que podemos encontraren los capıtulos 2 y 3.

Relacion del peso del fetos con su longitud de femur:

H0 : ρ = 0 equivalentemente H0 : β1 = 0

Relacion del peso del feto con la longitud de femur y circunferencias craneal y abdominal:

H0 : β1 = β2 = β3 = 0

Relacion de la acidosis en recien nacidos con el nivel de glucemia:

H0 : µ1 = µ2 = µ3 = µ4

Riesgo de no vacunarse de cara a padecer hepatitis:

H0 : RR = 1 equivalentemente H0 : OR = 1

Page 73: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

4.4. CONTRASTE DE HIPOTESIS 73

No podemos afirmar que todas las hipotesis iniciales sean de este tipo pero sı al menos las masimportantes. El criterio intuitivo que rige el procedimiento se denomina Principio de MaximaVerosimilitud, y podrıamos formularlo ası:

En todo caso caso debemos optar por el modelo que haga mas verosımil nuestra muestra. Esdecir, si nuestra muestra es poco verosımil para un modelo teorico dado, debemos pensar quedicho modelo no explica correctamente la realidad.

En definitiva, partiremos de un modelo inicial de independencia (dependencia nula) y eva-luaremos lo rara o verosımil que es nuestra muestra segun dicho modelo, de forma que, siresulta verosımil, lo aceptaremos y, en caso contrario, lo rechazaremos. El test de hipotesis esla evaluacion a la que se someten los datos y que da como resultado final un P -valor.

P -valor o probabilidad de significacion: se trata de uno de los conceptos mas importantesde la Estadıstica. En principio es una probabilidad y como tal se obtiene haciendo uso delCalculo de Probabilidades, pero lo mas importante para nosotros es que

...debe entenderse como la medida de la verosimilitud de la muestra segun el modelo teoricoinicial.

En consecuencia, un valor grande de P expresa que la muestra es verosımil (no extrema) segunla hipotesis inicial, por lo que no estamos en condiciones de rechazarla. Por contra, un valorpequeno de P indica que la muestra es poco verosımil (extrema) segun H0, por lo que, siguiendodel Principio de Maxima Verosimilitud, debemos rechazar la hipotesis inicial H0 en favor de sualternativa o contraria, la cual se denota por H1.

Falta por determinar que entendemos por grande o pequeno o, dicho de otra forma, queentendemos por verosımil o raro. Como ya habremos comprobado, en Estadıstica se conviene,siguiendo una cierta tradicion, que lo raro o extremo debe suponer a lo sumo un 5 % del total,de ahı que 0.05 sea el valor de referencia o nivel de significacion habitual (esta eleccion esta sujetaa una creciente controversia1. En definitiva:

P > 0.05 : La informacion que aporta la muestra no contradice de manera significativala hipotesis inicial (resultado no significativo).

P < 0.05 : La informacion que aporta la muestra sı contradice de manera significativa lahipotesis inicial (resultado significativo).

En ningun caso debe confundirse un test de hipotesis con una demostracion matematica, pues elresultado del primero es solo una decision razonable a partir de los datos que debe relativizarse.De hecho, hay que tener muy presente que los tests de hipotesis tienden a aportar resultadosno significativos cuando se aplican a muestras de pequeno tamano y significativos cuando seaplican a muestras muy numerosas.

Ejercicio 85. ¿Por que afirmamos que cuanto mas grande es el tamano de la muestra masfacilidades tenemos para obtener resultados significativos?

1R.L. Wassersteina & N.A. Lazara. The ASA’s statement on p-values: context, process, and purpose. TheAmerican Statician (2016).

Page 74: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

74 CAPITULO 4. INTRODUCCION A LA INFERENCIA ESTADISTICA

4.4.1. El test de Student como ejemplo

Veamos un ejemplo de como funciona un test de hipotesis. Hemos escogido el test posi-blemente mas utilizado en Bioestadıstica. Viene a dilucidar si existe una relacion significativaentre una variable cualitativa binaria (como por ejemplo estar sano o enfermo, ser tratado ono tratado) y una variable numerica (glucemia, presion arterial, etc). Segun se apunto en elcapıtulo 2, el problema de relacion entre ambas variables se traduce en un problema de com-paracion de las medias poblacionales de la variable numerica, µ1 y µ2, correspondientes a cadauna de las categorıas consideradas. Es decir, la hipotesis inicial a contrastar es

H0 : µ1 = µ2

Si seleccionamos de manera independiente sendas muestras aleatorias para cada categorıa, elalgoritmo al que se someten los datos se denomina test de Student para muestras independien-tes.

Ejemplo 10: diseno de dos muestras independientes. Se estudia laposible relacion entre la edad de la primera menstruacion (menarquıa) y laenfermedad celiaca. Para ello se toma una muestra de n1 = 79 mujeres sanasde y otra muestra de n2 = 78 celiacas de edad parecida. En cada caso seanoto la edad en anos de la menarquıa. Desde el punto de vista descriptivo,las sanas aportaron una media x1 = 12.74 y una desviacion tıpica s1 = 1.48,mientras que las celiacas aportaron una media x2 = 13.33 con una desviaciontıpica s2 = 1.90. En la figura 4.2 se establece una comparativa de ambasmuestras a traves de los diagramas de caja.

Figura 4.2: Menarquıa vs celiaquıa

Celiaquía

CeliacaSana

Ed

ad m

enar

qu

ía

18,00

16,00

14,00

12,00

10,00

8,00

140

Página 1

Podemos observar que, al menos por termino medio (y mediano), las celiacas de la muestrapresentan una menarquıa ligeramente mas tardıa que las sanas. Hemos de dilucidar si esadiferencia apreciada en esta muestra concreta es significativa. Solo en ese caso podremos inferirque, en general, la celiaquıa se asocia a una primera menstruacion mas tardıa. Inicialmente,supondremos que ambas variables no guardan relacion (µ1 = µ2) y evaluaremos si la muestraestudiada contradice claramente dicha suposicion.

Page 75: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

4.4. CONTRASTE DE HIPOTESIS 75

Segun el modelo inicial las medias muestrales x1 y x2 deberıan ser parecidas, es decir, ladiferencia x1 − x2 deberıa ser proxima a 0. Obviamente, no podemos exigir que sea igual a 0porque debemos asumir diferencias entre las muestras debidas exclusivamente al azar inherenteal muestro. El problema es cuantificar que estamos dispuestos a achacar al azar, lo cual es unproblema de Calculo de Probabilidades. Concretamente, segun el modelo inicial, la diferenciade medias muestrales deberıa seguir un modelo de distribucion normal de media 0, de maneraque, al tipificarlo segun (4.6), deberıa seguir una distribucion N(0, 1) como la de la figura 4.1.

texp =x1 − x2√s21n1

+s22n2

(4.6)

El numero texp resultante2, denominado valor experimental, recoge toda la informacion queaporta la muestra estudiada en losreferente al contraste de la hipotesis H0 : µ1 = µ2. Si esta esefectivamente cierta, cabrıa esperar un valor de texp en torno al 0, de acuerdo con un modelode distribucion N(0, 1). Segun dicho modelo, valores de texp extremos (a partir de ±1.96) sonpoco verosımiles. Es decir, segun el Principio de Maxima Verosimilitud, valores bajos de |texp|nos conducen a aceptar la hipotesis inicial mientras que valores altos de |texp| nos conducen arechazarla. El P -valor en este caso es el area de las colas que determinan −|texp| y |texp|, comose indica en la figura 4.3, lo cual expresa en que medida es verosımil la muestra segun H0. Ennuestro ejemplo, texp = −2.18, correspondiendole entonces un valor P = 0.031. Segun hemosconvenido, el resultado es significativo (se opta por la hipotesis alternativa H1 : µ1 6= µ2), porlo que podemos concluir que la celiaquıa se relaciona con la menarquıa en el sentido indicado.

Figura 4.3: Distribucion de texp segun H0

|texp|−|texp|

P/2P/2

De haber obtenido un valor texp proximo a 0, que no ha sido el caso, el P -valor habrıa resul-tado mayor que 0.05, lo cual se habrıa interpretado como que la muestra estudiada no habrıacontradicho significativamente la hipotesis inicial H0, que habrıa sido entonces aceptada. Ellose habrıa traducido en una ausencia de pruebas de relacion entre la menarquıa y la celiaquıa.

Los mismos calculos probabilısticos que nos llevan a considerar (4.6) conducen tambien alsiguiente intervalo3 de confianza al 95 % para la diferencia entre µ1 y µ2:

x1 − x2 ± z0.05

√s2

1

n1

+s2

2

n2

2En el test de Student propiamente dicho se reemplaza el denominador anterior por la expresion

sc

√n−11 + n−1

2 , donde s2c = [(n1 − 1)s21 + (n2 − 1)s22]/(n1 + n2 − 2)3Al igual que en (4.6), se calcula en la practica a traves de sc.

Page 76: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

76 CAPITULO 4. INTRODUCCION A LA INFERENCIA ESTADISTICA

En nuestro ejemplo, obtenemos que µ1 − µ2 debe encontrarse, con una confianza del 95 %, enel intervalo

(−1.13,−0.05)

lo cual indica que la media µ1 (menarquıa para sanas) es en todo caso menor que µ2 (menarquıapara celiacas), cosa que concuerda logicamente con lo que ya sabıamos a traves del P -valor.Efectivamente, puede comprobarse analizando la expresion (4.6) que P < 0.05 equivale a que el0 quede fuera del intervalo al 95 % de confianza para µ1−µ2. Pero el intervalo aporta algo queno expresa explicitamente el P -valor, pues cuantifica con un margen de error la diferencia entrelas categorıas, por lo que viene a dar una magnitud de la influencia de la variable cualitativasobre la numerica. Esto es especialmente util en el caso de muestras de gran tamano, para lascuales los resultados suelen ser significativos.

Por ultimo, advertimos que en este problema hemos precisado del conocimiento de la distri-bucion N(0, 1). En otros tests que mencionaremos mas adelante, se precisara del conocimientode otras tablas teoricas como las de la t-Student, χ2 o F -Snedecor, implementadas por supuestoen cualquier programa estadıstico.

Ejercicio 86. Existe la teorıa de que el Bisfenol A, compuesto quımico presente en muchostipos de plastico y que nuestro organismo puede absorber, podrıa dar lugar a abortos tempranosen embriones masculinos, lo cual harıa disminuir la proporcion de nacimientos varones. Paracontrastar dicha teorıa, se efectuo un seguimiento de 6 embarazadas que, por su trabajo, estabanmuy expuestas al Bisfenol A, resultando que todas ellas tuvieron finalmente ninas. ¿Corroboraeso la teorıa? Responde directamente a traves de un P -valor.

4.4.2. Tests parametricos vs tests no parametricos

Ya hemos comentado que en la mayorıa de las ocasiones contrastaremos hipotesis inicialesexpresadas en terminos de parametros poblacionales, como la media o el coeficiente de corre-lacion. Este punto de vista esta claramente vinculado a la distribucion normal. Efectivamente,sabemos de la importancia que en general posee el parametro media, y que este debe comple-mentarse con alguna medida de dispersion para poder caracterizar la distribucion de los datos.La desviacion tıpica desempena ese papel, al menos en el caso de la distribucion normal. Noobstante, cabe preguntarse, primeramente, que utilidad tiene el estudio de estos parametroscuando no podemos suponer la normalidad de la distribucion (por ejemplo cuando se da unfuerte sesgo) y, segundo, si los tests de hipotesis que propondremos en el siguiente capıtulo,o el propio test de Student, son validos aunque no se satisfaga la normalidad de las varia-bles numericas consideradas. Esta problematica conduce a la fragmentacion de la InferenciaEstadıstica en dos ramas. En la primera, la distribucion normal desempena un papel central,por lo que las inferencias se orientan a conocer lo posible acerca de los parametros asociados adicha distribucion. Esta rama se denomina por lo tanto Estadıstica Parametrica. La otra corrien-te construye los distintos metodos partiendo de debiles supuestos sobre la distribucion de lasvariables y no se busca por lo tanto el conocimiento de los parametros que las caracterizan, deahı que se denomine Estadıstica no Parametrica. Podemos decir que los metodos no parametricosclasicos se basan fundamentalmente en el orden de los datos, es decir, que de cada observacionde la muestra importara solo el rango o posicion que ocupa respecto a los demas datos de lamisma. Son por lo tanto metodos robustos ante la presencia de valores extremos (como sucedecon el calculo de la mediana) pero, por contra, pueden ser menos potentes, es decir, tienenmenor capacidad de detectar la violacion de la hipotesis inicial a partir de los datos. Nosotrosnos centraremos aquı en los metodos parametricos, aunque indicaremos escuetamente en cadacaso el procedimiento no parametrico que podrıa reemplazar al metodo parametrico propuestoen el caso de que este sea inviable.

Page 77: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

4.4. CONTRASTE DE HIPOTESIS 77

Para decidir si la distribucion original de los datos es o no normal contamos con los deno-minados tests de normalidad que introduciremos a continuacion. No obstante y en virtud delTeorema Central el Lımite, un tamano de muestra suficientemente grande puede permitirnosen ciertos casos obviar el supuesto de normalidad y permitirnos aplicar en todo caso un metodoparametrico. El esquema simplificado a seguir es el siguiente:

Distribucion original normal o muchos datos −→ Metodo parametricoDistribucion original no normal y pocos datos −→ Metodo no parametrico

Figura 4.4: Metodo estadıstico y tamano de muestra

Tam

año

de m

uest

ra

n =10

n=30

n=3000

INFERENCIA NO PARAMÉTRICA O DESCRIPTIVA

INFERENCIA PARAMÉTRICA O NO PARAMÉTRICA DEPENDIENDO DE

NORMALIDAD

INFERENCIA PARAMÉTRICA Y

NO PARAMÉTRICA

DESCRIPTIVA

4.4.3. Pruebas de normalidad

Asumir el supuesto de normalidad significa aceptar que la distribucion de frecuencias re-lativas de los datos de la poblacion se adaptan aproximadamente a una curva normal. Estasituacion ocurre con bastante frecuencia en las Ciencias de la Salud, lo cual no quiere decir quese deba dar por descontado.

Precisamente, existen diversos metodos, como el de Kolmogorov-Smirnov, el de Shapiro-Wilk, el χ2 o el de D’Agostino, para contrastar la hipotesis inicial de que cierta variable sigueun modelo de distribucion normal a partir de una muestra aleatoria de tamano n. La mayorıade ellos esta vinculados a aspectos graficos. Tambien existe un metodo basado directamenteen los coeficientes de simetrıa y aplastamiento. Se trata en definitiva de contrastar la hipotesisinicial de normalidad de la variable numerica X estudiada

H0 : X ∼ Normal

De esta forma, se rechazara la normalidad cuando los datos observados la contradigan clara-mente. En este capıtulo hemos afirmado que la mayorıa de los contrastes se pretende probar si

Page 78: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

78 CAPITULO 4. INTRODUCCION A LA INFERENCIA ESTADISTICA

existe correlacion entre variables, suponiendo como hipotesis inicial que esta es nula. El con-traste de normalidad puede considerarse una excepcion en ese sentido, pues solo entra en juegouna variable numerica. Notese ademas que la normalidad de la variable es la hipotesis inicial.En consecuencia, una muestra pequena y, por lo tanto, con escasa informacion, difıcilmentepodra conducir a rechazar la hipotesis de normalidad. Por contra, si la muestra es muy grande,los resultados seran significativos ante la menor violacion del supuesto de Normalidad (ejer-cicio 85). Por ello, debemos ser muy precavidos a la hora de interpretar los resultados si nosdecidimos a aplicar un test de este tipo.

Ejercicio 87. Si aplicamos el test de normalidad de Shappiro-Wilk a los 30 datos de coleste-rolemia representados en la figura 1.6, obtenemos como resultado P = 0.973. Interpretalo enterminos practicos.

Page 79: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Capıtulo 5

Metodos de Inferencia Estadıstica

En este capıtulo exponemos de manera muy esquematica las tecnicas de Inferencia Es-tadıstica mas utilizadas en los problemas de relacion entre variables. Se trata pues de unacontinuacion natural de los capıtulos 2 y 3. Para cada problema estudiado indicaremos la al-ternativa no parametrica al test parametrico propuesto. Al final del capıtulo expondremos unatabla resumen.

Este manual esta ideado como guıa para que un usuario de la Estadıstica sepa aplicarmediante el software adecuado las tecnicas basicas, de ahı que los detalles teoricos quedenrelegados a la bibliografıa recomendada. En definitiva, se pretende que, dado un problemaconcreto, el lector sea capaz de identificar el procedimiento estadıstico a seguir e interpretarlos resultados que se obtienen tras la aplicacion del programa estadıstico.

5.1. El problema de correlacion-regresion

Esta seccion supone una continuacion de las secciones 2.3 y 2.4. El problema estriba enexplicar una variable numerica a partir de otra u otras variables, a su vez numericas, medianteuna ecuacion de regresion adecuada y utilizando la informacion de una muestra supuestamentealeatoria de tamano n.

5.1.1. Test de correlacion

Empecemos por el caso mas sencillo, consistente en estudiar la posible relacion entre dosvariables numericas, como en el caso de la prediccion del peso del feto a partir de la longituddel femur, que se ilustra en la figura 2.8. La muestra de tamano n = 40 aporto un coeficiente decorrelacion lineal muestral r = 0.802 (r2 = 0.643), es decir: en la muestra se aprecia un fuertegrado de correlacion directa. La cuestion es si podemos extrapolarla al global de poblacion paraconcluir que un femur largo se asocia a un peso elevado. La respuesta parece obvia en este casocon solo ver el grafico, pero en otros casos no ocurrira lo mismo.

En definitiva, estamos contrastando la hipotesis inicial de independencia entre peso y lon-gitud de femur, que puede expresarse a traves del coeficiente de corrrelacion lineal poblacionalρ mediante

H0 : ρ = 0

frente a la hipotesis alternativa H1 : ρ 6= 0, que se corresponde con algun grado de relacionlineal entre ambas. Por lo tanto, se trata de valorar si la muestra observada contradice signi-ficativamente la hipotesis inicial de independencia. De manera analoga a (4.6), la informacionque aporta la muestra queda resumida en el numero

texp =

√(n− 2)

r2

1− r2(5.1)

79

Page 80: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

80 CAPITULO 5. METODOS DE INFERENCIA ESTADISTICA

que se confrontara con la tabla de la distribucion t-Student(n− 2) para obtener el P -valorcorrespondiente. Tengase en cuenta que, a partir de m = 30, la tabla de la t-Student(m) espracticamente identica a la de la N(0, 1). En nuestro caso obtenemos texp = 8.27, al que lecorresponde un valor P < 0.001. Se dice entonces que la correlacion observada es altamentesignificativa. Por contra, un resultado no significativo en el test de correlacion significa que laposible relacion observada en la muestra puede ser explicada exclusivamente por el azar, queno es el caso.

Cuando tenemos dudas acerca de la linealidad de la relacion o advertimos la presencia dedatos anomalos, podemos optar por la alternativa no parametrica de Spearman, que consisteen calcular el coeficiente de correlacion entre los rangos y aplicarle un test especıfico. En esteejemplo aporta el mismo resultado.

Ejercicio 88. Tras aplicar el test de correlacion a los datos correspondientes al ejercicio 54 seobtiene P < 0.001. Interpreta el resultado en terminos practicos.

Ejercicio 89. Tras aplicar el test de correlacion a los datos correspondientes a la figura 2.11se obtiene P < 0.731. Interpreta el resultado en terminos practicos.

5.1.2. Regresion multiple

Si nuestro objetivo es predecir una variable como el peso del feto de la mejor manera posibledebemos intentar explicarla a partir de varias variables que correlacionen con ella. Estas seranincluidas en una ecuacion de regresion. Por ejemplo, en el caso del peso, podemos incluir,ademas de la longitud del femur, las circunferencias del abdomen y cabeza, dado que sonvariables que tambien correlacionan con el peso (como puede comprobarse aplicando sendostests de correlacion) y porque entendemos que pueden explicar partes de la variabilidad del pesono explicada por el femur, lo cual da lugar a R2 = 0.915. La primera pregunta, cuya respuestaes con mayor razon que en el apartado anterior obvia, es si esta correlacion es significativa. Esose responde mediante el test de correlacion multiple que es una generalizacion del anterior ycuyo resultado depende en este caso del valor

texp =

√n−4

3

R2

1−R2

que se confrontara con la tabla t-Student. El valor 3 aparece en este caso porque son 3 lasvariables explicativas. El resultado es altamente significativo (P < 0.001), lo cual quiere decirsimplemente que esta claro que entre las tres variables logramos explicar algo del peso.

Lo que realmente nos interesa es la ecuacion (2.1) que permite explicarlo. Pero los coefi-cientes B0, B1, B2 y B3 de la ecuacion son propios de la muestra estudiada y debemos puesinterpretarlos como meras estimaciones de coeficientes β0, β1, β2 y β3 poblacionales. No obs-tante, estamos en condiciones de calcular intervalos de confianza para los mismos. Ademas,podemos aplicar los denominados tests parciales, que permiten contrastar hipotesis iniciales deltipo H0 : β3 = 0. Se trata pues de evaluar la importancia de cada variable explicativa en laprediccion. En la siguiente tabla se presentan los coeficientes estimados y los resultados de losdiferentes test parciales, segun los cuales las tres variables intervienen significativamente en laexplicacion del peso. No obstante, estos tests deben ser aplicados con precaucion cuando lasvariables explicativas estan fuertemente correlacionadas entre sı.

La ecuacion(2.1) tiene como objeto pronosticar el peso del feto a partir de las tres medidasproporcionadas por el ecografo. Por desgracia, no estamos en condiciones, ni mucho menos,de garantizar su exactitud aunque, en su defecto, podemos construir un intervalo de confianzaal 95 % para cada prediccion obtenida. En todo caso, la precision de la estimacion dependerade tres factores: el valor de R2 obtenido, el tamano de muestra n y la posicion respecto a lamuestra estudiada del individuo sobre el que se efectua la prediccion.

Page 81: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

5.2. RELACION ENTRE DOS VARIABLES CUALITATIVAS 81

Cuadro 5.1: Ecuacion de regresion ecografo

Coeficientes

B Sig.

(Constante) -149,006

LF 12,635 ,000

CC 9,798 ,000

CA -9,433 ,000

Ejercicio 90. ¿En que sentido crees que influye en la precision de la estimacion cada uno de

los factores anteriores?

Ejercicio 91. Mediante un programa estadıstico construye un intervalo de confianza para laprediccion efectuada en el ejercicio 41.

5.2. Relacion entre dos variables cualitativas

Esta seccion supone una continuacion del capıtulo 3. Nuestro problema es determinar si unamuestra dada supone una prueba significativa de la relacion entre dos variables cualitativas. Enesencia se trata de aplicar un test de correlacion similar a (5.1) pero reemplazando r por unamedida de asociacion a nivel cualitativo: C. De esta forma, el denominado test χ2 se obtieneconfrontando el valor

χ2exp = n

C2

1− C2(5.2)

con la tabla de la distribucion χ2(m), siendo m = (r− 1)(s− 1), donde r denota el numero defilas y s el de columnas. Si nuestra tabla es del tipo 2× 2, podemos calcular χ2

exp a partir de φcomo φ2/n.

Figura 5.1: Distribucion χ2(3)

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Densidad Chi−cuadrado(3)

En el ejemplo 7 relacionabamos la salud de los arboles, distinguiendo tres categorıas segunsu nivel de cloroplastos, con la contaminacion, distinguiendo a su vez tres categorıas en funcionde la concentracion de SO2. En total contabamos con n = 60 arboles en el estudio que aportaronun valor C = 0.444. En consecuencia, obtenemos χ2

exp = 14.74 que se corresponde, segun latabla χ2(4), con P = 0, 005. Se trata pues de un resultado muy significativo. Por lo tanto,podemos concluir que, tal y como se aprecia en la muestra, las concentraciones elevadas deSO2 se asocian a una peor salud de los arboles. Un identico P -valor se obtiene con los datosdel ejemplo 6, por lo que podemos concluir que la mejor valoracion medica observadas en los

Page 82: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

82 CAPITULO 5. METODOS DE INFERENCIA ESTADISTICA

individuos de la muestra con ICC normal podrıa extrapolarse al global de hombres de mas de40 anos, suponiendo que esta muestra hubiera sido seleccionado de una manera aleatoria.

El test de χ2 precisa de una serie de condiciones de validez que, a grandes rasgos, seresumen en lo siguiente: debemos contar con una cantidad suficiente de datos, especialmentesi pretendemos distinguir muchas categorıas en las variables estudiadas. En caso contrariodebemos agrupar categorıas hasta llegar, si es preciso, a una tabla tipo 2 × 2. Si aun ası elnumero de datos es demasiado pequeno, debemos aplicar la alternativa no parametrica conocidacomo test exacto de Fisher.

Como casos especiales de tablas tipo 2×2 tenemos los estudios epidemiologicos de factores deriesgo, que dan pie a las medidas conocidas como Riesgo Relativo y Odds Ratio. Ahora estamosen condiciones de entender tambien estos parametros en terminos poblacionales, en cuyo casose denotan por RR y OR, respectivamente. Que un determinado factor comporte riesgo parauna enfermedad concreta se traduce entonces en RR > 1 o OR > 1, segun la medida de riesgoconsiderada. Esto nos conduce a contrastar las hipotesis iniciales H0 : RR = 1 o H0 : OR = 1.La primera, propia de un estudio de cohortes, se contrasta confrontando con la tabla χ2(1) elvalor experimental

χ2exp =

(log RR)2

s2logRR

,

donde

s2logRR

=c

a(a+ c)+

d

b(b+ d)

En el caso del ejemplo 7, donde el posible riesgo es la no vacunacion contra la hepatitis,obtenemos

s2logRR

= 0.101, χ2exp = 34.97, P < 0.001

La hipotesis inicial H0 : OR = 1 se contrastarıa en un estudio tipo caso-control (o tambien decohortes) confrontando con la tabla χ2(1) el valor experimental

χ2exp =

(log OR)2

s2logOR

,

siendo

s2logOR

=1

a+

1

b+

1

c+

1

d

En nuestro caso,s2logRR

= 0.109, χ2exp = 35.24, P < 0.001

Queda pues claro que el hecho de no vacunarse contra la hepatitis implica un incremento en elriesgo de padecerla.

Ejercicio 92. A partir de los datos del ejercicio 75, contrasta si existe relacion entre la expo-sicion al agente radioactivo y el tumor de tiroides.

5.3. Comparacion de medias

En la seccion 2.5 adelantamos que el estudio de la relacion entre una variable cualitativa yotra numerica puede traducirse en una comparacion entre las medias (parametros de centraliza-cion en general) que dicha variable numerica posee en cada categorıa de la variable cualitativa.Ahora estamos en condiciones de abordar este estudio desde el punto de vista inferencial, locual dara pie a las tecnicas mas populares de la Bioestadıstica. Distinguiremos tres apartadosdependiendo del diseno considerado en la seleccion de muestras y del numero de categorıas queconsideremos.

Page 83: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

5.3. COMPARACION DE MEDIAS 83

5.3.1. Test de Student(1) para muestras relacionadas

Es el test apropiado para el diseno de muestras relacionadas o apareadas, que tiene comoproposito controlar la variabilidad debida al individuo. Consiste en seleccionar una muestraaleatoria de n individuos a los que se les mide una variable numerica antes de iniciar un tra-tamiento para volver a medırsela despues. En tal caso, no estaremos hablando de una variablesino de dos variables distintas (X1=antes, X2=despues) sobre una unica poblacion, sin dis-tinguir categorıas1. Si el tratamiento es efectivo debe producirse una evolucion, es decir, uncambio entre los valores de X1 y X2. No estamos en condiciones de exigir que ese cambio se deen el mismo sentido para todos los individuos, pero sı al menos que se de por termino medio,de ahı que el problema se traduzca finalmente en una comparacion entre las respectivas mediasµ1 y µ2.

Ejemplo 11: diseno de dos muestras apareadas. Se preten-de probar los beneficios de la crioterapia en el tratamiento de laartrosis de rodillas en mujeres mayores. Para ello se selecciono unamuestra de n = 30 pacientes a las que se evaluo su nivel de dolormediante la escala EVA (0=ausencia dolor; 10=dolor maximo) an-tes de iniciar el tratamiento y tras 5 semanas de tratamiento. Enresumen, obtenemos que la media muestral del dolor antes de ini-ciar el tratamiento es x = 5.37, con una desviacion tıpica s1 = 0.97;el dolor medio muestral tras finalizar el tratamiento es x2 = 5.59,con una desviacion tıpica s2 = 0.99.

Podemos pues apreciar que, por termino medio, en la muestra se ha producido un pequenoincremento del dolor. En consecuencia, esta muestra no supondra en ningun caso una pruebasignificativa de la eficacia de la crioterapia para esta dolencia. Mas bien deberıamos pregun-tarnos si el tratamiento es contraproducente (o al menos incapaz de frenar un empeoramientoexpontaneo), como en principio podrıa deducirse de la muestra. En todo caso, la hipotesis acontrastar es

H0 : µ1 = µ2

El test de Student para muestra relacionadas es especialmente sencillo, pues consiste en calcularla diferencia entre ambas variables, D = X1 − X2, cuya media media es µD = µ1 − µ2, ycontrastar la hipotesis inicial

H0 : µD = 0

Para ello, considera la media aritmetica D y desviacion tıpica sD de la diferencia (D puedecalcularse directamente como x1 − x2 pero sD no) y confronta el valor

texp =D

sD/√n

con la tabla t-Student(n− 1), similar a la N(0, 1).

Es decir, en la muestra se ha observado un empeoramiento de 0.214 puntos en la escala EVA portermino medio. Sin embargo, no ha resultado significativo (P > 0.05), por lo que no podemosgeneralizarlo. Tambien aparece el intervalo de confianza al 95 % para la diferencia de mediasµ1−µ2, (−0.63, 0.20), que se interpreta ası: el empeoramiento medio podrıa ser de 0.63 puntoscomo maximo, pero tampoco podrıamos descartar una mejorıa de 0.20 puntos como maximo.Es decir, no tenemos claro si se puede mejorar o empeorar, en eso consiste aceptar H0.

1Por lo tanto, en buena logica, este apartado deberıa haber sido incluido en la seccion 5.1. Nos hemospermitido la licencia de ubicarlo aquı por razones didacticas.

Page 84: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

84 CAPITULO 5. METODOS DE INFERENCIA ESTADISTICA

Cuadro 5.2: Test de Student muestras relacionadas EVA

Media dif Desv tip dif Lim inf 95% Lim sup 95% texp P

-,214 1,11 -,63 ,201 -1,054 0.301

El test de Student para muestras relacionadas se idea suponiendo que se verifica un requisitoconcreto: que la variable diferencia se distribuye segun un modelo normal. Esto puede contras-tarse mediante un test de normalidad, aunque hay que tener muy presente que, en virtud delTeorema Central del Lımite (ver pagina 17), el resultado del test puede considerarse validoaunque la distribucion de la diferencia no sea normal siempre y cuando la muestra sea lo sufi-cientemente grande. En todo caso, contamos con una alternativa no parametrica denominadatest de Wilcoxon, especialmente adecuada cuando la muestra es de escaso tamano. En nuestrocaso aporta como resultado P = 0.417, por lo que la conclusion que se desprende del test deWilcoxon es la misma que se desprende del de Student(1).

5.3.2. Test de Student(2) para muestras independientes

El test de Student para muestras independientes ha sido introducido en la seccion 4.4 a raızdel ejemplo 10, en el que se comparaban las edades medias de la menarquıa de dos categorıasde mujeres: celiacas y no celiacas. Para ello se procedio a seleccionar, de manera independiente,sendas muestras de tamanos n1 y n2 que fueron sometidas al test de Student(2), consistenteen confrontar con la tabla t-Student(n1 + n2 − 2), similar a la N(0, 1), el valor experimental

texp =x1 − x2

sc√

1n1

+ 1n2

El resultado fue P < 0.001. Ademas, se concluyo que la diferencia entre medias poblacionalesdebıa encontrarse, con una confianza del 95 %, en el intervalo (−1.13,−0.05). La salida completadel programa estadıstico SPSS es la siguiente:

Cuadro 5.3: Test de Student muestras independientes

Media dif Desv tip dif Lim inf 95% Lim sup 95% texp P

-,214 1,11 -,63 ,201 -1,054 0.301

Prueba de muestras independientes

Prueba de Levene

para la igualdad

de varianzas Prueba T para la igualdad de medias

F Sig. t gl

Sig.

(bilateral)

Diferencia

de medias

95% Intervalo de

confianza para la

diferencia

Inferior Superior

Se han asumido varianzas

iguales

5,445 ,021 -5,855 155 ,000 -1,5928 -2,1302 -1,0554

No se han asumido

varianzas iguales -5,846 145,238 ,000 -1,5928 -2,1314 -1,0543

Podemos apreciar que la comparacion de medias se efectua con dos tests diferentes: el deStudent, que corresponde a la lınea superior y el test de Welch, que corresponde a la inferior.Esto es ası porque el test de Student(2) requiere en principio que las distribuciones de lavariable numerica en las categorıas consideradas sean de tipo normal y con identicas varianzas.La normalidad deberıa contrastarse mediante un test adecuado, de manera que si no podemos

Page 85: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

5.3. COMPARACION DE MEDIAS 85

aceptarla en alguna de las categorıas deberıamos optar por la alternativa no parametrica deMann-Whitney, que consiste basicamente en una comparacion de los rangos promedios (eneste caso aporta el resultado P < 0.001). Si aceptamos la normalidad en ambas categorıasdeberıamos, teoricamente, contrastar la hipotesis inicial de igualdad de varianzas H0 : σ2

1 = σ22

mediante test de Levene, que aparece a la izquierda (cuyo resultado es significativo en estecaso). Si podemos aceptar dicha hipotesis, el test mas adecuado es el de Student y, en casocontrario, el de Welch.

No obstante, el usuario de la Estadıstica no debe permitir que el arbol le impida ver elbosque. Primeramente, si las muestras son de tamanos suficientes y similares, el resultado deltest de Student puede considerarse valido. Segundo, es habitual comprobar que los tres testsposibles (Student, Welch, Mann-Whitney) aportan los mismos resultados, aunque no tiene porque. Parece necesario proponer un esquema mas sencillo a la hora de resolver el problema queno pase por la aplicacion previa de dos tests de hipotesis de caracter secundario. En la figura5.2 proponemos un procedimiento simplificado que resume este apartado y el anterior:

Figura 5.2: Procedimiento comparacion dos medias

Muestras independientes

Muestras apareadas

Normalidad o muestras grandes

No normalidad y muestras pequeñas

Student (2)

Mann-Whitney

Normalidad de la diferencia o muestra grande

No normalidad de la diferencia y muestra pequeña

Stundet (1)

Wilcoxon

Normalidad o muestras grandes

No normalidad y muestras pequeñas

Anova

Kruskal-Wallis

No significativo

Significativo

No significativo

Significativo

No relación

Tuckey

No relación

Relación

Ejercicio 93. ¿Que ventaja puede reportar aplicar el test de Student en lugar del de Mann-Whitney?

5.3.3. Anova de una vıa

Este test es una generalizacion del de Student que se aplica para un mismo tipo de estudioy de diseno con la salvedad de que podemos distinguir un numero de categorıas y, por lo tanto,de medias, mayor de dos. Serıa pues apropiado para los datos del problema 8, en el que se tratade contrastar si las medias de glucemia son identicas en las cuatro categorıas consideradas(control, respiratoria, metabolica y mixta):

H0 : µ1 = µ2 = µ3 = µ4

El test que resuelve el contraste se denomina anova de una vıa y requiere en principio delas mismas condiciones que el test de Student para dos muestras independientes. Podemosefectuar, no obstante, las mismas consideraciones acerca de los tamanos muestrales y tambiencontamos con alternativas como la de Brown-Forsyte y, especialmente, el test no parametrico deKruskall-Wallis, que a su vez generaliza el de Mann-Whitney.

Page 86: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

86 CAPITULO 5. METODOS DE INFERENCIA ESTADISTICA

Ejercicio 94. ¿Que sucedera si aplicamos el anova de una vıa a un problema con dos medias?

En el caso del ejemplo 8 el resultado es P < 0.001. Quiere decir que las diferencias apre-ciadas a nivel muestral son realmente significativas, por lo que existe relacion entre la acidosisy la glucemia. Para determinar de la manera mas precisa en que sentido se da dicha relaciondebemos proceder a comparar las medias por parejas de manera simultanea: se trata del deno-minado problema de comparaciones multiples. Para ello tenemos a nuestra disposicion diversosprocedimientos aunque, para simplificar, podemos optar por el metodo de Tuckey, que es idealen el caso de que las muestras de las diferentes categorıas sean de identico tamano. Si hemosoptado por aplicar el test de Kruskall-Wallis, podemos utilizar las comparaciones multiples deDunnet. Todo ello lo resumimos en la figura 5.3.

Figura 5.3: Procedimiento comparacion mas de dos medias

Muestras independientes

Muestras apareadas

Normalidad o muestras grandes

No normalidad y muestras pequeñas

Student (2)

Mann-Whitney

Normalidad de la diferencia o muestra grande

No normalidad de la diferencia y muestra pequeña

Stundet (1)

Wilcoxon

Normalidad o muestras grandes

No normalidad y muestras pequeñas

Anova

Kruskal-Wallis

No significativo

Significativo

No significativo

Significativo

No relación

Tuckey

No relación

Relación

Para los datos del ejemplo 8 obtenemos el siguiente resultado en las comparaciones multi-ples:

Cuadro 5.4: Comparaciones multiples acidosis

N 321

Subconjunto para alfa = 0.05

Acidosis Mixta

Control

Acidosis Respiratoria

Acidosis Metabólica

Sig. 1,0001,0001,000

78,8037150

71,3822450

62,6794050

62,6106950

Tipo de acidosisTipo de acidosis

Nivel de glucemia en el cordón umbilical

Se muestran las medias para los grupos en los subconjuntos homogéneos.

a. Usa el tamaño muestral de la media armónica = 50,000.

HSD de Tukeya

Página 1

Podemos apreciar que, tal y como se intuıa en la figura 2.19, la acidosis mixta no se asocia aun cambio significativo de la glucemia mientras que la respiratoria y en especial la metabolicala aumentan significativamente.

Page 87: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

5.3. COMPARACION DE MEDIAS 87

5.3.4. Otras tecnicas relacionadas

Sabemos que, en el problema de relacion entre variables numericas, es frecuente incrementarel numero de variables explicativas para poder pronosticar mejor la variable respuesta, dandolugar a lo que conocemos como regresion multiple. En el problema de relacion entre una variablenumerica y otra cualitativa podemos obrar de la misma forma:

Podemos incrementar la cantidad de variables cualitativas para intentar explicar unarespuesta numerica, lo cual da pie al anova de dos vıas u otras tecnicas mas complejas.Ası, para los datos del ejemplo 9, podemos intentar relacionar la edad de la menarquıacon el hecho de ser o no celiaca y la presencia o ausencia de dolor abdominal.

Podemos incrementar el numero de variables numericas para intentar explicar una res-puesta cualitativa, lo cual da pie al analisis de regresion logıstica. Por ejemplo, con losdatos del ejemplo 9, podemos hacer uso de la edad de la menarquıa, la concentracion dehemoglobina y la de antıgeno IgA para intentar diagnosticar la celiaquıa.

Al margen de esto, presentamos en el cuadro 5.5 una sıntesis del capıtulo. En la figura 5.4pretendemos dar un resumen global de la materia tratada.

Cuadro 5.5: Resumen metodos basicos Inferencia

Problema Método paramétrico Método no paramétrico Dos medias independientes Student (2) Mann-Whitney Dos medias apareadas Student (1) Wilcoxon Más de dos medias independientes Anova Kruskal-Wallis Correlación lineal numéricas Correlación Pearson Correlación Spearman Correlación cualitativas Test chi-cuadrado Test Exacto de Fisher

Relación variables

Numérica-cualitativa Comparación medias

Más de dos

Anova-Tuckey

Dos Student

Numérica-numérica Regresión-correlación, r2

Cualitativa-cualitativa Tabla de contingencia, C, Chi2

Factores riesgo RR, OR

Figura 5.4: Resumen general

Problema Método paramétrico Método no paramétrico Dos medias independientes Student (2) Mann-Whitney Dos medias apareadas Student (1) Wilcoxon Más de dos medias independientes Anova Kruskal-Wallis Correlación lineal numéricas Correlación Pearson Correlación Spearman Correlación cualitativas Test chi-cuadrado Test Exacto de Fisher

Relación variables

Numérica-cualitativa Comparación medias

Más de dos

Anova-Tuckey

Dos Student

Numérica-numérica Regresión-correlación, r2

Cualitativa-cualitativa Tabla de contingencia, C, Chi2

Factores riesgo RR, OR

Page 88: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

88 CAPITULO 5. METODOS DE INFERENCIA ESTADISTICA

Otras cuestiones propuestas

Ejercicio 95. Consideremos nuevamente el estudio de la puntuacion de ansiedad de Hamiltonen un grupo de 20 personas que viven solas y otras tantas que viven acompanadas. Los respec-tivos diagramas de caja se muestran en la figura ??. Se indican a continuacion los resultadosdel test de normalidad ed Shappiro-Wilk para ambas muestras, del test de Levene de igualdadde varianzas, y de los test de Student, Welch y Mann-Whitney de comparacion de medias (ovalores centrales).

Test P -valorShapiro-Wilk P=0.015(solos) P=0.272(acompanados)Levene P=0.746Student P<0.001Welch P<0.001Mann-Whitney P=0.004

A partir de los mismos y suponiendo que ambas muestras fueran aleatorias, contestar la si-guiente pregunta: ¿existe relacion entre el tipo de vida (en soledad o en companıa) y el nivelde ansiedad? Indicar claramente en que se basa la conclusion obtenida.

Ejercicio 96. A partir de los datos del archivo Enfermedad celiaca.sav estudia lo siguiente:

La relacion entre la celiaquıa y la concentracion de IgA, por un lado, e IgG por otro.¿Cual de los dos anticuerpos puede resultar mas util para detectar la enfermedad?

La relacion entre la edad de la menarquıa y la concentracion de hemoglobina.

¿Con que aspecto guarda una relacion mas clara la enfermedad: con la presencia de dolorabdominal o con la presencia de la variante genetica DQ2? Cuantifica esa relacion.

Ejercicio 97. A partir de los datos del archivo Prostata.sav:

Intenta explicar el volumen (log) del tumor a partir de la concentracion de PSA (log) yla edad del paciente.

Relaciona el PSA (log) con el pronostico del tumor segun la biopsia.

Relaciona el volumen (log) del tumor con el portecentaje de Gleason 4-5.

Relaciona el peso (log) del tumor con el portecentaje de Gleason 4-5. ¿Guarda masrelacion que el volumen?

Ejercicio 98. A partir de los datos del archivo Acidosis.sav:

Relaciona acidosis y glucemia.

Propon un metodo de diagnostico concreto basado en la glucemia para diagnosticar aci-dosis en recien nacidos.

Indica una estimacion de la sensibilidad y especificidad del test propuesto.

Ejercicio 99. A partir de los datos del archivo Gonartrosis.sav:

Evalua la evolucion en movilidad (escala WOMAC) de las pacientes tratadas con criote-rapia.

Relaciona la perdida de autonomıa con el IMC.

Page 89: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

5.3. COMPARACION DE MEDIAS 89

Estudia la eficacia de las diferentes tecnicas de ultrasonido (1Mhz y 3Mhz) en la recupe-racion de la movilidad.

Ejercicio 100. A partir de los datos del archivo Dieta.sav:

Estudia la eficacia del medicamento en la reduccion de la presion sistolica.

Idem para la diastolica.

Ejercicio 101. A partir de los datos del archivo Hipoacusia.sav:

Relaciona la presencia de la enfermedad con los antecedentes familiares por un lado, ycon el nivel socioeconomico por otro.

¿Puedes indicar, a tenor de lo estudiado en el apartado anterior, un factor de riesgo clarode cara a padecer hipoacusia?

Ejercicio 102. A partir de los datos del archivo South Africa Heart Disease.sav:

Relaciona la presencia de la enfermedad (chd) con la presion sistolica (sbp).

Relaciona la presencia de la enfermedad con el nivel de colesterol (ldl).

Relaciona la presencia de la enfermedad con el porcentaje de grasa corporal (adiposity).

Relaciona la presencia de la enfermedad con el consumo de alcohol.

Relaciona la presencia de la enfermedad con la edad. ¿Cual de todas las variables men-cionadas crees que guarda mayor relacion con la enfermedad cardiaca?

Relaciona la presencia de la enfermedad con los antecedentes familiares.

Intenta explicar la presion sistolica a partir de la edad, el porcentaje de grasa corporal yel nivel de colesterol ldl.

Ejercicio 103. En un estudio realizado en 68.183 mujeres adultas seguidas a lo largo de 16anos, aquellas que dormıan 5 o menos horas no solo pesaban 2,5 kg mas al inicio del estudio,sino que tambien ganaron una media de 4,3 kg mas en comparacion con las que dormıan 7o mas horas. Ademas, las mujeres con 5 o menos horas de sueno tuvieron un 32 % mas deposibilidades de ganar hasta 15 kg que las que dormıan 7 o mas horas a lo largo del estudio.Esta diferencia persistıa tras ajustar los resultados segun la ingesta calorica y la actividad fısica.Otros estudios muestran resultados similares tambien en los hombres. Se observo tambien quetanto el ındice de masa corporal como el perımetro de cintura es significativamente mayor entreaquellos que duermen menos de 5 horas. En concreto, dormir menos se asocia con un aumentodel perımetro de la cintura de 6,7 cm para los hombres y de 5,4 cm para las mujeres.

¿Que tecnicas estadısticas (regresion lineal, test de Student, Wilcoxon, calculos de medidasde riesgo, etc) crees que se han utilizado para llegar a estas conclusiones?

Page 90: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

90 CAPITULO 5. METODOS DE INFERENCIA ESTADISTICA

Page 91: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Parte III

Tutorial SPSS

91

Page 92: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de
Page 93: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

93

Esta ultima parte del manual recoge algunas capturas de pantalla que pueden ser de uti-lidad para aprender a manejar las funciones mas basicas del SPSS. Algunas de las opcionesprincipales del menu, como por ejemplo Archivo, Edicion, etc., son similares a las de cual-quier programa convencional, por lo que saran obviadas aquı. Nos interesa fundamentalmentela opcion Analizar, pues contiene todos los metodos estadısticos a aplicar (incluyendo diversosgraficos). Tambien tiene bastante interes la opcion Graficos que esta especializada en estosultimos.

Figura 5.5: Menu general

Las opciones Datos y Transformar se utilizan para manipular los datos (filas) y las variables(columnas), respectivamente. Por ejemplo, son de utilidad a la hora de seleccionar un conjuntoconcreto de individuos o de calcular una nueva variable a partir de las ya existentes, como seaprecia en las figuras ?? y 5.7, respectivamente.

Figura 5.6: Seleccion de datos

Page 94: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

94

Figura 5.7: Calculo de una variable nueva a partir de las ya registradas

Para analizar una variable cualitativa podemos considerar la opcion Frecuencias, den-tro del menu de Estadısticos descriptivos; si la variable es numerica puede resultar mascomodo utilizar la opcion Explorar.

Figura 5.8: Analisis descriptivo de una variable cualitativa

Page 95: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

95

Figura 5.9: Analisis descriptivo de una variable numerica

El analisis de varias variables numericas podemos efectuarlo, desde un punto de vista grafico,mediante la opcion Grafico de dispersion simple o matricial, del menu de graficos, ydesde la opcion Regresion-Lineales, del menu de analizar, teniendo presentes los posiblesroles que pueden desempenar las variables en el estudio (explicativa o respuesta).

Figura 5.10: Analisis descriptivo de dos variables numericas: grafico de dispersion

Page 96: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

96

Figura 5.11: Regresion lineal

Figura 5.12: Regresion lineal: predicciones

Como vemos arriba, para pronosticar valores de la variable respuesta a partir de valoresconocidos de las variable o variables explicativas debemos utilizar la opcion guardar.

El estudio conjunto de una variable numerica y otra cualitativas puede llevarse a acabo, des-de un punto de vista descriptivo, introduciendo la variable cualitativa como factor en el menuExplorar de la figura 5.9. Para estudiar la relacion entre dos variables cualitativas utilizaremosla opcion Tablas de contingencia del menu Estadıstica descriptiva. Conviene pedir ungrafico de barras agrupado y, en la opcion Estadısticos, el coeficiente de contingencia C, conlo cual el programa nos proporcionara el resultyado del test χ2. Esto ultimo aparece junto conel resultado del test exacto de Fisher pueden obtenerse marcando Chi-cuadrado (esto corres-ponde a la seguna parte de la materia). En todo caso, el SPSS proporciona automaticamentela tabla de frecuencias bidimensional conocida como tabla de contingencias.

Page 97: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

97

Figura 5.13: Relacion entre dos variables cualitativas

Los estudios epidemiologicos para relacionar la presencia de un posible factor de riesgo conuna determinada enfermedad pueden llevarse a cabo a traves del menu anterior. Aconsejamoscalcular el Riesgo relativo o el Odds Ratio directamente a partir de la tabla de contingencias. Noobstante, pueden ser calculados automaticamente mediante la opcion Riesgo del menu anteriory, lo que resulta mas interesante, incluyendo intervalos de confianza para ambos (segunda partede la materia). De todas formas, esta ultima opcion puede generar bastante confusion.

En lo que respecta a la segunda parta de la materia (Inferencia Estadıstica) podemosanadir, en primer lugar, que tanto los intervalos de confianza para una media como los testde normalidad de Shappiro-Wilk y Kolmogorov-Smirnov podemos encontraralos en la opcionExplorara del Estadıstica descriptiva.

Figura 5.14: Pruebas de normalidad

Sobre la relacion entre variables numericas solo vamos a anadir a los resultados que puedenobtenerse a traves del menu Regresion-Lineales el calculo y test de significacion para elcoeficiente de correlacion de Spearman a traves del menu Correlaciones-Bivariadas

Page 98: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

98

Figura 5.15: Coeficientes de correlacion de Pearson y Spearman

Los diferentes tests de comparacion de medias, es sus versiones parametricas y no parametri-cas, se ejecutan como sigue: empezamos por el test de Student para dos muestras independientesy su analogo no parametruico, el test de Mann-Whitney.

Figura 5.16: Test de Student para muestras independientes

Page 99: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

99

Figura 5.17: Test de Mann-Whitney

Veamos a continuacion como se ejecutan el test de Student para muestras apareadas orelacionadas y su analogo no parametrico de Wilcoxon.

Figura 5.18: Test de Student para muestras apareadas

Page 100: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

100

Figura 5.19: Test de Wilcoxon

El anova de una vıa, seguido de las comparaciones multiples segun el metodo de Tuckey, seejecutan ası:

Figura 5.20: Anova de una vıa

Page 101: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

101

Por ultimo, el test no parametrico de Kruskal-Wallis se ejecuta como sigue:

Figura 5.21: Test de Kruskal-Wallis

Page 102: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

102

Page 103: Breve manual de Bioestad stica para las Ciencias de la Saludmatematicas.unex.es/~jmf/Archivos/Manual de Bioestadística).pdf · La extrapolaci on de estos resultados al global de

Bibliografıa recomendada

M. Andres y Juan de Luna. (2007) Bioestadıstica para las ciencias de la

Salud. Ed. Norma.

M. Andres y Juan de Luna. (1995) 50±10 horas de Bioestadıstica. Ed. Norma.

E. Cobo, P. Munoz y J.A. Gonzalez.(2007) Bioestadıstica para no estadısti-

cos. Ed. Elsewier/Masson.

Macıa Anton, Lubin y Rubio de Lemus. (1997) Psicologıa Matematica. UNED.

M.A. Martın Gonzalez, A. Sanchez-Villegas, E.A. Toledo Atucha y J. FaulinFajardo. (2014) Bioestadıstica amigable. Ed. Elsevier.

J. S. Milton. Estadıstica para Biologıa y Ciencias de la Salud. Ed. Interame-ricana. McGraw-Hill.

A.G. Nogales. (2004) Bioestadıstica Basica. Ed. abecedario.

Norman y Steiner (1996) Bioestadıstica Ed. Mosby/Doyma Libros.

B. Visauta. (1998) Analisis estadıstico con SPSS para Windows. Ed. McGrawHill.

http://www.hrc.es/bioest/M docente.html#tema3. Hospital Ramon y Cajal

Sobre Probabilidad e Inferencia Estadıstica.

http://matematicas.unex.es/∼jmf/htm/material enfermeria medicina.html.

103