Bio Est Ad is Tic A

Bioestadıstica

Profesorado en Ciencias Biologicas

Marcela Ribas Garcıas

Federico De Olivera Lamas

Material realizado para trabajar guiado por el tutor de semipresencial.

Marcela Ribas - Federico De Olivera

Organizacion del curso:

El presente curso de Bioestadıstica estara organizado alrededor de tres bloques

tematicos:

1. El primer bloque esta dedicado a desarrollar los principales instrumentos

metodologicos que se utilizan para describir las caracterısticas de la muestra

(Estadıstica Descriptiva).

2. El segundo bloque hace una revision de algunos aspectos de la teorıa de

las Probabilidades. Dichos aspectos estan seleccionados con el objetivo de

permitir al estudiante comprender el siguiente y ultimo bloque, el cual con-

stituye el nucleo del curso.

3. El tercer bloque presenta a la Inferencia Estadıstica, a traves de algunos de

sus instrumentos, y tiene el objetivo de mostrar el poder que tiene la Es-

tadıstica, como ciencia que busca crear conocimiento acerca de la realidad.

Entendemos que se trata de un curso instrumental, el cual tiene como principal

objetivo que el estudiante de Profesorado en Ciencias Biologica se familiarice con

las herramientas estadısticas que habitualmente se encuentra en la bibliografıa

de esta especialidad. Es por este motivo que de ninguna manera puede permitirse

extenderse en demasıa en los bloques tematicos 1 y 2 y ser escueto en el bloque

tematico 3, pues es el bloque tematico 3 el que realmente tiene los instrumentos

que ayudan al estudiante en su futura formacion.

Estimamos conveniente que se le dedique no mas alla de las vacaciones de julio

para los bloques tematicos 1 y 2 (primer semestre) y luego dedicar con tiempo y

comodidad al tercer y mas importante bloque tematico.

Indice general

I Implementacion del curso 1

0.1. Fundamentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

0.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

0.2.1. Objetivos Generales . . . . . . . . . . . . . . . . . . . . . 4

0.2.2. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . 5

0.3. Rol del Alumno y el Tutor . . . . . . . . . . . . . . . . . . . . . . 5

0.4. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

0.5. Evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

0.6. Cronograma del curso . . . . . . . . . . . . . . . . . . . . . . . . 9

II Contenido disciplinar 21

0.7. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

0.7.1. La Estadıstica y el Metodo Cientıfico . . . . . . . . . . . . 24

0.7.2. ¿Que entendemos por Estadıstica? . . . . . . . . . . . . . 25

iv INDICE GENERAL

0.7.3. Etapas de un estudio estadıstico . . . . . . . . . . . . . . 27

1. La Estadıstica Descriptiva 31

1.1. Conceptos generales . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.1.1. Variables categoricas o de atributo o cualitativas . . . . . . 32

1.1.2. Variables Cuantitativas . . . . . . . . . . . . . . . . . . . . 32

1.2. Analisis de las variablebles cuantitativas agrupadas en intervalos . 35

1.2.1. Tabla de la Distribucion de Frecuencias . . . . . . . . . . . 35

1.2.2. Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.3. Medidad de resumen . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.3.1. Medidas de posicion . . . . . . . . . . . . . . . . . . . . . 41

1.3.2. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . 46

1.4. Ejericicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

1.5. Artıculos OMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2. La Probabilidad y las Variables Aleatorias 61

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.2. Teorıa de las probabilidades . . . . . . . . . . . . . . . . . . . . . 62

2.3. Principales reglas de la Probabilidad . . . . . . . . . . . . . . . . 65

2.4. Variables Aleatorias (v.a) . . . . . . . . . . . . . . . . . . . . . . . 70

2.4.1. Variable aleatoria Normal . . . . . . . . . . . . . . . . . . 72

2.4.2. Tabla de la Distribucion Normal Estandar . . . . . . . . . 73

INDICE GENERAL v

2.4.3. Estandarizacion de variables aleatorias Normales . . . . . . 79

2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

2.6. Anexo: Esperanza matematica y Varianza . . . . . . . . . . . . . 87

2.6.1. Distribucion de Probabilidad de la variable aleatoria X . . 87

2.6.2. Esperanza de X: E(X) . . . . . . . . . . . . . . . . . . . 87

2.6.3. Varianza de X: V ar(X) . . . . . . . . . . . . . . . . . . . 88

2.7. Algunas variables aleatorias . . . . . . . . . . . . . . . . . . . . . 90

2.7.1. Variable aleatoria Uniforme Discreta . . . . . . . . . . . . 90

2.7.2. Variable aleatoria Bernoulli . . . . . . . . . . . . . . . . . 91

2.7.3. Variable aleatoria Binomial . . . . . . . . . . . . . . . . . 92

2.7.4. Variablea aleatorias continuas . . . . . . . . . . . . . . . . 95

2.7.5. Teorema de De Moivre – Laplace . . . . . . . . . . . . . . 97

2.7.6. Otras variables aleatorias continuas . . . . . . . . . . . . . 97

2.8. Artıculo: Pruebas diagnosticas . . . . . . . . . . . . . . . . . . . 98

3. La Inferencia Estadıstica 105

3.1. Introduccion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

3.2. La Inferencia Estadıstica Parametrica . . . . . . . . . . . . . . . 106

3.2.1. Parametro vs Estadıstico . . . . . . . . . . . . . . . . . . 106

3.2.2. Distribuciones de algunos Estadısticos . . . . . . . . . . . 107

3.2.3. Distribucion de X . . . . . . . . . . . . . . . . . . . . . . 111

vi INDICE GENERAL

3.2.4. Distribucion de Z =√n·(X−µ)σ

. . . . . . . . . . . . . . . . 112

3.2.5. Distribucion de T =√n · (X−µ)

S′.. . . . . . . . . . . . . . . 114

3.3. Estimacion puntual e intervalos de confianza . . . . . . . . . . . 116

3.3.1. Estimacion puntual e intervalos de confianza para µ cuan-

do conozco σ2 . . . . . . . . . . . . . . . . . . . . . . . . 116

3.3.2. Intervalo de confianza para µ , cuando no conozco σ2 . . 120

3.3.3. Intervalo de confianza para una proporcion . . . . . . . . 122

3.4. Prueba de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . 125

3.4.1. Sıntesis de algunos Test Parametricos . . . . . . . . . . . 127

3.5. La Inferencia Estadıstica no Parametrica . . . . . . . . . . . . . 136

3.5.1. Test de independencia de dos variables: . . . . . . . . . . . 136

3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Parte I

Implementacion del curso

0.1 Fundamentacion 3

0.1. Fundamentacion

La formacion de un futuro Profesor en Ciencias biologicas debe indudablemente

proveerlo de herramientas que permitan su insercion inmediata en la sociedad

para el ejercicio de su profesion.

No obstante, los objetivos de su carrera de grado no deben limitarse a esto, sino

que debe incluir aspectos que favorezcan una formacion autonoma mas alla de la

carrera de grado, de manera de posibilitar la actualizacion y formacion continua.

Las Ciencias biologicas, con su caracter experimental, requieren formas rigurosas

de procesar datos y sacar conclusiones para la generacion de conocimientos, y de

esta manera posibilitar su avance.

El futuro Profesor en Ciencias biologicas debe conocer el origen de los contenidos

tematicos que ensena, para lo que es imprescindible estar familiarizado con la

generacion de conocimiento, la metodologıa cientıfica y la Bioestadıstica.

Por otra parte, la Biologıa tiene caracterısticas particulares dentro de las Ciencias

experimentales, a partir de que su objeto de estudio esta constituido por los seres

vivos. La variabilidad biologica y la diversidad son algunas de ellas. Esto trae

aparejado el caracter impredecible de los procesos que esta ciencia estudia, los

que estan regidos por la aleatoriedad.

La incorporacion temprana de las relaciones entre la aleatoriedad y la ocurrencia

de eventos biologicos, predispone favorablemente al estudiante de Profesorado en

Ciencias biologicas a la comprension rigurosa de los procesos a estudiar, y con-

tribuye a minimizar el planteo de determinismos erroneos, ası como a establecer

ligeramente relaciones de causalidad. De esta manera, desde ideas relativamente

simples y concretas como “afinidad bioquımica”, hasta conocimientos generales

y complejos como “teorıas del origen de la vida”, podran ser interpretados en

terminos de probabilidad desde el inicio de la carrera.

Por otra parte, tanto durante su carrera de grado como en la formacion continua

mas alla de esta etapa, es deseable que el Profesor en Ciencias biologicas tenga

como habito la consulta de artıculos cientıficos que permitan su actualizacion.

Nociones basicas de muestreo y pruebas estadısticas, permitiran al futuro profesor

seleccionar en base a criterios de confiabilidad, su fuente de informacion.

0.2. Objetivos

0.2.1. Objetivos Generales

Lograr una vision integradora de la realidad que trascienda el pensar solo

asociado a su campo de formacion especıfica.

Contribuir con el desarrollo de una actitud autonoma y crıtica en la con-

struccion del propio proceso de aprendizaje.

Construir herramientas conceptuales y metodologicas que permitan sosten-

er la actualizacion y profundizacion en el conocimiento, como base para la

formacion permanente.

Contextualizar los conocimientos disciplinares en distintos marcos de refer-

encia.

Comprender la necesidad de la rigurosidad, en particular en la toma de

datos, y la necesidad de fijacion de criterios claros y precisos para su ob-

tencion.

Desarrollar competencias en el uso de herramientas estadısticas para el

analisis e interpretacion de datos biologicos.

0.3 Rol del Alumno y el Tutor 5

0.2.2. Objetivos Especıficos

Relacionar la aleatoriedad con la ocurrencia de eventos biologicos.

Comprender la utilidad en la utilizacion de distribuciones de probabilidad

para el estudio cientıfico de procesos biologicos.

Adquirir conocimientos basicos de muestreo y tipos de pruebas estadısticas,

que permitan valorar artıculos cientıficos y determinar su confiabilidad.

Adquirir herramientas basicas que permitan realizar tomas de datos, agru-

parlos para su presentacion mediante la tabulacion, graficos, y calculo de

medidas de resumen.

Comprender el caracter indispensable de la utilizacion de la Estadıstica in-

ferencial para establecer relaciones entre las variables biologicas estudiadas

y realizacion de valoraciones.

Comprender las limitaciones de la Estadıstica Inferencial en la determi-

nacion de relaciones de causalidad en las Ciencias biologicas.

0.3. Rol del Alumno y el Tutor

El estudiante de profesorado que realiza un curso semipresencial de Bioestadıstica,

al ser esta una asignatura que, en algunos puntos de su programa, presenta un

nivel abstracto, debe desarrollar ciertas capacidades o cualidades que le permitan

el satisfactorio seguimiento del curso tales como:

La capacidad de concentracion adecuada para comprender los nuevos con-

ceptos, muchos de ellos con nombres y notaciones un poco alejados de la

realidad cotidiana del estudiante.

La responsabilidad como para hacer un seguimiento del cuso acorde a las

exigencias del ritmo que plantea el tutor, pues es una asignatura que ar-

rastra conceptos, en el sentido que si no se comprendio adecuadamente lo

dado en una clase anterior, se acumularan dificultades para la comprension

de la clase siguiente.

La capacidad de autoconocimiento que lo ayude a darse cuenta cuando debe

conceder mas estudio a un tema que no comprendio bien, y cuando debe

recurrir en busca de apoyo del tutor, pues lo que le hace falta es una vision

mas integradora del tema, que lo ayude a superar la dificultad presente.

El estudiante debe saber manejar muy bien sus tiempos, a fin de conceder

en cada semana las horas de estudio adecuadas como para mantener la

correcta continuidad del curso.

El docente tiene el rol de orientador en la construccion de conocimiento bioes-

tadıstico. Ya aludimos al nivel de abstraccion que este requiere, y por eso es de

fundamental importancia la trasposicion didactica que realice el tutor, con la fi-

nalidad de contextualizar los conocimientos disciplinares, en distintos marcos de

referencia, a fin de que los estudiantes aprehendan las nociones de esta ciencia

bioestadıstica, que es instrumental en su carrera.

Con este espıritu, se considera importante que el profesor tutor, ademas de

cumplir con el papel de guıa al que su nombre alude, incorpore, en la medida

que los tiempos y el apoyo de los estudiantes lo permitan, otros tipos de activi-

dades tales como:

resolucion de problemas

discusion de artıculos de divulgacion cientıfica vinculados a problemas bi-

ologicos.

0.4 Metodologıa 7

0.4. Metodologıa

Acorde a un curso de nivel terciario, se debera tener presente que el proceso de

ensenanza y aprendizaje estara centrado en el propio estudiante.

De esta manera, se sugiere la promocion de instancias de trabajo colaborativo y

autonomo, que contribuyan a lograr un perfil de egreso acorde a las dimensiones

personal e institucional previstas en el Plan 2008.

El docente tiene el rol de orientador en la construccion de conocimiento. En

este sentido, la guıa contiene apuntes completos sobre algunos temas; y en otros,

plantea la lectura directa de ciertos capıtulos del libro indicado como el principal

dentro de la bibliografıa. Ademas, la guıa indica ejercicios a ser resueltos por el

estudiante, los cuales cuentan con solucion dentro del libro de texto antedicho.

No obstante, se considera importante que el profesor tutor incorpore, en la me-

dida que los tiempos y el apoyo de los estudiantes lo permitan, otros tipos de

actividades tales como:

resolucion de problemas;

discusion de artıculos de divulgacion cientıfica vinculados a problemas bi-

ologicos, haciendo enfasis en los aspectos de muestreo, presentacion de datos

y pruebas estadısticas utilizadas;

0.5. Evaluacion

Acorde a lo estipulado en el Plan se realizaran dos pruebas parciales escritas, en

forma individual.

Se realizara tambien una evaluacion continua basada en la correccion de los ejerci-

cios que el estudiante enviara regularmente al docente, ası como en la discusion de

trabajos y artıculos de divulgacion propuestos en el cronograma y otros sugeridos

por el tutor.

0.6 Cronograma del curso 9

0.6. Cronograma del curso

El plan de estudios del Sistema Unico Nacional de Formacion Docente 2008, item

X, capıtulo III: de los cursos, en su Art. 25 indica que la duracion de los cursos

sera de treinta semanas.

Partiendo de allı es que este cronograma incluye la antedicha cantidad de sem-

anas; sin embargo incluye dentro de estas semanas compensatorias, en las cuales

da lugar a que el docente cubra en ellas temas no desarrollados adecuadamente

en semanas anteriores. El objetivo es cubrir las eventualidades de atraso por dis-

tintos motivos que lo ameriten, ya sea por la imposibilidad de atencion del tutor

en alguna semana, porque la exigencia de los estudiantes requiera poner mayor

enfasis en algun tema en particular, o porque el tutor ası lo decida.

Todo ello esta dirigido a poner los esfuerzos para que todos los temas sean trata-

dos, especialmente los ultimos que son aquellos que le dan el cierre al curso y

permiten que los estudiantes observen la real dimension que tiene la estadıstica

en el contexto de la disciplina Biologica.

Los ejercicios planteados permiten la autoevaluacion del estudiante dado que se

plantea su solucion. No obstante se cuenta con otros ejercicios sin solucion que

seran utilizados por el tutor para la evaluacion continua del estudiante, estos son

los marcados para entrega obligatoria.

Semana 1

Presentacion del curso e introduccion a la Bioestadıstica (seccion 0.7):

En esta primera semana, se presenta a la Estadıstica como una herramienta para

la investigacion experimental, para el control de calidad y en general, para el

manejo de informacion.

Estadıstica Descriptiva, variables estadısticas, clasificacion en categorıas (seccion

Se pretende que el estudiante identifique los distintos tipos de variables estadısti-

cas, ası como que comprenda la agrupacion de los valores que asumen estas, en

distintas categorıas.

Ejercicios: realizar el ejercicio 1 y el item 1, del ejercicio 2.

Semana 2

Tabla de frecuencias y graficos (seccion 1.2):

En el contexto de la investigacion biologica, el objetivo es ubicar la necesidad

de representar la informacion obtenida, en forma sencilla y grafica, utilizando

para esto una serie de herramientas de la Esdıstica Descriptiva. Dentro de la

seccion 1.2, llamado Analisis de las variables cuantitativas agrupadas en intervalos

, correspondiente al bloque 1, se muestra como presentar los datos estadısticos, a

traves de dos instrumentos como son las tablas de frecuencias y distintos graficos.

Ejercicios: ejercicio 2, items 2, 3, 4 y 5.

Otros instrumentos descriptivos:

A partir de fragmentos de un artıculo de la OMS (Anexo 1.5), observar la variedad

de presentaciones que pueden tener los datos estadısticos.

Semana 3

Medidas de posicion (seccion 1.3.1):

Continuando con la seccion 1.2 del bloque 1, se presentan distintas medidas de

resumen de datos estadısticos, las primeras de las cuales son las medidas de posi-

cion. Se pretende que el estudiante las sepa calcular e interpretar adecuadamente.

Ejercicios: ejercicio 2, items 6, y 7.

Semana 4

Foro: E leccion de la medida de centralizacion mas adecuada a cada situacion:

Se pretende que se entable una discusion acerca de las limitaciones de la media

y la importancia de la mediana, como medida robusta de tendencia central. Los

estudiantes deberan plantear ejemplos, en donde se deba decidir cual medida de

centralizacion es mas acertada en cada caso.

Semana 5

Medidas de dispersion (seccion 1.3.2):

Las medidas de posicion siempre deben estar acompanadas de una medida de

dispersion. En esta semana se busca que el estudiante comprenda esto, a traves

del calculo e interpretacion de dichas medidas.

Semana 6

Foro: importancia de la variabilidad relativa:

Se busca que los estudiantes discutan acerca de las limitaciones del desvıo stan-

dard y la importancia del coeficiente de variacion, como medidas de resumen de

la variabilidad de los datos, a traves de ejemplos.

Semana 7

Ejercicios: Aplicacion de los conceptos recien aprendidos, a traves de la real-

izacion de los ejercicios 4 y 5.

Semana 8

Entrega de ejercicios:

El estudiante debe entregar al tutor, el ejercicio 3 resuelto.

Probabilidad (secciones 2.2 y 2.3):

Introduccion a los conceptos basicos de la probabilidad y sus principales

propiedades.

Ejercicios: ejercicios 1, 2 y 3.

Semana 9

Foro: T eorema de Bayes. Aplicacion: falso positivo y falso negativo.

Por considerar al Teorema de Bayes de particular importancia, se recomienda su

lectura, ya sea en el la enciclopedia virtual wikipedia o en el libro Estadıstica para

Biologıa y Ciencias de la Salud de Milton-Tsokos (paginas 97 a 100), incluıdo en

la bibiografıa.

Lectura y discusion del artıculo titulado pruebas diagnosticas (Anexo 2.8), en el

cual se presenta la definicion de sensibilidad y especificidad de un tratamiento,

en cual involucra conceptos referentes a la idea de falso positivo y falso negativo.

Ejercicios: ejercicios 5, 6, 7, 8, 9 y 10.

Semana 10

Variables aleatorias. Variable aleatoria Normal (seccion 2.4).

Se introduce la idea de variable aleatoria generica y en seguida se presenta la

variable aleatoria Normal, la cual sera de vital importancia en este curso, pues se

asume que la mayor parte de las variables biologicas que son continuas, pueden

modelarse con esta distribucion Normal.

Ejercicios: ejercicios 13 y 14.

Semana 11

Foro: V ariables biologicas que se distribuyen Normal:

Se pretende que los estudiantes discutan, a partir de su investigacion en la web

o en bibliografıa, el acierto en la aplicacion del modelo de distribucion Normal

a la mayorıa de las variables biologicas que son continuas. En especial observar lo

que sucede cuando el recorrido de la variable no incluye todos los valores reales,

lo que implicarıa aplicar un modelo de distribucion Normal truncada.

Semana 12

Variable aleatroria Bernoulli y Binomial:

Se pretende que el estudiante comprenda la definicion de la distribucion Binomial

(subsecciones 2.7.2 y 2.7.2 o busqueda en la web), a partir de la definicion de even-

tos Bernoulli, y vea su importancia en relacion a la gran cantidad de fenomenos

o experimentos biologicos de tipo dicotomico, con los que, al repetirse n veces en

determinadas condiciones ese experimento, se construye la distribucion Binomial.

Semana 13

Esta semana se utilizara para redondear los puntos que no se hayan analizado

convenienteme y se dara apoyo en los ejercicios obligatorios a entregar: 5, 10, 12

Semana 14

Entrega de ejercicios y posterior discucion: ejercicio 5, 10, 12 y 16.

Actividad de investigacion:

Se considera de gran relevancia que el estudiante tenga la experiencia de recolectar

datos en relacion a un problema biologico de su interes, como forma util de

comprender adecuadamente la importancia de cada herramienta aprendida. El

estudiante en esta semana, recabara, presentara y resumira informacion de las

variables elegidas, aplicando los conocimientos y destrezas adquiridas. Para este

trabajo el estudiante destinara horas extras en esta semana y sera apoyado por

el tutor.

Semana 15

Esta semana sera dedicada a contestar preguntas de los estudiantes, referidas a

los dos primeros bloques del curso, todo esto dirigido a apoyar al estudiante en

su preparacion del primer parcial de la asignatura, a realizarse en la proxima

semana.

Semana 16

Primer parcial con temas correspondientes a los bloques tematicos 1 y 2. En este

parcial se pretende la aplicacion de los conceptos teoricos a partir de la realizacion

de ejercicios practicos, en los cuales se permite el uso de material.

Semana 17

Introduccion a la Inferencia Estadıstica (seccion 3.2, subsecciones 3.2.1, 3.2.3 y

3.2.4):

Se busca que el estudiante comprenda muy bien la relacion que existe entre la

poblacion y la muestra, ası como la que existe entre parametro y estadıstico

(estimador).

En esta semana tambien se pretende que el estudiante de una leıda a los teoremas

que involucran la distribucion de la media muestral ( teoremas 1, 2, 3 y 4 de las

subseccion 3.2.3 y 3.2.4 ), extrayendo su utilidad (comprender que X es una

variable aleatoria y conocer su distribucion en diversas situaciones), mas alla de

los detalles de su demostracion, que no son de particular importancia en este

curso introductorio de la inferencia estadıstica.

Semana 18

Distribucion del estadıstico T (subseccion 3.2.5):

En esta semana se define un estimador de la varianza poblacional, la cuasivar-

ianza, y se presenta un nuevo estadıstico denominado T, el cual involucra el

estimador anterior y tiene una distribucion de probabilidades denominada dis-

tribucion t con n-1 grados de libertad (teorema 4).

Aquı se pretende que el estudiante se familiarice con esta nueva variable t, en

particular, con la lectura de la tabla que contiene sus probabilidades para algunos

grados de libertad, a traves de unos sencillos calculos.

Para que el estudiante se failiarice con algunos calculos realizar el siguiente ejer-

cicio:

Ejercicios: ejercicios 1.

Semana 19

Estimacion puntual e intervalo de confianza para µ con σ conocida (subseccion

3.3.1):

Comienza en esta semana lo que sera de real importancia para comprender la

investigacion bioestadıstica, en cuanto a que se comprendera los mecanismos a

partir de los cuales esta ciencia busca crear conocimiento acerca de la realidad,

ası como las limitaciones intrınsecas de tales mecanismos.

Se introduce la estimacion puntual y por intervalo de confianza, a traves de un

ejemplo (estimacion de µ, cuando se conoce la varianza poblacional) y se contruye

paso a paso dicho intervalo. Este proceso, aunque un poco engorroso, es necesario

para que el estudiante, frente a la lectura de un intervalo cualquiera, comprenda

su significado, a partir de que conoce los detalles de la construccion de un intervalo

en particular .

Semana 20

Estimacion puntual e intervalo de confianza para µ con σ desconocida (subseccion

3.3.2):

Sin entrar en los detalles de la construccion del intervalo de confianza mencionado

(es similar al intervalo de la semana anterior) se busca que el estudiante com-

prenda su aplicacion, a traves de la realizacion de los ejercicios 4, 5, 6, 7 y 8.

Ejercicios: ejercicios 4, 5, 6, 7 y 8.

Semana 21

Estimacion puntual e intervalo de confianza para p (subseccion 3.3.3) De igual

forma que con el intervalo anterior, no se pretende ahondar en los detalles de

construccion del presente intervalo, sino que se busca que el estudiante comprenda

su aplicacion a traves de la realizacion de los ejercicios 2, 3 y 9.

Semana 22

Prueba de Hipotesis (seccion 3.4):

En esta semana se definiran los conceptos generales involucrados en las pruebas

o test de hipotesis: la hipotesis nula y la alternativa, los tipos de error que se

generan al tomar la decision de rechazar o no la hipotesis nula y sus respectivas

probabilidades, la definicion de la region crıtica.

Semana 23

Foro: Sobre la eleccion de las hipotesis nula y alternativa:

Este foro esta pensado para que los estudiantes discutan entre ellos y con el tutor,

como pueden llegar a variar ciertas conclusiones a partir de un test de hipotesis,

si se alteran por ejemplo la probabilidad maxima tolerada para el error de tipo

1, o si se intercambian las hipotesis.

Semana 24

Prueba de hipotesis para µ con σ conocido, contraste bilateral (subseccion 3.4.1):

A traves de la confeccion de esta prueba de hipotesis en particular, se le presenta

al estudiante cuales son las etapas que se deben atravesar para obtener cualquier

prueba de hipotesis, en particular aquellas que involucran parametros.

Semana 25

Otras pruebas de hipotesis :

De acuerdo a lo presentado en la subseccion 3.4.1, se presentan los ejemplos

2 y 3 otras dos prueba de hipotesis: una prueba para para µ con σ conocido,

con contraste unilateral y una prueba para µ con σ desconocido, con contraste

bilateral.

Semana 26

En esta semana se pone a prueba la comprension del estudiante de este importante

punto del curso, a traves de la realizacion y entrega de algunos ejercicios para su

evaluacion: 10, 11, 12, 13, 18, 19 y 20.

Entrega de ejercicios y posterior discucion:10, 11, 12, 13, 18, 19 y 20.

Semana 27

Inferencia no parametrica (subseccion 3.5):

Tomando como base lo explicado para las pruebas de hipotesis parametricas, se

presenta un caso la inferencia no parametrica como son las pruebas de hipotesis

de independencia, muy usadas cuando se intenta saber si dos caracterısticas de

interes poblacionales (en particular, caracterısticas o variables cualitativas) estan

o no relacionadas.

Semana 28

Esta semana se utilizara para redondear los puntos del bloque tres, que no se

hayan analizado convenientemente en las semanas anteriores.

Semana 29

Segundo parcial con temas correspondientes al bloques tematicos 3. Al igual que el

parcial anterior, en este parcial se pretende la aplicacion de los conceptos teoricos

a partir de la realizacion de ejercicios practicos, en los cuales se permite el uso

de material.

Semana 30

Esta ultima semana se destinara a aprender las nociones generales de los ultimos

puntos del programa: el analisis de la Correlacion Lineal y el analisis de Regresion

lineal. Dichos temas se encuentran en el libro [2], capıtulo 11.

Parte II

Contenido disciplinar

Introduccion

0.7. Introduccion

La forma de pensar llamada “estadıstica” se ha vuelto importante para todos

los profesionales: no solo para aquellos que estan dedicados a la ciencia o a los

negocios, sino tambien le preocupa a personas que quieren ayudar a hacer del

mundo, un mejor lugar.

Pero, ¿que es Bioestadıstica? y ¿que puede esta hacer?.

Hay definiciones y percepciones populares de los que significan “las estadısticas”.

Vemos “estadısticas de vida” en el diario: nacimientos, defunciones, matrimonios,

divorcios, etc. El uso publico de la palabra “estadısticas” es ampliamente variado

y la mayor parte de las veces indica una lista de numeros o datos.

En este curso no enfatizaremos las estadısticas como “cosas” sino que pensaremos

en el concepto de “hacer estadıstica” en el sentido de pensar acerca de numeros

(recolectados, analizados y presentados) y su interpretacion. Las formulas son

solo una parte de esa forma de pensar, simples herramientas que son necesarias,

pero que no son las unicas cosas que debemos conocer.

0.7.1. La Estadıstica y el Metodo Cientıfico

¿Alguna vez te has preguntado como se llega a la verdad acerca de los fenomenos

que interesan al ser humano? ¿Como se sabe que el cigarrillo causa cancer o como

se sabe que la vitamina C ayuda a prevenir el resfrıo?.

El ser humano, desde el comienzo de los tiempos ha aceptado varias fuentes de

conocimiento:

La autoridad: algo era cierto solo porque una cierta autoridad, llamese rey,

iglesia o autoridad cientıfica, lo afirmaba. Esta fuente de conocimiento se

basa en la fe de las personas o en la incapacidad de verificar, por sı mismas

la veracidad del conocimiento que aceptan como valido.

La razon: el racionalismo es un metodo que utiliza exclusivamente el ra-

zonamiento para llegar al conocimiento. Supone que si las premisas son

validas y el razonamiento se realiza de manera correcta, de acuerdo con

las reglas de la logica, entonces las conclusiones llegaran a la verdad. Sin

embargo , existe un gran numero de situaciones en que el solo razonamiento

es inadecuado para determinar la verdad. Es el caso, por ejemplo, del caso

en que existen dos explicaciones logicas razonables para un fenomeno; y por

sı sola la razon resulta inadecuada para distinguir entre ellas.

La intuicion: a traves de ella, muchos cientıficos han comenzado a dar

forma a sus teorıas, o han resuelto intrincados problemas que se negaban a

ser resueltos a traves de la razon. Sin embargo, a pesar de que la intuicion

ha sido utilizada como fuente de conocimiento durante toda la existencia

de la humanidad, sigue siendo un proceso misterioso acerca del cual solo

tenemos una comprension muy rudimentaria.

El metodo cientıfico: aunque este metodo utiliza el razonamiento y la

0.7 Introduccion 25

intuicion para llegar a la verdad, se fundamenta en una evaluacion objeti-

va, que es lo que lo distingue de los otros metodos. El metodo cientıfico es

bastante directo: por algun medio, generalmente un razonamiento deducti-

vo a partir de la teorıa existente o una induccion a partir de hechos reales

o a traves de la intuicion, el cientıfico llega a una hipotesis sobre cierta par-

ticularidad de la realidad. Entonces el investigador disena un experimento

para verificar de manera objetiva dicha hipotesis. Los datos, resultado del

experimento, posteriormente se analizan en forma estadıstica y la hipotesis

se acepta o se rechaza.

La caracterıstica mas importante de esta metodologıa es que no importa lo que el

cientıfico crea que es verdadero con respecto a la hipotesis en cuestion, pues el ex-

perimento proporciona una base para una evaluacion objetiva de dicha hipotesis.

Aquı es donde la Estadıstica cobra un papel relevante: uno de sus principales

objetivos es evaluar, en forma cientıfica, las afirmaciones o hipotesis planteadas

por el investigador.

0.7.2. ¿Que entendemos por Estadıstica?

Como disciplina, se la define como la ciencia que estudia ciertos conjuntos de datos

cuantitativos o cualitativos y los interpreta en terminos matematicos, estable-

ciendo metodos para la obtencion ciertas medidas que los describen (Estadıstica

Descriptiva). Ası como tambien los analiza y extrae conclusiones generales o leyes

a partir de dichos datos particulares (Inferencia Estadıstica o Estadıstica Induc-

tiva); para esto ultimo se vale de la teorıa de las probabilidades, considerada

tambien como ciencia de base matematica. Uno de los objetivos de un trabajo

estadıstico puede ser la toma de decisiones en presencia de la incertidumbre.

Cuando se aplican los metodos y herramientas de la ciencia Estadıstica a la

Biologıa, nace la Bioestadıstica.

Por ejemplo, ciertas investigaciones manejan la hipotesis de que esta aumentando

la cantidad de adolescentes con altos niveles de azucar en sangre, los cuales corren

el riesgo de desarrollar diabetes, en algun momento de su vida. Para comprobar

la veracidad de dicha hipotesis se recogen muestras de sangre en ayunas de un

grupo de 500 adolescentes de una determinada ciudad. Se les mide el nivel de

glucemia (miligramos de glucosa por decilitro de sangre) a todos ellos y ası se

cuenta con 500 datos a ser ordenados y analizados por la Estadıstica Descriptiva,

a partir de las herramientas con que esta cuenta, las cuales veremos en detalle

mas adelante.

Si queremos extraer conclusiones generales, como por ejemplo saber cual es el

nivel promedio de glucemia entre todos los adolescentes de la cuidad, podemos

hacerlo a partir del promedio obtenido entre los 500 adolescentes estudiados, pero

debemos indicar, por ejemplo, un margen de error que nos permita generalizar

dicho dato particular. Aquı utilizaremos las herramientas de la Estadıstica In-

ductiva y trataremos de conocer, por ejemplo, cual es la probabilidad de que un

adolescente de dicha ciudad tenga un nivel de glucosa mayor a 126 mg/dl de

sangre lo que lo llevarıa a tener diabetes.

Por ultimo, a partir de las conclusiones obtenidas de este trabajo de investigacion,

si resulta que efectivamente hay altos niveles de glucemia entre los adolescentes,

las autoridades de la ciudad pueden tomar medidas de polıtica tendientes a re-

vertir dicha situacion en el futuro, por ejemplo, fomentar los habitos saludables

de alimentacion en la escuela, prohibiendo la venta de golosinas dentro de los

establecimientos escolares.

0.7 Introduccion 27

0.7.3. Etapas de un estudio estadıstico

1. Planteamineto del Problema:

a) Definir el objetivo de la investigacion.

Por ejemplo: diversas Organizaciones internacionales han dirigido su

atencion sobre un reciente fenomeno: se observa una disminucion de

los umbrales de percepcion auditiva en ninos, adolescentes y jovenes,

provocada por exposicion a altos niveles sonoros.

En particular, en Argentina es cada vez mayor el porcentaje de jovenes

aspirantes al ingreso laboral que son rechazados por problemas de au-

dicion. El objetivo de una investigacion al respecto, puede ser, entre

otros, determinar, comprender y evaluar el conjunto de los diversos

factores que pueden contribuir al desarrollo de las hipoacusias tem-

pranas en adolescentes en dicho paıs, con el fin de realizar acciones

tendientes a la prevencion de esta problematica social.

b) Definir la poblacion o universo: es el conjunto completo de individ-

uos, objetos o datos que el investigador esta interesado en estudiar. En

el caso del ejemplo anterior, serıan todos los adolescentes argentinos.

c) Definir el tipo de informacion que se desea extraer de los elementos

de la poblacion: podrıan ser un conjunto de preguntas, observaciones

o mediciones dirigidas hacia dichos elementos. A partir de la infor-

macion anterior, se construiran variables: son cualquier propiedad o

caracterıstica de los elementos de la poblacion, que puede ser de interes

para el investigador en el sentido de contribuir a lograr el objetivo de

su estudio.

En nuestro ejemplo, podemos considerar ciertas preguntas, mediciones

u observaciones, a realizar a los adolescentes, que tengan relacion con

su problematica auditiva. Por ejemplo, estas pueden involucrar aspec-

tos tanto auditivos, como acusticos o psicosociales:

1) Se les puede chequear la capacidad de audicion, medida en canti-

dad de decibeles mınimos que pueden percibir.

2) Preguntar cuantas veces al mes concurren a locales con musica

por encima de 100 decibeles.

3) Preguntar si viven cerca de algun aeropuesto, fabrica u otro edifi-

cio que provoque contaminacion sonora.

4) Preguntar cuantos minutos al dıa escuchan musica con auriculares.

De lo anterior surgen las siguientes variables:

Variable 1: Capacidad de audicion, en decibeles mınimos percibidos.

Variable 2: Cantidad de veces al mes que concurren a locales con musica por

encima de 100 decibeles.

Variable 3: Se la define como 1: si el estudiante vive cerca de algun edificio

que provoque contaminacion sonora; y 0: en caso contrario.

Variable 4: Tiempo, medido en minutos al dıa, en que el estudiante escucha

musica con auriculares.

2. Recogida de la Informacion Muestral

Por lo general, no se puede disponer del valor de todas las variables para

todos los elementos de la poblacion, por ejemplo por razones economicas.

Entonces se seleccionan algunos de sus elementos: a este subconjunto de la

poblacion se le llama muestra. Siguiendo con nuestro ejemplo, se lleva a

cabo una encuesta que cubre a 1000 adolescentes argentinos (la muestra) y

en el cuestionario que esta incluye, se plantean las tres preguntas anteriores,

ademas de realizarles un chequeo auditivo.

0.7 Introduccion 29

3. Analisis Descriptivo de los Datos Obtenidos: Estadıstica

Descriptiva:

Consiste en procedimientos estadısticos que sirven para organizar y re-

sumir, de diversas formas de acuerdo a nuestro interes, un conjunto de

datos obtenidos de la realidad. Los conjuntos de datos no organizados re-

sultan de poco valor. Sin embargo se dispone de tecnicas estadısticas para

organizar este tipo de datos en forma significativa: tablas de frecuencias,

grafico de barras, histograma, medidas de resumen, entre otros.

Aquı se toman los 1000 formularios que resultaron de la encuesta anterior y

con la ayuda de las herramientas de la Estadıstica Descriptiva se organizan

y analizan todos los datos que estos contienen. Y se sacan conclusiones

particulares, en relacion a esa parte de la poblacion que fue estudiada. Por

ejemplo, se podra conocer cuantos minutos por dıa, en promedio, estos 1000

adolescentes, escuchan musica con auriculares. Y tambien se podra saber

cual es el porcentaje, entre ellos, que concurren mas de una vez por semana

a locales con musica a un volumen por encima de 100 decibeles, lo cual es

nocivo para su salud auditiva.

4. Inferencia Estadıstica

Una vez organizados, analizados y resumidos los datos de la muestra, pode-

mos tratar de ver mas alla de lo que esta muestra nos presenta: podemos

buscar conocer caracterısticas generales de la poblacion, a partir de las

caracterısticas particulares que nos presenta la muestra. Con este fin exis-

ten distinstas tecnicas estadısticas como son la estimacion o la prueba de

hipotesis.

Este tipo de razonamiento que va de lo particular a lo general es del tipo

inductivo, y de allı que a la Inferencia Estadıstica se la conozca tambien

con el nombre de Estadıstica Inductiva. Esta utiliza la Teorıa de las Prob-

abilidades, que es una rama de la Matematica.

Sabiendo cuantos minutos por dıa, en promedio, estos 1000 adolescentes,

escuchan musica con auriculares (dato aportado por la Estadıstica Descrip-

tiva), se puede “estimar”, con cierto margen de error prefijado por el in-

vestigador, cual es dicho promedio pero entre todos los adolescentes

argentinos.

De esta forma nos aproximamos a obtener conocimiento acerca de un aspec-

to de la realidad social de Argentina, informacion que puede ser de interes

no solo para dicho paıs, sino que puede incentivar estudios internacionales

similares y de esta forma vamos construyendo, con la ayuda de la Estadısti-

ca, el conocimiento de la realidad global.

Bloque tematico 1

La Estadıstica Descriptiva

Objetivo:

El objetivo de este bloque tematico es presentar a la Estadıstica Descriptiva, rama

de la Estadıstica que provee procedimientos utiles para organizar y resumir, de

diversas formas de acuerdo a nuestro interes, un conjunto de datos obtenidos de

la realidad.

1.1. Conceptos generales

Recorrido y tipos de Variables:

Es el conjunto de todos los valores que, en teorıa, puede tomar la variable. De

acuerdo a su recorrido, existen diferentes tipos de variables. Se clasifican

en dos grandes grupos:

1. las variables categoricas o cualitativas o de atributos,

2. y las variables medibles o cuantitativas.

32 1. La Estadıstica Descriptiva

1.1.1. Variables categoricas o de atributo o cualitativas

Son aquellas que no son cuantificables, es decir que para su recoleccion no in-

tervienen mediciones, aunque cada distinto valor de la variable, que llamaremos

categorıa, puede ser asociado con un numero, con la unica finalidad de simpli-

ficar el procesamiento de los datos.

Por ejemplo, son variables cualitativas (entre parentesis esta un posible recorrido):

1. el color de ojos(1.negros, 2.castanos, 3.grises, 4.celestes, 5.verdes, 6.otro )

2. sexo de nacimiento: (1.mujer, 2.hombre).

3. el rendimiento academico (1.bajo, 2.promedio, 3.sobre).

4. el estado nutricional (1.bueno, 2.regular, 3.malo).

Los dos primeros ejemplos son de variables cualitativas nominales, que son

aquellas en las cuales las asignaciones de los numeros no suponen ningun orden

entre ellas. En otras palabras: cualquier asignacion es valida.

Los otros dos ejemplos son de variables cualitativas ordinales, llamadas

ası pues existe un orden particular preestablecido entre los diferentes valores

que puede tomar una variable.

Mientras que entre los valores de las variables nominales solo podemos comparar

si son iguales o distintos, entre los de las variables ordinales podemos establecer

la relacion ”mayor que.o “menor que”.

1.1.2. Variables Cuantitativas

Son variables que resultan de contar o medir ciertas caracterısticas de los ele-

mentos de la muestra. Se expresan numericamente, y dichos valores se usaran

1.1 Conceptos generales 33

algebraicamente a fin de realizar calculos, a diferencia de los numeros asignados

a las variables cualitativas.

Ejemplos de dichas variables:

1. Cantidad de hijos, que tiene una mujer mayor de 40 anos.

2. Cantidad de cigarrillos fumados por dıa, por los estudiantes de Biologıa.

3. La estatura de un jugador de basquetball.

4. El tiempo de recuperacion de los pacientes operados de apendicitis.

Dentro de este grupo de variables, se distingue entre variables discretas o con-

tinuas. Los dos primeros ejemplos son de variables cuantitativa discretas, lla-

madas ası pues entre dos valores de la variable no siempre existe otro: por ejemplo

una mujer puede tener 1 o 2 hijos, pero no 1 hijo y medio. Los otros dos ejemplos

son de variables cuantitativas continuas pues dados dos valores de la variable

siempre puede existir (aunque sea en teorıa) otro valor: entre una altura de 2

m y otra de 2 m 1 cm, podemos encontrar un jugador que mida 2 metros 1/2

cm, y podemos seguir subdividiendo los intervalos y siempre, en teorıa, podremos

encontrar un jugador que tenga una altura en dicho intervalo, apesar de que nue-

stros instrumentos de medicion, llegara un momento, que no tendran la presicion

adecuada como para notar diferencias.

Categorıas:

Son los distintos grupos, entre los cuales podemos clasificar los distintos valores

que toma una variable. Surgen de partir su recorrido. Muchas veces las categorıas

pueden coincidir exactamente con el recorrido; pero en otros casos es imposible: el

caso de las variables continuas, cuyo recorrido esta formado por infinitos numeros

y entonces debemos particionar su recorrido en intervalos, que seran nuestras

categorıas.

Sea cual sea el tipo de variable, las categorıas en las cuales se agrupan los

diferentes valores que toma la variable, deben ser exhaustivas y mutuamente

excluyentes.

Categorıas exhaustivas: estas cubren todo el recorrido. Cualquier obser-

vacion se debe poder colocar en alguna categorıa; por ejemplo, si la persona

se niega a contestar, se la coloca en la categorıa no sabe, no contesta.

Categorıas mutuamente excluyentes: no se deben superponer.

Cualquier observacion se debe colocar solo en una categorıa, no debe haber

ambiguedades.

Ejemplos:

1. Variable X: cantidad de dıas por semana que trabaja una persona.

Recorrido de X: 0, 1, 2, 3, 4, 5, 6, 7 . Puedo considerar como categorıas

exactamente el recorrido de la variable; o sino podrıa considerar como cat-

egorıas: 0, 1, 2, 3,4,5, 6,7 .

2. Variable Y: peso de los bebes en kg, nacidos a termino.

Posible recorrido: [2.3, 5] . Puedo tomar como categorıas los siguientes in-

tervalos: [2.3, 2.5), [2.5, 3.5), [3.5, 3.9), [3.9, 5] , u otros, dependiendo de

los intervalos que sean de interes.

Observacion:

1.2 Analisis de las variablebles cuantitativas agrupadas en intervalos 35

1. Los intervalos no tienen por que tener todos igual amplitud.

2. Los intervalos que son validos son los del tipo [ , ) o ( , ]. Si los intervalos

son todos ( , ), no cumplen con la caracterıstica de la exhaustividad, pues

los valores de los extremos no estan incluidos en ningun intervalo. Si los

intervalos son todos [ , ], no cumplen con la caracterıstica de ser mutuamente

excluyentes, pues se superponen.

1.2. Analisis de las variablebles cuantitativas

agrupadas en intervalos

Ya vimos que el objetivo de la Estadıstica era extraer la informacion contenida

en un conjunto de observaciones o datos. Para ello cuenta con las siguientes

herramientas:

1.2.1. Tabla de la Distribucion de Frecuencias

Continuando con el ejemplo anterior de los adolescentes y su nivel de glucemia,

vamos a trabajar con una muestra de 20 adolescentes. Las muestras deben ser por

lo general de mayor tamano, pero tomamos solo 20 para manejar con facilidad

los datos.

Tenemos entonces un conjunto de 20 datos de la variable X la cual definimos

como X = nivel de glucemia en ayunas, medido en miligramos de glucosa por

decilitro de sangre (mg/dl). Estos datos son :

98, 150, 100, 70, 80, 110, 123, 85, 115, 120

130, 110, 105, 98, 140, 81, 125, 120, 130, 126

En primer lugar, organizamos estos datos muestrales en una tabla de distribucion

de frecuencias. Lo primero que debemos hacer es determinar los intervalos, con

el fin de que los podamos interpretar de alguna forma.

Existen ciertos valores lımite, para distintas condiciones relacionadas con la can-

tidad de azucar en sangre en ayunas. Segun algunos especialistas se puede afirmar

lo siguiente:

mg de glucosa por dl de sangre Condicion

48 a 73 hipoglucemia

74 a 99 glucemia normal

100 a 125 pre-diabetes

126 a 152 diabetes

Adoptaremos la convencion de construir intervalos de la forma [ , ): implica que

el valor de la izquierda esta en el intervalo pero no el de la derecha. Y recordando

que las categorıas deben ser exhaustivas, nuestros intervalos seran ligeramente

diferentes a los planteados en la tabla anterior:

Categorıas: [xi−1, xi) ni total

[48, 74) X 1

[74, 100) XXXXX 5

[100, 126) XXXXXXXXX 9

[126, 152) XXXXX 5

n = 20

A la columna ni se la llama columna de frecuencias absolutas, y en ella se colo-

can cuantos datos caen en cada intervalo. Una practica comun para completarla,

es leer uno a uno los datos y colocar una marca (checkmark) al lado del intervalo

donde cada dato se encuentra. Luego contamos la cantidad de X y obtenemos ni.

Al sumar esta columna debemos obtener n: el tamano de la muestra.

Es importante tener en cuenta que al organizar los datos en intervalos pierdo

la informacion de los datos originales, pero gano en un mejor ordenamiento

de los datos. Por ejemplo, en la tabla veo que tengo 5 adolescentes en el in-

tervalo [ 74, 100 ) pero a partir de la tabla no sabemos si ellos tienen cerca

de 74 mg de glucosa por dl de sangre o tienen un nivel cerca de 99 mg/dl, o

estan distribuidas de manera uniforme a lo largo de todo el intervalo. Nosotros

vamos a adoptar esta ultima hipotesis.

La tabla de frecuencias tambien incluye las siguientes columnas:

ci: marca de clase del intervalo: es el punto medio de dicho intervalo, que se

calcula como la semisuma de sus valores extremos.

Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61.

La marca de clase viene a ser el valor representativo del intervalo.

hi: frecuencia relativa del intervalo: es la proporcion de datos que hay en el.

Se calcula como hi = ni/n. La suma de todos las hi es siempre 1.

Si multiplicamos hi · 100, obtenemos el porcentaje de datos en cada intervalo.

Por ejemplo, podemos ver en la tabla siguiente que el 45 % de los adolescentes

poseen un nivel de glucemia tal (de entre 100 y hasta 126, no inclusive, mg de

glucosa por dl de sangre) que los lleva a tener pre-diabetes.

F ∗i : Funcion de distribucion acumulada empırica: es la proporcion (o por-

centaje si se multiplica cada valor de F ∗i por 100) de observaciones que existen

hasta cada intervalo inclusive. Se calcula sumando, al valor hi de cada intervalo,

los valores de hi de todos los intervalos anteriores a el.

A partir de F ∗i , podemos decir que el 30 % de los adolescentes tienen hipoglucemia

o glucemia normal (100 mg/dl o menos), lo que implica que el 70 % tienen pre-

diabetes o diabetes (pues F · 100 = 0, 3).

f ∗i : funcion de densidad empırica: es la frecuencia relativa por unidad de me-

dida en cada intervalo. Me indica la concentracion o “densidad de datos” que hay

en cada intervalo.

Se calcula ası: f ∗i = hi/amplitud de cada intervalo. La amplitud del intervalo es

la diferencia entre el extemo superior y el inferior. Por ejemplo el primer valor de

f ∗i es 0,05/(74–48) = 0,0019 = 0,002 redondeando a tres decimales.

Categorıas: [xi−1, xi) ni hi F ∗i = F ∗(xi) ci f ∗

[48, 74) 1 0,05 0,05 61 0,002

[74, 100) 5 0,25 0,3 87 0,01

[100, 126) 9 0,45 0,75 113 0,017

[126, 152) 5 0,25 1 139 0,01

n = 20 1

1.2.2. Graficos

Histograma

El Histograma es una forma grafica de presentar la informacion que nos propor-

cionan los datos, acompanando la tabla de frecuencias. Nos permite, a golpe de

vista, sacar algunas conclusiones mas rapidamente que observando la tabla. Ese

es su principal objetivo.

En el eje horizontal se indican los extremos de los intervalos. En el eje vertical

van los valores de f ∗i . Y se levantan “barras” encima de cada intervalo, a la altura

del correspondiente f ∗i .

Observar que el area encima de cada intervalo (base por altura =amplitud del

intervalo por f ∗i = hi ) es su correspondiente frecuencia relativa.

El area total del histograma es 1, por ser la suma de todas las barras, que son

las frecuencias relativas hi.

Figura 1.1: Histograma del nivel de glucemia

Ojiva o grafico de la funcion de distribucion acumulada empırica F ∗i

Para variables cuantitativas agrupadas en intervalos, la grafica de F ∗i se repre-

senta como una funcion continua, pues trabajamos con la hipotesis de que los

valores que caen dentro de cada intervalo, se consideran distribuidos uniforme-

mente dentro del mismo. Por lo tanto :

1. Primero, se marcan en el grafico las frecuencias acumuladas en los extremos

superiores de los intervalos, que son los que aparecen en la tabla. Es decir:

F ∗(74) = 0,05, F ∗(100) = 0,3, F ∗(126) = 0,75, F ∗(152) = 1

2. Y posteriormente, se trazan los segmentos que determinan dos puntos con-

secutivos. Esto implica un crecimiento uniforme dentro de cada intervalo,

en forma coherente con el supuesto antedicho.

40 60 80 100 120 140 160

nivel de glucemia

Figura 1.2: Ojiva del nivel de glucemia

Distribuciones Empıricas y Teoricas Las distribu-

ciones estudiadas: f ∗i y F ∗(xi) son empıricas, pues son realizadas a partir de

la observacion de una muestra.

Existen otras distribuciones llamadas teoricas ( f(xi) y F (xi) ), que resultan de

estudios realizados con modelos probabilısticos e involucran los datos de toda la

poblacion.

1.3 Medidad de resumen 41

Se demuestra que, al aumentar el numero de observaciones en las muestras, las

distribuciones empıricas se aproximan cada vez mas a las teoricas.

1.3. Medidad de resumen

Las medidas de resumen muestrales sirven para obtener caracterısticas generales

de dicha muestra, con el riesgo que siempre implican los resumenes, en cuanto al

grado en que reflejan la informacion del conjunto de datos. Veremos dos grupos

de medidas de resumen:

Medidas de posicion: Indican “por donde” se situan los datos de la mues-

tra. Estas medidas pueden ser de tendencia central o medidas no centrales

(los cuartiles y percentiles).

Medidas de dispersion: Se utilizan para medir el grado de concentracion

de los datos, en torno a determinados valores. Por ejemplo, deben acom-

panar a las medidas de tendencia central, para dar una idea de que tan

confiable es el dato proporcionado por ellas.

1.3.1. Medidas de posicion

Medidas de tendencia central

Son tres: la media, la mediana y el modo.

Media (aritmetica): Se la puede definir como el “centro de gravedad”

de la distribucion de frecuencias. Constituye el valor central por excelen-

cia, pues considera la totalidad de las observaciones, ponderadas por su

frecuencia relativa. Se calcula como la suma de las marcas de clase por la

correspondiente frecuencia relativa. Observar en la tabla siguiente que la

media surge de sumar la columna indicada como ci · hi.

La media en nuestro caso vale 110,4 lo cual significa que, en promedio, los

adolescentes encuestados tienen 110,4 mg de glucosa por dl de sangre, en

ayunas. Ello solo no nos dice mucho pues no sabemos si la mayorıa tienen

ese valor de glucemia, o tienen valores inferiores y superiores que hacen que

sea tal el promedio. Mas adelante calcularemos el desvıo standard y se nos

aclarara un poco el panorama.

Esta media muestral es una aproximacion de la verdadera media muestral

(que se calcula como la suma de todos los datos originales dividido 20 o sea

110,8 ), pues dentro de cada intervalo, los diferentes valores han sido todos

sustituidos por un unico valor, ci, el punto medio de dicho intervalo.

Mediana (Xme): Cuando la muestra contiene unos pocos datos sumamente

grandes o muy pequenos, la media puede no ser representativa. El punto

central de tales datos puede describirse mejor utilizando otra medida de

tendencia central como es la M ediana, pues ella no considera dichos valores

extremos. Es el valor de la variable que divide en dos mitades al conjunto de

datos ordenados: es el valor Xme que acumula el 50 % de las observaciones

o sea que cumple que F ∗(Xme) = 0, 5.

Dos casos:

1. Si en la tabla se observa que F ∗(xi) = 0,5, entonces Xme =

extremo superior del intervalo correspondiente.

2. Si no es ası, entonces la mediana se debe obtener por interpolacion

dentro del intervalo que contiene a Xme. En este caso, se procede ası:

a) Encontramos el intervalo donde se encuentra Xme: es el primer

intervalo donde F ∗(xi) es mayor a 0,5. En nuestro caso es [100,

b) Aplicamos la formula siguiente:

Xme = xi−1 +(0,5− F ∗(xi−1))

f ∗i

donde:

xi−1 : extremo inferior del intervalo donde esta la mediana. O sea

xi−1 = 100

F ∗(xi−1) : frecuencia acumulada del intervalo anterior al de la

mediana. O sea F ∗(xi−1) = 0,3

f ∗i : valor de la funcion de densidad empırica, correspondiente al

intervalo donde esta la mediana. O sea f ∗i = 0,017

Xme = 100 +(0,5–0,3)

0,017= 111,76

Se interpreta diciendo que el 50 % de los adolescentes tienen un nivel de

glucemia de 111,76 mg/dl o menos. O mas significativamente, podemos

decir que el nivel de glucemia del 50 % de ellos es mayor o igual a 111,76

lo que implicarıa que tienen pre-diabetes o diabetes.

3. Modo ( Xmo): Es la categorıa con la mayor cantidad de observaciones.

Puede existir mas de una categorıa que cumpla lo anterior. En ese caso,

el modo no es unico. Si existen dos modos se dice que la distribucion

es bimodal. En la forma es que estamos trabajando, con datos agru-

pados en intervalos, no hablamos de Modo sino de I ntervalo Modal:

es el intervalo que concentra la mayor frecuencia relativa por unidad

de medida, por lo tanto es aquel intervalo, al cual le corresponde el

maximo valor de la funcion de densidad empırica f ∗i .

En nuestro ejemplo, el intervalo modal es [100, 126), lo cual significa

que la mayor parte de los adolescentes de esta muestra (un 45 %) tienen

niveles de glucemia entre 100 y 126 (no inclusive) mg de glcosa por dl

de sangre en ayunas, lo cual significa que son pre-diabeticos.

Categorıas: [xi−1, xi) ni hi F ∗i = F ∗(xi) ci f ∗ ci · hi c2i · hi

[48, 74) 1 0,05 0,05 61 0,002 3,05 186,05

[74, 100) 5 0,25 0,3 87 0,01 21,75 1892,25

[100, 126) 9 0,45 0,75 113 0,017 50,85 5746,05

[126, 152) 5 0,25 1 139 0,01 34,75 4830,25

total n = 20 1 110,4 12654,6

Medidas de posicion no centrales

Ademas de las medidas de tendencia central , tambien hay algunas medidas utiles

de posicion “no central” que suelen utilizarse al resumir o describir propiedades

de grandes conjuntos de datos. Estas medidas son los cuartiles y percentiles.

Los Cuartiles son tres valores: Q1, Q2, y Q3, que me dividen los datos ordenados

de la variable, en cuartos (25 %).

25 % | 25 % | 25 % | 25 %

Q1 Q2 Q3

Q1 es el valor cuya frecuencia acumulada es 25 %.

Q2 es el valor cuya frecuencia acumulada es 50 %. Entonces Q2 = Xme

Q3 es el valor cuya frecuencia acumulada es 75 %.

Percentiles: Hay noventa y nueve percentiles.

Por ejemplo, el percentil 10 (que anotamos P10) es el valor cuya frecuencia acu-

mulada es del 10 %. Y el percentil 90 ( P90 ) cumple que F ∗i (P90) = 0, 9

La determinacion de estas medidas es analoga a la de la mediana o los cuartiles.

Calculo de PRIMER CUARTIL:

Es aquel valor que cumple que F ∗(Q1) = 0, 25.

Dos casos:

1. Si en la tabla se observa que F ∗(xi) = 0,25, entonces Q1 = xi, extremo

superior del intervalo correspondiente.

2. Si no es ası, entonces Q1 se debe obtener por interpolacion dentro del in-

tervalo que lo contiene. En este caso, se procede de la siguiente forma:

a) Encontrar el intervalo donde se encuentra Q1: es el primer intervalo

donde F ∗(xi) es mayor a 0,25.

b) Aplico la formula siguiente:

Q1 = xi−1 +(0, 25− F ∗(xi−1))

f ∗i

donde:

xi−1 : extremo inferior del intervalo donde esta Q1.

F ∗(xi−1) : frecuencia acumulada del intervalo anterior al de Q1.

f ∗i : valor de la funcion de densidad empırica del intervalo donde

esta Q1.

En el ejemplo, el intervalo donde esta Q1 es [74 , 100 ). Por lo tanto:

Q1 = 74 +(0, 25–0, 05)

0,01= 94

Es decir el 25 % de los adolescentes de esta muestra tienen niveles de

glucemia de hasta 94 mg/dl.

Calculo de TERCER CUARTIL:

Es aquel valor que cumple que F ∗(Q3) = 0, 75.

Dos casos:

1. Si en la tabla se observa que F ∗(xi) = 0,75, entonces Q3 = xi, extremo

superior del intervalo correspondiente.

2. Si no es ası, entonces Q3 se debe obtener por interpolacion dentro del in-

tervalo que lo contiene. En este caso, se procede de la siguiente forma:

a) Encontrar el intervalo donde se encuentra Q3: es el primer intervalo

donde F ∗(xi) es mayor a 0,75.

b) Aplico la formula siguiente:

Q3 = xi−1 +(0, 75− F ∗(xi−1))

f ∗i

donde:

xi−1 : extremo inferior del intervalo donde esta Q3.

F ∗(xi−1) : frecuencia acumulada del intervalo anterior al de Q3.

f ∗i : valor de la funcion de densidad empırica del intervalo donde

esta Q3.

En el ejemplo, se observa en la tabla que F ∗(126) = 0, 75. Por lo

tanto Q3 = 126. Es decir, el 75 % de los adolescentes de esta muestra

tienen niveles de glucemia hasta 126 mg/dl. O mas significativamente,

el 25 % de ellos tienen niveles de 126 mg/dl o mayores, es decir que

tienen diabetes.

1.3.2. Medidas de dispersion

Las medidas de dispersion dan idea de cuanto se dispersan o concentran los datos

de nuestra muestra.

Son utiles para medir, de algun modo, la representatividad de las medidas de ten-

dencia central. En otras palabras: los valores centrales pierden significacion

cuando la dispersion es alta, y por ello debemos conocer y complementar las

medidas de posicion, con las medidas de dispersion.

EJEMPLO: los ingresos mensuales de 4 personas (en $) son los siguientes: 7.800,

8.200, 8.000, 8.400.

La media es 8.100, y a simple vista notamos que los valores estan concentrados

en torno a ella, pues se separan poco de la media (la dispersion es baja).

Los ingresos mensuales de otras 4 personas son los siguientes:

800 2 700 1 000 12 900

La media es tambien 8.100, pero se advierte una dispersion mucho mayor que

en el caso anterior. Por lo tanto la informacion que brinda la media en este caso

se desvirtua y para no realizar conclusiones erroneas imaginar que 8.100 es un

sueldo representativo de estas 4 personas , debemos acompanarla de una medida

de dispersion, como es el desvıo standard.

Rango: R

El rango de un conjunto de datos es la diferencia entre el mayor y el menor de

todos ellos. Da idea de la amplitud del recorrido total de la variable en la muestra.

Para datos agrupados en intervalos, es la diferencia entre el extremo superior del

ultimo intervalo y el extremo inferior del primer intervalo. Es decir: R = 152–48 =

104. Al interpretarlo, decimos que los valores de glicemia de los adolescentes de

mi muestra estan entre 48 mg/dl y 152 mg/dl, (es decir recorren 104 valores).

Una limitacion que tiene R es que solo considera los valores extremos, sin aportar

informacion sobre los valores interiores.

Rango Intercuartılico: RI o desviacion respecto a Xme:

RI = Q3–Q1

Es una medida complementaria de la mediana, la cual se encuentra en el intervalo

que corresponde al rango intercuartılico.

En nuestro ejemplo,

RI = 126–94 = 32 . Se interpreta diciendo que el 50 % de los adolescentes de la

muestra tienen niveles de glicemia de entre 94 mg/dl y 126 mg/dl (recorren 32

valores).

Varianza : S2

Da idea de la dispersion promedio de los datos, respecto a la media aritmetica. Se

calcula como el promedio del cuadrado de las desviaciones de los valores respecto

de la media.

∑(ci–(media)2).ni

o mas facil para los calculos S2 =∑

(c2i · hi)− (media)2

Entonces la varianza muestral se puede calcular facilmente a partir de la tabla,

agregando la columna c2i · hi y siendo

∑c2i · hi la suma de dicha columna. Por lo

tanto S2 = 12654, 6− (110,4)2 = 466, 44

Observacion 1: Las desviaciones de cada xi con respecto a la media, se elevan

al cuadrado pues de lo contrario la suma de todas ellas serıa siempre cero.

Observacion 2: La varianza es una de las mas importantes medidas de disper-

sion, pero su resultado implica una magnitud que no tiene una interpretacion util

en sı misma, pues al elevar al cuadrado, tenemos unidades de medida al cuadrado.

Su significado cobra relevancia al comparar la varianza de dos muestras: a may-

or varianza, mayor dispersion y menor concentracion de datos. Como tiene el

inconveniente de medir la dispersion, en terminos del cuadrado de las unidades,

se calcula su raız cuadrada: la desviacion standard

Desvıo tıpico o desciacion standard: S

Se calcula tomando la raız cuadrada de la varianza.

Entonces S = 21, 6

Al contrario de la varianza, donde los desvıos se elevan al cuadrado y entonces los

valores quedan expresados en unidades al cuadrado, en la desviacion standard, al

aplicarles la raız cuadrada, los llevamos nuevamente a su unidad original, y por lo

tanto S tiene interpretacion en sı misma: En promedio, los niveles de glicemia de

los adolescentes de la muestra se desvıan 21,6 mg/dl, con respecto a la media que

es 110,4 mg/dl. Pero dicha dispersion, ¿ es grande o pequena ?. Esto lo contesta

el coeficiente de variacion.

Coeficiente de variacion : C.V. relaciona la desviacion standard con la me-

dia, brindando una medida sobre la dispersion relativa del conjunto de observa-

ciones. Se calcula solo cuando los datos son positivos:

C.V. =S

Por lo tanto C.V = 21,6 mg/dl /110,4 mg/dl = 0,196 = 0,20 redondeando

Al C.V. generalmente se lo interpreta como un porcentaje. Como es una medi-

da que no tiene unidades, resulta muy util para comparar muestras que tengan

unidades diferentes.

Se interpreta diciendo que el desvıo standard de los niveles de glucemia, representa

un 20 % de la media, lo cual es una baja dispesion. Y por lo tanto podemos

concluir que la media de 110,4 mg/dl representa bien a mi muestra.

1.4 Ejericicos 51

1.4. Ejericicos

Atencion es muy importante que interpretes los resultados de casa ejercicio. Uno

de los objetivos de la Estadıstica es resumir y presentar informacion cuantitativa

de forma clara, por lo que es especialmente relevante que, en la resolucion de los

ejercicios, se exprese de forma evidente el planteamiento del problema, el metodo

seguido para su resolucion, los resultados y las conclusiones que se obtengan.

1. A continuacion se presenta una lista de variables, las cuales el estudiante

debe poder identificar de acuerdo a la clasificacion senalada el punto ante-

a) Numero de micciones en 24 horas.

b) Presion arterial sistolica (mm de Hg).

c) Color de ojos (agrupados en tres categorıas: 1) celestes, azules o verdes;

2) pardos o negros; 3) otros).

d) Apetito sexual: fuerte, moderado, leve o nulo.

e) Numero de deposiciones por dıa en un bebe de tres meses.

f ) Numero de cromosomas.

g) Cantidad de globulos rojos.

2. Los items de este primer ejercicio, tienen como fuente de datos la tabla

que se presenta a continuacion, la cual surge de una encuesta realizada

a usuarios de un servicio de salud. El significado de las variables, que se

encuentran en la primera fila de la tabla, se explican a continuacion de la

misma.

Edad Sexo BH Talla Peso GLU CT HDL

78 0 0 145 67.00 106 188 35

37 0 0 156 97.50 90 212 37

43 0 0 158 60.00 98 202 39

46 0 0 158 81.00 101 275 43

20 0 0 155 55.50 80 358 43

36 0 0 164 67.40 113 189 43

42 0 0 159 64.20 91 191 45

41 0 0 156 77.00 106 223 46

90 0 0 145 54.50 119 302 50

39 0 0 159 68.10 92 184 51

39 0 0 149 53.10 109 183 54

43 0 0 161 70.00 98 280 55

35 0 0 173 77.50 89 207 56

36 0 0 159 60.50 110 219 57

61 0 0 155 80.00 117 196 58

75 0 0 150 43.50 85 196 59

24 0 0 165 66.20 84 182 60

53 0 0 169 66.80 96 218 64

37 0 0 160 65.20 100 193 69

57 0 0 152 85.50 137 260 69

24 0 0 174 64.00 73 196 70

22 0 0 159 54.90 78 158 70

28 0 0 161 57.80 86 239 75

28 0 0 164 75.50 85 283 80

21 0 1 164 64.00 87 193 39

36 0 1 160 55.00 88 217 42

34 0 1 151 57.00 105 163 52

1.4 Ejericicos 53

35 0 1 158 66.00 93 242 54

26 0 1 167 47.70 82 179 61

21 0 1 157 57.40 72 232 77

71 1 0 154 61.60 96 233 34

35 1 0 173 97.50 138 211 36

29 1 0 169 81.00 101 229 39

50 1 0 167 67.50 103 221 41

39 1 0 174 88.00 102 214 42

39 1 1 167 82.00 97 273 45

47 1 1 164 70.00 240 264 49

39 1 1 180 81.00 80 238 67

69 1 1 168 71.40 109 235 77

41 1 1 166 82.00 125 255 30

EDAD: En anos

SEXO: 0 (Mujeres) 1 (Varones)

BH: Bebedor/a habitual: 1 (Sı) 0 (No)

TALLA: en cm.

PESO: En Kg.

GLU: Glucemia (mg/dl)

CT : Colesterol Total (mg/dl)

HDL: Fraccion de colesterol unido a lipoproteınas de alta densidad: High

Density Lipoproteins (mg/dl).

a) Clasifica todas las variables de la tabla, segun sean cuantitativas, cual-

itativas, discretas o continuas.

b) Haz una tabla con las frecuencias absolutas, relativas y acumuladas,

a partir de los datos de la variable edad, de la tabla anterior. Con-

sidera 5 intervalos de igual longitud. Interpreta los valores de la tabla

construida.

c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas,

a partir de los datos de glucemia de los varones de la tabla anterior.

Considera 4 intervalos de igual longitud. ¿ Que porcentaje de hombres

tienen un nivel normal de glucemia ? Contesta de dos formas: a partir

de la tabla de frecuencias y a partir de los datos originales. Explica las

diferencias que surjan.

d) Representa el histograma de la variable talla.Considera 5 interval-

os.Haz lo mismo, discriminando por sexo, considerando los mismos

intervalos. Compara.

e) Representa la tabla de frecuencias de la variable BH, diferenciando por

tres grupos de edades: de 20 a 39 anos, de 40 a 59 anos y de 60 a 90

anos. Compara.

f ) ¿Que puedes decir sobre las medidas de tendencia central de la variable

CT en las mujeres de la tabla? ¿Y sobre su dispersion?. Considere 5

intervalos.

g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( coles-

terol bueno) mas alto que los hombres”, a la luz de esta muestra.

3. Con el fin de observar la relacion entre la inteligencia y el nivel socioe-

conomico (medido por el salario mensual familiar, en miles de pesos) se

tomaron dos grupos: uno formado con personas de cociente intelectual infe-

rior a 95 y otro formado por los demas. De cada persona se anoto el salario

mensual familiar. Teniendo en cuenta los resultados que se indican en la

tabla:

1.4 Ejericicos 55

Nivel socioeconomico Personas con CI < 95 Personas con CI ≥ 95

Intervalos Frecuencia Frecuencia

[4, 10) 75 19

[10, 16) 35 26

[16, 22) 20 25

[22, 28) 30 30

[28, 34) 25 54

[34, 40] 15 46

a) Dibuje un grafico que permita comparar ambos grupos.

b) Calcule las medidas de tendencia central para cada uno de los dos

grupos de personas.

c) Calcular las medidas de dispersion para cada uno de los grupos.

d) ¿Que conclusiones se pueden sacar a raız de la informacion obtenida

en los items anteriores?

4. Un estudio consistio en anotar el numero de palabras leıdas en 15 segundos

por un grupo de 120 sujetos dislexicos y 120 individuos normales. Teniendo

en cuenta los resultados de la tabla

N ro de palabras leıdas Dislexicos Normales

25 56 1

26 24 9

27 16 21

28 12 29

29 10 28

30 2 32

calcule:

a) Las medias aritmeticas de ambos grupos.

b) Las medianas de ambos grupos.

c) El porcentaje de sujetos dislexicos que superaron la mediana de los

normales.

d) Compare la variabilidad relativa de ambos grupos.

5. En una epidemia de escarlatina, se recogieron el numero de fallecidos, en

40 ciudades de un paıs, obteniendose la siguiente tabla:

N ro de fallecidos 0 1 2 3 4 5 6 7

Ciudades 7 11 10 7 1 2 1 1

a) Representar graficamente estos datos.

b) Obtener la distribucion acumulada y representarla.

c) Calcular media, mediana y moda. Interpretarlas

d) Calcular la varianza y la desviacion standard.

e) Calcular el porcentaje de ciudades con al menos 2 muertos.

f ) Calcular el porcentaje de ciudades con mas de 3 muertos.

g) Calcular el porcentaje de ciudades con, a lo sumo, 5 muertos.

1.5. Artıculos OMS

A continuacion se presentan algunos extractos del artıculo: “Informe sobre la

salud en el mundo 2008. La atencion primaria de la salud: Mas necesaria que

nunca”.

La atención prim

aria de saludM

ás necesaria que nunca

Informe sobre la salud en el mundo 2008

La atención primaria de salud

Más necesaria

que nunca

Informe sobre la salud en el m

undo 2008

reformas en pro de la coBertUra

UniVersal

reformas de la prestación de serVicios

reformas del lideraZGo

reformas de las polÍticas

pÚBlicas

Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca

Recuadro 1.3 Conforme mejora la información se hacen más patentes las múltiples dimensiones de las crecientes desigualdades sanitarias

En los últimos años se ha descrito de forma mucho más detallada el alcance de las diferencias existentes en cada país en cuanto a vulnerabilidad, acceso a la atención y resultados sanitarios (figura 1.9)59. El hecho de disponer de mejor información ha permitido observar que las desigualdades en materia de salud tienden a aumentar, lo que resalta los fallos y la desigualdad de las medidas adoptadas por los sistemas de salud para responder a las necesidades sanitarias de la población. Pese a la importancia concedida últimamente a la reducción de la pobreza, los sistemas de salud siguen teniendo dificultades para llegar a los pobres tanto en las zonas rurales cuanto en las urbanas, así como para afrontar las muy diversas causas y consecuencias de la desigualdad en materia de salud.

Figura 1.9 Desigualdades en materia de salud y en la prestación de atención en los paísesGasto de los hogares en salud por habitante como porcentaje del gasto total de los hogares, por grupo de ingresos

0Côte d’Ivoire

Ghana1992

Madagascar1993–4

Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior

Tiempo medio (minutos) para desplazarse a un ambulatorio, por grupo de ingresos

0Bosnia y Herzegovina

2003–4Comoras2003–4

Ecuador2003–4

Mujeres sometidas a profilaxis contra la malaria (%), por grupo de ingresos

Cobertura vacunal básica completa (%), por grupo de ingresos

Guinea2005

Malawi2004

Níger2006

Tanzanía2004

Bangladesh2004

Colombia2005

Indonesia2002–3

Mozambique2003

Tasa de mortalidad neonatal, por nivel de estudios de la madre

Sin estudios Estudios primarios Educación secundaria o superior

Bolivia2003

Colombia2005

Lesotho2003

Nepal2006

Filipinas2003

Partos atendidos por profesionales sanitarios (%), por nivel de estudios de la madre

Benin2001

Bolivia2003

Botswana1998

Camboya2005

Perú2000

Fuentes: (60, 61, 62, 63).

de uno de los artífices de la estrategia de APS de ese país: «Dado que era imposible poner en marcha el proyecto en todas las provincias al mismo tiempo, decidimos centrarnos cada año en una sola provincia» (recuadro 2.3).

Entre los factores que limitan ese despliegue progresivo de redes de atención primaria cabe destacar la falta de una categoría de personal de nivel intermedio con dotes de liderazgo que orga-nice los distritos sanitarios y tenga la capacidad de mantener, año tras año, el esfuerzo constante requerido para lograr resultados sostenibles para toda la población. Cuando la puesta en marcha se ha llevado a cabo como una actividad meramente administrativa, los resultados han sido decep-cionantes: muchos distritos sanitarios existen sólo teóricamente. Sin embargo, allí donde la impaciencia y la presión para lograr la visibili-dad a corto plazo se han gestionado de manera adecuada, la combinación de la respuesta a las necesidades y la demanda y la participación de la población y las instancias principales ha permitido construir redes sólidas de atención primaria, incluso en situaciones de conflicto y posconflicto muy difíciles y faltas de recursos (recuadro 2.4).

En la práctica la distinción entre el despliegue rápido de intervenciones prioritarias y el des-pliegue progresivo de redes de atención prima-ria no suele ser tan sencilla como se acaba de describir. Sin embargo, pese a esa convergencia, la búsqueda de un compromiso entre rapidez y sostenibilidad es un verdadero dilema político30. En Malí, por poner un ejemplo, se ha demostrado que, si se le permite elegir, la gente opta volun-tariamente por la puesta en marcha progresiva mediante la transformación de los centros de salud comunitarios – cuya infraestructura es propiedad de la comunidad local, que también se hace cargo de contratar al personal – en la base de distritos sanitarios funcionales.

Lo realmente importante es que la preocupa-ción por la equidad no se traduzca en la búsqueda del «mínimo común denominador»: la igualdad de acceso a un conjunto de servicios en gran medida insatisfactorios. La calidad y la sostenibilidad son importantes, de ahí la gran necesidad de armonización entre los numerosos proveedores públicos y privados sin fines de lucro y comercia-les, dinámicos y de diversos tipos. El despliegue gradual de servicios de salud brinda la oportuni-dad de imprimir una coherencia beneficiosa a la dirección de la prestación de atención sanitaria a nivel de distrito. Ejemplos típicos y en gran escala de este enfoque en los países en desarrollo son la subcontratación de servicios distritales de salud

Recuadro 2.3 Reducción de la brecha urbano-rural mediante la expansión progresiva de la cobertura de APS en las zonas rurales de la República Islámica del Irán31

En los años setenta las políticas del Gobierno iraní hicieron hincapié en la prevención como forma de inversión a largo plazo, la asignación de recursos a las zonas rurales y desfavorecidas, y la primacía de la atención ambulatoria respecto a la hospitalización. Se estableció una red de equipos distritales encargados de supervisar y administrar casi 2500 centros rurales sanitarios en aldeas. La plantilla de esos centros es un equipo formado por un médico, una partera, una enfermera y varios técnicos sanitarios. Cada centro supervisa de uno a cinco pequeños puntos de atención conocidos como «casas de salud». Gracias a esas 17 000 casas de salud, más del 90% de la población rural tiene acceso a atención sanitaria. En las zonas rurales remotas, el personal de las casas de salud está formado por behvarz (trabajadores de salud multifuncio-nales) que, tras ser seleccionados por la comunidad, reciben entre 12 y 18 meses de formación y luego son contratados por la Administración. Los equipos distritales imparten formación basada en la solución de problemas, así como supervisión y apoyo permanentes.

El Gobierno aplicó esta estrategia progresivamente, ampliando la cober-tura de provincia en provincia. Con los años, la red de APS ha crecido y está ahora en condiciones de prestar servicios a más de 24 millones de personas en aldeas rurales y localidades pequeñas, aproximando los consultorios a los lugares donde las personas viven y trabajan, e impartiendo formación al personal sanitario auxiliar necesario para que proporcione servicios de planificación familiar, atención preventiva y atención curativa esencial para la mayoría de los problemas sanitarios. En la actualidad las tasas de utilización de los servicios rurales de salud son similares a las de las zonas urbanas. La puesta en marcha progresiva de este sistema ha contribuido a reducir las diferencias de mortalidad infantil entre las zonas urbanas y las rurales (figura 2.5).

Mortalidad por 1000 menores de cinco años

Figura 2.5 Mortalidad de menores de cinco años en zonas rurales y urbanas, República Islámica del Irán, 1980–200032

Urbana

1985 1990 1995 2000

misma oferta. Los sistemas de salud son también reflejo de una cultura de consumo que se está generalizando. Sin embargo, por otra parte hay indicios de que la población es consciente de que esos sistemas de salud no aportan una respuesta adecuada a las necesidades y la demanda, y de que se mueven por intereses y objetivos no rela-cionados con las expectativas de las personas. A medida que las sociedades se modernizan y se vuelven más prósperas e informadas, va cam-biando la vida que la gente desea llevar como personas y como miembros de la sociedad, es decir, cambian sus valores112. Hoy día se tiende a considerar los servicios de salud más como un producto, pero también son cada vez mayores las expectativas con respecto a la salud y la atención sanitaria. La gente se interesa más de que lo se piensa por la salud como factor que influye en su vida cotidiana y la de sus familias (recuadro 1.5)113, y espera que sus familias y comunida-des estén protegidas de los riesgos y los peligros para la salud. Desea una atención sanitaria que la trate como personas con derechos y no como meros objetivos de programas o beneficiarios de obras de caridad. Está dispuesta a respetar a los profesionales sanitarios, pero desea ser respe-tada a su vez, y que exista un clima de confianza mutua114.

Las personas también tienen expectativas sobre la manera en que la sociedad se debe ocu-par de la salud y la atención sanitaria. Aspiran a una mayor equidad y solidaridad sanitarias y cada vez toleran menos la exclusión social, aunque a título individual se resistan a veces a actuar conforme a esos valores115. Esperan que las autoridades sanitarias, ya sean de la Adminis-tración o de otros organismos, hagan un mayor esfuerzo para proteger su derecho a la salud. Las encuestas sobre valores sociales realizadas desde la década de los ochenta muestran cada vez más puntos en común a este respecto entre los valores de los países en desarrollo y los de las sociedades más prósperas, donde la protección de la salud y el acceso a la atención a menudo se dan por des-contados112,115,116. La mayor prosperidad, el acceso a conocimientos y la conectividad social están asociados a un aumento de las expectativas. La población quiere poder intervenir más en lo que ocurre en su lugar de trabajo, en la comunidad en que vive y en las decisiones gubernamentales importantes que afectan a su vida117. El deseo de que la atención y la protección de la salud sean

mejores, de que haya menos inequidades en salud y de poder participar en las decisiones que afec-tan a la salud es más común e intenso que hace 30 años. En consecuencia, actualmente se espera mucho más de las autoridades sanitarias.

Equidad sanitaria Rara vez, si no nunca, se logra una situación de equidad en cuanto a la salud, la riqueza o el poder. Algunas sociedades son más igualitarias que otras,

Recuadro 1.5 La salud, una de las principales prioridades personales

Cuando se pregunta a las personas por los problemas más importantes con que se enfrentan ellas y sus familias, casi siempre se citan en primer lugar los apuros económicos, seguidos de cerca por la salud118. En uno de cada dos países, las enfermedades propias, los costos de la atención sanitaria, la mala calidad de la atención y otros temas de salud son las principales preocupaciones personales de más de una tercera parte de la población encuestada (figura 1.11). Así pues, no resulta sorprendente que el desmoronamiento del sistema de atención sanitaria – incluso los meros indicios de un posible desmoronamiento – pueda provocar una situación de descontento popular que amenace las ambiciones de los políticos considerados responsables119.

Figura 1.11 Porcentaje de la población que cita la salud como su principal preocupación, por delante de otras cuestiones como los problemas económicos, la vivienda y la delincuencia118

PoloniaUcrania

Federación de RusiaBulgaria

AlemaniaItalia

SueciaIsraelTurquía

EspañaRepública Checa

FranciaEslovaquia

Reino Unido

MéxicoChile

CanadáPerúArgentinaBrasil

Estados UnidosVenezuela

Bolivia

República de CoreaChina

JapónMalasia

BangladeshIndia

Indonesia

MarruecosPakistán

EgiptoLíbanoKuwait

JordaniaTerritorio palestino ocupado

UgandaMalí

República Unida de TanzaníaCôte d’Ivoire

SenegalNigeria

GhanaSudáfrica

KenyaEtiopía

0 10 20 30 40 50 60 70

Bloque tematico 2

La Probabilidad y las Variables

Aleatorias

Objetivo:

A lo largo del primer bloque aprendimos lo que es la Estadıstica Descriptiva y

estudiamos en detalle algunas de sus principales herramientas. Este conocimiento

es fundamental para estudiar el area fascinante de la Estadıstica Inferencial, tema

del siguiente y ultimo bloque, el cual constituye el nucleo del curso. Pero aun

nos falta comprender un concepto que sirve de nexo entre las dos ramas de la

Estadıstica: la Probabilidad

El objetivo de este segundo bloque tematico, es presentar la Teorıa de las Proba-

bilidades, rama de la Matematica y hacer una revision de algunos de sus aspectos,

seleccionados con el fin de permitir al estudiante comprender la Inferencia Es-

tadıstica.

62 2. La Probabilidad y las Variables Aleatorias

2.1. Introduccion

Con la Estadıstica Descriptiva nuestra preocupacion principal era la presentacion

y descripcion de los conjuntos de datos, que llamamos muestra, de la manera mas

significativa y eficaz. En la Estadıstica Inferencial, vamos mas alla: buscamos

basarnos en la informacion particular anterior para hacer una afirmacion general

acerca de la poblacion. Y este proceso inductivo solo es posible gracias al apoyo

que nos da la teorıa de las probabilidades.

Para poder aplicar las reglas de la probabilidad (que pronto veremos) es necesario

que la muestra sea aleatoria lo cual, basicamente significa que cada muestra de

tamano dado n tiene igual probabilidad de ser elegida y que cada elemento de

la poblacion tiene igual probabilidad de estar en la muestra. Lo anterior permite

generalizar una caracterıstica que presenta una muestra, a toda la poblacion, es

decir, permite hacer inferencia.

2.2. Teorıa de las probabilidades

En la realidad objetiva, los fenomenos son de dos tipos:

1. ciertos: seguros o imposibles. Por ejemplo es seguro que manana la Tierra

seguira girando en torno al Sol. Y es imposible que, si tiro un dado comun,

salga el 10.

2. o posibles. Por ejemplo es posible que manana llueva.

La probabilidad intentara dar una medida a los fenomenos que se mueven en

el ambito de “lo posible”, denominados tambien eventos o sucesos inciertos o

aleatorios. Dicha medida sera una medida de confianza, que le daremos a la

incertidumbre de nuestras previsiones, sobre sucesos pasados o futuros.

2.2 Teorıa de las probabilidades 63

Definiciones de probabilidad

La probabilidad se puede estudiar desde dos puntos de vista:

1. A priori o definicion clasica: la probabilidad se deduce usando la razon, no

la experiencia. Pero para aplicar dicha definicion se requiere que se cumplan

determinadas condiciones:

a) Numero finito de alternativas posibles.

b) Estas deben ser igualmente probables.

La “probabilidad de ocurrencia un evento A”, se escribe como P (A) y se

la define como la relacion o cociente entre el numero de casos favorables al

evento A y el numero de casos posibles:

Sea N : la cantidad de casos posibles y N(A): la cantidad de casos favorables

al evento A, entonces:

P (A) =cantidad de casos favorables

cantidad de casos posibles=N(A)

Supongamos que tenemos un dado no cargado y deseamos saber cual es la

probabilidad de obtener un numero mayor que 4 en una tirada.

Definimos A = “ obtener 5 o 6 en una tirada”. Ası P (A) = 26.

Observemos que para este calculo no tuvimos que recurrir a ninguna colec-

cion de datos observados. Solo utilizamos nuestra razon.

2. A posteriori o definicion empırica o frecuencista: la probabilidad se deduce

utilizando la experiencia observada despues del hecho, es decir, despues de

reunir algunos datos. Las condiciones requeridas son:

a) realizar determinadas pruebas un numero grande de veces

b) todas en las mismas condiciones (experimentos repetibles).

La “probabilidad de ocurrencia un evento A” ( P (A)) se la define como la

relacion o cociente entre el numero de pruebas en las cuales el evento A se

verifica y el numero total de pruebas realizadas, cuando este ultimo tiende

a ser cada vez mas grande:

Sea n: cantidad de pruebas realizadas y n(A): cantidad de pruebas, en las

cuales el evento A se verifica. Entonces:

P (A) = lımn→+∞

n= lım

n→+∞h(A)

proporcion (frecuencia relativa) de pruebas en las cuales el evento A se

verifica, cuando el numero de pruebas tiende a ser cada vez mas grande.

En la practica, no calculamos ningun lımite. Simplemento realizamos la

suficiente cantidad de pruebas o experimentos a fin de tener un n confiable

(ello depende de cada caso, lo veremos despues), contamos la cantidad de

pruebas en las cuales se cumple el evento A y realizamos el cociente, es

decir obtenemos h(A) = n(A)/n. Esta frecuencia relativa la tomamos como

una estimacion o aproximacion del verdadero valor de P (A), desconocido

generalmente.

Supongamos que tenemos un dado que sospechamos que esta cargado a

favor del 6, es decir que este numero tiene mas probabilidad de salir que

el resto. Entonces calcularemos esta probabilidad, de forma empırica. Lan-

zamos el dado por ejemplo 100 veces y observamos cuantas veces sale el

6. Si fuera un dado honesto deberıa salir aproximadamente 16 o 17 veces

(100/6 = 16, 67). Si el 6 sale 17 veces, entonces h(6) = 17/100 = 0, 17 que

es aproximadamente 1/6 , la probabilidad a priori.

Si el 6 sale muchas mas veces, sospecharıamos que esta cargado. Pero,

¿que significa muchas mas veces? ¿Con 20 veces alcanza ? ¿O deben ser al

2.3 Principales reglas de la Probabilidad 65

menos 25 veces que sale el 6, para afirmar que el dado esta cargado a favor

del 6? Lo resolveremos mas adelante, al estudiar la Inferencia Estadıstica.

2.3. Principales reglas de la Probabilidad

1. Como la probabilidad es, por definicion una proporcion, su valor fluctua

entre 0 y 1.

Ejemplo: como es seguro el que E: “una persona tenga el grupo sanguıneo

A, B, AB u O” se cumple entonces P (E) = 1. Y como es imposible que D:

“una persona tenga el grupo sanguıneo A y O a la vez”, entonces P (D) = 0.

Ası como P (“una persona tenga grupo sanguıneo O”) es un valor entre 0 y

2. Probabilidad de la union

a) Para dos sucesos cualesquiera:

Sean A y B dos sucesos. La probabilidad de ocurrencia de A o B se

puede expresar como P (A ∪B) y vale

P [A ∪B] = P [A] + P [B]− P [A ∩B]

b) Para tres sucesos cualesquiera:

Sean A, B y C tres sucesos. La probabilidad de ocurrencia de A o B o

C se puede expresar como :

P [A∪B∪C] = P [A]+P [B]+P [C]–P [A∩B]–P [A∩C]–P [C∩B]+P [A∩B∩C]

c) Para sucesos mutuamente excluyentes:

Sean A y B mutuamente excluyentes, es decir que son sucesos que

no pueden ocurrir al mismo tiempo, de forma que A∩B = ∅. Entonces

la probabilidad de que se cumpla el suceso A o B es:

P [A ∪B] = P [A] + P [B]

Esta regla se cumple tambien para mas de dos sucesos mutuamente

excluyentes.

3. Probabilidad de la interseccion:

a) Para sucesos dependientes:

Primero daremos una nocion de probabilidad condicionada.

NOTACION: Anotaremos como P [A|B] a la probabilidad de que ocur-

ra el suceso A, condicionada al hecho de que el suceso B ya ha ocurrido.

Usualmente se denomina probabilidad de A dado B, a P [A|B].

Analoga definicion para P [B|A]: probabilidad de B, dado A.

Por ejemplo, si lanzamos un dado honesto y consideramos los siguientes

eventos:

A = “sale un 4”

B = “sale un numero par”

P (A) = 1/6, un caso favorable entre 6 posibles. Pero P (A|B) = 1/3,

pues hay un caso favorable entre 3 posibles: puede ser el 2, 4 o 6

solamente pues ya sabemos que sale un numero par.

¿Cuanto es P (B|A) ?. P (“sale par”| “sale el 4”) = 1, pues como ya

sabemos que sale el 4, es seguro que salga un numero par.

La probabilidad de ocurrencia de A y B se expresa como P [A ∩ B] y

P [A ∩B] = P [A]. · P [B|A]

P [A ∩B] = P [B] · P [A|B]

Se usa una u otra formula, dependiendo de los datos que se tengan.

b) Para sucesos independientes:

Si A y B son sucesos independientes, la probablidad de ocurrencia

de A y B es:

P [A ∩B] = P [A] · P [B]

Pues P [A|B] = P [A] y P [B|A] = P [B], ya que los eventos A y B no

se influyen o condicionan mutuamente, al ser independientes.

c) Para sucesos mutuamente excluyentes:

Si A y B son mutuamente excluyentes, al cumplirse A ∩ B = ∅,

entonces

P [A ∩B] = P [∅] = 0

3. Pues el ∅ simboliza un suceso imposible.

4. Probabilidad del suceso contrario

Sea Ac el suceso opuesto o contrario al suceso A. Se le llama tambien el

suceso complementario de A. Su probabilidad puede calcularse en base a la

P [A], ası:

P [Ac] = 1− P [A]

Ejemplo: El cuadro siguiente muestra la distribucion de la predisposicion

al alcoholismo, segun cada grupo sanguıneo, en un grupo de 200 personas:

Grupo Sanguıneo Alcoholico No alcoholico Total

A 35 35 70

B 9 9 18

AB 1 5 6

O 70 36 106

Total 115 85 200

Se escoge al azar una persona del grupo anterior:

a) ¿ Cual es la probabilidad de que tenga el grupo sanguıneo A o AB?

b) ¿ Cual es la probabilidad de que tenga el grupo A o sea alcoholico ?

c) ¿ Cual es la probabilidad de que sea del grupo B o AB o no sea

alcoholico ?

d) ¿ Cual es la probabilidad de que sea alcoholico y del grupo O ?

e) ¿ Cual es la probabilidad de que sea del grupo A y AB ?

f ) ¿ Cual es la probabilidad de que no sea del grupo O ?

g) Los eventos “ser alcoholico” y “ser del grupo AB”, ¿ son independientes

Notaciones:

A: “la persona es del grupo A”

B: “la persona es del grupo B”

AB: “la persona es del grupo AB”

O: “la persona es del grupo O”

AL: “la persona es alcoholica”

a) P [A ∪ AB] = P [A] + P [AB] = 70/200 + 6/200 = 0, 38

b) P [A∪AL] = P [A]+P [AL]−P [A∩AL] = 70/200+115/200–35/200 =

P [B ∪ AB ∪ ALc] = P [B] + P [AB] + P [ALc]

−P [B ∩ AB]− P [B ∩ ALc]− P [ALc ∩ AB]

+P [B ∩ AB ∩ ALc]

200− 0− 9

200− 5

200+ 0 =

= 0, 475

d) P [O ∩ AL] = P [O] · P [AL|O] = 106/200,70/106 = 0, 35

Otra forma: P [O ∩ AL] = P [AL] · P [O|AL] = 115/200,70/115 = 0, 35

e) P [A ∩ AB] = P [∅] = 0

f ) P [Oc] = 1–P [O] = 1–106/200 = 0, 47

g) Si P [AL] = P [AL|AB], entonces el evento AL es independiente del

evento AB.

Pero P [AL] = 115/200 = 0, 575 y P [AL|AB] = 1/6 = 0, 167.

De igual manera son distintas P [AB] = 0, 03 y P [AB|AL] = 0, 0087.

Por lo tanto, no podemos afirmar que “ser alcoholico” y “ser del grupo

AB” sean eventos independientes. Quizas guarden cierta relacion, a

pesar de que no podamos establecer, con certeza, cual es esta relacion.

2.4. Variables Aleatorias (v.a)

Hasta ahora vimos probabilidades de sucesos o sea probabilidades de conjuntos.

A traves de ejemplos, vamos a acercarnos ahora al concepto de variable aleatoria,

cuyo principal objetivo es trabajar con los numeros reales. En concreto, dicha

variable aleatoria permite asociar, a cada suceso, con un subconjunto de los reales.

Asumimos la siguiente clasificacion, entre los pacientes de un hospital: entre 0 y

2 anos es un bebe; entre 2 y 9 anos es un nino; entre 9 y 15 anos un adolescente;

entre 15 y 21 anos, un joven; entre 21 y 60, un adulto y mas de 60, un adulto

mayor.

Por ejemplo, considerando la variable aleatoria X= edad del paciente, la

P [“que el paciente sea un adolescente”], lo podemos escibir como P [9 < X ≤ 15]

, o la P [“que el paciente sea un adulto mayor”] = P [X > 60] , y ası con las

demas categorıas:

P [“que el paciente sea un bebe”] = P [0 < X ≤ 2]

P [“que el paciente sea un nino”] = P [2 < X ≤ 9]

P [“que el paciente sea un joven”] = P [15 < X ≤ 21]

P [ “que el paciente sea un adulto”] = P [21 < X ≤ 60]

Todas las variables aleatorias tienen valores que las caracterizan, llamados

parametros. Dos de ellos muy importantes son la media poblacional o es-

peranza (que se simboliza µ ) y la varianza poblacional (que se simboliza σ2

2.4 Variables Aleatorias (v.a) 71

La esperanza es el promedio de todos los valores que toma la variable en la

poblacion y la varianza poblacional, es un parametro que nos da idea de como

estan dispersos los valores de la variabla aleatoria, alrededor de su esperanza: a

mayor varianza, mas alejados estan los valores, de la esperanza.

Observar la similitud de dichos parametros, con respecto a la media y varianza

muestrales: se diferencian en que, mientras que la media y la varianza pobla-

cionales son valores fijos (parametros), pues son unicos para cada poblacion, la

media y la varianza muestrales varıan en cada muestra, y por lo tanto son “vari-

ables”.

Otros parametros son la mediana y moda poblacionales, cuyo calculo es similar

a sus homonimos muestrales. No nos concentraremos en estos parametros en este

curso.

El calculo exacto de la esperanza y varianza poblacionales para una variable

aleatoria generica, exceden el nivel de este curso introductorio de probabilidad.

Este analisis, ası como la presentacion de algunas variables aleatorias discretas y

continuas, se presentan en un anexo, al final de este segundo bloque.

El estudio de las variables aleatorias cuantitativas discretas y continuas, es fun-

damental en ciencias de la salud. La mayor parte de ellas se comportan como

cuantitativas continuas y, cumpliendo ciertas condiciones, las variables biologicas

puede decirse que, en lıneas generales, siguen una distribucion llamada Normal.

En seguida veremos que significa esto.

2.4.1. Variable aleatoria Normal

En Estadıstica y Probabilidad se llama distribucion Normal, distribucion de

Gauss o distribucion gaussiana, a una de las distribuciones de probabilidad

de variable continua que con mas frecuencia aparece en fenomenos reales.

La grafica que muestra como se distribuyen las probabilidades de esta vari-

able aleatoria (llamada funcion de densidad), tiene una forma acampanada y

es simetrica respecto de su esperanza. Esta curva se conoce como campana de

Gauss. La importancia de esta distribucion radica en que permite modelizar nu-

merosos fenomenos naturales, sociales y psicologicos.

Figura 2.1: Grafico de la densidad de la v.a. Normal

Esta grafica asigna probabilidades a la variable Z , la cual tiene una distribucion

Normal con media 0 y varianza 1, ( se anota ∼ N(0, 1)), denominada usualmente

como variable Normal Standard.

El area de la zona sombreada indica p = la probabilidad de que la variable Z

tome valores menores que el valor a (o menores o iguales a a). Por este motivo al

valor a a veces se lo anota como a = zp . O sea

P [Z ≤ zp] = p

Para calcular probabilidades con esta variable, basta saber leer adecuadamente

la siguiente tabla, y efectuar unos sencillos calculos. En esta tabla se muestran

las probabilidades de que la variable aleatoria Normal Z, con esperanza 0 y

varianza 1, tome valores por debajo de un cierto numero zp: la parte entera de zp

esta en las columnas y sus decimales en las filas. En su encuentro o interseccion

esta p = P [z ≤ zp]

2.4.2. Tabla de la Distribucion Normal Estandar

Zp 0 1 2 3 4

0 0, 500 000 0, 841 344 0, 977 249 0, 998 650 0, 999 968

0,01 0, 503 989 0, 843 752 0, 977 784 0, 998 693 0, 999 969

0,02 0, 507 978 0, 846 135 0, 978 308 0, 998 736 0, 999 970

0,03 0, 511 966 0, 848 494 0, 978 821 0, 998 777 0, 999 972

0,04 0, 515 953 0, 850 830 0, 979 324 0, 998 817 0, 999 973

0,05 0, 519 938 0, 853 140 0, 979 817 0, 998 855 0, 999 974

0,06 0, 523 922 0, 855 427 0, 980 300 0, 998 893 0, 999 975

0,07 0, 527 903 0, 857 690 0, 980 773 0, 998 929 0, 999 976

0,08 0, 531 881 0, 859 928 0, 981 237 0, 998 964 0, 999 977

0,09 0, 535 856 0, 862 143 0, 981 691 0, 998 999 0, 999 978

0,1 0, 539 827 0, 864 333 0, 982 135 0, 999 032 0, 999 979

0,11 0, 543 795 0, 866 500 0, 982 570 0, 999 064 0, 999 980

0,12 0, 547 758 0, 868 643 0, 982 997 0, 999 095 0, 999 981

0,13 0, 551 716 0, 870 761 0, 983 414 0, 999 125 0, 999 981

0,14 0, 555 670 0, 872 856 0, 983 822 0, 999 155 0, 999 982

0,15 0, 559 617 0, 874 928 0, 984 222 0, 999 183 0, 999 983

0,16 0, 563 559 0, 876 975 0, 984 613 0, 999 211 0, 999 984

0,17 0, 567 494 0, 878 999 0, 984 996 0, 999 237 0, 999 984

0,18 0, 571 423 0, 880 999 0, 985 371 0, 999 263 0, 999 985

0,19 0, 575 345 0, 882 976 0, 985 737 0, 999 288 0, 999 986

0,2 0, 579 259 0, 884 930 0, 986 096 0, 999 312 0, 999 986

0,21 0, 583 166 0, 886 860 0, 986 447 0, 999 336 0, 999 987

0,22 0, 587 064 0, 888 767 0, 986 790 0, 999 358 0, 999 987

0,23 0, 590 954 0, 890 651 0, 987 126 0, 999 380 0, 999 988

0,24 0, 594 834 0, 892 512 0, 987 454 0, 999 402 0, 999 988

0,25 0, 598 706 0, 894 350 0, 987 775 0, 999 422 0, 999 989

0,26 0, 602 568 0, 896 165 0, 988 089 0, 999 442 0, 999 989

0,27 0, 606 419 0, 897 957 0, 988 396 0, 999 462 0, 999 990

0,28 0, 610 261 0, 899 727 0, 988 696 0, 999 480 0, 999 990

0,29 0, 614 091 0, 901 474 0, 988 989 0, 999 499 0, 999 991

0,3 0, 617 911 0, 903 199 0, 989 275 0, 999 516 0, 999 991

0,31 0, 621 719 0, 904 902 0, 989 555 0, 999 533 0, 999 991

0,32 0, 625 515 0, 906 582 0, 989 829 0, 999 549 0, 999 992

0,33 0, 629 299 0, 908 240 0, 990 096 0, 999 565 0, 999 992

0,34 0, 633 071 0, 909 877 0, 990 358 0, 999 581 0, 999 992

0,35 0, 636 830 0, 911 491 0, 990 613 0, 999 595 0, 999 993

0,36 0, 640 576 0, 913 084 0, 990 862 0, 999 610 0, 999 993

0,37 0, 644 308 0, 914 656 0, 991 105 0, 999 624 0, 999 993

0,38 0, 648 027 0, 916 206 0, 991 343 0, 999 637 0, 999 994

0,39 0, 651 731 0, 917 735 0, 991 575 0, 999 650 0, 999 994

0,4 0, 655 421 0, 919 243 0, 991 802 0, 999 663 0, 999 994

0,41 0, 659 096 0, 920 730 0, 992 023 0, 999 675 0, 999 994

0,42 0, 662 757 0, 922 196 0, 992 239 0, 999 686 0, 999 995

0,43 0, 666 402 0, 923 641 0, 992 450 0, 999 698 0, 999 995

0,44 0, 670 031 0, 925 066 0, 992 656 0, 999 709 0, 999 995

0,45 0, 673 644 0, 926 470 0, 992 857 0, 999 719 0, 999 995

0,46 0, 677 241 0, 927 854 0, 993 053 0, 999 729 0, 999 995

0,47 0, 680 822 0, 929 219 0, 993 244 0, 999 739 0, 999 996

0,48 0, 684 386 0, 930 563 0, 993 430 0, 999 749 0, 999 996

0,49 0, 687 933 0, 931 887 0, 993 612 0, 999 758 0, 999 996

0,5 0, 691 462 0, 933 192 0, 993 790 0, 999 767 0, 999 996

0,51 0, 694 974 0, 934 478 0, 993 963 0, 999 775 0, 999 996

0,52 0, 698 468 0, 935 744 0, 994 132 0, 999 784 0, 999 996

0,53 0, 701 944 0, 936 991 0, 994 296 0, 999 792 0, 999 997

0,54 0, 705 401 0, 938 219 0, 994 457 0, 999 799 0, 999 997

0,55 0, 708 840 0, 939 429 0, 994 613 0, 999 807 0, 999 997

0,56 0, 712 260 0, 940 620 0, 994 766 0, 999 814 0, 999 997

0,57 0, 715 661 0, 941 792 0, 994 915 0, 999 821 0, 999 997

0,58 0, 719 042 0, 942 946 0, 995 059 0, 999 828 0, 999 997

0,59 0, 722 404 0, 944 082 0, 995 201 0, 999 834 0, 999 997

0,6 0, 725 746 0, 945 200 0, 995 338 0, 999 840 0, 999 997

0,61 0, 729 069 0, 946 301 0, 995 472 0, 999 846 0, 999 997

0,62 0, 732 371 0, 947 383 0, 995 603 0, 999 852 0, 999 998

0,63 0, 735 652 0, 948 449 0, 995 730 0, 999 858 0, 999 998

0,64 0, 738 913 0, 949 497 0, 995 854 0, 999 863 0, 999 998

0,65 0, 742 153 0, 950 528 0, 995 975 0, 999 868 0, 999 998

0,66 0, 745 373 0, 951 542 0, 996 092 0, 999 873 0, 999 998

0,67 0, 748 571 0, 952 540 0, 996 207 0, 999 878 0, 999 998

0,68 0, 751 747 0, 953 521 0, 996 318 0, 999 883 0, 999 998

0,69 0, 754 902 0, 954 486 0, 996 427 0, 999 887 0, 999 998

0,7 0, 758 036 0, 955 434 0, 996 532 0, 999 892 0, 999 998

0,71 0, 761 148 0, 956 367 0, 996 635 0, 999 896 0, 999 998

0,72 0, 764 237 0, 957 283 0, 996 735 0, 999 900 0, 999 998

0,73 0, 767 304 0, 958 184 0, 996 833 0, 999 904 0, 999 998

0,74 0, 770 350 0, 959 070 0, 996 927 0, 999 907 0, 999 998

0,75 0, 773 372 0, 959 940 0, 997 020 0, 999 911 0, 999 998

0,76 0, 776 372 0, 960 796 0, 997 109 0, 999 915 0, 999 999

0,77 0, 779 350 0, 961 636 0, 997 197 0, 999 918 0, 999 999

0,78 0, 782 304 0, 962 462 0, 997 281 0, 999 921 0, 999 999

0,79 0, 785 236 0, 963 273 0, 997 364 0, 999 924 0, 999 999

0,8 0, 788 144 0, 964 069 0, 997 444 0, 999 927 0, 999 999

0,81 0, 791 029 0, 964 852 0, 997 522 0, 999 930 0, 999 999

0,82 0, 793 892 0, 965 620 0, 997 598 0, 999 933 0, 999 999

0,83 0, 796 730 0, 966 375 0, 997 672 0, 999 935 0, 999 999

0,84 0, 799 545 0, 967 115 0, 997 744 0, 999 938 0, 999 999

0,85 0, 802 337 0, 967 843 0, 997 813 0, 999 940 0, 999 999

0,86 0, 805 105 0, 968 557 0, 997 881 0, 999 943 0, 999 999

0,87 0, 807 849 0, 969 258 0, 997 947 0, 999 945 0, 999 999

0,88 0, 810 570 0, 969 946 0, 998 011 0, 999 947 0, 999 999

0,89 0, 813 267 0, 970 621 0, 998 073 0, 999 949 0, 999 999

0,9 0, 815 939 0, 971 283 0, 998 134 0, 999 951 0, 999 999

0,91 0, 818 588 0, 971 933 0, 998 192 0, 999 953 0, 999 999

0,92 0, 821 213 0, 972 571 0, 998 249 0, 999 955 0, 999 999

0,93 0, 823 814 0, 973 196 0, 998 305 0, 999 957 0, 999 999

0,94 0, 826 391 0, 973 810 0, 998 358 0, 999 959 0, 999 999

0,95 0, 828 943 0, 974 412 0, 998 411 0, 999 960 0, 999 999

0,96 0, 831 472 0, 975 002 0, 998 461 0, 999 962 0, 999 999

0,97 0, 833 976 0, 975 580 0, 998 510 0, 999 964 0, 999 999

0,98 0, 836 456 0, 976 148 0, 998 558 0, 999 965 0, 999 999

0,99 0, 838 912 0, 976 704 0, 998 605 0, 999 966 0, 999 999

A continuacion explicaremos como proceder si, en lugar de tener una variable Z,

N(0, 1), tenemos una variable X: Normal con media µ y varianza σ (N(µ, σ) , y

queremos hallar p = P [X ≤ b] .

Previamente, presentaremos algunas propiedades.

Distribucion de probabilidades alrededor de la media en una variable aleatoria X

, con distribucion N(µ, σ).

Notacion: X ∼ N(µ, σ)

Figura 2.2: Grafico de la densidad de la v.a. Normal de parametros µ y σ

Algunas propiedades de la distribucion Normal, X ∼ N(µ, σ) son:

1. Es simetrica respecto de su media, µ ;

2. La moda y la mediana son ambas iguales a la media, µ;

3. Los puntos de inflexion de la curva se dan para x = µ− σ y x = µ+ σ.

4. Distribucion de probabilidad en un entorno de la media:

a) en el intervalo [µ − σ, µ + σ] se encuentra comprendida, aproximada-

mente, el 68,26 % de la distribucion;

b) en el intervalo [µ − 2σ, µ + 2σ] se encuentra, aproximadamente, el

95,44 % de la distribucion;

c) por su parte, en el intervalo [µ−3σ, µ+3σ] se encuentra comprendida,

aproximadamente, el 99,74 % de la distribucion. Estas propiedades son

de gran utilidad para el establecimiento de intervalos de confianza. Por

otra parte, el hecho de que practicamente la totalidad de la distribucion

se encuentre a tres desviaciones tıpicas de la media justifica los lımites

de las tablas empleadas habitualmente en la normal estandar.

5. Si X ∼ N(µ, σ) , a y b son numeros reales, entonces (aX + b) ∼ N(aµ +

b, aσ).

6. Si X ∼ N(µx, σx) e Y ∼ N(µy, σy) son variables aleatorias normales inde-

pendientes , entonces:

a) Su suma esta normalmente distribuida con

S = X + Y ∼ N(µx + µy,√σ2x + σ2

b) Su diferencia esta normalmente distribuida con

D = X − Y ∼ N(µx − µy,√σ2x + σ2

c) Si las varianzas de X e Y son iguales, entonces S y D son independi-

entes entre sı.

7. Si X1, . . . , Xn son variables normales estandar independientes, entonces

X21 + · · ·X2

n sigue una distribucion χ2 con n grados de libertad. Esta vari-

able aleatoria sera de gran utilidad a la hora de realizar algunas pruebas de

hipotesis estadısticas, que se basen en medir diferencias. El calculo de prob-

abilidades asociado a la variable χ2 se encuentra tabulado y sera explicado

en el bloque tematico 3.

8. Si X1, . . . , Xn son variables normales estandar independientes, entonces la

media muestral

X =X1 + · · ·+Xn

y la varianza muestral

S2 =[(X1 −X)2 + · · · (Xn −X)2]

n− 1

son independientes. Esta propiedad caracteriza a las distribuciones Nor-

males.

2.4.3. Estandarizacion de variables aleatorias Normales

Como consecuencia de la Propiedad 5, es posible relacionar todas las vari-

ables aleatorias normales con la distribucion Normal estandar. En efecto: Si

X ∼ N(µ, σ), entonces Z = X−µσ

es una variable aleatoria Normal estandar:

Z ∼ N(0, 1).

La transformacion de una distribucion X ∼ N(µ, σ) en una v.a. Con distribucion

N(0, 1) se llama normalizacion, estandarizacion o tipificacion de la variable

Y a la inversa: si Z es una distribucion Normal estandar Z ∼ N(0, 1), entonces

X = σZ + µ

es una variable aleatoria Normal tipificada de media µ y varianza σ2.

Como la distribucion Normal estandar esta tabulada y las otras distribuciones

Normales pueden obtenerse como transformaciones simples de la distribucion

estandar, como se describe mas arriba, se pueden usar los valores tabulados de

la funcion de distribucion normal estandar para encontrar valores de la funcion

de distribucion de cualquier otra distribucion Normal.

Ejemplo: Si X ∼ N(1, 2), y deseo calcular la P [X < 2], entonces planteo

P [X ≤ 2] = P [X − 1

2≤ 2− 1

2] = P [Z ≤ 1

2]tabla= 0,691462

Otros ejemplos se presentaran en el practico.

2.5 Ejercicios 81

2.5. Ejercicios

1. En una universidad de Argentina, el 50 % de los alumnos habla ingles, el

20 % frances y el 5 % los dos idiomas. ¿Cual es la probabilidad de encontrar

alumnos que hablen alguna lengua extranjera?

2. El 60 % de los individuos de una poblacion estan vacunados contra una

cierta enfermedad. Durante una epidemia se sabe que el 20 % la ha contraıdo

y que 2 de cada 100 individuos estan vacunados y son enfermos. Calcular el

porcentaje de vacunados que enferma y el de vacunados entre los que estan

enfermos.

3. Dos tratamientos A y B curan una determinada enfermedad en el 20 % y

30 % de los casos, respectivamente. Suponiendo que ambos actuan de modo

independiente, cual de las dos siguientes estrategias utilizar para curar a

un individuo con tal enfermedad:

a) Aplicar ambos tratamientos a la vez.

b) Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A.

4. Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar

un control antidopaje; Se sabe que 2 de los jugadores del equipo han tomado

sustancias prohibidas. ¿Cual es la probabilidad de elegir para el analisis a

alguno de los infractores?

5. Estamos interesados en saber cual de dos analisis A y B es mejor para

el diagnostico de una determinada enfermedad, de la cual sabemos que la

presentan un 10 % de individuos de la poblacion. El porcentaje de resultados

falsos positivos del analisis A es del 15 % y el de B es del 22 %. El porcentaje

de falsos negativos de A es del 7 % y de B es del 3 %.

¿Cual es la probabilidad de acertar en el diagnostico con cada metodo?

6. Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. Tal tecnica

tiene una sensibilidad del 91 % y una especificidad del 98 %. En la poblacion

que nos ocupa la probabilidad de colelitiasis es del 20 %.

a) Si a un individuo de tal poblacion se le aplican los ultrasonidos y dan

positivos, ¿cual es la probabilidad de que sufra la colelitiasis?

b) Si el resultado fuese negativo, ¿cual es la probabilidad de que no tenga

la enfermedad?

Sugerencia: Siendo T+ el evento “el diagostico es positivo” y E el evento

“el paciente esta enfermo”, el teorema de Bayes nos dice que:

P (E|T+) =P (T+|E)P (E)

P (T+|E)P (E) + P (T+|Ec)P (Ec)

De ahora en mas tenerlo presente.

7. Entre los estudiantes de una Facultad se dan las siguientes proporciones:

el 40 % son hombres. El 70 % de los varones fuman, mientras que entre

las mujeres solo fuman el 20 %. Escogido un estudiante al azar, calcular la

probabilidad de que fume.

Sugerencia: Siendo H el suceso “el estudiante es Hombre”, F “el estudiante

fuma”, analogo para mujer (M) y no fuma (F c), el Teorema de probabili-

dades Totales nos dice:

P (F ) = P (F |H)P (H) + P (F |M)P (M)

De ahora en mas tenerlo presente.

8. Los estudios epidemiologicos indican que el 20 % de los ancianos sufren un

deterioro neuropsicologico. Sabemos que la tomografıa axial computerizada

(TAC) es capaz de detectar este trastorno en el 80 % de los que lo sufren,

pero que tambien da un 3 % de falsos positivos entre personas sanas. Si

2.5 Ejercicios 83

tomamos un anciano al azar y da positivo en el TAC, ¿cual es la probabil-

idad de que este realmente enfermo?

9. Una enfermedad puede estar producida por tres virus: A, B, o C. En el

laboratorio hay 3 tubos de ensayo con el virus A, 2 tubos con el virus B

y 5 tubos con el virus C. La probabilidad de que el virus A produzca la

enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el

virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad.

¿Cual es la probabilidad de que el virus que se inocule sea el C?

10. El 70 % de los estudiantes aprueba una asignatura A y un 60 % aprueba

otra asignatura B. Sabemos, ademas, que un 35 % del total aprueba ambas.

Elegido un estudiante al azar, calcular las probabilidades de las siguientes

situaciones:

a) Haya aprobado la asignatura B, sabiendo que ha aprobado la A.

b) Haya aprobado la asignatura B, sabiendo que no no ha aprobado la A.

c) No haya aprobado la asignatura B, sabiendo que ha aprobado la A.

d) No haya aprobado la asignatura B, sabiendo que no ha aprobado la A.

11. En un campus universitario existen 3 carreras sanitarias. Se sabe que el

50 % cursan estudios de Enfermerıa el 30 % Medicina y el 20 % Veterinaria.

Los que finalizaron sus estudios son el 20, 10 y 5 % respectivamente. Elegido

un estudiante al azar, hallar la probabilidad de que haya acabado la carrera.

12. En una mutualista, sucede que muchas veces un individuo enfermo es di-

agnosticado como sano y a veces uno sano es diagnosticado como enfermo.

Las estadısticas de datos se resumen en el siguiente cuadro:

Enfermo Sano

Diagnosticado enfermo 89 12

Diagnosticado sano 11 388

Calcular las siguientes probabilidades:

a) Que un individuo este enfermo.

b) Que un individuo este sano.

c) Que un individuo sano sea diagnosticado como enfermo.

d) Que un individuo enfermo sea diagnosticado como sano.

e) Que a un individuo le den un diagnostico errado.

f ) Que un individuo, diagnosticado como sano, este enfermo.

g) Que un individuo, diagnosticado como enfermo, este sano.

13. Entre los diabeticos, el nivel de glucosa en sangre X, en ayunas, puede

suponerse de distribucion aproximadamente normal, con media 106 mg/100

ml y desviacion tıpica 8 mg/100 ml.

a) Hallar P [X ≤ 112].

b) ¿Que porcentaje de diabeticos tienen niveles comprendidos entre 102

y 112 mg/100 ml.

c) Hallar P [106 ≤ X ≤ 110].

d) Hallar P [X ≤ 115].

e) Hallar el punto x caracterizado por la propiedad de que el 75 % de

todos los diabeticos tiene un nivel de glucosa en ayunas inferior o

igual a x.

f ) Hallar el punto x caracterizado por la propiedad de que el 25 % de

todos los diabeticos tiene un nivel de glucosa en ayunas inferior o

igual a x.

14. Se supone que la glucemia basal en individuos sanos, Xs, sigue una dis-

tribucion Normal con µs = 80 y σs = 10, mientras que en los diabeticos,

2.5 Ejercicios 85

Xd, sigue una distribucion Normal con media µd = 160 y σd = 31, 4. Si se

conviene en clasificar como sanos al 2 % de los diabeticos (con valores mas

bajos):

a) ¿Por debajo de que valor xs se considera sano a un individuo

diabetico?.

b) Si un individuo sano tiene un valor de glucemia mayor a xs es con-

siderado diabetico. ¿Que porcentaje de sanos seran clasificados como

diabeticos?.

c) Se sabe que en la poblacion en general el 10 % de los individuos son

diabeticos ¿cual es la probabilidad de que un individuo elegido al azar

y diagnosticado como diabetico, realmente lo sea?

15. Se supone que en una cierta poblacion humana el ındice cefalico I, (co-

ciente entre el diametro transversal y el longitudinal expresado en tanto

por ciento), se distribuye segun una Normal. El 58 % de los habitantes son

dolicocefalos (I ≤ 75), el 38 % son mesocefalos (75 < I ≤ 80) y el 4 %

son braquicefalos (i > 80). Hallar la media y la desviacion tıpica del ındice

cefalico en esa poblacion.

16. Se esta llevando a cabo un estudio que pretende descubrir cual es el nivel

del tabaquismo en la Universidad.

Analizando datos, se descubre que la cantidad promedio de cigarrillos fuma-

dos diariamente por los estudiantes es de 15,2 cigarrillos con una desviacion

standard de 9,5 cigarrillos. Asimismo se encuentra que tiene distribucion

Normal.

Suponga que una caja chica (una cajilla) tiene 10 cigarrillos.

a) ¿ Cual es la probabilidad de que una persona no termine una cajilla a

diario?.

b) ¿ Cual es la probabilidad de que fume mas de media cajilla diaria ?.

c) Al 30 % las personas que consumen mas cigarrillos se les realiza un

estudio posterior, para analizar el origen de su tabaquismo. Por lo

tanto seran analizadas aquellas personas que fuman.............................

cigarrillos por dıa.

2.6. Anexo: Esperanza matematica y Varianza

2.6.1. Distribucion de Probabilidad de la variable aleato-

Para las v. a. discretas, se define la funcion de cuantıa PX(x).

Es una funcion tal que, a cada valor que toma la v.a. X, le asigna su

probabilidad.

PX(x) = P (X = x)

Para las v. a. continuas, se define la funcion de densidad fX(x).

En este curso no nos ocuparemos de esta funcion, por requerir calculos

matematicos avanzados.

Propiedades que cumplen PX(x) y fX(x)

1. 0 ≤ PX(x) ≤ 1 ∀x ∈ Rec(X)

fX(x) ≥ 0 ∀x ∈ R

x∈Rec(X) PX(x) = 1∫ +∞−∞ fX(x)dx = 1

2.6.2. Esperanza de X: E(X)

Esperanza ( o valor medio, o media poblacional, o valor esperado ) de una v. a.

X es el “promedio ponderado” de los valores que toma la v. a. X.

En las v. a. discretas, los valores x son ponderados por sus probabilidades.

E(X) =∑

x∈Rec(X)

En las v. a. continuas, los valores x son ponderados por la funcion de den-

sidad.

E(X) =

∫ ∞−∞

x · fx(x)dx

2.6.3. Varianza de X: V ar(X)

Varianza de una v. a. X: es el promedio ponderado de las

desviaciones al cuadrado, de todos los valores que toma la v. a. X, respecto a

su esperanza.

V ar(X) = E[(X–E(X))2]cuentas

= E(X2)− E(X)2

En las v. a. discretas, los valores x son ponderados por sus probabilidades.

V ar(X) =∑

x∈Rec(X)

(x−E(X))2·P (X = x) =[ ∑x∈Rec(X)

x2·P (X = x)]−[E(X)

¿ Como calculo E(X2) ? . Para v. a. discretas:

E(X2) =∑

x∈Rec(X)

x2 · P (X = x)

En las v. a. continuas, los valores x son ponderados por la funcion de den-

sidad.

V ar(X) =

∫ +∞

−∞(x− E(X))2 · fx(x)dx

Dado el grado de difultad matematico la definicion para v.a. continuas es

solo a los efectos ilustrativos.

2.6 Anexo: Esperanza matematica y Varianza 89

Propiedades de la Varianza de X

1. V ar(a) = 0 , para toda constante a

2. V ar(a ·X) = a2 · V ar(X)

3. Si X e Y son v. a. independientes V ar(X + Y ) = V ar(X) + V ar(Y ) .

No podemos interpretar el valor de la varianza de X, pues no tiene interpretacion

en sı misma , por ser una magnitud expresada en unidades al cuadrado (recordar

Estadıstica Descriptiva). Para poder interpretar, debemos tomar la raız cuadrada-

da de la varianza, es decir: la desviacion standard (o desviacion tıpica ).

Propiedades de la esperanza de X

1. E(a) = a , para toda constante1 a.

2. E(a ·X) = a · E(X), para toda constante a y toda variable aleatoria X.

3. E(X + Y ) = E(X) + E(Y ), para todo par de variables aleatorias X e Y .

Desvıo standard de X:√V ar(X)

Es un “tipo de promedio ponderado” de las desviaciones, de todos los valores que

toma la v. a. X, respecto a su esperanza (E(X) ).

De acuerdo con esta definicion, el desvıo standard se calcula tomando la raız

cuadrada de la varianza.

1Una constante es pensada como una variable aleatoria que con probabilidad 1 tomo siempre

el mismo valor

2.7. Algunas variables aleatorias

2.7.1. Variable aleatoria Uniforme Discreta

Es una variable discreta cuyo recorrido es un conjunto finito de puntos, y cumple,

ademas, que cada punto de su recorrido tiene igual probabilidad.

Si X es una variable uniforme discreta toma valores en el conjuto {x1, x2, . . . , xn},

o sea esta compuesto por n puntos, entonces cumplira que:

P (X = x1) =1

P (X = x2) =1

P (X = xn) =1

P (X = x) = 0 si x 6∈ {x1, x2, . . . , xn}

Ejemplos:

1. X1 = numero que sale en la cara superior al tirar un dado.

Rec(X1) = {1, 2, . . . , 6}.

P (X1 = 1) = 1/6, . . . , P (X1 = 6) = 1/6

2. X2 = numero que sale al sacar una carta de una baraja espanola (sin

comodines).

2.7 Algunas variables aleatorias 91

Rec(X2) = 1, 2, . . . , 12.

P (X2 = 1) = 4/48 = 1/12, . . . , P (X2 = 12) = 1/12

2.7.2. Variable aleatoria Bernoulli

La variable aleatoria Bernoulli surge a partir de un determinado experimento

aleatorio, del cual pueden resultar solo dos situaciones:

1. un exito E, con probabilidad p

2. o un fracaso F = EC , con probabilidad 1–p.

A partir de lo anterior, se define la variable aleatoria de Bernoulli ( X ) como:

1 si sucede exito (E)

0 si sucede fracaso (F )

La funcion de probabilidad de esta variable es, entonces:

P (X = 1) = P (E) = p

P (X = 0) = P (F ) = 1− p

Esperanza y varianza de una v.a. Bernoulli

E(X) =∑

x∈Rec(X) x · P (X = x) = 0 · P (X = 0) + 1 · P (X = 1) = p

V ar(X) =[∑

x∈Rec(X) x2 · P (X = x)

]−[E(X)

]2= p− p2 = p(1− p)

En resumen, si X ∼ Bernoulli(p), entonces E(X) = p y V ar(X) = p(1− p).

2.7.3. Variable aleatoria Binomial

El esquema de la variable aleatoria Binomial consta de los siguientes elementos:

1. Un experimento aleatorio, del cual pueden resultar:

a) un exito E, con probabilidad p

b) o un fracaso F = EC , con probabilidad (1–p)

2. Un numero n de repeticiones del experimento anterior, realizadas:

a) de forma independiente

b) y siempre en las mismas condiciones.

La v. a. Binomial X se define como

X =“ cantidad de exitos (E) en los n experimentos realizados”.

Observacion: ¿ Que tipo de v. a. es ?.

Analicemos su recorrido: Rec(X) = 0, 1, 2, ..., n. Por lo tanto, como es un conjunto

finito, la v. a. Binomial es una v. a. discreta.

¿Cual es la distribucion de probabilidad para la v.a. Binomial X?

Al ser X una v. a. discreta, tiene funcion de cuantıa PX(i) = P (X = i), la cual

puede calcularse por medio de calculos combinatorios de conteo:

PX(i) = P (X = i) = Cni · pi(1− p)n−i

donde i ∈ Rec(X) y Cni = n!

(n−i)!i! = n·(n−1)·(n−2)···3·2·1[(n−i)·(n−i−1)·(n−i−2)···3·2·1][i·(i−1)·(i−2)···3·2·1]

Ejemplo:

Tiro un dado tres veces ¿ Cual es la probabilidad de que me salga solo un seis en

las tres tiradas ?

Vamos a analizarlo, sin usar la formula de la v. A. Binomial (en forma explıcita):

1. El seis puede salir en cualquiera de las tres tiradas; entonces los eventos que

me sirven son:

A : 6, 6= 6, 6= 6

B : 6= 6, 6, 6= 6

C : 6= 6, 6= 6, 6

2. Como las tiradas son independientes, entonces:

P (A) = P (“6 en la 1ra tirada” y “no 6 en la 2da tirada” y “ no 6 en la 3ra tirada”)indep

= P (“6 en la 1ra tirada”) · P (“no 6 en la 2da tirada”) · P (“ no 6 en la 3ra tirada”)

=16· 5

De la misma forma se obtiene:

P (B) =56· 1

P (C) =56· 5

3. Por lo tanto, la probabilidad de que me salga solo un seis en las tres tiradas es :

P (A ∪B ∪ C) mutuamente=excluyentes

P (A) + P (B) + P (C) = 3 ·(

Otra forma: usando la v.a. Binomial.

Antes que nada , analizo si estoy en presencia de un experimento Binomial:

1. Existe un experimento aleatorio, que consiste en tirar una vez el dado, en

el cual hay dos resultados posibles:

un exito E: si sale un seis, con probabilidad p = 1/6

o un fracaso F = EC = “si no sale un seis” , con probabilidad (1−p) =

2. Un numero n = 3 de repeticiones del experimento anterior, realizadas :

de forma independiente, pues el resultado de una tirada no condiciona

los resultados de las tiradas siguientes.

y siempre en las mismas condiciones, pues supongo que el dado no se

carga con las sucesivas tiradas; es decir, la probabilidad de que salga

un seis, es siempre 1/6 .

Entonces, la probabilidad de que me salga solo un seis en las tres tiradas ,

PX(1) = P (X = 1) = Cn1 ·p1(1−p)n−1 = C3

1− 1

)3−1

= 3·(

igual a lo calculado antes.

Esperanza y varianza de una v.a. Binomial

Sea X una v. a. Binomial con parametros p = probabilidad de Exito, y n =

cantidad de repeticiones. Se demuestra que X puede ser representada por una

suma de n variables Bernoulli de parametro p todas independientes, es decir:

X = X1 +X2 + · · ·+Xn

donde X ∼ Binomial(n, p), y X1, X2, . . . , Xn son Bernoulli(p) todas independi-

entes.

Ahora, usando las propiedades de la esperanza y la varianza tenemos:

E(X) = E(X1 +X2 + · · ·+Xn)

= E(X1) + E(X2) + · · ·+ E(Xn))

= p+ p+ · · ·+ p

= n · p

V ar(X) = V ar(X1 +X2 + · · ·+Xn)

indep= V ar(X1) + V ar(X2) + · · ·+ V ar(Xn))

= p(1− p) + p(1− p) + · · ·+ p(1− p)

= n · p(1− p)

En resumen, siX ∼ Binomial(n, p), entonces E(X) = n·p y V ar(X) = n·p(1−p).

2.7.4. Variablea aleatorias continuas

Variable aleatoria Normal

Una v. a. X se distribuye Normal, con esperanza E(X) = µ, µ ∈ R y varianza

V ar(X) = σ2, σ ∈ R+, si su funcion de densidad es: fX : R→ R tal que

fX(x) =1

√2πσ · e

−12· (x−µ)2

Notacion: Siendo σ =√V ar(X) el desvıo standard de X, anotamos X ∼

N(µ, σ) para indicar que X es una v.a. Con distribucion normal y cuya esperanza

es µ y su desvıo standard es σ.

Vale aclarar que algunos autores prefieren poner en el segundo parametro la

varianza en lugar del desvıo standard, en todo caso hay que estar atento a la

bibliografıa a leer.

NOTA: µ es el parametro de posicion y puede ser un numero real cualquiera, σ

es el parametro de dispersion y debe ser un numero real positivo.

Distribucion Normal Standard o Tipificada

Una v. a. Z se distribuye Normal Standard, o sea si sus parametros son cero y

uno respectivamente, es decir: Z ∼ N(0, 1).

Es inmediato deducir que E(Z) = 0 y V ar(Z) = 1.

La funcion de densidad de la v.a. Normal estandard es φ : R→ R tal que

φ(x) =1

2π· e−

12·x2

Observacion: ¿ Como calculo probabilidades con la v.a. Z, con Z ∼ N(0, 1) ?

Teoricamente, deberıamos efectuar el calculo:

P (Z ≤ a) =

−∞φ(x)dx =

−∞

2π· e−

12·x2

Pero ello es imposible incluso con calculo avanzado, en lugar de ello, buscamos el

resultado en la tabla de la variable Normal Standard, de la forma explicada en el

bloque tematico 2.

2.7.5. Teorema de De Moivre – Laplace

Aproximacion de la distribucion Binomial, por la distribucion Nor-

Sea X una v.a. Con X ∼ Binomial(n, p), por lo tanto E(X) = np y V ar(X) =

np(1− p)

Entonces, la v. a.

Y =X − np√np(1− p)

tiende a la Normal standard (Z ∼ N(0, 1)), conforme el numero de ensayos

independientes n tiende al infinito.

Esquematicamente: Si X ∼ Binomial(n, p), entonces

X − np√np(1− p)

n→∞→ Z ∼ N(0, 1)

Este teorema es util, pues cuando el n es grande, puede ser engorroso hacer los

calculos con la formula de la cuantıa Binomial.

2.7.6. Otras variables aleatorias continuas

Otras variables aleatorias continuas, muy utiles en Inferencia Estadıstica son:

variable aleatoria t de Student: se utiliza en el test de hipotesis sobre

la media, cuando la varianza es desconocida.

variable aleatoria chi2: se utiliza en el test de hipotesis sobre la varianza,

en la comparacion de medias entre dos poblaciones Normales y en el test

de independencia, entre otros.

variable aleatoria F: se utiliza en el analisis de varianzas entre dos pobla-

ciones Normales.

Su analisis practico sera tratado al presentarse cada test estadıstico, en el bloque

tematico 3. Su analisis teorico no se presenta, pues su desarrollo matematico es

muy complejo.

2.8. Artıculo: Pruebas diagnosticas

A continuacion se presenta el artıculo sobre pruebas diagnosticas, escrito por Pita

Fernandez y Pertegas Dıaz, de la Unidad de Epidemiologıa Clınica y Bioestadısti-

ca del Complexo Hospitalario-Universitario Juan Canalejo, La Coruna (Espana).

Investigación: Pruebas diagnósticas 1/6

www.fisterra.com Atención Primaria en la Red

Pruebas diagnósticas Pita Fernández, S. spita@canalejo.org, Pértegas Díaz, S. spertega@canalejo.org Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España) Cad Aten Primaria 2003; 10: 120-124. Actualización 14/07/2003. __________________________________

La medicina es una ciencia de probabilidades y un arte de manejar la incertidumbre. Dicha incertidumbre se extiende no sólo a las actividades preventivas, terapéuticas y pronósticas sino también a las diagnósticas. En las fases del proceso diagnóstico intervienen la historia clínica, la exploración física y la realización de pruebas complementarias1-2. Cuando existen varias hipótesis diagnósticas, se realizará el diagnóstico diferencial y las pruebas complementarias tratarán de aclarar las dudas existentes. Si solamente hay una sospecha diagnóstica, las pruebas complementarias tratarán de confirmarla. La realización simultánea de varias pruebas complementarias se denomina pruebas complementarias en paralelo y la realización de pruebas complementarias según los resultados de otras previas, se denomina pruebas complementarias en serie. Al realizar pruebas en paralelo aumenta la probabilidad de diagnosticar a un enfermo, pero también aumenta la probabilidad de considerar como enfermo a un sano. El riesgo de la realización de pruebas en serie es no diagnosticar a algunos enfermos. En cambio, pocos sanos serán considerados como enfermos.

Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en enfermos y negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un test son3:

• Validez: Es el grado en que un test mide lo que se supone que debe medir. ¿Con que frecuencia el resultado del test es confirmado por procedimientos diagnósticos más complejos y rigurosos? La sensibilidad y la especificidad de un test son medidas de su validez.

• Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se repite su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la introducida por el propio observador y la derivada del propio test, determinan su reproductividad.

• Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o negativo. ¿Con que seguridad un test predecirá la presencia o ausencia de enfermedad? Ante un resultado positivo de un test ¿qué probabilidad existe de que este resultado indique presencia de la enfermedad? Veremos posteriormente que esta probabilidad está muy influenciada por la prevalencia de la patología.

A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la población general, que tenga los mínimos efectos adversos y que económicamente sea soportable.

En este trabajo se revisarán fundamentalmente los conceptos que determinan la validez de un test (sensibilidad y especificidad) y su seguridad (valores predictivos positivos y negativos).

La validez de una prueba diagnóstica. Sensibilidad y especificidad.

El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo. En casos como éste, generalmente un resultado positivo se asocia con la presencia de enfermedad y un resultado negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes, los datos obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o “gold standard” que vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad y especificidad4:

Sensibilidad

Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad.

Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla como la que se muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Es decir:

FNVPVPadSensibilid+

De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”.

Especificidad

Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para un sujeto sano se obtenga un resultado negativo. En otras palabras, se puede definir la especificidad como la capacidad para detectar a los sanos. A partir de una tabla como la Tabla 1, la especificidad se estimaría como:

FPVNVNdadEspecifici+

De ahí que también sea denominada “fracción de verdaderos negativos (FVN)”.

Ejemplo:

Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se incluyó a 2.641 pacientes con sospecha de cáncer prostático que acudieron a una consulta de Urología durante un periodo de tiempo determinado. Durante su exploración, se recogió el resultado del tacto rectal realizado a cada uno de estos pacientes, según fuese éste normal o anormal, y se contrastó con el posterior diagnóstico obtenido de la biopsia prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla 2. Se encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de sujetos estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56% (634/1121) y la especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un 56,56% de los casos de cáncer prostático y normal en un 82,3% de los casos que presentaron finalmente otras patologías. Esto significa que un 100-56,56=43,44% de los pacientes que efectivamente tenían cáncer presentaban tactos normales. Claramente ello indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus derivados, para poder establecer el diagnóstico de forma más precisa.

Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad, pero esto no siempre es posible. En general, las pruebas de screening deben ser de alta sensibilidad para poder captar a todos los enfermos. Una prueba muy sensible será especialmente adecuada en aquellos casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, como ocurre con enfermedades peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las que un falso positivo no produzca serios trastornos psicológicos o económicos para el paciente (por ejemplo, la realización de mamografía en el cáncer de mama).

Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad de que un sujeto sano sea clasificado adecuadamente. En general, las pruebas confirmatorias del diagnóstico deben ser de alta especificidad, para evitar falsos positivos. Los tests de alta especificidad son necesarios en enfermedades graves pero sin tratamiento disponible que las haga curables, cuando exista gran interés por conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas (por ejemplo, en el caso del SIDA).

La seguridad de una prueba diagnóstica. Valores predictivos.

Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto (positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en una dirección. Por medio de los valores predictivos completaremos esta información5:

Valor predictivo positivo:

Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de pacientes con un resultado positivo en la prueba que finalmente resultaron estar enfermos:

FPVPVPVPP+

Valor predictivo negativo:

Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Se estima dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la prueba:

VNFNVNVPN+

Retomando el ejemplo anterior sobre cáncer prostático, el valor predictivo positivo es en este caso del 70,21% (634/903) y el valor predictivo negativo del 71,98% (1251/1738). Ello significa que en un 70,21% de los pacientes con un tacto anormal finalmente se confirmó la presencia de cáncer, mientras que de los que no se detectaron anomalías en el tacto un 71,98% estaban efectivamente sanos.

La influencia de la prevalencia.

Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir completamente la validez de la prueba diagnóstica, presentan la desventaja de que no proporcionan información relevante a la hora de tomar una decisión clínica ante un determinado resultado de la prueba. Sin embargo, tienen la ventaja adicional de que son propiedades intrínsecas a la prueba diagnóstica, y definen su validez independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica.

Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presenta la limitación de que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto de estudio. Cuando la prevalencia de la enfermedad es baja, un resultado negativo permitirá descartar la enfermedad con mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor predictivo positivo.

Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean tests que han confirmado tener una alta validez, con valores aproximados de sensibilidad y especificidad de un 99,5%. Supongamos que se aplicase esta prueba a la totalidad de la población gallega, que se cifra en 2.800.000 habitantes. Si asumimos que en Galicia existen 6.000 pacientes VIH positivos (lo cual implicaría una prevalencia de 6000/ 2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos, obteniéndose un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos con un resultado positivo en el test resultarían estar realmente afectados, mientras que un 70,1% de los

mismos no presentarían la enfermedad. Resulta obvio que en una comunidad como la gallega la utilización de esta prueba no resultaría útil, debido a la alta proporción de falsos positivos que conllevaría.

Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el número de enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho mayor de un 800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba positiva aumenta de un 29,9% a un 98,7%, disminuyendo la proporción de falsos positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la prevalencia es alta, un resultado positivo tiende a confirmar la presencia de la enfermedad, mientras que si la prevalencia es baja, un resultado positivo no permitirá afirmar su existencia.

Razones de probabilidad

Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos de un test. Por lo tanto, éstos , no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos diferentes, ni tampoco a la hora de extrapolar los resultados de otros estudios a datos propios. Por ello, resulta necesario determinar otros índices de valoración que sean a la vez clínicamente útiles y no dependan de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de verosimilitudes, razón de probabilidad, o cociente de probabilidades6. Estos miden cuánto más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia de enfermedad:

• Razón de verosimilitudes positiva o cociente de probabilidades positivo: se calcula dividiendo la probabilidad de un resultado positivo en los pacientes enfermos entre la probabilidad de un resultado positivo entre los sanos. Es, en definitiva, el cociente entre la fracción de verdaderos positivos (sensibilidad) y la fracción de falsos positivos (1-especificidad):

dadEspecifici-1adSensibilid

• Razón de verosimilitudes negativa o cociente de probabilidades negativo: se calcula dividiendo la probabilidad de un resultado negativo en presencia de enfermedad entre la probabilidad de un resultado negativo en ausencia de la misma. Se calcula por lo tanto, como el cociente entre la fracción de falsos negativos (1-sensibilidad) y la fracción de verdaderos negativos (especificidad):

dadEspecificiadSensibilid-1

=−RV

Volvamos de nuevo al ejemplo planteado en la Tabla 2 sobre el diagnóstico de cáncer prostático a partir del tacto rectal. En este caso, se obtiene un cociente de probabilidades positivo de 3,20. Ello viene a indicarnos que un tacto anormal es, por lo tanto, 3 veces más probable en un paciente con cáncer prostático que en otro sujeto sin cáncer.

La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una prueba en un solo índice. Además, pueden obtenerse razones de probabilidad según varios niveles de una nueva medida y no es necesario expresar la información de forma dicotómica, como resultado de normal o anormal o bien positivo y negativo. Por último, al igual que sucede con la sensibilidad y la especificidad, no varía con la prevalencia. Esto permite utilizarlo como índice de comparación entre diferentes pruebas para un mismo diagnóstico.

Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo o negativo), pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro numérico, sobre todo cuando éste se realiza a partir de determinaciones analíticas. La generalización a estas situaciones se consigue mediante la elección de distintos valores de corte que permitan una clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. La estrategia de análisis adecuada consistiría en

representar gráficamente los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha curva se convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la prevalencia de la enfermedad en la población de referencia y en base al cual se podrán establecer comparaciones entre diferentes pruebas diagnósticas7-10.

En definitiva, es sumamente importante el saber valorar la validez y seguridad de las diferentes pruebas diagnósticas con el fin de seleccionar la más adecuada en cada momento. La sensibilidad, la especificidad y los valores predictivos son los criterios tradicionalmente utilizados para valorar la capacidad predictiva de un test11,12. Los estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener esta información. No obstante, no debemos olvidar que existen determinados aspectos en el diseño de este tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. Una vez más, el cálculo de intervalos de confianza puede ayudarnos a conocer la precisión de los índices calculados. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la presencia de sesgos11,13,14.

Bibliografía

1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed. Madrid: Editorial médica panamericana; 1994.

2. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary test. Am Heart J 1980; 100: 928. [Medline]

3. Morrison AS. Screnning in Chronic disease. Second edition. New York: Oxford University Press; 1992.

4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity. BMJ 1994; 308: 1552. [Medline]

5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. BMJ 1994; 309: 102. [Medline]

6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P. Likelihood ratios: a real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36. [Medline]

7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC en la evaluación de las pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline]

8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline]

9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating characteristic plots. BMJ 1994; 309: 188. [Medline]

10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten Primaria 1998; 5(4): 229-235.

11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed Barcelona: Harcourt; 2000.

12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the essentials. 3ª ed. Baltimore: Williams and Wilkins; 1996.

13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol 1997; 50: 507-519. [Medline] [Texto completo]

14. Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ 1997; 315: 540-543. [Medline] [Texto completo]

Tabla 1. Relación entre el resultado de una prueba diagnóstica y la presencia o ausencia de una enfermedad.

Verdadero diagnóstico Resultado de la prueba

Enfermo Sano

Positivo Verdaderos Positivos

(VP) Falsos Positivos

Negativo Falsos Negativos

(FN) Verdaderos Negativos

Tabla 2. Resultados de la exploración y biopsia prostática de una muestra de pacientes con sospecha de cáncer de próstata.

Resultado de la biopsia prostática Resultado del tacto rectal Cáncer Patología benigna Total

Anormal 634 269 903

Normal 487 1251 1738

Total 1121 1520 2641

Tabla 3. Resultados de la aplicación del test de VIH en una población de baja prevalencia.

Verdadero diagnóstico Resultado del test

VIH+ VIH- Total

Positivo 5.970 13.970 19.940

Negativo 30 2.780.030 2.780.060

Total 6.000 2.794.000 2.800.000

Tabla 4. Resultados de la aplicación del test de VIH en una población de alta prevalencia.

Verdadero diagnóstico Resultado del test

VIH+ VIH- Total

Positivo 796.000 10.000 806.000

Negativo 4.000 1.990.000 1.994.000

Total 800.000 2.000.000 2.800.000

Bloque tematico 3

La Inferencia Estadıstica

Objetivo:

El tercer bloque presenta a la Inferencia Estadıstica, a traves de algunos de sus

instrumentos, y tiene el objetivo de mostrar el poder que tiene la Estadıstica

como ciencia que busca crear conocimiento acerca de la realidad.

3.1. Introduccion:

La Inferencia Estadıstica se basa en la informacion particular que brinda la

muestra; informacion que es resumida por la Estadıstica Descriptiva y, con la

ayuda de la teorıa de las Probabilidades, busca hacer una afirmacion general

acerca de la poblacion. Si esta afirmacion involucra un valor fijo caracterıstico

de la poblacion (parametro), estamos en el ambito de la Inferencia Estadıstica

Parametrica. Cuando no sea ası, trataremos con las herramientas de la Inferencia

Estadıstica no Parametrica, por ejemplo cuando buscamos saber si dos variables

estan relacionadas o en cambio, son independientes.

106 3. La Inferencia Estadıstica

Cada una de estas Inferencias presenta diversos test o pruebas de hipotesis, cuyos

complejos mecanismos seran sintetizados y presentados a traves de ejemplos, a

fin de facilitar la comprension del estudiante.

3.2. La Inferencia Estadıstica Parametrica

Lo primero es acercarnos informalmente al concepto de estimacion: para nosotros

estimar sera “calcular aproximadamente siguiendo las reglas de la Inferencia

Estadıstica”.

Un ejemplo de Estadıstica Parametrica lo tenemos cuando queremos “estimar”

la media de una poblacion: lo primero que hacemos es tomar un conjunto de n

observaciones de esa poblacion y calculamos la media de esas observaciones. Un

valor calculado a partir de una muestra, tal como la media de la muestra, se llama

estadıstico. En otras palabras un estadıstico es una funcion de observaciones de

la muestra.

3.2.1. Parametro vs Estadıstico

Debemos diferenciar entre un estadıstico y un parametro de poblacion. Para

hacerlo, usamos con frecuencia los terminos media de la muestra (X) y media

de la poblacion (µ), en lugar de usar simplemente media. Un parametro de la

poblacion tiene un cierto valor constante, pero no se conoce en realidad.

Por otra parte, podemos calcular un estadıstico a partir de la muestra, pero el es-

tadıstico variara de muestra a muestra. Aunque quisieramos conocer el parametro

de la poblacion, observamos solamente muestras obtenidas de la poblacion. Por

3.2 La Inferencia Estadıstica Parametrica 107

lo tanto , tenemos que estimar el parametro de la poblacion, a partir de un

estadıstico.

¿ Como podrıamos hacer para tener una idea aproximada del valor de µ, la media

poblacional de la variable X ? Considerando una muestra de tamano n, evaluando

Xi en cada uno de ellos y calculando el valor de X

¿ Por que X?. Porque es un “buen estimador” del valor desconocido µ, pues

tiene buenas propiedades, entre ellas que “los valores de X (correspondientes a

las distintas muestras) no se alejan, en promedio demasiado” del verdadero valor

de µ.

Ahora, ¿que podemos decir del valor de µ, conociendo el valor de X?. No podemos

decir tan rapidamente que coinciden, pues en una muestra la informacion es

parcial. Nos acercaremos a la respuesta, conociendo la distribucion de X como

variable aleatoria. En la Figura siguiente se muestra el camino a seguir para

estimar la media de la poblacion.

3.2.2. Distribuciones de algunos Estadısticos

En la Inferencia Estadistica debemos conocer la distribucion de probabilidades de

varios estadısticos. Para acercarnos a la idea de estas distribuciones, realizamos

un experimento de muestreo: por ejemplo, usando una computadora generamos

un conjunto de n = 5 observaciones de una variable aleatoria X, con distribucion

Normal, con esperanza 50 y varianza 22; y calculamos X , Z y T donde

Figura 3.1: Esquema de estimacion

Z =√n

(X − µ)

T =√n

(X − µ)

siendo S ′ , la raız cuadrada de S ′2 , la cuasivarianza muestral, estadıstico que

definiremos pronto.

Repetimos los anteriores calculos 10.000 veces. De esta manera tendremos 10.000

observaciones de los estadısticos X, Z y T . La siguiente tabla muestra los

primeros 10 casos y a continuacion esta el grafico de los histogramas de las 10.000

observaciones de los estadısticos mencionados: allı podremos observar el contorno

de la distribucion de cada uno de ellos.

N ro X1 X2 X3 X4 X5 X Z T

1 51,211 49,354 50,188 54,322 45,428 50,101 0,112413 0,069844

2 50,973 50,214 50,019 48,069 47,735 49,402 −0,668633 −0,941755

3 49,686 49,305 49,690 50,055 48,630 49,473 −0,588893 −2,177293

4 47,132 51,674 54,448 50,065 53,702 51,404 1,569804 1,066539

5 48,283 48,706 53,621 51,713 52,172 50,899 1,004885 0,870111

6 49,627 50,567 51,059 49,848 52,029 50,626 0,700043 1,443663

7 53,001 45,007 51,038 52,913 50,581 50,508 0,568062 0,348364

8 47,056 47,349 50,346 50,156 49,707 48,923 −1,204446 −1,514269

9 52,669 45,245 50,407 49,501 53,309 50,226 0,252742 0,158192

10 50,646 51,328 53,196 49,756 49,672 50,920 1,028452 1,424934...

......

Figura 3.2: Histograma del estadıstico X

Figura 3.3: Histograma del estadıstico Z

Figura 3.4: Histograma del estadıstico T

3.2.3. Distribucion de X

De la figura 3.2 podemos ver que:

a) X se distribuye simetricamente alrededor de su media, dando la apariencia

de una distribucion Normal.

b) La media de X (igual a 50,0023) se acerca mucho a la media de la poblacion

( µ = 50).

c) La desviacion standard de X (igual a 0,9011) se acerca 1√n

“veces” por la

desviacion standard de la poblacion (2/√

5 = 0, 8944).

Todas estas observaciones nos lleva a presentar los siguientes teoremas que gen-

eralizan los resultados.

Estos teoremas, por lo general, se cumplen: depende fundamentalmente de la

forma en que extraigamos nuestra muestra. Pero, como los distintos tipos de

muestreos no es un tema que abordaremos con detalle en este curso, solo di-

remos que estos resultados se verifican cuando los muestreos se realizan sobre

poblaciones muy grandes, como es el caso de las investigaciones biologicas.

Teorema 1

Supongamos que X1, X2, . . . , Xn es una muestra de n observaciones de la variable

X en una poblacion con una media µ y una varianza σ2, y que X es la media de

la muestra. Entonces el valor esperado, la varianza y la desviacion standard de

X, son respectivamente:

E(X) = µ

V ar(X) =σ2

n√V ar(X) =

σ√n

Teorema 2

Supongamos que X1, X2, ..., Xn es una muestra de n observaciones de la variable

X que tiene, en la poblacion, una distribucion de probabilidades Normal (µ, σ2)

y X es la media de la muestra.

Entonces, X se distribuye Normal de parametros (µ, σ2/n), es decir,

X ∼ N

(µ,σ2

Teorema 3 (Teorema del Lımite Central)

La distribucion de la media muestral X, de una una variable que en la poblacion

tiene varianza finita, tiende a seguir una distribucion Normal, a medida que el

tamano de la muestra tiende hacia el infinito.

Segun el teorema 2, la media muestral de una variable que en la poblacion se

distribuye Normalmente, se distribuye exactamente en forma de una distribu-

cion Normal. Y el teorema 3 dice que, aun si la distribucion de una poblacion

no es Normal, la media muestral se aproxima a la distribucion Normal. Esta

aproximacion se cumple mejor para n (tamano muestral) de valor grande, pero

es adecuada, segun algunos investigadores, para un valor de n tan bajo como

n = 20.

3.2.4. Distribucion de Z =√n·(X−µ)σ

De la figura 3.2, podemos ver que:

a) Z se distribuye simetricamente alrededor de su media, dando la apariencia

de una distribucion Normal.

b) La media de Z (igual a 0, 0026) se acerca mucho a cero.

c) La desviacion standard de Z (igual a 1, 0075) se acerca a uno.

Todas estas observaciones nos lleva a presentar el siguiente teorema:

Teorema 4

Sea X la media de una muestra X1, X2, . . . , Xn de variables Normales con media

µ y varianza σ2. Entonces el estadıstico Z =√n (X−µ)

σse distribuye Normal con

media cero y varianza uno.

Ahora vamos a definir un nuevo estadıstico, o sea una variable que depende de

los valores de la muestra.

Definicion 1

S ′2 Llamamos cuasivarianza muestral al estadıstico S ′2 determinado por:

S ′2 =1

n− 1

n∑i=1

(xi − X)

Observacion: La cuasivarianza muestral se puede definir a partir de la varianza

muestral S2, ası:

S ′2 =1

n− 1

n∑i=1

(xi − X) = S2 n

n− 1

Recordar que

S2 =n∑i=1

(xi − X)2 =

n∑i=1

]− (X)2

Como vemos, el calculo de S2 es mas facil a nivel manual, lo que lo hace preferible

en un primer momento, para calcular las medidas descriptivas de la muestra

(recordar Estadıstica Descriptiva).

Sin embargo, S ′2 tiene mejores propiedades que S2, como estimador de la varianza

poblacional, pues se cumple que la Esperanza de S ′2 es σ2. Por eso, para la

Inferencia Estadıstica, el estadıstico de relevancia es S ′2.

3.2.5. Distribucion de T =√n · (X−µ)

Nuevamente en la figura 3.2 vemos que la distribucion del estadıstico T es acam-

panada y similar a la distribucion de Z, pero tiene una variacion ligeramente

mayor. Ello se debe a que en el denominador de T esta el estadıstico S ′ que,

como todo estadıstico, varıa con cada muestra distinta, mientras que en el de-

nominador de Z esta σ, parametro poblacional, y, por lo tanto, fijo. Se dice que

la distribucion de T “tiene colas mas pesadas”, pues T acumula mas probabili-

dad que Z, en valores alejados de la media. La distribucion de T se explica en el

siguiente teorema.

Teorema 5

Sea X y S ′, la media y la raız cuadrada de la cuasivarianza, respectivamente, y

sea una muestra X1, X2, . . . , Xn de variables Normales con media µ y varianza σ2.

Entonces el estadıstico T =√n (X−µ)

S′sigue una distribucion denominada t con

n− 1 grados de libertad; lo cual se anota: T ∼ tn−1.

El grafico y la tabla siguiente, muestran las probabilidades acumuladas, para

distintos valores de t, las cuales se leen en el interior de la tabla.

Tabla de probabilidades de la distribucion t con n grados de

libertad

n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995

1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657

2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925

3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841

4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604

5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032

6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707

7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499

8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355

9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250

10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169

11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106

12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055

13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012

14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977

15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947

16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921

17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898

18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878

19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861

20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845

21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831

22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819

23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807

24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797

25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787

26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779

27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771

28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763

29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756

30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750

40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704

60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660

120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617

∞ 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576

3.3. Estimacion puntual e intervalos de confian-

3.3.1. Estimacion puntual e intervalos de confianza para

µ cuando conozco σ2

Un investigador esta interesado en estudiar la presion diastolica (mınima) de

la sangre de varones, en edades comprendidas entre 20 y 30 anos, sometidos a

tension nerviosa. Pretende responder la pregunta ¿ cual es la presion diastolica

media, bajo tension nerviosa para este grupo ?

3.3 Estimacion puntual e intervalos de confianza 117

Lo primero que debe realizar es tomar una muestra aleatoria de un determinado

tamano n, dentro de la poblacion en estudio (todos los varones de entre 20 y

30 anos, sometidos a tension nerviosa). Con respecto al valor de n, veremos mas

adelante como se determina, para que se cumpla ciertos requisitos que buscamos

en nuestra investigacion.

La presion diastolica es la variable de interes a observar y medir para cada uno

de los integrantes de la muestra extraıda. Para contestar la pregunta anterior

(¿ cual es la presion diastoloca media, bajo tension nerviosa para este grupo ?)

deberıamos conocer la media de la variable antedicha, en la poblacion referida,

valor que llamaremos µ. Pero µ es un parametro desconocido que deberemos

estimar a partir de la media muestral X , calculada a partir de la muestra. Ya

conocemos la distribucion de la media muestral X. Ello nos va a ser de utilidad

para realizar la siguiente Inferencia Estadıstica.

NOTA: se dice que X es un estimador de µ, y se escribe

µ = X

Ahora, ¿que podemos decir del valor de µ, conociendo el valor de X ?.

Para contestar, podemos utilizar dos procedimientos:

1) Se estima el verdadero valor de µ, a partir del valor particular de X ,

que proviene de la muestra. Este procedimiento se denomina Estimacion

Puntual .

En la practica, se calcula X a partir de una muestra, y se toma ese valor

como estimador (valor aproximado) de la media poblacional, µ .

Por ejemplo, luego que se midio la presion diastolica para cada uno varones

de entre 20 y 30 anos, sometidos a tension nerviosa, de mi muestra, con esos

datos calculo X (supongo que X = 10). Se que µ es distinto a X, pero por

la propiedad de E(X) = µ (esta propiedad dice que si hago un promedio de

todos los posibles valores de X, obtengo µ) confıo en que X es util, como

aproximacion del valor desconocido µ, y escribo

µ = 10

2) Otra opcion es no quedarnos simplemente con el valor de X, sino que con-

struımos un intervalo con centro en X, de radio ε.

NOTA: ε es el maximo error que nos permitimos cometer, al aproximar el valor

de µ, por X. Decimos entonces que el intervalo de la forma:

[X − ε, X + ε]

contiene a µ, con una cierta probabilidad (1−α) o nivel de confianza (1−α)·100 %

Este procedimiento se denomina Estimacion por Intervalo de Confianza.

¿ Como se determina el intervalo [X − ε, X + ε]?. Es decir ¿Como se determina

Se debe cumplir que en el (1 − α) · 100 % de las muestras que se extraigan, los

intervalos [X−ε, X+ε], deben incluir el verdadero valor del parametro poblacional

En otras palabras, la probabilidad de que el intervalo aleatorio [X − ε, X + ε]

contenga la media poblacional µ, debe ser igual a 1− α.

Definicion 2

Al valor epsilon se lo denomina precision. Y el valor 1− α es una probabilidad y

se llama nivel de confianza.

Se debe cumplir, por lo tanto, que:

P (X − ε ≤ µ ≤ X + ε) = 1− α

De ahı, buscamos dejar la variable aleatoria√n (X−µ)

σen el “ medio de la de-

sigualdad”, para utilizar lo que conocemos sobre su distribucion: por el Teorema

del Lımite Central (teorema 3) y por el teorema 4 se cumple que :

√nX − µσ

n→+∞−→ Z donde Z ∼ N(0, 1)

Entonces realizamos las siguientes operaciones:

P (X − ε ≤ µ ≤ X + ε) = 1− α ⇔ P (−ε ≤ µ− X ≤ ε) = 1− α

⇔ P (ε ≥ X − µ ≥ −ε) = 1− α

⇔ P (−ε ≤ X − µ ≤ ε) = 1− α

⇔ P(−√n·εσ≤√n · X−µ

σ≤√nσ· ε)

= 1− α

Entonces, siendo√n · (X−µ)

σ∼= Z ∼ N(0, 1), se cumple que, cuando n es grande :

(−√n · εσ≤ Z ≤

√n · εσ

)= 1− α donde Z ∼ N(0, 1)

Ahora buscamos obtener el valor de√n·εσ

A partir de la afirmacion anterior, se deduce que:

(Z ≤

√n · εσ

)= 1− α

2ver que la Normal es simetrica

Por lo tanto: el numero z que acumula 1− α2

de probabilidad, es z1−α2

=√n·εσ

Busco despejar ε , para construir el intervalo de confianza: z1−α2

=√n·εσ⇒ ε =

z1−α2·σ

Aquı ε es llamdo error de muestreo.

Ası tengo, entonces, determinado el intervalo de confianza para la media

poblacional µ:

[X −

(z1−α/2) · σ√n

, X +(z1−α/2) · σ√

]INTERPRETACION: La probabilidad de que el intervalo anterior incluya el

verdadero valor de µ, es (1− α).

¿Que relacion existe entre ε y n ?

Ya vimos que ε =(z1−α2

)·σ√n

, por lo tanto, se deduce que: n =(z1−α2

)2·σ2

Vemos que la relacion entre ε y n es inversa: cuanto mas grande es el tamano de

la muestra n, menor es ε, el error que se comete, al aproximar el valor de µ, por

3.3.2. Intervalo de confianza para µ , cuando no conozco

Observacion: Por lo general no conozco σ. Lo que conozco es S ′ , estadıstico

calculado a partir de los valores de la muestra, y que es un buen estimador de σ.

Se dice que S ′2 es un estimador de σ2, y se escribe:

σ2 = S ′2

Tambien se cumple que S ′ es un estimador de σ , y se escribe:

σ = S ′

Al sustituir σ por el estimador S ′, el estadıstico usado en el intervalo de confianza

para µ, cambia: en lugar de Z es T, y su distribucion tambien cambia:

vimos, por el teorema 5 que, si la muestra proviene de una variable, que se

distribuye Normal en la poblacion, el estadıstico T tiene una distribucion t con

n− 1 grados de libertad.

Observacion: Se cumple que la distribucion tn−1n→+∞−→ Z ∼ N(0, 1)

Por lo tanto si n es grande ( n > 30 ) y la muestra proviene de una Poblacion

Normal, utilizo el siguiente intervalo de confianza aproximado para µ:

[X −

(z1−α/2) · S ′√n

, X +(z1−α/2) · S ′√

]Intervalo aproximado para µ si n > 30 y la poblacion es Normal.

Siendo tn−1,1−α/2 el valor de la tabla t que acumula 1− α/2 de probabilidad a su

izquierda, para n− 1 grados de libertad.

Pero si la muestra es pequena, y proviene de una poblacion Normal, el intervalo

de confianza para µ es[X −

(tn−1,1−α/2

Ejemplo: Supongamos que mi muestra esta compuesta por 100 varones de entre

20 y 30 anos, sometidos a tension nerviosa, cuya presion diastolica media es X =

10 y cuya varianza es S2 = 0, 81. Supongamos tambien que la variable presion

diastolica se distribuye Normal en la poblacion. Si busco obtener un intervalo

aproximado para µ, que tenga un 95 % de confianza, entonces 1–α = 0, 95 de

donde 1 − α/2 = 0, 975 y si voy a la tabla con valores Normales (0, 1), veo que

el valor z que acumula 0, 975 de probabilidad, es 1, 96 , y anoto z1−α/2 = 1, 96 .

Con todos estos datos, calculo ε:

ε =z1−α/2S

′√n

para el intervalo de confianza aproximado para µ:

ε = (1, 96) ·√

10= 0, 1764

Y construyo en intervalo de confianza aproximado al 95 % para µ, que es:

[10–0, 1764; 10 + 0, 1764]

o sea [9, 8236; 10, 1764].

Con este resultado, afirmo que la probabilidad, de que la presion diastolica media

entre todos los varones de entre 20 y 30 anos que estan sometidos a tension

nerviosa , este entre 9, 8 mmHg y 10, 2 mmHg, es de 0, 95.

Si deseo calcular el intervalo de confianza exacto para µ, debo ir a la tabla de

la distribucion t, y observar cuanto es t99 para una probabilidad acumulada de

0, 975: es t99;0,975 = 1, 9842.

Entonces, ε = (1, 9842),0, 91/10 = 0, 1806 y el intervalo de confianza al 95 % para

µ que es [10–0, 1806; 10 + 0, 1846] o sea [9, 8194; 10, 1806].

3.3.3. Intervalo de confianza para una proporcion

Para comprender, en terminos estadısticos , que es una proporcion definamos una

nueva variable aleatoria: Una variable aleatoria X se denomina de Bernouilli con

parametro p, si toma solo dos valores

1 si ocurre el exito

0 si ocurre el fracaso

Donde el parametro p es:

p = P (X = 1) = “probabilidad de que ocurra el exito”

Se cumple que E(X) = µX = p, es la proporcion de exitos en la poblacion

Por lo tanto el parametro p es una media poblacional, y podemos encontrar

un intervalo de confianza para el: si el valor de p: proporcion de exitos en la

poblacion, es desconocido, podemos calcular el valor de X : proporcion de exitos

en la muestra, y realizar la inferencia correspondiente.

Ası como se dijo que X (media muestral) es un buen estimador de µ(media

poblacional) , y se escribe:

µ = X

Tambien se dice que X : proporcion de exitos en la muestra es un buen estimador

de p (proporcion poblacional), y se escribe por ello:

proporcion de exitos en la muestra

Al igual que antes, podemos estimar de dos formas, el verdadero valor de p, a

partir de p, la proporcion muestral:

Estimacion Puntual de p: Se estima el verdadero valor de p = µX , a partir

del valor particular de p = X , proporcion muestral.

E stimacion de p por intervalo de confianza: En este caso, para la distribu-

cion de p = X , se aplicara el Teorema de De-Moivre Laplace (ver anexo al

bloque 2), donde surge que la variable

Z =X − np√np(1− p)

n→∞−→ N(0, 1)

donde X es la cantidad de exitos en la poblacion.

Y el intervalo de confianza para la proporcion poblacional p es :[p−

z1−α/2 ·√p(1− p)√n

; p+z1−α/2 ·

√p(1− p)√n

Ejemplo: Queremos estimar en Uruguay, la proporcion de personas de mas de 60

anos, que tienen problemas cardıacos (exito). Con ese fin, extraemos una muestra

aleatoria de tamano 500, dentro de la poblacion de interes. Encontramos que

la cantidad de personas de la muestra que tienen problemas cardıacos son 6,

con lo cual la proporcion de personas con problemas cardıacos en la muestra es

p = 6/500 = 0, 012, estimacion puntual de p. Y el intervalo de confianza al 99 %

de confianza es

[0, 012−

z1−0,01/2 ·√

0, 012(1− 0, 012)√500

; 0, 012 +z1−0,01/2 ·

√0, 012(1− 0, 012)√

]donde z1−0,01/2 = z0,995 = 2, 58

Y entonces el intervalo de confianza al 99 %, para p, queda [−0, 00056; 0, 02456]

Se interpreta diciendo que 0, 99 es la probabilidad de que la proporcion de per-

sonas de mas de 60 anos con problemas cardıacos, este entre 0 % y 2, 456 %.

3.4. Prueba de Hipotesis

Hasta ahora hemos estudiado como, a partir de una muestra de una variable

extraıda de una cierta poblacion, podemos obtener una estimacion puntual o

bien establecer un intervalo mas o menos aproximado, para acercarnos a conocer

los parametros que caracterizan dicha variable aleatoria en esa poblacion.

Pueden presentarse en la practica, situaciones en las que exista una teorıa pre-

concebida, relativa a la caracterıstica de la poblacion sometida a estudio. Tal

serıa el caso, por ejemplo si pensamos que un nuevo tratamiento medico puede

tener un porcentaje de mejorıa mayor que otro tratamiento estandar, o cuando

nos planteamos si los ninos de los distintos departamentos del Uruguay tienen el

mismo desempeno escolar.

Este tipo de circunstancias son las que nos llevan al estudio de la parte de la

Estadıstica Inferencial que recibe el nombre de Contraste o Prueba de Hipotesis.

Esta implica ciertas pasos:

1. Planteamiento de dos teorıas o hipotesis, que denominaremos

hipotesis nula (H0) e hipotesis alternativa (H1) que, de alguna manera,

reflejaran esa idea a priori que tenemos y que pretendemos contrastar con

la “realidad”, observada a traves de la muestra extraıda.

La Hipotesis nula reflejara la idea conservadora, que reflejara la “perma-

nencia” el “no cambio”, aquella idea que el investigador esta dispuesto a

creer a priori; mientras que en la hipotesis alternativa, como lo dice su nom-

bre, plantearemos que “las cosas pueden ser diferentes” a lo que pensamos

habitualmente. A veces, H1 es la negacion de H0, pero no necesariamente

debe ser ası.

La logica implıcita en la prueba de hipotesis es una logica conser-

vadora: mientras no tengamos suficientes elementos (a partir de la

evidencia que brinda la muestra) para afirmar que Ho no se cumple,

“no la rechazaremos”. Es decir, las conclusiones que saquemos seran que:

Rechazamos H0 o No rechazamos H0.

Durante el procedimiento anterior, implıcitamente, se dan diferentes tipos

de errores que podemos cometer, debido a que, habitualmente, el estu-

dio y las conclusiones que obtengamos para una poblacion cualquiera, se

habra apoyado exclusivamente en el analisis de solo una parte de esta.

La realidad puede ser que H0 sea cierta o que H0 no sea cierta. Si intersec-

tamos estos dos sucesos con las dos decisiones posibles, arriba mencionadas,

tendremos los dos errores posibles en el cuadro siguiente:

a) Rechazar H0 cuando esta es cierta, al cual llamaremos error de tipo 1

(el mas grave) y cuya probabilidad de ocurrencia designaremos con la

letra alfa.

P (“Rechazar H0 dado H0 cierta”) = α

b) No rechazar H0, cuando esta es falsa, al cual llamaremos error de tipo

2, y cuya probabilidad de ocurrencia designaremos con la letra beta.

P (“No rechazar H0 dado H0 falsa”) = β

De la probabilidad con la que estemos dispuestos a asumir estos errores,

dependera, por ejemplo, el tamano de la muestra requerida.

no rechazar H0 rechazar H0

H0 es cierta Correcto (Probabilidad: 1− α) Error tipo 1 (Probabilidad: α)

H0 es falsa Error tipo 2 (Probabilidad: 1− β) Correcto (Probabilidad: β)

3.4 Prueba de Hipotesis 127

2. Decision acerca de cual sera el estadıstico que resuma adecuada-

mente la informacion muestral, en relacion al parametro o caracterıstica

poblacional, acerca del cual se va a llevar a cabo el contraste.

3. Division del espacio muestral en dos regiones no solapadas: region

crıtica (donde se rechaza H0) y region de aceptacion (donde no se rechaza

H0). La region crıtica se establece, fijando de antemano el error de

tipo 1 en un pequeno valor α, llamado nivel de significacion, de forma

que la probabilidad de que el estadıstico tome un valor en ella, cuando la

hipotesis nula es cierta, sea alfa. De esta forma, solo nos equivocaremos en

nuestra decision, al cometer el error mas grave, un alfa.100 % de las veces.

4. Obtencion de la muestra de un determinado tamano, la cual nos dara in-

formacion acerca de la caracterıstica poblacional de interes.

5. Calculo del estadıstico en la muestra recogida.

6. Resolucion de la prueba de hipotesis o decision: Si el valor muestral

del estadıstico cae en la region crıtica, se rechaza H0. Si cae en la region de

aceptacion, entonces no se rechaza H0.

Los contrastes desarrollados en este capıtulo se apoyan en el supuesto de que los

datos de la poblacion de partida siguen una distribucion Normal.

La verificacion de este supuesto implica una prueba de hipotesis previa (test de

Kolmogorof-Smirnoff), que por su complejidad, no explicaremos en este curso.

3.4.1. Sıntesis de algunos Test Parametricos

Seran presentados a traves de ejemplos:

Ejemplo 1

Por fistulizacion se obtuvo el PH de 6 muestras de bilis hepatica con los siguientes

resultados:

7, 83; 8, 52; 7, 32; 7, 79; 7, 57; 6, 58

Se desea saber al nivel de significacion del 0, 05 si la bilis hepatica puede con-

siderarse neutra (PH = 7). Si se conociera σ = 0, 5, ¿que decision tomarıamos

Solucion:

El PH de la bilis hepatica es considerada una variable aleatoria Normal X, con

media µ, desconocida, y desvıo standard σ = 0, 5 conocido.

1. Planteo de la prueba de hipotesis:

H0) µ = 7

H1) µ 6= 7

A esta prueba se la llama prueba de hipotesis o contraste de dos

colas.

α = 0, 05 = probabilidad del error de tipo 1

2. Estadıstico: X pues es el mejor estimador de µ. Lo calculamos : X = 7, 60

Este valor es distinto a 7, pero no podemos asegurar que la media pobla-

cional no sea 7, pues la media muestral tiene variacion y no siempre es igual

a la media de la poblacion.

La variacion de X se debe a que es una variable aleatoria que, como vimos

anteriormente tiene una cierta distribucion: X se distribuye Normal con

parametros (µ, σ2/n).

3. Region crıtica implica los valores de X que me llevan a rechazar H0.

Se debe cumplir que:

P (“ Rechazar H0 dado H0 cierta”) = 0, 05 = α

pues establecimos como dato, que queremos esa probabilidad de error de

tipo 1. Rechazamos H0, es decir rechazamos que µ sea 7, si X esta alejada

de 7. Y por el contrario No rechazamos H0 si X esta cerca de 7, a menos

de ε de distancia, es decir si se cumple, matematicamente que

X ∈ (7− ε, 7 + ε)⇔ 7− ε < X < 7 + ε

Busco encontrar el valor de ε y ası calcular los valores crıticos 7− ε y 7 + ε

para obtener la Region de Aceptacion (7 − ε, 7 + ε) (e implıcitamente la

Region Crıtica, que es el complemento, en R).

P (“Rechazar H0 dado H0 cierta ”) = 0,05 entonces

P (“No rechazar H0 dado H0 cierta ”) = 0,95 entonces

P (“X pertenezca a la region de aceptacion, dado H0 cierta ”) = 0,95 entonces

P (7− ε < X < 7 + ε), dado H0 cierta ) = 0,95

Entonces, busco dejar en el medio de la desigualdad, una variable con dis-

tribucion tabulada que me permita encontrar los extremos del intervalo.

Se que (X−µ)√n

σ∼ N(0, 1). Recordando que µ = 7 si H0 es cierta, tenemos

P (−ε < X − 7 < ε) = 0,95

P(−ε√n

σ< (X−µ)

σ< ε

√nσ

)= 0,95

Por lo tantoε√n

σ= z1−0,05/2 = z0,975 = 1,96

de donde obtenemos que ε = 0,4. Por lo tanto la Region de Aceptacion son

las muestras que cumplen que X ∈ (6,6; 7,4).

Simplificando el procedimiento para encontrar la Region Crıtica podemos

decir que la Region Crıtica esta formada por aquellas muestras tales que:

|z0| =∣∣∣∣(X − µ0)

∣∣∣∣ ≥ z1−α/2

siendo z0 un estadıstico cuando H0 se cumple.

En el caso de mi muestra se cumple que:

X = 7,6⇒ (X−µ0)√n

σ= (7,6−7)

0,5= 2,94

α = 0,05⇒ z1−α/2 = z0,975 = 1,96

Como 2,94 > 1,96 estamos en la Region Crıtica, entonces Rechazo H0.

Conclusion: Con un 95 % de confianza, puede afirmarse que el PH (prome-

dio) de la bilis hepatica no es 7.

Prueba de Hipotesis para µ con σ conocido

Contraste de dos colas o bilateral

1) Planteo de Hipotesis 1) Planteo del Hipotesis

y nivel de significacion y nivel de significacion

H0 : µ = µ0 H0 : µ = 7

H1 : µ 6= µ0 H1 : µ 6= 7

nivel de significacion α α = 0,05

2) Estadısticos 2) Estadısticos

X =Pni=1Xin

X = 7,6

Z0 = (X−µ)√n

σz0 = (7,6−7)

0,5= 2,94

Estadıstico, si se cumple H0

3) Region Crıtica y Decision 3) Region Crıtica y Decision

Si |z0| ≥ z1−α/2 rechazo H0 z0 = 2,94, z1−α/2 = z0,975 = 1,96

Si |z0| < z1−α/2 no rechazo H0 como |z0| = 2,94 > 1,96 rechazo H0

4) Conclusion 4) Conclusion

Con un 95 % de confianza puede afirmarse

que el PH (promedio) de la bilis

hepatica no es 7

Ejemplo 2

En el ejemplo anterior, ¿ podemos considerar que la bilis hepatica es alcalina (con

PH mayor a 7) ?

Solucion:

Ahora la prueba de hipotesis implica la misma hipotesis nula (µ = 7) pero otra

hipotesis alternativa (µ > 7). A esta prueba se la llama prueba de hipotesis o

contraste de una cola. Por lo tanto, con respecto al ejemplo anterior, tendremos

otra region crıtica (y por lo tanto otra region de aceptacion).

Se resume el procedimiento en el siguiente cuadro:

Prueba de Hipotesis para µ con σ conocido

Contraste de una cola o unilateral

H0 : µ = µ0 H0 : µ = 7

H1 : µ > µ0 H1 : µ > 7

X =Pni=1Xin

X = 7,6

Z0 = (X−µ)√n

σz0 = (7,6−7)

0,5= 2,94

Si z0 ≥ z1−α rechazo H0 z0 = 2,94, z1−α = z0,95 = 1,64

Si z0 < z1−α no rechazo H0 como z0 = 2,94 > 1,64 rechazo H0

hepatica es alcalina

Ejemplo 3

Supongamos ahora que no conocemos la desviacion standard del grado de PH de

la bilis hepatica, y lo debemos estimar a partir de la muestra obtenida. ¿ Podemos

considerar ahora que la bilis hepatica es neutra ?.

Solucion:

La prueba de hipotesis es similar a la del ejemplo 1, excepto en el estadıstico pues

al tener que estimar σ, este cambia: ya no tenemos una distribucion Normal (0,1),

sino que ahora tendremos la distribucion t con n-1 grados de libertad (recordar

intervalo de confianza para µ con σ desconocida)

Estimamos σ a partir de la raız cuadrada de la cuasivarianza muestral.

σ2 = n·S2

n−1= S ′2

donde S2 =∑X2i /n− X2 = 348,77

6− (7, 6)2 = 0, 368

σ2 = 6·0,3685

= 0,442 = S ′2

⇒ σ = 0,66 = S ′

Se resume el procedimiento en el siguiente cuadro:

Prueba de Hipotesis para µ con σ desconocido

Contraste de dos colas o bilateral

H0 : µ = µ0 H0 : µ = 7

H1 : µ 6= µ0 H1 : µ 6= 7

X =Pni=1Xin

X = 7,6

S ′ =√

n−1con S2 =

∑X2i /n− X2 S ′ = 0,66

T0 = (X−µ0)√n

S′T0 = (7,6−7)

0,66= 2,23

con distribucion tn−1

Si |t0| ≥ tn−1,1−α/2 rechazo H0 tn−1,1−α/2 = t5,0,95 = 2,015

Si |t0| < tn−1,1−α/2 no rechazo H0 como |t0| = 2,23 > 2,015 rechazo H0

hepatica no es 7

3.5. La Inferencia Estadıstica no Parametrica

Hasta ahora presentamos ejemplos de pruebas de hipotesis que involucran afir-

maciones acerca de parametros poblacionales desconocidos, lo cual entra dentro

de lo que se denomina Inferencia Estadıstica Parametrica.

Ahora, en la Inferencia Estadıstica No Parametrica, las hipotesis no tendran

parametros sino que involucraran afirmaciones acerca de alguna caracterıstica

estadıstica de la poblacion, como por ejemplo seran del tipo: las observaciones son

independientes, la distribucion de la variable en estudio es normal, la distribucion

es simetrica, etc.

En este curso presentaremos un test no parametrico que es util para decidir si

dos variables son o no independientes.

3.5.1. Test de independencia de dos variables:

Explicaremos el mecanismo de esta prueba de hipotesis a la luz de un ejemplo.

Ejemplo 4

Se encuesta a 400 ciudadanos uruguayos y se les hizo dos preguntas:

1) ¿ De que afiliacion polıtica es? Para simplificar el estudio de esta variable

se les pidio que se definieran por izquierda o derecha.

2) ¿ Esta de acuerdo con la aprobacion de la ley ZZZ ? Los valores de esta

variable se clasifican en tres categorıas: a favor, indeciso o en contra

Una vez obtenidas las respuestas (suponiendo que todos ellos contestan ambas

preguntas), se armo la tabla siguiente, y se completo con los datos conseguidos a

traves de la encuesta:

3.5 La Inferencia Estadıstica no Parametrica 137

A favor Indecision En contra

Derecha 68 22 110

Izquierda 92 18 90

Nuestro objetivo es averiguar si hay independencia o, por el contrario, hay

relacion, entre la opinion sobre una determinada ley (una variable) y la tendencia

polıtica (la otra variable). Para ello se deben seguir los siguientes pasos:

1. Plantear la Prueba de Hipotesis:

H0) No hay asociacion entre las dos variables (son independientes)

H1) Existe cierto grado de asociacion o dependencia entre ellas.

2. Computar las frecuencias observadas ( n0 ) y completar el cuadro

descriptivo con los totales.

A favor Indecision En contra Total

Derecha 68 22 110 200(50 %)

Izquierda 92 18 90 200(50 %)

Total 160 40 200 400(100 %)

Observacion: Se observa que existe: un 50 % de afiliados a la derecha y

un 50 % de afiliados a la izquierda.

Si las opiniones no dependieran del perfil polıtico (H0), entonces

dichos porcentajes se deberıan mantener dentro de cada opinion (a favor,

en contra o indecision).

3. Calcular las frecuencias esperadas: ne ( frecuencias esperadas, si se

cumple H0: variables independientes):

Por ejemplo:

P (Derecha y A favor)si hay indep

= P (Derecha) ·P (Afavor) =160

400· 200

400= 0, 2

Entonces la frecuencia esperada correspondiente a la categorıa Derecha-A

favor es: 0, 2 · 400 = 80

P (Izquierda e indeciso)si hay indep

= P (Izquierda)·P (indeciso) =200

400· 40

400= 0, 05

Entonces la frecuencia esperada correspondiente a la categorıa Izquierda-A

favor es: 0, 05 · 400 = 20

Y ası se calculan analogamente todas las frecuencias esperadas y se completa

el cuadro de frecuencias esperadas:

A favor Indecision En contra

Derecha 80 20 10

Izquierda 80 20 100

4. Calcular el estadıstico χ-cuadrado o Estadıstico de Pearson ob-

servado, que se define de la siguiente forma:

χ2observado =

∑ (n0 − ne)2

Cuadro de ayuda para el calculo del estadıstico de Pearson observado:

no ne no–ne (no–ne)2 (no − ne)2/ne

68 80 −12 144 1,8

92 80 12 144 1,8

22 20 2 4 0,2

18 20 −2 4 0,2

110 100 10 100 1

90 100 −10 100 1

Total: 6

χ2obs =

∑ (no−ne)2ne

= (68−80)2

80+ (92−80)2

80+ (22−20)2

20+ (18−20)2

20+ (110−100)2

100+ (90−100)2

100= 6

Por lo tanto: el estadıstico de Pearson observado vale 6

5. Buscar el estadıstico chi cuadrado crıtico o sea aquel que permite

construir la region crıtica y decidir. Primero hay que calcular los grados de

libertad, que se definen de la siguiente forma.

Grados de libertad: (no de categorıas en las filas –1) · (no categorıas en las columnas –1 )

O sea : (2–1) · (3–1) = 2 grados de libertad.

Busco el valor de la distribucion χ2 correspondiente a dos grados de libertad,

con una confianza 1−α (α es la probabilidad del error de tipo 1: decir que

existe relacion entre las variables, cuando son independientes).

Si busco tener un nivel de confianza del 95 %, entonces hallo x tal que

P (χ2 < x) = 0, 95.

Buscando en la tabla de la distribucion χ2 (se presenta a continuacion), se

obtiene que x = 5, 99 (estadıstico crıtico con 2 grados de libertad y

que acumula 0,95 de probabilidad).

6. Regla de decision:

Si el estadıstico observado es mayor que el crıtico, entonces rec-

hazo H0 Si es menor o igual al crıtico, entonces no rechazo H0.

7. Decision:

95 % de confianza: (en cinco de cada 100 muestras me puedo equivocar en

mi decision)

Como 6 > 5, 99, entonces Rechazamos H0 (rechazo la independencia entre

las variables).

Con un 95 % de confianza puedo pensar que existe cierto grado de depen-

dencia entre las variables.

Observacion:

Si deseo elevar mi nivel de confianza al 97 % y con ello disminuir la proba-

bilidad del error de tipo 1 (α) a un 3 %, mi decision va a cambiar, en este

Si busco tener un nivel de confianza del 97 %, entonces hallo el valor x tal

que P (χ2 < x) = 0, 97.

Buscando en la tabla de la distribucion χ2 (se presenta a continuacion), se

obtiene que x = 7, 38. (estadıstico crıtico con 2 grados de libertad

y que acumula 0,97 de probabilidad).

97 % de confianza: (en tres de cada 100 muestras me puedo equivocar en

mi decision).

Como 6 < 7, 38, entonces No rechazo H0 (no rechazo que haya independen-

Con un 97 % de confianza no rechazo que haya independencia. O sea, la

evidencia observada no me permite negar la posibilidad de que las variables

puedan ser independientes.

Tabla de la distribucion χ2:

P (χ2n ≥ x)=α

Grados de libertad\ α 0,1 0,05 0,03 0,01 0,01

1 2,71 3,84 5,02 6,63 7,88

2 4,61 5,99 7,38 9,21 10,6

3 6,25 7,81 9,35 11,34 12,84

4 7,78 9,49 11,14 13,28 14,86

5 9,24 11,07 12,83 15,09 16,75

6 10,64 12,59 14,45 16,81 18,55

7 12,02 14,07 16,01 18,48 20,28

8 13,36 15,51 17,53 20,09 21,95

9 14,68 16,92 19,02 21,67 23,59

10 15,99 18,31 20,48 23,21 25,19

11 17,28 19,68 21,92 24,73 26,76

12 18,55 21,03 23,34 26,22 28,3

13 19,81 22,36 24,74 27,69 29,82

14 21,06 23,68 26,12 29,14 31,32

15 22,31 25 27,49 30,58 32,8

16 23,54 26,3 28,85 32 34,27

17 24,77 27,59 30,19 33,41 35,72

18 25,99 28,87 31,53 34,81 37,16

19 27,2 30,14 32,85 36,19 38,58

20 28,41 31,41 34,17 37,57 40

21 29,62 32,67 35,48 38,93 41,4

22 30,81 33,92 36,78 40,29 42,8

23 32,01 35,17 38,08 41,64 44,18

24 33,2 36,42 39,36 42,98 45,56

25 34,38 37,65 40,65 44,31 46,93

26 35,56 38,89 41,92 45,64 48,29

27 36,74 40,11 43,19 46,96 49,65

28 37,92 41,34 44,46 48,28 50,99

29 39,09 42,56 45,72 49,59 52,34

30 40,26 43,77 46,98 50,89 53,67

40 51,81 55,76 59,34 63,69 66,77

50 63,17 67,5 71,42 76,15 79,49

60 74,4 79,08 83,3 88,38 91,95

70 85,53 90,53 95,02 100,43 104,21

80 96,58 101,88 106,63 112,33 116,32

90 107,57 113,15 118,14 124,12 128,3

100 118,5 124,34 129,56 135,81 140,17

3.6. Ejercicios

1. Hallar los valores x tales que se cumplan las condiciones impuestas:

a) T se distribuye t con 6 grados de libertad y P (T < x) = 0, 975

b) T se distribuye t con 30 grados de libertad y P (T < x) = 0, 995

c) T se distribuye t con 10 grados de libertad y P (T > x) = 0, 05

d) T se distribuye t con 15 grados de libertad y P (T > x) = 0, 005

2. Se quiere estimar el resultado de un referendum mediante un sondeo. Para

ello se realiza un muestreo aleatorio simple con n = 100 personas y se ob-

tienen que 35 de ellos votaran a favor y 65 votaran en contra (suponemos

que no hay indecisos para simplificar el problema, a una variable dicotomi-

ca). Con un nivel de significacion del 5 %, calcule un intervalo de confianza

para el verdadero resultado de las elecciones.

3. Los analistas de la empresa que realiza el sondeo no estan conformes con los

resultados de la encuesta anterior. En particular les parece que el margen de

error es muy grande. Deciden fijar este error en 1 punto porcentual, como

maximo y buscan tambien tener un nivel de confianza de 97 % ¿ Como

pueden conseguir estos objetivos ?

4. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos

sanos, obteniendose

0, 98; 0, 85; 0, 77; 0, 92; 1, 12; 1, 06; 0, 89; 1, 01; 1, 21; 0, 77

¿Cuanto vale la produccion diaria media de bilis en individuos sanos,

suponiendo que la muestra ha sido obtenida por muestreo aleatorio sim-

ple sobre una poblacion Normal? Considerar una confianza del 95 %.

3.6 Ejercicios 145

5. La cantidad mınima requerida para que un anestesico surta efecto en una

intervencion quirurgica fue por termino medio de 50 mg, con una desviacion

tıpica de 10, 2 mg, en una muestra de 60 pacientes. Obtener un intervalo de

confianza para la media, al 99 %, suponiendo que la muestra fue extraıda

mediante muestreo aleatorio simple sobre una poblacion Normal.

6. Un investigador esta interesado en estimar la proporcion de muertes debidas

a cancer de estomago en relacion con el numero de defunciones por cualquier

tipo de neoplasia. Su experiencia le indica que serıa sorprendente que tal

proporcion supere el valor de 1/3. ¿Que tamano de muestra debe tomar

para estimar la anterior proporcion, con una confianza del 98 %, para que

el valor estimado no difiera del valor real en mas de 0, 03?.

7. Un cardiologo se encuentra interesado en encontrar lımites de confianza al

90 %, para la presion sistolica tras un cierto ejercicio fısico. Obtenerlos, si en

50 individuos se obtuvo x = 13, S = 3 y suponemos que el comportamiento

de la variable sistolica es Normal.

8. En una muestra de 25 bebes varones de 12 semanas de vida se obtuvo un

peso medio de 5,900 gr y una desviacion tıpica de 94 gr.

a) Obtener un intervalo de confianza (al 95 %) para el peso medio pobla-

cional.

b) ¿Cuantos ninos habra que tomar para estimar dicha media con una

precision de 15 gr?

9. En un determinado servicio odontologico se sabe que el 22 % de las visitas

llevan consigo una extraccion dentaria inmediata. En cierto ano, de 2.366

visitas, 498 dieron lugar a una extraccion inmediata. ¿ Entran en contradic-

cion las cifras de ese ano con el porcentaje establecido de siempre?

10. Solo una parte de los pacientes que sufren un determinado sındrome neu-

rologico consiguen una curacion completa. Si de 64 pacientes observados,

se han curado 41, dar una estimaciones puntual y un intervalo, de la pro-

porcion de los que sanan. ¿Que numero de enfermos habra que observar

para estimar la proporcion de curados con un error inferior a 0,05 y una

confianza del 95 %?

11. En una determinada region se tomo una muestra aleatoria de 125 individ-

uos, de los cuales 12 padecıan afecciones pulmonares.

a) Estımese la proporcion de afecciones pulmonares en dicha region.

b) Si queremos estimar dicha proporcion con un error maximo del 4 %,

para una confianza del 95 %, ¿que tamano de muestra debemos tomar?

12. En una muestra de tabletas de aspirinas, de las cuales observamos su peso

expresado en gramos, obtenemos:

1, 19; 1, 23; 1, 18; 1, 21; 1, 27; 1, 17; 1, 15; 1, 14; 1, 19; 1, 2

Suponiendo la Normalidad para esta distribucion de pesos, determinar un

intervalo al 80 % de confianza para el peso promedio de las aspirinas.

13. Se quiere estimar la incidencia de la hipertension arterial en el embarazo.

¿Cuantas embarazadas tenemos que observar para, con una confianza del

95 %, estimar dicha incidencia con un error del 2 % en los siguientes casos:

a) Sabiendo que un sondeo previo se ha observado un 9

b) Sin ninguna informacion previa.

Ejercicios de Prueba de Hipotesis:

3.6 Ejercicios 147

En todos los problemas que siguen a continuacion, se supone que las mues-

tras han sido elegidas de forma independiente, y que las cantidades cuanti-

tativas que se miden, se distribuyen segun una distribucion Normal.

14. El calcio se presenta normalmente en la sangre de los mamıferos en con-

centraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La

desviacion tıpica normal de esta variable es 1 mg de calcio por cada 100 ml

del volumen total de sangre. Una variabilidad mayor a esta puede ocasionar

graves trastornos en la coagulacion de la sangre. Una serie de nueve pruebas

sobre un paciente revelaron una media muestral de 6,2 mg de calcio por 100

ml del volumen total de sangre, y una desviacion tıpica muestral de 2 mg

de calcio por cada 100 ml de sangre. ¿Hay alguna evidencia, para un nivel

α = 0, 05, de que el nivel medio de calcio para este paciente sea mas alto

del normal?

15. El numero de accidentes mortales en una ciudad es, en promedio, de 12

mensuales. Tras una campana de senalizacion y mejoramiento de las vıas

urbanas se contabilizaron en 6 meses sucesivos: 8, 11, 9, 7, 10, 9 accidentes

mortales. ¿Fue efectiva la campana ?

16. El promedio de las puntuaciones de un numero elevado de alumnos de

Bioestadıstica es de 7,50. Un determinado ano se examinaron 50 alumnos

con resultados promedio de 8,25 y desviacion tıpica de 1. ¿Variaron las

calificaciones?.

17. El peso medio de mujeres de 20 a 30 anos es de 53 kg. Un estudio realizado

en 16 mujeres de tales edades que siguen una dieta vegetariana da x = 50

y S = 5. ¿Modifica la dieta el peso medio?

18. Una poblacion infantil se dice que es susceptible de recibir una campana

educacion e higiene si su porcentaje de ninos con dientes cariados es superior

al 15 %. Una poblacion con 12.637 ninos, ¿debe hacerse la campana si de

387 de ellos 70 tenıan algun diente cariado?

19. Un 8 % de los individuos que acuden a un servicio sanitario son hiperuti-

lizadores del mismo (mas de 11 visitas al ano) y, de entre ellos, un 70 %

son mujeres. De entre los no hiperutilizadores, son mujeres el 51 %. ¿Puede

afirmarse que han variado los habitos de estas si, tras una campana de in-

formacion y control de visitas, de 90 mujeres elegidas al azar 6 resultaron

hiperutilizadoras?

20. Se conoce que un 20 % de los individuos tratados cronicamente con digoxina

sufren una reaccion adversa por causa de ella. A 10 pacientes se les admin-

istro durante largo tiempo digoxina mas otros medicamentos, y de ellos 5

desarrollaron la reaccion adversa. ¿Puede afirmarse que la asociacion entre

la digoxina y los otros medicamentos hace variar el numero de reacciones

adversas?

21. Con el proposito de determinar como influye la dinamica familiar sobre el

control metabolico de la glicemia en pacientes diabeticos tratados con hi-

poglicemiantes orales, se procedio a seleccionar una muestra de 80 pacientes

diabeticos a los cuales se les aplico el test del apgar familiar encontrandose

30 pacientes con alteraciones de la dinamica familiar, 40 pacientes no pre-

sentaron alteraciones ni en la dinamica familiar ni en el control metabolico

de la glicemia y solo 30 pacientes presentaron mal control metabolico de la

glicemia.

22. Un grupo de investigadores inicia un estudio de epidemia de hepatitis para la

cual se plantean como hipotesis que las malas condiciones sanitarias favore-

cen la propagacion de los casos, observandose que de 240 sujetos estudiados

27 tenıan hepatitis de los cuales 7 tenıan altas condiciones sanitarias y 80

que no presentaron hepatitis tenıan bajas condiciones sanitarias.

3.6 Ejercicios 149

23. Un investigador plantea un diseno epidemiologico para poner en evidencia

como influye el estrato social sobre el peso al nacer, para lo cual controla

la edad materna y conforma dos grupos uno de 40 con bajo peso y otro de

720 recien nacidos con peso normal observando: que los ninos con bajo peso

30 pertenecıan al estrato social bajo, mientras que de los ninos con peso

normal 700 pertenecıan al estrato social alto.

Solucion de algunos ejercicios:

Correspondientes al Bloque tematico 1:

a) Clasifica todas las variables de la tabla, segun sean cualitativas: nom-

inales u ordinales; o cuantitativas: discretas o continuas.

EDAD: Variable cuantitativa continua, pues existen innumerables val-

ores posibles de edades, entre dos edades distintas cualesquiera.

Nota: El hecho que la variable se mida en anos, no impide que sea

continua. Entre una persona que tiene 30 anos y otra que tiene 31

anos, puede existir otra que tenga 31 anos y 6 meses, y ası el tiempo,

que es continuo, se puede seguir subdiviviendo indefinidadmente.

SEXO: Variable cualitativa nominal, a pesar de los numeros 0 y 1,

pues solo se utilizan para codificar: la adjudicacion de los numeros es

arbitraria.

BH: Bebedor/a habitual: Variable cualitativa nominal, por el mismo

motivo anterior.

TALLA: Variable cuantitativa continua, pues existen innumerables

valores posibles, entre dos alturas o tallas distintas cualesquiera.

PESO: Variable cuantitativa continua.

GLU: Variable cuantitativa continua.

CT : Variable cuantitativa continua.

HDL: Variable cuantitativa continua.

Observacion: es normal que las variables continuas, al medirlas y regis-

trarlas, se redondeen a valores enteros, lo que no impide que pudieran

registrarse con valores decimales, lo que harıa mas evidente su caracter

de continuas.

3.6 Ejercicios 151

b) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a

partir de los datos de la variable edad, de la tabla anterior. Considera

5 intervalos de igual longitud.

Como el mınimo valor de edad, en mi muestra de 40 usuarios del

servicio de salud, es 20 y la maxima edad es 90, la longitud de cada

intervalo sera: ( 90 - 20 ) / 5 = 14

Edades ni hi Porcentaje F ∗i

[20, 34) 10 10/40 = 0, 25 25 0, 25

[34, 48) 21 21/40 = 0, 525 52, 5 0, 775

[48, 62) 4 4/40 = 0, 1 10 0, 875

[62, 76) 3 3/40 = 0, 075 7, 5 0, 95

[76, 90) 2 2/40 = 0, 05 5 1

40 1 100

Interpretacion de algunos valores de la tabla anterior :

En la columna ni, el 21: Entre los usuarios del servicio de salud de la

muestra, hay 21 de ellos que tienen entre 34 y 47 anos de edad.

En la columna hi, el 0,25: Entre los usuarios del servicio de salud de la

muestra, hay un 25 % de ellos que tienen entre 20 y 33 anos de edad.

En la columna Porcentaje, el 10: Entre los usuarios del servicio de

salud de la muestra, hay un 10 % de ellos que tienen entre 48 y 61

anos de edad.

En la columna F ∗i , el 0,775: Entre los usuarios del servicio de salud de

la muestra, hay un 77,5 % de ellos que tienen menos de 48 anos.

c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a

partir de los datos de glucemia de los varones de la tabla anterior.

Glucemia ni hi F ∗i

[80, 120) 7 0, 7 0, 7

[120, 160) 2 0, 2 0, 9

[160, 200) 0 0 0, 9

[200, 240) 1 0, 1 1

Un nivel normal de glucemia es aquel que se encuentra en el intervalo

[75, 100).

A partir de la tabla anterior, calcularemos el porcentaje de hombres

que se encuentran en el intervalo [80, 100), pues no hay nadie en el

intervalo [75, 80).

Para hacerlo utilizaremos una regla de tres simple:

[80, 120) longitud 40 70 %

[80, 100) longitud 20 x = 20 · 70/40 = 35 %

Por lo tanto, a partir de la tabla de frecuencias, vemos que existe

un 35 % de hombres en mi muestra que tienen un nivel normal de

glucemia. A partir de los datos originales, vemos que hay tres hom-

bres con un nivel normal de glucemia, lo cual corresponde a un 30 %.

La diferencia se debe a que el 30 % es real, mientras que el 35 % es

estimado, siguiendo la hipotesis de distribucion uniforme de los datos

en el intervalo correspondiente, lo cual no siempre se cumple. Pero,

a pesar de que este ultimo dato es estimado, es el que mas comun-

mente se calcula, pues los datos originales, luego de construir la tabla

de frecuencias, generalmente no se vuelven a tomar en cuenta.

d) Representa el histograma de la variable talla. Considera 5 intervalos.

3.6 Ejercicios 153

Discrimina por sexo, considerando los mismos intervalos. Compara.

Tallas ni hi f ∗i

[145, 152) 5 0, 125 0, 0178

[152, 159) 10 0, 25 0, 0357

[159, 166) 12 0, 3 0, 0428

[166, 173) 7 0, 175 0, 025

[173, 180] 6 0, 15 0, 0214

Tallas de hombres ni hi f ∗i

[145, 152) 0 0 0

[152, 159) 1 0, 1 0, 0143

[159, 166) 1 0, 1 0, 0143

[166, 173) 5 0, 5 0, 0714

[173, 180] 3 0, 3 0, 0428

3.6 Ejercicios 155

Tallas ni hi f ∗i

[145, 152) 5 0, 16 0, 0228

[152, 159) 9 0, 3 0, 0428

[159, 166) 11 0, 37 0, 0528

[166, 173) 2 0, 07 0, 01

[173, 180] 3 0, 1 0, 0143

Comparando los histogramas, se observa lo esperado: que a nivel global

las estaturas se distribuyen en torno a los valores centrales, sin embargo

las alturas masculinas se concentran en valores altos, y las femeninas,

en valores medio-bajos

e) Representa la tabla de frecuencias de la variable BH, diferenciando por

tres grupos de edades: de 20 a 39 anos, de 40 a 59 anos y de 60 a 90

anos. Compara.

B.H 20a39 hi 40a59 hi 60a90 hi

0 16 0, 7 8 0, 8 5 0, 83

1 8 0, 3 2 0, 2 1 0, 17

24 1 10 1 6 1

Comparando, observamos que: el 30 % de los jovenes de 20 a 39 anos, es

bebedor habitual, el 20 % de los adultos entre 40 y 59 anos es bebedor

habitual, y el 17 % de los adultos mayores de 60 a 90 anos es bebedor

habitual.

Observamos una clara tendencia descendente en la frecuencia de los

bebedores habituales, a medida que avanzamos en los intervalos de

f ) ¿Que puedes decir sobre las medidas de tendencia central de la variable

CT en las mujeres de la tabla? ¿Y sobre su dispersion? Considere 5

intervalos.

Colesterol total ci ni hi F ∗i ci · hi c2i · hi

[158, 198) 178 14 0, 47 0, 47 83, 66 14,891, 48

[198, 238) 218 8 0, 27 0, 74 58, 86 12,831, 48

[238, 278) 258 4 0, 13 0, 87 33, 54 8,653, 32

[278, 318) 298 3 0, 1 0, 97 29, 8 8,880, 4

[318, 358) 338 1 0, 03 1 10, 14 3,427, 32

30 1 216, 0 48,684, 0

El promedio de colesterol total, en las mujeres de esta muestra, es de

216 mg/dl de sangre. (Si lo calculamos a partir de datos originales da

un promedio de 218 mg/dl).

3.6 Ejercicios 157

Calculo la mediana:

Xme = 198 +(0, 5–0, 47)

0,2740

= 202, 44

El 50 % de las mujeres de esta muestra, tienen un valor de colesterol

total de hasta 202,44 mg/dl de sangre . Intervalo modal: [158, 198) .

La mayor parte de las mujeres de esta muestra (un 47

OBSERVAR: Que el promedio (216 mg/dl) no se encuentra en el

intervalo modal [158,198), lo que implica que dicho promedio no rep-

resenta bien a esta muestra, la cual contentra muchos datos (un 47 %)

entre 158 mg/dl y 198 mg/dl. Como el promedio es mayor, esto sugiere

que existen unas “relativamente pocas” mujeres que tienen colesteroles

muy altos, que me influyen en la media y me la “tiran hacia arriba”.

Al observar la tabla de frecuencias se constata lo anterior.

Calculo la varianza, el desvıo standard y el coeficiente de variacion:

S2 = 48,684–(216)2 = 2,028

S = 45, 03

En promedio, los datos de colesterol de las mujeres de esta muestra,

se alejan 45,03 mg/dl del promedio, que es de 216 mg/dl.

C.V =45, 03

216= 0, 21

Esto implica que el desvıo standard es un 21 % de la media, lo cual,

empıricamente, es un valor muy elevado. Esto nos confirma la mala

representatividad de la media en nuestra muestra, y nos sugiere acom-

panarla con las otras medidas de tendencia central, a fin de conocer

las caracterısticas de nuestra muestra, lo mejor posible.

g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( coles-

terol bueno) mas alto que los hombres”, a la luz de esta muestra.

Consultando literatura al respecto, se averiguo cuales son los valores

deseables de HDL y cuales los crıticos, escontrandose lo siguiente: un

nivel de HDL de menos de 40 mg/dl implica un riesgo de cardiopatıa

(incluyendo un posible ataque cardıaco), mientras que un HDL mayor

a 60 ayuda a proteger al individuo contra esta patologıa del corazon.

Por lo tanto, se sugiere considerar los intervalos para la variable HDL,

que aparecen en la siguiente tabla, y organizar los datos segun estos,

discriminados por sexo:

mujeres hombres

HDL(mg/dl) ni hi ni hi

[30, 40) 4 0, 13 4 0, 4

[40, 60) 16 0, 54 4 0, 4

[60, 80] 10 0, 33 2 0, 2

30 1 10 1

En la tabla anterior se observa que el 40 % de los hombres de esta

muestra, tienen muy bajo el HDL o colesterol bueno, contra un 13 %

de las mujeres. Ası como el 33 % de estas tienen un muy buen nivel

de HDL (mayor a 60 mg/dl, que protege de riesgo cardıaco) contra un

20 % de los hombres. Con estos dos argumentos la frase “las mujeres

tienden a tener un colesterol HDL( colesterol bueno) mas alto que los

hombres”, encuentra su confirmacion en esta muestra.

Analizando un poco mas profundidad podemos calcular el nivel medio

3.6 Ejercicios 159

de HDL para hombres y mujeres, por separado.

mujeres hombres

HDL(mg/dl) hi ci hi · ci hi ci hi · ci[30, 40) 0, 13 35 4, 55 0, 4 35 14

[40, 60) 0, 54 50 27 0, 4 50 20

[60, 80] 0, 33 70 23, 1 0, 2 70 14

1 54, 65 1 48

Y obviamente, el promedio de HDL es mas alto en las mujeres que en

los hombres (54,65 mg/dl contra 48mg/dl). Esto era esperado ya por

nosotros pues las frecuencias relativas, arriba comentadas, influyen en

el promedio.

a) x = 2,447

b) x = 2,75

c) x = 1,812

d) x = 2,947

Sea A el suceso hablar ingles: P (A) = 0, 5. Sea B el suceso hablar frances:

P (B) = 0, 2. El suceso hablar frances e ingles es A ∩B : P (A ∩B) = 0, 05.

P (A ∪B) = P (A) + P (B)− P (A ∩B) = 0, 5 + 0, 2− 0, 05 = 0, 65

Sean los siguientes sucesos V y E:

V : “que el individuo este vacunado contra una cierta enfermedad”. P (V ) =

E: “que el individuo contraiga la enfermedad anterior”. P (E) = 0, 2

P (V ∩ E) = 0, 02

Calculo P (E|V ) y P (V |E)

P (E|V ) = P (V ∩ E) · P (V ) = 0,02 · 0, 6 = 0, 012

P (V |E) = P (V ∩ E) · P (E) = 0,02 · 0, 2 = 0, 004

[3] Tomamos los porcentajes como probabilidades de curar. Sean los sigu-

ientes eventos:

As e=“el tratamiento A surte efecto”

Bs e=“el tratamiento B surte efecto”

analoga notacion para el resto de los eventos.

P (“curar en a)”) = P(As e ∪Bs e

)− P

(As e ∩Bs e

)indep= 0,2 + 0,3− 0,2 · 0,3 = 0,44

P (“curar en b)”) = P(As e ∪ [Bs edado queAno s e]

)disjuntos

= P(As e

([Bs edado queAno s e]

)indep= 0,2 + 0,3 = 0,5

3.6 Ejercicios 161

Notemos que es mas efectivo aplicar primero B y si no da resultado aplicar

A, que aplicar los dos al mismo tiempo. Es importante discutir y plantearse

que esta sucediendo para que suceda esto aparentemente anti intuitivo.

[5] Recordemos que falso positivo es diagnosticar positivamente una

enfermedad dado que el paciente no esta enfermo. De forma analoga,

falso negativo es diagnosticar negativamente una enfermedad dado que el

paciente si esta enfermo.

Sean los eventos:

A+=“se diagnostica positivamente con el analisis A”

A−=“se diagnostica negativamente con el analisis A”

analogo para B+ y B−

E=“el paciente esta enfermo”, Ec=“el paciente no esta enfermo”

Sabemos que P (E) = 0,1, P (A+|Ec) = 0,15, P (A−|E) = 0,07, P (B+|Ec) =

0,22 y P (B−|E) = 0,03

Luego, nos interesa P ([A+ ∩ E] ∩ [A− ∩ Ec]) y P ([B+ ∩ E] ∩ [B− ∩ Ec]).

P ([A+ ∩ E] ∪ [A− ∩ Ec])disjuntos

= P (A+ ∩ E) + P (A− ∩ Ec)

= P (A+|E)P (E) + P (A− ∩ Ec)P (Ec)

= [1− P (A−|E)]P (E) + [1− P (A+|Ec)]P (Ec)

= [1− 0,07] · 0,1 + [1− 0,15] · 0,9 = 0,858

P ([B+ ∩ E] ∪ [B− ∩ Ec])disjuntos

= P (B+ ∩ E) + P (B− ∩ Ec)

= P (B+|E)P (E) + P (B− ∩ Ec)P (Ec)

= [1− P (B−|E)]P (E) + [1− P (B+|Ec)]P (Ec)

= [1− 0,03] · 0,1 + [1− 0,22] · 0,9 = 0,799

En resumen, La probabilidad de acertar el diagnostico con el analisis A es

0.858 y con en analisis B es 0.799.

Recordemos que la sensibilidad es la proporcion de diagnosticados positi-

vamente sobre el total de enfermos (el complemento del falso negativo), y

la especificidad es la proporcion de diagnosticados negativamente sobre el

total de sanos (el complemento de falsos positivos).

Usando analoga notacion para los sucesos que en el ejercicio anterior, ten-

emos que P (E) = 0,2, S = P (T+|E) = 0,91 y E = P (T−|Ec) = 0,98

P (E|T+) =P (T+|E)P (E)

P (T+|E)P (E) + P (T+|Ec)P (Ec)

=0,91 · 0,2

0,91 · 0,2 + (1− 0,98) · 0,8= 0,919

P (Ec|T−) =P (T−|Ec)P (Ec)

P (T−|Ec)P (Ec) + P (T−|E)P (E)

=0,98 · 0,8

0,98 · 0,8 + (1− 0,91) · 0,2= 0,978

En resumen, La probabilidad de estar enfermo dado que el test dio positivo

es 0.919 y la probailidad de estar sano dado que el test dio negativo es

0.978.

3.6 Ejercicios 163

P (F ) = P (F |H)P (H) + P (F |M)P (M) = 0,7 · 0,4 + 0,2 · 0,6 = 0,4

La probabilidad que un estudiante al azar fume es 0,4.

Al darnos informacion de lo que sucede con el tratamiento y deseamos lo

que sucede con el paciente, podemos tratar de usar el Teorema de Bayes:

P (E|TAC+) =P (TAC+|E)P (E)

P (TAC+|E)P (E) + P (TAC+|Ec)P (Ec)

=0,8 · 0,2

0,8 · 0,2 + 0,03 · 0,8= 0,87

Al darnos informacion de lo que sucede con el animal (segunda etapa) y

pedirnos informacion sobre la primera etapa (de donde proviene el virus)

podemos intentar aplicar el Teorema de Bayes.

Sean los sucesos: E= “el animal se enferma”, A=“el virus aplicado es A”,

analogo para B y C. la probabilidad pedida es:

P (C|E) =P (E|C)P (C)

P (E|A)P (A) + P (E|B)P (B) + P (E|C)P (C)

=17· 5

1013· 3

= 0,234

a) Para hallar esta probabilidad tenemos que tipificar:

P (X ≤ 112) = P (X − 106 ≤ 112− 106)

= P( X − 106

8︸︷︷︸Z∼N(0,1)

≤ 112− 106

)= P (Z ≤ 0,75)

Ahora buscamos en la Tabla Normal, en la primer fila buscamos la

unidad, en este caso 0, y en la primer columna los decimales, en este

caso 0.75 (pues su suma es 0.75 que es lo que deseamos). Donde se

crucen las correspondientes columna y fila es la probabilidad pedida:

P (X ≤ 112) = P (Z ≤ 0,75) = 0,773372

b) Lo que nos piden es P (102 ≤ X ≤ 112) multiplicado por 100 para ser

porcentaje. Luego

P (102 ≤ X ≤ 112) = P (X ≤ 112)− P (X ≤ 102)

tipificando= P (Z ≤ 0,75)− P (Z ≤ −0,5)

Para calcular P (Z ≤ −0,5) recordemos la igualdad para v.a. normales

tipificadas P (Z ≤ −x) = 1− P (Z ≤ x), por lo tanto

P (102 ≤ X ≤ 112) = P (Z ≤ 0,75)− [1− P (Z ≤ 0,5)]

tabla= 0,773372− [1− 0,691462] = 0,464834

c) Analogo al anterior.

d) Analogo al primero.

e) Lo que nos estan pidiendo es hallar x de modo que P (X ≤ x) = 0,75.

Primero debemos estandarizar:

3.6 Ejercicios 165

P (X ≤ x) = P

Z ≤ x− 106

8︸︷︷︸z0,75

= 0,75

Ahora debemos buscar en la tabla, el valor 0.75, pero ojo, no en fila-

columna pues esl valor que nos dan es de una probabilidad, debemos

buscar 0.75 en el “interior” de la tabla y ver a que fila y columna corre-

sponde. En este caso, 0.75 no se encuentra, pero su valor mas proximo

es 0.751747 en la primer columna (0) y en la fila correspondiente a

0.68, por lo tanto z0,75 = 0 + 0,68 = 0,68.

Por ultimo, dbemos hallar x, es decir:

x− 106

8= 0,68⇒ x = 0,68 · 8 + 106 = 111, 44

f ) Es similar al anterior pero ahora recordar que P (Z ≤ z0,25) = 1 −

P (Z ≤ −z0,25) ya que en la tabla no aparecen valores menores a 0.5 y

en este caso −z0,25 sera un valor positivo pues z0,25 es negativo.

a) Nos piden xs tal que P (Xd ≤ xs) = 0,02, por lo tanto tipificamos:

P (Xd ≤ xs) = P (Z ≤ xs − 160

31,4︸︷︷︸z0,02

) = 0,02

Luego, como probabilidades menores a 0.5 no las encontramos en la

tabla, usamos que P (Z ≤ z0,02) = 1− P (Z ≤ −z0,02) = 0,02, entonces

P (Z ≤ −z0,02) = 0,98 y buscando en la tabla obtenemos que −z0,02 =

2,06. Por ultimo

−z0,02 = −xs − 160

31,4= 2,06⇒ xs = −2,06 · 31,4 + 160 =

Por lo tanto, un individuo diabetico con valor de glucemia menor a

xs = 95,316 es considerado sano.

b) Ahora, en la distribucion de los sanos queremos P (Xs ≥ 95,316), lo

cual es puede calcularse mediante el complemento P (Xs ≥ 95,316) =

1− P (Xs ≤ 95,316), tipificando

P (Xs ≤ 95,316) = P

(Z ≤ 95,316− 80

)= P (Z ≤ 1,5316)

tabla= 0,936

Por ultimo, la probabilidad buscada es: P (Xs ≥ 95,316) = 1 −

0,936881 = 0,063119 y solo el 6,3119 % de los sanos seran clasifica-

dos como diabeticos.

c) Consideremos los siguientes sucesos:

D=“el individuo es Diabetico”

S=“el individuo es Sano”

dD=“el individuo es diagnosticado Diabetico”

La probabilidad pedida es P (D|dD). Como nos dan informacion de

lo que sucede con el tratamiento y queremos saber si el paciente es

enfermo o no podemos intentar aplicar Bayes.

P (D|dD) =P (dD|D)P (D)

P (dD|D)P (D) + P (dD|S)P (S)

=0,98 · 0,1

0,98 · 0,1 + 0,063119 · 0,9= 0, 633

La probabilidad de que un diagnosticado diabetico realmente lo sea es

3.6 Ejercicios 167

[2] Dada una persona cualquiera (i) de la poblacion, el resultado de su voto

(Xi) es una variable dicotomica:

1 si vota a favor

0 si vota en contra

Entonces: Xi se distribuye Ber(p) con p = P (Xi = 1)

El parametro a estimar, a traves de un intervalo de confianza con α =

0, 05, es p, y tenemos, sobre una muestra de tamano n = 100, la siguiente

estimacion puntual de p:

p = 35/100 = 0, 35

El intervalo de confianza, al 95 %, para p es: [0,2565; 0,4435] El intervalo

de confianza, al 95 %, para 1− p es: [0,5565; 0,7435]

Afirmamos, con una probabilidad de 0, 95, que los que votaran a favor estan

entre un 25, 65 % y un 44, 35 %. Y los que votaran en contra estan entre

un 55, 65 % y un 74, 35 %. Observar que no es muy precisa la informacion

obtenida, pues tenemos con esa muestra un error aproximado de 9, 3 puntos

porcentuales, al nivel de confianza del 95 %.

[3] Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de

confianza hasta el 97 % (α = 003) hemos de tomar una muestra logicamente

de mayor tamano; llamemosle m a esta nueva muestra.

Un valor de m que satisface nuestros requerimientos con respecto al error

m ≥p(1− p)Z2

1−α/2

Si en un principio no tenemos una idea sobre que valores puede tomar p,

debemos considerar el peor caso posible (el que nos da la maxima varianza),

que es en el que se ha de estimar el tamano muestral cuando p = 1/2.

Ası, en este caso, como no se tiene una idea previa del posible resultado

del referendum, hay que tomar un tamano de muestra, m , que se calcula

mediante:

m ≥ 1

2· (z1−0,03/2)2/(0, 01)2 = 11772, 25

Es decir, que para conseguir estimar con un 97 % de confianza, el porcenta-

je de personas que votan a favor del referendum con un error de un 1 %

maximo, debemos encuestar a por lo menos 11773 persona Ası, para tener

un resultado tan fiable, el numero de personas a entrevistar es muy elevado,

lo que puede volver excesivamente costoso el procedimiento.

[4] La estimacion puntual de la produccion diaria media de bilis, en indi-

viduos sanos, es de X = 0,958 litros. Y la varianza muestral es S2 = 0,019.

Como debo estimar la varianza poblacional, utilizo la tabla t y obtengo

t9, 0, 975 = 2,262. El error de estiamcion es de 0,0987 litros. Por lo tanto,

con un 95 % de confianza decimos que la produccion diaria media de bilis

esta entre 0,859 litros y 1,057 litros.

[5] Con un 99 % de confianza podemos decir que la cantidad mınima re-

querida para que un anestesico surta efecto en una intervencion quirurgica

esta entre 46, 5 mg y 53, 5 mg.

[6] En general, cuando no tenemos datos sobre la proporcion, a los efectos

de estimar la varianza tomamos p = 0, 5 para cubrirnos con la mayor vari-

anza posible. Pero, en este caso tenemos como dato que p es menor a 0, 333.

Y lo usamos para considerar una varianza menor a la maxima y ası tomar

3.6 Ejercicios 169

una muestra menor. Haciendo calculos, se obtiene que se debe tomar una

muestra mayor a 1340, si queremos estimar la proporcion de muertes de-

bidas a cancer de estomago en relacion con el numero de defunciones por

cualquier tipo de neoplasia, con una confianza del 98 %, y no errarle en esa

proporcion en mas de un 0, 03.

[7] Como no conocemos el desvıo poblacional y lo estimamos, usamos la

tabla t. Pero el valor de t49;0,95 no se encuentra en la tabla propuesta en

el teorico correspondiente a este material. Tomamos entonces el valor de

t40, 0, 95 = 1, 684 para cubrirnos mas, pues cuanto menor es el tamano

muestral mayor es el error posible. Ası, obtenemos el intervalo, con un 90 %

de confianza, para la presion sistolica tras un cierto ejercicio fısico:[12,29;

13,71].

[5.861,2; 5.938,8] (usamos t24;0,975 = 2, 064 y la precision es de 38, 8

Para bajar la precision a 15 gr debemos muestrear a 168 bebes varones

de 12 semanas de vida (el calculo da n = 167, 3 pero se redondea

siempre hacia arriba para cubrirse de cumplir con los requerimientos

pedidos). A los efectos del calculo de n, como el desvıo poblacional es

desconocido, se considero el desvıo muestral de la anterior muestra de

25 bebes.

[9] Se considera la variable X, con distribucion Bernoulli, definida ası: X =

1, si la visita de lugar a una extraccion inmediata yX = 0, en caso contrario.

El parametro a estimar es p = proporcion de visitas al servicio odontologico

que da lugar a una extraccion inmediata. De la muestra extraıda obtengo

p = 0, 21 . Un intervalo de confianza, al 95 % es [0,194; 0,226] y al 99 % de

confianza es [0,188; 0,232 ].

En conclusion, como 0,22 forma parte de ambos intervalos, tanto con un

95 % como con un 99 % de confianza, puedo decir que es posible que en ese

servicio odontologico el 22 % de las visitas lleven consigo una extraccion

dentaria inmediata. Por lo tanto las cifras del ano analizado no entran en

contradiccion con el porcentaje estabelcido de siempre.

[14] X: concentracion de calcio en la sangre de los mamıferos (en mg por

cada 100 ml de l total de sangre)

H0) µ = 6

H1) µ > 6

α = 0, 05

X = 6, 2 . Entonces z0 = 0, 6 < 1, 64 = z1−0,05. Entonces , no rechazo H0:

la evidencia muestral no es suficiente como para rechazar que el paciente

tenga un nivel normal de concentracion de calcio en la sangre.

[15] X: numero de accidentes mortales en una ciudad

H0) µ = 12

H1) µ < 12

α = 0, 05

X = 9 y S = 1, 29. Entonces t0 = −5, 7 < t5, z0,05 = −2, 015 . Entonces,

rechazo H0: la campana fue efectiva pues disminuyeron los accidentes de

transito (µ < 12).

[16] X: puntuacion de los alumnos de Bioestadıstica

H0) µ = 7, 5

H1) µ 6= 7, 5

α = 0, 05

3.6 Ejercicios 171

X = 8, 25 . Entonces t0 = 5, 3 > t49, z0,975 aprox t60, z0, 975 = 2. Entonces,

rechazo H0: Variaron las calificaciones (µ distinto de 7)

[17] X: peso de mujeres de 20 a 30 anos , en kg

H0) µ = 53

H1) µ 6= 53

α = 0, 05

n = 16

X = 50 y S = 5. Entonces t0 = −2, 4 , cuyo valor absoluto es 2, 4 > t15,

z0,975 = 2, 231. Entonces, rechazo H0: la dieta vegetariana modifica el peso

(pues µ no es 53, en las mujeres vegetarianas).

Bibliografıa

[1] Hitoshi Kume, Herramientas estadısticas basicas para el mejoramiento de

la calidad. Ed. Norma, Bs. As. 2002.

[2] J.S. Milton, J.O. Tsokos, Estadıstica para Biologıa y Ciencias de la Salud.

Ed. McGraw-Hill, Espana 1989.

[3] Francisca Rıus Dıaz, Francisco Javier Baron Lopez, Elisa Sanchez Font y

Luis Parras Guijosa, Bioestadıstica: metodos y aplicaciones.

http://www.bioestadistica.uma.es/libro/

Bio Est Ad is Tic A

Documents

Transcript of Bio Est Ad is Tic A

Bio Divers Id Ad y Manejo de Plagas en Agroecosistemas

Bio Divers Id Ad de Chile Patrimonio y Desafios

Est Ad Ode Mexico Max

Boletin 2010 Bio Divers Id Ad de Chile

Bio Divers Id Ad en Chile

Ensayo Critico Sobre La Bio Divers Id Ad en El Peru

Est a Bi Lid Ad 1

GEODINAMICA - UnionePratomagno...2.3 - Geomorfologia L'area in esame si trova ad una quota di circa 685 mt. slm, nella parte terminale di un versante esposto ad Est con pendenze del

Est Ad is Tic As

Marco Conceptual Sobre Bio Divers Id Ad

Bio Divers Id Ad de Los Hongos Fitopatogenos

Bio Divers Id Ad de Las Plantas Vasculares de Sonora

Bio Est Ad is Tic A

Capítulo I.- La contradicción es la máxima oposición, y a ...€¦ · non fit reditus a privatione ad habitum; similiter est de quibusdam contrariis immediatis, sicut est de quibusdam

VIII REGIÓN DEL BIO-BIO PROVINCIA DE BIO BIO MUNICIPALIDAD ...

mapa Est Ad Ode México

2004 Plan Accion Bio Divers Id Ad Valle Del Cauca

Est Ad is 02

Est a Bi Lid Ad

Region Bio Bio