Post on 19-Jun-2015
description
Bioestadıstica
Profesorado en Ciencias Biologicas
Marcela Ribas Garcıas
Federico De Olivera Lamas
Material realizado para trabajar guiado por el tutor de semipresencial.
2
Marcela Ribas - Federico De Olivera
Organizacion del curso:
El presente curso de Bioestadıstica estara organizado alrededor de tres bloques
tematicos:
1. El primer bloque esta dedicado a desarrollar los principales instrumentos
metodologicos que se utilizan para describir las caracterısticas de la muestra
(Estadıstica Descriptiva).
2. El segundo bloque hace una revision de algunos aspectos de la teorıa de
las Probabilidades. Dichos aspectos estan seleccionados con el objetivo de
permitir al estudiante comprender el siguiente y ultimo bloque, el cual con-
stituye el nucleo del curso.
3. El tercer bloque presenta a la Inferencia Estadıstica, a traves de algunos de
sus instrumentos, y tiene el objetivo de mostrar el poder que tiene la Es-
tadıstica, como ciencia que busca crear conocimiento acerca de la realidad.
Entendemos que se trata de un curso instrumental, el cual tiene como principal
objetivo que el estudiante de Profesorado en Ciencias Biologica se familiarice con
las herramientas estadısticas que habitualmente se encuentra en la bibliografıa
de esta especialidad. Es por este motivo que de ninguna manera puede permitirse
extenderse en demasıa en los bloques tematicos 1 y 2 y ser escueto en el bloque
tematico 3, pues es el bloque tematico 3 el que realmente tiene los instrumentos
que ayudan al estudiante en su futura formacion.
Estimamos conveniente que se le dedique no mas alla de las vacaciones de julio
para los bloques tematicos 1 y 2 (primer semestre) y luego dedicar con tiempo y
comodidad al tercer y mas importante bloque tematico.
Indice general
I Implementacion del curso 1
0.1. Fundamentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
0.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
0.2.1. Objetivos Generales . . . . . . . . . . . . . . . . . . . . . 4
0.2.2. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . 5
0.3. Rol del Alumno y el Tutor . . . . . . . . . . . . . . . . . . . . . . 5
0.4. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
0.5. Evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
0.6. Cronograma del curso . . . . . . . . . . . . . . . . . . . . . . . . 9
II Contenido disciplinar 21
0.7. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
0.7.1. La Estadıstica y el Metodo Cientıfico . . . . . . . . . . . . 24
0.7.2. ¿Que entendemos por Estadıstica? . . . . . . . . . . . . . 25
Marcela Ribas - Federico De Olivera
iv INDICE GENERAL
0.7.3. Etapas de un estudio estadıstico . . . . . . . . . . . . . . 27
1. La Estadıstica Descriptiva 31
1.1. Conceptos generales . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.1.1. Variables categoricas o de atributo o cualitativas . . . . . . 32
1.1.2. Variables Cuantitativas . . . . . . . . . . . . . . . . . . . . 32
1.2. Analisis de las variablebles cuantitativas agrupadas en intervalos . 35
1.2.1. Tabla de la Distribucion de Frecuencias . . . . . . . . . . . 35
1.2.2. Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.3. Medidad de resumen . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.3.1. Medidas de posicion . . . . . . . . . . . . . . . . . . . . . 41
1.3.2. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . 46
1.4. Ejericicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.5. Artıculos OMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2. La Probabilidad y las Variables Aleatorias 61
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2. Teorıa de las probabilidades . . . . . . . . . . . . . . . . . . . . . 62
2.3. Principales reglas de la Probabilidad . . . . . . . . . . . . . . . . 65
2.4. Variables Aleatorias (v.a) . . . . . . . . . . . . . . . . . . . . . . . 70
2.4.1. Variable aleatoria Normal . . . . . . . . . . . . . . . . . . 72
2.4.2. Tabla de la Distribucion Normal Estandar . . . . . . . . . 73
Marcela Ribas - Federico De Olivera
INDICE GENERAL v
2.4.3. Estandarizacion de variables aleatorias Normales . . . . . . 79
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.6. Anexo: Esperanza matematica y Varianza . . . . . . . . . . . . . 87
2.6.1. Distribucion de Probabilidad de la variable aleatoria X . . 87
2.6.2. Esperanza de X: E(X) . . . . . . . . . . . . . . . . . . . 87
2.6.3. Varianza de X: V ar(X) . . . . . . . . . . . . . . . . . . . 88
2.7. Algunas variables aleatorias . . . . . . . . . . . . . . . . . . . . . 90
2.7.1. Variable aleatoria Uniforme Discreta . . . . . . . . . . . . 90
2.7.2. Variable aleatoria Bernoulli . . . . . . . . . . . . . . . . . 91
2.7.3. Variable aleatoria Binomial . . . . . . . . . . . . . . . . . 92
2.7.4. Variablea aleatorias continuas . . . . . . . . . . . . . . . . 95
2.7.5. Teorema de De Moivre – Laplace . . . . . . . . . . . . . . 97
2.7.6. Otras variables aleatorias continuas . . . . . . . . . . . . . 97
2.8. Artıculo: Pruebas diagnosticas . . . . . . . . . . . . . . . . . . . 98
3. La Inferencia Estadıstica 105
3.1. Introduccion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.2. La Inferencia Estadıstica Parametrica . . . . . . . . . . . . . . . 106
3.2.1. Parametro vs Estadıstico . . . . . . . . . . . . . . . . . . 106
3.2.2. Distribuciones de algunos Estadısticos . . . . . . . . . . . 107
3.2.3. Distribucion de X . . . . . . . . . . . . . . . . . . . . . . 111
Marcela Ribas - Federico De Olivera
vi INDICE GENERAL
3.2.4. Distribucion de Z =√n·(X−µ)σ
. . . . . . . . . . . . . . . . 112
3.2.5. Distribucion de T =√n · (X−µ)
S′.. . . . . . . . . . . . . . . 114
3.3. Estimacion puntual e intervalos de confianza . . . . . . . . . . . 116
3.3.1. Estimacion puntual e intervalos de confianza para µ cuan-
do conozco σ2 . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3.2. Intervalo de confianza para µ , cuando no conozco σ2 . . 120
3.3.3. Intervalo de confianza para una proporcion . . . . . . . . 122
3.4. Prueba de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.4.1. Sıntesis de algunos Test Parametricos . . . . . . . . . . . 127
3.5. La Inferencia Estadıstica no Parametrica . . . . . . . . . . . . . 136
3.5.1. Test de independencia de dos variables: . . . . . . . . . . . 136
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Marcela Ribas - Federico De Olivera
Parte I
Implementacion del curso
Marcela Ribas - Federico De Olivera
0.1 Fundamentacion 3
0.1. Fundamentacion
La formacion de un futuro Profesor en Ciencias biologicas debe indudablemente
proveerlo de herramientas que permitan su insercion inmediata en la sociedad
para el ejercicio de su profesion.
No obstante, los objetivos de su carrera de grado no deben limitarse a esto, sino
que debe incluir aspectos que favorezcan una formacion autonoma mas alla de la
carrera de grado, de manera de posibilitar la actualizacion y formacion continua.
Las Ciencias biologicas, con su caracter experimental, requieren formas rigurosas
de procesar datos y sacar conclusiones para la generacion de conocimientos, y de
esta manera posibilitar su avance.
El futuro Profesor en Ciencias biologicas debe conocer el origen de los contenidos
tematicos que ensena, para lo que es imprescindible estar familiarizado con la
generacion de conocimiento, la metodologıa cientıfica y la Bioestadıstica.
Por otra parte, la Biologıa tiene caracterısticas particulares dentro de las Ciencias
experimentales, a partir de que su objeto de estudio esta constituido por los seres
vivos. La variabilidad biologica y la diversidad son algunas de ellas. Esto trae
aparejado el caracter impredecible de los procesos que esta ciencia estudia, los
que estan regidos por la aleatoriedad.
La incorporacion temprana de las relaciones entre la aleatoriedad y la ocurrencia
de eventos biologicos, predispone favorablemente al estudiante de Profesorado en
Ciencias biologicas a la comprension rigurosa de los procesos a estudiar, y con-
tribuye a minimizar el planteo de determinismos erroneos, ası como a establecer
ligeramente relaciones de causalidad. De esta manera, desde ideas relativamente
simples y concretas como “afinidad bioquımica”, hasta conocimientos generales
y complejos como “teorıas del origen de la vida”, podran ser interpretados en
Marcela Ribas - Federico De Olivera
4
terminos de probabilidad desde el inicio de la carrera.
Por otra parte, tanto durante su carrera de grado como en la formacion continua
mas alla de esta etapa, es deseable que el Profesor en Ciencias biologicas tenga
como habito la consulta de artıculos cientıficos que permitan su actualizacion.
Nociones basicas de muestreo y pruebas estadısticas, permitiran al futuro profesor
seleccionar en base a criterios de confiabilidad, su fuente de informacion.
0.2. Objetivos
0.2.1. Objetivos Generales
Lograr una vision integradora de la realidad que trascienda el pensar solo
asociado a su campo de formacion especıfica.
Contribuir con el desarrollo de una actitud autonoma y crıtica en la con-
struccion del propio proceso de aprendizaje.
Construir herramientas conceptuales y metodologicas que permitan sosten-
er la actualizacion y profundizacion en el conocimiento, como base para la
formacion permanente.
Contextualizar los conocimientos disciplinares en distintos marcos de refer-
encia.
Comprender la necesidad de la rigurosidad, en particular en la toma de
datos, y la necesidad de fijacion de criterios claros y precisos para su ob-
tencion.
Desarrollar competencias en el uso de herramientas estadısticas para el
analisis e interpretacion de datos biologicos.
Marcela Ribas - Federico De Olivera
0.3 Rol del Alumno y el Tutor 5
0.2.2. Objetivos Especıficos
Relacionar la aleatoriedad con la ocurrencia de eventos biologicos.
Comprender la utilidad en la utilizacion de distribuciones de probabilidad
para el estudio cientıfico de procesos biologicos.
Adquirir conocimientos basicos de muestreo y tipos de pruebas estadısticas,
que permitan valorar artıculos cientıficos y determinar su confiabilidad.
Adquirir herramientas basicas que permitan realizar tomas de datos, agru-
parlos para su presentacion mediante la tabulacion, graficos, y calculo de
medidas de resumen.
Comprender el caracter indispensable de la utilizacion de la Estadıstica in-
ferencial para establecer relaciones entre las variables biologicas estudiadas
y realizacion de valoraciones.
Comprender las limitaciones de la Estadıstica Inferencial en la determi-
nacion de relaciones de causalidad en las Ciencias biologicas.
0.3. Rol del Alumno y el Tutor
El estudiante de profesorado que realiza un curso semipresencial de Bioestadıstica,
al ser esta una asignatura que, en algunos puntos de su programa, presenta un
nivel abstracto, debe desarrollar ciertas capacidades o cualidades que le permitan
el satisfactorio seguimiento del curso tales como:
La capacidad de concentracion adecuada para comprender los nuevos con-
ceptos, muchos de ellos con nombres y notaciones un poco alejados de la
realidad cotidiana del estudiante.
Marcela Ribas - Federico De Olivera
6
La responsabilidad como para hacer un seguimiento del cuso acorde a las
exigencias del ritmo que plantea el tutor, pues es una asignatura que ar-
rastra conceptos, en el sentido que si no se comprendio adecuadamente lo
dado en una clase anterior, se acumularan dificultades para la comprension
de la clase siguiente.
La capacidad de autoconocimiento que lo ayude a darse cuenta cuando debe
conceder mas estudio a un tema que no comprendio bien, y cuando debe
recurrir en busca de apoyo del tutor, pues lo que le hace falta es una vision
mas integradora del tema, que lo ayude a superar la dificultad presente.
El estudiante debe saber manejar muy bien sus tiempos, a fin de conceder
en cada semana las horas de estudio adecuadas como para mantener la
correcta continuidad del curso.
El docente tiene el rol de orientador en la construccion de conocimiento bioes-
tadıstico. Ya aludimos al nivel de abstraccion que este requiere, y por eso es de
fundamental importancia la trasposicion didactica que realice el tutor, con la fi-
nalidad de contextualizar los conocimientos disciplinares, en distintos marcos de
referencia, a fin de que los estudiantes aprehendan las nociones de esta ciencia
bioestadıstica, que es instrumental en su carrera.
Con este espıritu, se considera importante que el profesor tutor, ademas de
cumplir con el papel de guıa al que su nombre alude, incorpore, en la medida
que los tiempos y el apoyo de los estudiantes lo permitan, otros tipos de activi-
dades tales como:
resolucion de problemas
discusion de artıculos de divulgacion cientıfica vinculados a problemas bi-
ologicos.
Marcela Ribas - Federico De Olivera
0.4 Metodologıa 7
0.4. Metodologıa
Acorde a un curso de nivel terciario, se debera tener presente que el proceso de
ensenanza y aprendizaje estara centrado en el propio estudiante.
De esta manera, se sugiere la promocion de instancias de trabajo colaborativo y
autonomo, que contribuyan a lograr un perfil de egreso acorde a las dimensiones
personal e institucional previstas en el Plan 2008.
El docente tiene el rol de orientador en la construccion de conocimiento. En
este sentido, la guıa contiene apuntes completos sobre algunos temas; y en otros,
plantea la lectura directa de ciertos capıtulos del libro indicado como el principal
dentro de la bibliografıa. Ademas, la guıa indica ejercicios a ser resueltos por el
estudiante, los cuales cuentan con solucion dentro del libro de texto antedicho.
No obstante, se considera importante que el profesor tutor incorpore, en la me-
dida que los tiempos y el apoyo de los estudiantes lo permitan, otros tipos de
actividades tales como:
resolucion de problemas;
discusion de artıculos de divulgacion cientıfica vinculados a problemas bi-
ologicos, haciendo enfasis en los aspectos de muestreo, presentacion de datos
y pruebas estadısticas utilizadas;
0.5. Evaluacion
Acorde a lo estipulado en el Plan se realizaran dos pruebas parciales escritas, en
forma individual.
Se realizara tambien una evaluacion continua basada en la correccion de los ejerci-
Marcela Ribas - Federico De Olivera
8
cios que el estudiante enviara regularmente al docente, ası como en la discusion de
trabajos y artıculos de divulgacion propuestos en el cronograma y otros sugeridos
por el tutor.
Marcela Ribas - Federico De Olivera
0.6 Cronograma del curso 9
0.6. Cronograma del curso
El plan de estudios del Sistema Unico Nacional de Formacion Docente 2008, item
X, capıtulo III: de los cursos, en su Art. 25 indica que la duracion de los cursos
sera de treinta semanas.
Partiendo de allı es que este cronograma incluye la antedicha cantidad de sem-
anas; sin embargo incluye dentro de estas semanas compensatorias, en las cuales
da lugar a que el docente cubra en ellas temas no desarrollados adecuadamente
en semanas anteriores. El objetivo es cubrir las eventualidades de atraso por dis-
tintos motivos que lo ameriten, ya sea por la imposibilidad de atencion del tutor
en alguna semana, porque la exigencia de los estudiantes requiera poner mayor
enfasis en algun tema en particular, o porque el tutor ası lo decida.
Todo ello esta dirigido a poner los esfuerzos para que todos los temas sean trata-
dos, especialmente los ultimos que son aquellos que le dan el cierre al curso y
permiten que los estudiantes observen la real dimension que tiene la estadıstica
en el contexto de la disciplina Biologica.
Los ejercicios planteados permiten la autoevaluacion del estudiante dado que se
plantea su solucion. No obstante se cuenta con otros ejercicios sin solucion que
seran utilizados por el tutor para la evaluacion continua del estudiante, estos son
los marcados para entrega obligatoria.
Semana 1
Presentacion del curso e introduccion a la Bioestadıstica (seccion 0.7):
En esta primera semana, se presenta a la Estadıstica como una herramienta para
la investigacion experimental, para el control de calidad y en general, para el
manejo de informacion.
Marcela Ribas - Federico De Olivera
10
Estadıstica Descriptiva, variables estadısticas, clasificacion en categorıas (seccion
1.1):
Se pretende que el estudiante identifique los distintos tipos de variables estadısti-
cas, ası como que comprenda la agrupacion de los valores que asumen estas, en
distintas categorıas.
Ejercicios: realizar el ejercicio 1 y el item 1, del ejercicio 2.
Semana 2
Tabla de frecuencias y graficos (seccion 1.2):
En el contexto de la investigacion biologica, el objetivo es ubicar la necesidad
de representar la informacion obtenida, en forma sencilla y grafica, utilizando
para esto una serie de herramientas de la Esdıstica Descriptiva. Dentro de la
seccion 1.2, llamado Analisis de las variables cuantitativas agrupadas en intervalos
, correspondiente al bloque 1, se muestra como presentar los datos estadısticos, a
traves de dos instrumentos como son las tablas de frecuencias y distintos graficos.
Ejercicios: ejercicio 2, items 2, 3, 4 y 5.
Otros instrumentos descriptivos:
A partir de fragmentos de un artıculo de la OMS (Anexo 1.5), observar la variedad
de presentaciones que pueden tener los datos estadısticos.
Semana 3
Medidas de posicion (seccion 1.3.1):
Continuando con la seccion 1.2 del bloque 1, se presentan distintas medidas de
resumen de datos estadısticos, las primeras de las cuales son las medidas de posi-
cion. Se pretende que el estudiante las sepa calcular e interpretar adecuadamente.
Marcela Ribas - Federico De Olivera
0.6 Cronograma del curso 11
Ejercicios: ejercicio 2, items 6, y 7.
Semana 4
Foro: E leccion de la medida de centralizacion mas adecuada a cada situacion:
Se pretende que se entable una discusion acerca de las limitaciones de la media
y la importancia de la mediana, como medida robusta de tendencia central. Los
estudiantes deberan plantear ejemplos, en donde se deba decidir cual medida de
centralizacion es mas acertada en cada caso.
Semana 5
Medidas de dispersion (seccion 1.3.2):
Las medidas de posicion siempre deben estar acompanadas de una medida de
dispersion. En esta semana se busca que el estudiante comprenda esto, a traves
del calculo e interpretacion de dichas medidas.
Semana 6
Foro: importancia de la variabilidad relativa:
Se busca que los estudiantes discutan acerca de las limitaciones del desvıo stan-
dard y la importancia del coeficiente de variacion, como medidas de resumen de
la variabilidad de los datos, a traves de ejemplos.
Marcela Ribas - Federico De Olivera
12
Semana 7
Ejercicios: Aplicacion de los conceptos recien aprendidos, a traves de la real-
izacion de los ejercicios 4 y 5.
Semana 8
Entrega de ejercicios:
El estudiante debe entregar al tutor, el ejercicio 3 resuelto.
Probabilidad (secciones 2.2 y 2.3):
Introduccion a los conceptos basicos de la probabilidad y sus principales
propiedades.
Ejercicios: ejercicios 1, 2 y 3.
Semana 9
Foro: T eorema de Bayes. Aplicacion: falso positivo y falso negativo.
Por considerar al Teorema de Bayes de particular importancia, se recomienda su
lectura, ya sea en el la enciclopedia virtual wikipedia o en el libro Estadıstica para
Biologıa y Ciencias de la Salud de Milton-Tsokos (paginas 97 a 100), incluıdo en
la bibiografıa.
Lectura y discusion del artıculo titulado pruebas diagnosticas (Anexo 2.8), en el
cual se presenta la definicion de sensibilidad y especificidad de un tratamiento,
en cual involucra conceptos referentes a la idea de falso positivo y falso negativo.
Ejercicios: ejercicios 5, 6, 7, 8, 9 y 10.
Marcela Ribas - Federico De Olivera
0.6 Cronograma del curso 13
Semana 10
Variables aleatorias. Variable aleatoria Normal (seccion 2.4).
Se introduce la idea de variable aleatoria generica y en seguida se presenta la
variable aleatoria Normal, la cual sera de vital importancia en este curso, pues se
asume que la mayor parte de las variables biologicas que son continuas, pueden
modelarse con esta distribucion Normal.
Ejercicios: ejercicios 13 y 14.
Semana 11
Foro: V ariables biologicas que se distribuyen Normal:
Se pretende que los estudiantes discutan, a partir de su investigacion en la web
o en bibliografıa, el acierto en la aplicacion del modelo de distribucion Normal
a la mayorıa de las variables biologicas que son continuas. En especial observar lo
que sucede cuando el recorrido de la variable no incluye todos los valores reales,
lo que implicarıa aplicar un modelo de distribucion Normal truncada.
Semana 12
Variable aleatroria Bernoulli y Binomial:
Se pretende que el estudiante comprenda la definicion de la distribucion Binomial
(subsecciones 2.7.2 y 2.7.2 o busqueda en la web), a partir de la definicion de even-
tos Bernoulli, y vea su importancia en relacion a la gran cantidad de fenomenos
o experimentos biologicos de tipo dicotomico, con los que, al repetirse n veces en
determinadas condiciones ese experimento, se construye la distribucion Binomial.
Marcela Ribas - Federico De Olivera
14
Semana 13
Esta semana se utilizara para redondear los puntos que no se hayan analizado
convenienteme y se dara apoyo en los ejercicios obligatorios a entregar: 5, 10, 12
y 16.
Semana 14
Entrega de ejercicios y posterior discucion: ejercicio 5, 10, 12 y 16.
Actividad de investigacion:
Se considera de gran relevancia que el estudiante tenga la experiencia de recolectar
datos en relacion a un problema biologico de su interes, como forma util de
comprender adecuadamente la importancia de cada herramienta aprendida. El
estudiante en esta semana, recabara, presentara y resumira informacion de las
variables elegidas, aplicando los conocimientos y destrezas adquiridas. Para este
trabajo el estudiante destinara horas extras en esta semana y sera apoyado por
el tutor.
Semana 15
Esta semana sera dedicada a contestar preguntas de los estudiantes, referidas a
los dos primeros bloques del curso, todo esto dirigido a apoyar al estudiante en
su preparacion del primer parcial de la asignatura, a realizarse en la proxima
semana.
Semana 16
Primer parcial con temas correspondientes a los bloques tematicos 1 y 2. En este
parcial se pretende la aplicacion de los conceptos teoricos a partir de la realizacion
Marcela Ribas - Federico De Olivera
0.6 Cronograma del curso 15
de ejercicios practicos, en los cuales se permite el uso de material.
Semana 17
Introduccion a la Inferencia Estadıstica (seccion 3.2, subsecciones 3.2.1, 3.2.3 y
3.2.4):
Se busca que el estudiante comprenda muy bien la relacion que existe entre la
poblacion y la muestra, ası como la que existe entre parametro y estadıstico
(estimador).
En esta semana tambien se pretende que el estudiante de una leıda a los teoremas
que involucran la distribucion de la media muestral ( teoremas 1, 2, 3 y 4 de las
subseccion 3.2.3 y 3.2.4 ), extrayendo su utilidad (comprender que X es una
variable aleatoria y conocer su distribucion en diversas situaciones), mas alla de
los detalles de su demostracion, que no son de particular importancia en este
curso introductorio de la inferencia estadıstica.
Semana 18
Distribucion del estadıstico T (subseccion 3.2.5):
En esta semana se define un estimador de la varianza poblacional, la cuasivar-
ianza, y se presenta un nuevo estadıstico denominado T, el cual involucra el
estimador anterior y tiene una distribucion de probabilidades denominada dis-
tribucion t con n-1 grados de libertad (teorema 4).
Aquı se pretende que el estudiante se familiarice con esta nueva variable t, en
particular, con la lectura de la tabla que contiene sus probabilidades para algunos
grados de libertad, a traves de unos sencillos calculos.
Para que el estudiante se failiarice con algunos calculos realizar el siguiente ejer-
cicio:
Marcela Ribas - Federico De Olivera
16
Ejercicios: ejercicios 1.
Semana 19
Estimacion puntual e intervalo de confianza para µ con σ conocida (subseccion
3.3.1):
Comienza en esta semana lo que sera de real importancia para comprender la
investigacion bioestadıstica, en cuanto a que se comprendera los mecanismos a
partir de los cuales esta ciencia busca crear conocimiento acerca de la realidad,
ası como las limitaciones intrınsecas de tales mecanismos.
Se introduce la estimacion puntual y por intervalo de confianza, a traves de un
ejemplo (estimacion de µ, cuando se conoce la varianza poblacional) y se contruye
paso a paso dicho intervalo. Este proceso, aunque un poco engorroso, es necesario
para que el estudiante, frente a la lectura de un intervalo cualquiera, comprenda
su significado, a partir de que conoce los detalles de la construccion de un intervalo
en particular .
Semana 20
Estimacion puntual e intervalo de confianza para µ con σ desconocida (subseccion
3.3.2):
Sin entrar en los detalles de la construccion del intervalo de confianza mencionado
(es similar al intervalo de la semana anterior) se busca que el estudiante com-
prenda su aplicacion, a traves de la realizacion de los ejercicios 4, 5, 6, 7 y 8.
Ejercicios: ejercicios 4, 5, 6, 7 y 8.
Marcela Ribas - Federico De Olivera
0.6 Cronograma del curso 17
Semana 21
Estimacion puntual e intervalo de confianza para p (subseccion 3.3.3) De igual
forma que con el intervalo anterior, no se pretende ahondar en los detalles de
construccion del presente intervalo, sino que se busca que el estudiante comprenda
su aplicacion a traves de la realizacion de los ejercicios 2, 3 y 9.
Ejercicios: ejercicios 2, 3 y 9.
Semana 22
Prueba de Hipotesis (seccion 3.4):
En esta semana se definiran los conceptos generales involucrados en las pruebas
o test de hipotesis: la hipotesis nula y la alternativa, los tipos de error que se
generan al tomar la decision de rechazar o no la hipotesis nula y sus respectivas
probabilidades, la definicion de la region crıtica.
Semana 23
Foro: Sobre la eleccion de las hipotesis nula y alternativa:
Este foro esta pensado para que los estudiantes discutan entre ellos y con el tutor,
como pueden llegar a variar ciertas conclusiones a partir de un test de hipotesis,
si se alteran por ejemplo la probabilidad maxima tolerada para el error de tipo
1, o si se intercambian las hipotesis.
Marcela Ribas - Federico De Olivera
18
Semana 24
Prueba de hipotesis para µ con σ conocido, contraste bilateral (subseccion 3.4.1):
A traves de la confeccion de esta prueba de hipotesis en particular, se le presenta
al estudiante cuales son las etapas que se deben atravesar para obtener cualquier
prueba de hipotesis, en particular aquellas que involucran parametros.
Semana 25
Otras pruebas de hipotesis :
De acuerdo a lo presentado en la subseccion 3.4.1, se presentan los ejemplos
2 y 3 otras dos prueba de hipotesis: una prueba para para µ con σ conocido,
con contraste unilateral y una prueba para µ con σ desconocido, con contraste
bilateral.
Ejercicios: ejercicios 14, 15 y 16.
Semana 26
En esta semana se pone a prueba la comprension del estudiante de este importante
punto del curso, a traves de la realizacion y entrega de algunos ejercicios para su
evaluacion: 10, 11, 12, 13, 18, 19 y 20.
Entrega de ejercicios y posterior discucion:10, 11, 12, 13, 18, 19 y 20.
Semana 27
Inferencia no parametrica (subseccion 3.5):
Tomando como base lo explicado para las pruebas de hipotesis parametricas, se
Marcela Ribas - Federico De Olivera
0.6 Cronograma del curso 19
presenta un caso la inferencia no parametrica como son las pruebas de hipotesis
de independencia, muy usadas cuando se intenta saber si dos caracterısticas de
interes poblacionales (en particular, caracterısticas o variables cualitativas) estan
o no relacionadas.
Ejercicios: ejercicios 21, 22 y 23.
Semana 28
Esta semana se utilizara para redondear los puntos del bloque tres, que no se
hayan analizado convenientemente en las semanas anteriores.
Semana 29
Segundo parcial con temas correspondientes al bloques tematicos 3. Al igual que el
parcial anterior, en este parcial se pretende la aplicacion de los conceptos teoricos
a partir de la realizacion de ejercicios practicos, en los cuales se permite el uso
de material.
Semana 30
Esta ultima semana se destinara a aprender las nociones generales de los ultimos
puntos del programa: el analisis de la Correlacion Lineal y el analisis de Regresion
lineal. Dichos temas se encuentran en el libro [2], capıtulo 11.
Marcela Ribas - Federico De Olivera
Parte II
Contenido disciplinar
Marcela Ribas - Federico De Olivera
Introduccion
0.7. Introduccion
La forma de pensar llamada “estadıstica” se ha vuelto importante para todos
los profesionales: no solo para aquellos que estan dedicados a la ciencia o a los
negocios, sino tambien le preocupa a personas que quieren ayudar a hacer del
mundo, un mejor lugar.
Pero, ¿que es Bioestadıstica? y ¿que puede esta hacer?.
Hay definiciones y percepciones populares de los que significan “las estadısticas”.
Vemos “estadısticas de vida” en el diario: nacimientos, defunciones, matrimonios,
divorcios, etc. El uso publico de la palabra “estadısticas” es ampliamente variado
y la mayor parte de las veces indica una lista de numeros o datos.
En este curso no enfatizaremos las estadısticas como “cosas” sino que pensaremos
en el concepto de “hacer estadıstica” en el sentido de pensar acerca de numeros
(recolectados, analizados y presentados) y su interpretacion. Las formulas son
solo una parte de esa forma de pensar, simples herramientas que son necesarias,
pero que no son las unicas cosas que debemos conocer.
Marcela Ribas - Federico De Olivera
24
0.7.1. La Estadıstica y el Metodo Cientıfico
¿Alguna vez te has preguntado como se llega a la verdad acerca de los fenomenos
que interesan al ser humano? ¿Como se sabe que el cigarrillo causa cancer o como
se sabe que la vitamina C ayuda a prevenir el resfrıo?.
El ser humano, desde el comienzo de los tiempos ha aceptado varias fuentes de
conocimiento:
La autoridad: algo era cierto solo porque una cierta autoridad, llamese rey,
iglesia o autoridad cientıfica, lo afirmaba. Esta fuente de conocimiento se
basa en la fe de las personas o en la incapacidad de verificar, por sı mismas
la veracidad del conocimiento que aceptan como valido.
La razon: el racionalismo es un metodo que utiliza exclusivamente el ra-
zonamiento para llegar al conocimiento. Supone que si las premisas son
validas y el razonamiento se realiza de manera correcta, de acuerdo con
las reglas de la logica, entonces las conclusiones llegaran a la verdad. Sin
embargo , existe un gran numero de situaciones en que el solo razonamiento
es inadecuado para determinar la verdad. Es el caso, por ejemplo, del caso
en que existen dos explicaciones logicas razonables para un fenomeno; y por
sı sola la razon resulta inadecuada para distinguir entre ellas.
La intuicion: a traves de ella, muchos cientıficos han comenzado a dar
forma a sus teorıas, o han resuelto intrincados problemas que se negaban a
ser resueltos a traves de la razon. Sin embargo, a pesar de que la intuicion
ha sido utilizada como fuente de conocimiento durante toda la existencia
de la humanidad, sigue siendo un proceso misterioso acerca del cual solo
tenemos una comprension muy rudimentaria.
El metodo cientıfico: aunque este metodo utiliza el razonamiento y la
Marcela Ribas - Federico De Olivera
0.7 Introduccion 25
intuicion para llegar a la verdad, se fundamenta en una evaluacion objeti-
va, que es lo que lo distingue de los otros metodos. El metodo cientıfico es
bastante directo: por algun medio, generalmente un razonamiento deducti-
vo a partir de la teorıa existente o una induccion a partir de hechos reales
o a traves de la intuicion, el cientıfico llega a una hipotesis sobre cierta par-
ticularidad de la realidad. Entonces el investigador disena un experimento
para verificar de manera objetiva dicha hipotesis. Los datos, resultado del
experimento, posteriormente se analizan en forma estadıstica y la hipotesis
se acepta o se rechaza.
La caracterıstica mas importante de esta metodologıa es que no importa lo que el
cientıfico crea que es verdadero con respecto a la hipotesis en cuestion, pues el ex-
perimento proporciona una base para una evaluacion objetiva de dicha hipotesis.
Aquı es donde la Estadıstica cobra un papel relevante: uno de sus principales
objetivos es evaluar, en forma cientıfica, las afirmaciones o hipotesis planteadas
por el investigador.
0.7.2. ¿Que entendemos por Estadıstica?
Como disciplina, se la define como la ciencia que estudia ciertos conjuntos de datos
cuantitativos o cualitativos y los interpreta en terminos matematicos, estable-
ciendo metodos para la obtencion ciertas medidas que los describen (Estadıstica
Descriptiva). Ası como tambien los analiza y extrae conclusiones generales o leyes
a partir de dichos datos particulares (Inferencia Estadıstica o Estadıstica Induc-
tiva); para esto ultimo se vale de la teorıa de las probabilidades, considerada
tambien como ciencia de base matematica. Uno de los objetivos de un trabajo
estadıstico puede ser la toma de decisiones en presencia de la incertidumbre.
Cuando se aplican los metodos y herramientas de la ciencia Estadıstica a la
Marcela Ribas - Federico De Olivera
26
Biologıa, nace la Bioestadıstica.
Por ejemplo, ciertas investigaciones manejan la hipotesis de que esta aumentando
la cantidad de adolescentes con altos niveles de azucar en sangre, los cuales corren
el riesgo de desarrollar diabetes, en algun momento de su vida. Para comprobar
la veracidad de dicha hipotesis se recogen muestras de sangre en ayunas de un
grupo de 500 adolescentes de una determinada ciudad. Se les mide el nivel de
glucemia (miligramos de glucosa por decilitro de sangre) a todos ellos y ası se
cuenta con 500 datos a ser ordenados y analizados por la Estadıstica Descriptiva,
a partir de las herramientas con que esta cuenta, las cuales veremos en detalle
mas adelante.
Si queremos extraer conclusiones generales, como por ejemplo saber cual es el
nivel promedio de glucemia entre todos los adolescentes de la cuidad, podemos
hacerlo a partir del promedio obtenido entre los 500 adolescentes estudiados, pero
debemos indicar, por ejemplo, un margen de error que nos permita generalizar
dicho dato particular. Aquı utilizaremos las herramientas de la Estadıstica In-
ductiva y trataremos de conocer, por ejemplo, cual es la probabilidad de que un
adolescente de dicha ciudad tenga un nivel de glucosa mayor a 126 mg/dl de
sangre lo que lo llevarıa a tener diabetes.
Por ultimo, a partir de las conclusiones obtenidas de este trabajo de investigacion,
si resulta que efectivamente hay altos niveles de glucemia entre los adolescentes,
las autoridades de la ciudad pueden tomar medidas de polıtica tendientes a re-
vertir dicha situacion en el futuro, por ejemplo, fomentar los habitos saludables
de alimentacion en la escuela, prohibiendo la venta de golosinas dentro de los
establecimientos escolares.
Marcela Ribas - Federico De Olivera
0.7 Introduccion 27
0.7.3. Etapas de un estudio estadıstico
1. Planteamineto del Problema:
a) Definir el objetivo de la investigacion.
Por ejemplo: diversas Organizaciones internacionales han dirigido su
atencion sobre un reciente fenomeno: se observa una disminucion de
los umbrales de percepcion auditiva en ninos, adolescentes y jovenes,
provocada por exposicion a altos niveles sonoros.
En particular, en Argentina es cada vez mayor el porcentaje de jovenes
aspirantes al ingreso laboral que son rechazados por problemas de au-
dicion. El objetivo de una investigacion al respecto, puede ser, entre
otros, determinar, comprender y evaluar el conjunto de los diversos
factores que pueden contribuir al desarrollo de las hipoacusias tem-
pranas en adolescentes en dicho paıs, con el fin de realizar acciones
tendientes a la prevencion de esta problematica social.
b) Definir la poblacion o universo: es el conjunto completo de individ-
uos, objetos o datos que el investigador esta interesado en estudiar. En
el caso del ejemplo anterior, serıan todos los adolescentes argentinos.
c) Definir el tipo de informacion que se desea extraer de los elementos
de la poblacion: podrıan ser un conjunto de preguntas, observaciones
o mediciones dirigidas hacia dichos elementos. A partir de la infor-
macion anterior, se construiran variables: son cualquier propiedad o
caracterıstica de los elementos de la poblacion, que puede ser de interes
para el investigador en el sentido de contribuir a lograr el objetivo de
su estudio.
En nuestro ejemplo, podemos considerar ciertas preguntas, mediciones
Marcela Ribas - Federico De Olivera
28
u observaciones, a realizar a los adolescentes, que tengan relacion con
su problematica auditiva. Por ejemplo, estas pueden involucrar aspec-
tos tanto auditivos, como acusticos o psicosociales:
1) Se les puede chequear la capacidad de audicion, medida en canti-
dad de decibeles mınimos que pueden percibir.
2) Preguntar cuantas veces al mes concurren a locales con musica
por encima de 100 decibeles.
3) Preguntar si viven cerca de algun aeropuesto, fabrica u otro edifi-
cio que provoque contaminacion sonora.
4) Preguntar cuantos minutos al dıa escuchan musica con auriculares.
De lo anterior surgen las siguientes variables:
Variable 1: Capacidad de audicion, en decibeles mınimos percibidos.
Variable 2: Cantidad de veces al mes que concurren a locales con musica por
encima de 100 decibeles.
Variable 3: Se la define como 1: si el estudiante vive cerca de algun edificio
que provoque contaminacion sonora; y 0: en caso contrario.
Variable 4: Tiempo, medido en minutos al dıa, en que el estudiante escucha
musica con auriculares.
2. Recogida de la Informacion Muestral
Por lo general, no se puede disponer del valor de todas las variables para
todos los elementos de la poblacion, por ejemplo por razones economicas.
Entonces se seleccionan algunos de sus elementos: a este subconjunto de la
poblacion se le llama muestra. Siguiendo con nuestro ejemplo, se lleva a
cabo una encuesta que cubre a 1000 adolescentes argentinos (la muestra) y
en el cuestionario que esta incluye, se plantean las tres preguntas anteriores,
ademas de realizarles un chequeo auditivo.
Marcela Ribas - Federico De Olivera
0.7 Introduccion 29
3. Analisis Descriptivo de los Datos Obtenidos: Estadıstica
Descriptiva:
Consiste en procedimientos estadısticos que sirven para organizar y re-
sumir, de diversas formas de acuerdo a nuestro interes, un conjunto de
datos obtenidos de la realidad. Los conjuntos de datos no organizados re-
sultan de poco valor. Sin embargo se dispone de tecnicas estadısticas para
organizar este tipo de datos en forma significativa: tablas de frecuencias,
grafico de barras, histograma, medidas de resumen, entre otros.
Aquı se toman los 1000 formularios que resultaron de la encuesta anterior y
con la ayuda de las herramientas de la Estadıstica Descriptiva se organizan
y analizan todos los datos que estos contienen. Y se sacan conclusiones
particulares, en relacion a esa parte de la poblacion que fue estudiada. Por
ejemplo, se podra conocer cuantos minutos por dıa, en promedio, estos 1000
adolescentes, escuchan musica con auriculares. Y tambien se podra saber
cual es el porcentaje, entre ellos, que concurren mas de una vez por semana
a locales con musica a un volumen por encima de 100 decibeles, lo cual es
nocivo para su salud auditiva.
4. Inferencia Estadıstica
Una vez organizados, analizados y resumidos los datos de la muestra, pode-
mos tratar de ver mas alla de lo que esta muestra nos presenta: podemos
buscar conocer caracterısticas generales de la poblacion, a partir de las
caracterısticas particulares que nos presenta la muestra. Con este fin exis-
ten distinstas tecnicas estadısticas como son la estimacion o la prueba de
hipotesis.
Este tipo de razonamiento que va de lo particular a lo general es del tipo
Marcela Ribas - Federico De Olivera
30
inductivo, y de allı que a la Inferencia Estadıstica se la conozca tambien
con el nombre de Estadıstica Inductiva. Esta utiliza la Teorıa de las Prob-
abilidades, que es una rama de la Matematica.
Sabiendo cuantos minutos por dıa, en promedio, estos 1000 adolescentes,
escuchan musica con auriculares (dato aportado por la Estadıstica Descrip-
tiva), se puede “estimar”, con cierto margen de error prefijado por el in-
vestigador, cual es dicho promedio pero entre todos los adolescentes
argentinos.
De esta forma nos aproximamos a obtener conocimiento acerca de un aspec-
to de la realidad social de Argentina, informacion que puede ser de interes
no solo para dicho paıs, sino que puede incentivar estudios internacionales
similares y de esta forma vamos construyendo, con la ayuda de la Estadısti-
ca, el conocimiento de la realidad global.
Marcela Ribas - Federico De Olivera
Bloque tematico 1
La Estadıstica Descriptiva
Objetivo:
El objetivo de este bloque tematico es presentar a la Estadıstica Descriptiva, rama
de la Estadıstica que provee procedimientos utiles para organizar y resumir, de
diversas formas de acuerdo a nuestro interes, un conjunto de datos obtenidos de
la realidad.
1.1. Conceptos generales
Recorrido y tipos de Variables:
Es el conjunto de todos los valores que, en teorıa, puede tomar la variable. De
acuerdo a su recorrido, existen diferentes tipos de variables. Se clasifican
en dos grandes grupos:
1. las variables categoricas o cualitativas o de atributos,
2. y las variables medibles o cuantitativas.
Marcela Ribas - Federico De Olivera
32 1. La Estadıstica Descriptiva
1.1.1. Variables categoricas o de atributo o cualitativas
Son aquellas que no son cuantificables, es decir que para su recoleccion no in-
tervienen mediciones, aunque cada distinto valor de la variable, que llamaremos
categorıa, puede ser asociado con un numero, con la unica finalidad de simpli-
ficar el procesamiento de los datos.
Por ejemplo, son variables cualitativas (entre parentesis esta un posible recorrido):
1. el color de ojos(1.negros, 2.castanos, 3.grises, 4.celestes, 5.verdes, 6.otro )
2. sexo de nacimiento: (1.mujer, 2.hombre).
3. el rendimiento academico (1.bajo, 2.promedio, 3.sobre).
4. el estado nutricional (1.bueno, 2.regular, 3.malo).
Los dos primeros ejemplos son de variables cualitativas nominales, que son
aquellas en las cuales las asignaciones de los numeros no suponen ningun orden
entre ellas. En otras palabras: cualquier asignacion es valida.
Los otros dos ejemplos son de variables cualitativas ordinales, llamadas
ası pues existe un orden particular preestablecido entre los diferentes valores
que puede tomar una variable.
Mientras que entre los valores de las variables nominales solo podemos comparar
si son iguales o distintos, entre los de las variables ordinales podemos establecer
la relacion ”mayor que.o “menor que”.
1.1.2. Variables Cuantitativas
Son variables que resultan de contar o medir ciertas caracterısticas de los ele-
mentos de la muestra. Se expresan numericamente, y dichos valores se usaran
Marcela Ribas - Federico De Olivera
1.1 Conceptos generales 33
algebraicamente a fin de realizar calculos, a diferencia de los numeros asignados
a las variables cualitativas.
Ejemplos de dichas variables:
1. Cantidad de hijos, que tiene una mujer mayor de 40 anos.
2. Cantidad de cigarrillos fumados por dıa, por los estudiantes de Biologıa.
3. La estatura de un jugador de basquetball.
4. El tiempo de recuperacion de los pacientes operados de apendicitis.
Dentro de este grupo de variables, se distingue entre variables discretas o con-
tinuas. Los dos primeros ejemplos son de variables cuantitativa discretas, lla-
madas ası pues entre dos valores de la variable no siempre existe otro: por ejemplo
una mujer puede tener 1 o 2 hijos, pero no 1 hijo y medio. Los otros dos ejemplos
son de variables cuantitativas continuas pues dados dos valores de la variable
siempre puede existir (aunque sea en teorıa) otro valor: entre una altura de 2
m y otra de 2 m 1 cm, podemos encontrar un jugador que mida 2 metros 1/2
cm, y podemos seguir subdividiendo los intervalos y siempre, en teorıa, podremos
encontrar un jugador que tenga una altura en dicho intervalo, apesar de que nue-
stros instrumentos de medicion, llegara un momento, que no tendran la presicion
adecuada como para notar diferencias.
Categorıas:
Son los distintos grupos, entre los cuales podemos clasificar los distintos valores
que toma una variable. Surgen de partir su recorrido. Muchas veces las categorıas
pueden coincidir exactamente con el recorrido; pero en otros casos es imposible: el
caso de las variables continuas, cuyo recorrido esta formado por infinitos numeros
Marcela Ribas - Federico De Olivera
34 1. La Estadıstica Descriptiva
y entonces debemos particionar su recorrido en intervalos, que seran nuestras
categorıas.
Sea cual sea el tipo de variable, las categorıas en las cuales se agrupan los
diferentes valores que toma la variable, deben ser exhaustivas y mutuamente
excluyentes.
Categorıas exhaustivas: estas cubren todo el recorrido. Cualquier obser-
vacion se debe poder colocar en alguna categorıa; por ejemplo, si la persona
se niega a contestar, se la coloca en la categorıa no sabe, no contesta.
Categorıas mutuamente excluyentes: no se deben superponer.
Cualquier observacion se debe colocar solo en una categorıa, no debe haber
ambiguedades.
Ejemplos:
1. Variable X: cantidad de dıas por semana que trabaja una persona.
Recorrido de X: 0, 1, 2, 3, 4, 5, 6, 7 . Puedo considerar como categorıas
exactamente el recorrido de la variable; o sino podrıa considerar como cat-
egorıas: 0, 1, 2, 3,4,5, 6,7 .
2. Variable Y: peso de los bebes en kg, nacidos a termino.
Posible recorrido: [2.3, 5] . Puedo tomar como categorıas los siguientes in-
tervalos: [2.3, 2.5), [2.5, 3.5), [3.5, 3.9), [3.9, 5] , u otros, dependiendo de
los intervalos que sean de interes.
Observacion:
Marcela Ribas - Federico De Olivera
1.2 Analisis de las variablebles cuantitativas agrupadas en intervalos 35
1. Los intervalos no tienen por que tener todos igual amplitud.
2. Los intervalos que son validos son los del tipo [ , ) o ( , ]. Si los intervalos
son todos ( , ), no cumplen con la caracterıstica de la exhaustividad, pues
los valores de los extremos no estan incluidos en ningun intervalo. Si los
intervalos son todos [ , ], no cumplen con la caracterıstica de ser mutuamente
excluyentes, pues se superponen.
1.2. Analisis de las variablebles cuantitativas
agrupadas en intervalos
Ya vimos que el objetivo de la Estadıstica era extraer la informacion contenida
en un conjunto de observaciones o datos. Para ello cuenta con las siguientes
herramientas:
1.2.1. Tabla de la Distribucion de Frecuencias
Continuando con el ejemplo anterior de los adolescentes y su nivel de glucemia,
vamos a trabajar con una muestra de 20 adolescentes. Las muestras deben ser por
lo general de mayor tamano, pero tomamos solo 20 para manejar con facilidad
los datos.
Tenemos entonces un conjunto de 20 datos de la variable X la cual definimos
como X = nivel de glucemia en ayunas, medido en miligramos de glucosa por
decilitro de sangre (mg/dl). Estos datos son :
98, 150, 100, 70, 80, 110, 123, 85, 115, 120
130, 110, 105, 98, 140, 81, 125, 120, 130, 126
Marcela Ribas - Federico De Olivera
36 1. La Estadıstica Descriptiva
En primer lugar, organizamos estos datos muestrales en una tabla de distribucion
de frecuencias. Lo primero que debemos hacer es determinar los intervalos, con
el fin de que los podamos interpretar de alguna forma.
Existen ciertos valores lımite, para distintas condiciones relacionadas con la can-
tidad de azucar en sangre en ayunas. Segun algunos especialistas se puede afirmar
lo siguiente:
mg de glucosa por dl de sangre Condicion
48 a 73 hipoglucemia
74 a 99 glucemia normal
100 a 125 pre-diabetes
126 a 152 diabetes
Adoptaremos la convencion de construir intervalos de la forma [ , ): implica que
el valor de la izquierda esta en el intervalo pero no el de la derecha. Y recordando
que las categorıas deben ser exhaustivas, nuestros intervalos seran ligeramente
diferentes a los planteados en la tabla anterior:
Categorıas: [xi−1, xi) ni total
[48, 74) X 1
[74, 100) XXXXX 5
[100, 126) XXXXXXXXX 9
[126, 152) XXXXX 5
n = 20
A la columna ni se la llama columna de frecuencias absolutas, y en ella se colo-
can cuantos datos caen en cada intervalo. Una practica comun para completarla,
es leer uno a uno los datos y colocar una marca (checkmark) al lado del intervalo
donde cada dato se encuentra. Luego contamos la cantidad de X y obtenemos ni.
Marcela Ribas - Federico De Olivera
1.2 Analisis de las variablebles cuantitativas agrupadas en intervalos 37
Al sumar esta columna debemos obtener n: el tamano de la muestra.
Es importante tener en cuenta que al organizar los datos en intervalos pierdo
la informacion de los datos originales, pero gano en un mejor ordenamiento
de los datos. Por ejemplo, en la tabla veo que tengo 5 adolescentes en el in-
tervalo [ 74, 100 ) pero a partir de la tabla no sabemos si ellos tienen cerca
de 74 mg de glucosa por dl de sangre o tienen un nivel cerca de 99 mg/dl, o
estan distribuidas de manera uniforme a lo largo de todo el intervalo. Nosotros
vamos a adoptar esta ultima hipotesis.
La tabla de frecuencias tambien incluye las siguientes columnas:
ci: marca de clase del intervalo: es el punto medio de dicho intervalo, que se
calcula como la semisuma de sus valores extremos.
Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61.
La marca de clase viene a ser el valor representativo del intervalo.
hi: frecuencia relativa del intervalo: es la proporcion de datos que hay en el.
Se calcula como hi = ni/n. La suma de todos las hi es siempre 1.
Si multiplicamos hi · 100, obtenemos el porcentaje de datos en cada intervalo.
Por ejemplo, podemos ver en la tabla siguiente que el 45 % de los adolescentes
poseen un nivel de glucemia tal (de entre 100 y hasta 126, no inclusive, mg de
glucosa por dl de sangre) que los lleva a tener pre-diabetes.
F ∗i : Funcion de distribucion acumulada empırica: es la proporcion (o por-
centaje si se multiplica cada valor de F ∗i por 100) de observaciones que existen
hasta cada intervalo inclusive. Se calcula sumando, al valor hi de cada intervalo,
los valores de hi de todos los intervalos anteriores a el.
A partir de F ∗i , podemos decir que el 30 % de los adolescentes tienen hipoglucemia
o glucemia normal (100 mg/dl o menos), lo que implica que el 70 % tienen pre-
Marcela Ribas - Federico De Olivera
38 1. La Estadıstica Descriptiva
diabetes o diabetes (pues F · 100 = 0, 3).
f ∗i : funcion de densidad empırica: es la frecuencia relativa por unidad de me-
dida en cada intervalo. Me indica la concentracion o “densidad de datos” que hay
en cada intervalo.
Se calcula ası: f ∗i = hi/amplitud de cada intervalo. La amplitud del intervalo es
la diferencia entre el extemo superior y el inferior. Por ejemplo el primer valor de
f ∗i es 0,05/(74–48) = 0,0019 = 0,002 redondeando a tres decimales.
Categorıas: [xi−1, xi) ni hi F ∗i = F ∗(xi) ci f ∗
[48, 74) 1 0,05 0,05 61 0,002
[74, 100) 5 0,25 0,3 87 0,01
[100, 126) 9 0,45 0,75 113 0,017
[126, 152) 5 0,25 1 139 0,01
n = 20 1
1.2.2. Graficos
Histograma
El Histograma es una forma grafica de presentar la informacion que nos propor-
cionan los datos, acompanando la tabla de frecuencias. Nos permite, a golpe de
vista, sacar algunas conclusiones mas rapidamente que observando la tabla. Ese
es su principal objetivo.
En el eje horizontal se indican los extremos de los intervalos. En el eje vertical
van los valores de f ∗i . Y se levantan “barras” encima de cada intervalo, a la altura
del correspondiente f ∗i .
Observar que el area encima de cada intervalo (base por altura =amplitud del
Marcela Ribas - Federico De Olivera
1.2 Analisis de las variablebles cuantitativas agrupadas en intervalos 39
intervalo por f ∗i = hi ) es su correspondiente frecuencia relativa.
El area total del histograma es 1, por ser la suma de todas las barras, que son
las frecuencias relativas hi.
Figura 1.1: Histograma del nivel de glucemia
Ojiva o grafico de la funcion de distribucion acumulada empırica F ∗i
Para variables cuantitativas agrupadas en intervalos, la grafica de F ∗i se repre-
senta como una funcion continua, pues trabajamos con la hipotesis de que los
valores que caen dentro de cada intervalo, se consideran distribuidos uniforme-
mente dentro del mismo. Por lo tanto :
1. Primero, se marcan en el grafico las frecuencias acumuladas en los extremos
Marcela Ribas - Federico De Olivera
40 1. La Estadıstica Descriptiva
superiores de los intervalos, que son los que aparecen en la tabla. Es decir:
F ∗(74) = 0,05, F ∗(100) = 0,3, F ∗(126) = 0,75, F ∗(152) = 1
2. Y posteriormente, se trazan los segmentos que determinan dos puntos con-
secutivos. Esto implica un crecimiento uniforme dentro de cada intervalo,
en forma coherente con el supuesto antedicho.
0
0.2
0.4
0.6
0.8
1
40 60 80 100 120 140 160
Dis
trib
ucio
n em
piric
a
nivel de glucemia
Ojiva
Figura 1.2: Ojiva del nivel de glucemia
Distribuciones Empıricas y Teoricas Las distribu-
ciones estudiadas: f ∗i y F ∗(xi) son empıricas, pues son realizadas a partir de
la observacion de una muestra.
Existen otras distribuciones llamadas teoricas ( f(xi) y F (xi) ), que resultan de
estudios realizados con modelos probabilısticos e involucran los datos de toda la
poblacion.
Marcela Ribas - Federico De Olivera
1.3 Medidad de resumen 41
Se demuestra que, al aumentar el numero de observaciones en las muestras, las
distribuciones empıricas se aproximan cada vez mas a las teoricas.
1.3. Medidad de resumen
Las medidas de resumen muestrales sirven para obtener caracterısticas generales
de dicha muestra, con el riesgo que siempre implican los resumenes, en cuanto al
grado en que reflejan la informacion del conjunto de datos. Veremos dos grupos
de medidas de resumen:
Medidas de posicion: Indican “por donde” se situan los datos de la mues-
tra. Estas medidas pueden ser de tendencia central o medidas no centrales
(los cuartiles y percentiles).
Medidas de dispersion: Se utilizan para medir el grado de concentracion
de los datos, en torno a determinados valores. Por ejemplo, deben acom-
panar a las medidas de tendencia central, para dar una idea de que tan
confiable es el dato proporcionado por ellas.
1.3.1. Medidas de posicion
Medidas de tendencia central
Son tres: la media, la mediana y el modo.
Media (aritmetica): Se la puede definir como el “centro de gravedad”
de la distribucion de frecuencias. Constituye el valor central por excelen-
cia, pues considera la totalidad de las observaciones, ponderadas por su
frecuencia relativa. Se calcula como la suma de las marcas de clase por la
Marcela Ribas - Federico De Olivera
42 1. La Estadıstica Descriptiva
correspondiente frecuencia relativa. Observar en la tabla siguiente que la
media surge de sumar la columna indicada como ci · hi.
La media en nuestro caso vale 110,4 lo cual significa que, en promedio, los
adolescentes encuestados tienen 110,4 mg de glucosa por dl de sangre, en
ayunas. Ello solo no nos dice mucho pues no sabemos si la mayorıa tienen
ese valor de glucemia, o tienen valores inferiores y superiores que hacen que
sea tal el promedio. Mas adelante calcularemos el desvıo standard y se nos
aclarara un poco el panorama.
Esta media muestral es una aproximacion de la verdadera media muestral
(que se calcula como la suma de todos los datos originales dividido 20 o sea
110,8 ), pues dentro de cada intervalo, los diferentes valores han sido todos
sustituidos por un unico valor, ci, el punto medio de dicho intervalo.
Mediana (Xme): Cuando la muestra contiene unos pocos datos sumamente
grandes o muy pequenos, la media puede no ser representativa. El punto
central de tales datos puede describirse mejor utilizando otra medida de
tendencia central como es la M ediana, pues ella no considera dichos valores
extremos. Es el valor de la variable que divide en dos mitades al conjunto de
datos ordenados: es el valor Xme que acumula el 50 % de las observaciones
o sea que cumple que F ∗(Xme) = 0, 5.
Dos casos:
1. Si en la tabla se observa que F ∗(xi) = 0,5, entonces Xme =
extremo superior del intervalo correspondiente.
2. Si no es ası, entonces la mediana se debe obtener por interpolacion
dentro del intervalo que contiene a Xme. En este caso, se procede ası:
a) Encontramos el intervalo donde se encuentra Xme: es el primer
intervalo donde F ∗(xi) es mayor a 0,5. En nuestro caso es [100,
126).
Marcela Ribas - Federico De Olivera
1.3 Medidad de resumen 43
b) Aplicamos la formula siguiente:
Xme = xi−1 +(0,5− F ∗(xi−1))
f ∗i
donde:
xi−1 : extremo inferior del intervalo donde esta la mediana. O sea
xi−1 = 100
F ∗(xi−1) : frecuencia acumulada del intervalo anterior al de la
mediana. O sea F ∗(xi−1) = 0,3
f ∗i : valor de la funcion de densidad empırica, correspondiente al
intervalo donde esta la mediana. O sea f ∗i = 0,017
Xme = 100 +(0,5–0,3)
0,017= 111,76
Se interpreta diciendo que el 50 % de los adolescentes tienen un nivel de
glucemia de 111,76 mg/dl o menos. O mas significativamente, podemos
decir que el nivel de glucemia del 50 % de ellos es mayor o igual a 111,76
lo que implicarıa que tienen pre-diabetes o diabetes.
3. Modo ( Xmo): Es la categorıa con la mayor cantidad de observaciones.
Puede existir mas de una categorıa que cumpla lo anterior. En ese caso,
el modo no es unico. Si existen dos modos se dice que la distribucion
es bimodal. En la forma es que estamos trabajando, con datos agru-
pados en intervalos, no hablamos de Modo sino de I ntervalo Modal:
es el intervalo que concentra la mayor frecuencia relativa por unidad
de medida, por lo tanto es aquel intervalo, al cual le corresponde el
maximo valor de la funcion de densidad empırica f ∗i .
En nuestro ejemplo, el intervalo modal es [100, 126), lo cual significa
que la mayor parte de los adolescentes de esta muestra (un 45 %) tienen
niveles de glucemia entre 100 y 126 (no inclusive) mg de glcosa por dl
de sangre en ayunas, lo cual significa que son pre-diabeticos.
Marcela Ribas - Federico De Olivera
44 1. La Estadıstica Descriptiva
Categorıas: [xi−1, xi) ni hi F ∗i = F ∗(xi) ci f ∗ ci · hi c2i · hi
[48, 74) 1 0,05 0,05 61 0,002 3,05 186,05
[74, 100) 5 0,25 0,3 87 0,01 21,75 1892,25
[100, 126) 9 0,45 0,75 113 0,017 50,85 5746,05
[126, 152) 5 0,25 1 139 0,01 34,75 4830,25
total n = 20 1 110,4 12654,6
Medidas de posicion no centrales
Ademas de las medidas de tendencia central , tambien hay algunas medidas utiles
de posicion “no central” que suelen utilizarse al resumir o describir propiedades
de grandes conjuntos de datos. Estas medidas son los cuartiles y percentiles.
Los Cuartiles son tres valores: Q1, Q2, y Q3, que me dividen los datos ordenados
de la variable, en cuartos (25 %).
25 % | 25 % | 25 % | 25 %
Q1 Q2 Q3
Q1 es el valor cuya frecuencia acumulada es 25 %.
Q2 es el valor cuya frecuencia acumulada es 50 %. Entonces Q2 = Xme
Q3 es el valor cuya frecuencia acumulada es 75 %.
Percentiles: Hay noventa y nueve percentiles.
Por ejemplo, el percentil 10 (que anotamos P10) es el valor cuya frecuencia acu-
mulada es del 10 %. Y el percentil 90 ( P90 ) cumple que F ∗i (P90) = 0, 9
La determinacion de estas medidas es analoga a la de la mediana o los cuartiles.
Marcela Ribas - Federico De Olivera
1.3 Medidad de resumen 45
Calculo de PRIMER CUARTIL:
Es aquel valor que cumple que F ∗(Q1) = 0, 25.
Dos casos:
1. Si en la tabla se observa que F ∗(xi) = 0,25, entonces Q1 = xi, extremo
superior del intervalo correspondiente.
2. Si no es ası, entonces Q1 se debe obtener por interpolacion dentro del in-
tervalo que lo contiene. En este caso, se procede de la siguiente forma:
a) Encontrar el intervalo donde se encuentra Q1: es el primer intervalo
donde F ∗(xi) es mayor a 0,25.
b) Aplico la formula siguiente:
Q1 = xi−1 +(0, 25− F ∗(xi−1))
f ∗i
donde:
xi−1 : extremo inferior del intervalo donde esta Q1.
F ∗(xi−1) : frecuencia acumulada del intervalo anterior al de Q1.
f ∗i : valor de la funcion de densidad empırica del intervalo donde
esta Q1.
En el ejemplo, el intervalo donde esta Q1 es [74 , 100 ). Por lo tanto:
Q1 = 74 +(0, 25–0, 05)
0,01= 94
Es decir el 25 % de los adolescentes de esta muestra tienen niveles de
glucemia de hasta 94 mg/dl.
Calculo de TERCER CUARTIL:
Marcela Ribas - Federico De Olivera
46 1. La Estadıstica Descriptiva
Es aquel valor que cumple que F ∗(Q3) = 0, 75.
Dos casos:
1. Si en la tabla se observa que F ∗(xi) = 0,75, entonces Q3 = xi, extremo
superior del intervalo correspondiente.
2. Si no es ası, entonces Q3 se debe obtener por interpolacion dentro del in-
tervalo que lo contiene. En este caso, se procede de la siguiente forma:
a) Encontrar el intervalo donde se encuentra Q3: es el primer intervalo
donde F ∗(xi) es mayor a 0,75.
b) Aplico la formula siguiente:
Q3 = xi−1 +(0, 75− F ∗(xi−1))
f ∗i
donde:
xi−1 : extremo inferior del intervalo donde esta Q3.
F ∗(xi−1) : frecuencia acumulada del intervalo anterior al de Q3.
f ∗i : valor de la funcion de densidad empırica del intervalo donde
esta Q3.
En el ejemplo, se observa en la tabla que F ∗(126) = 0, 75. Por lo
tanto Q3 = 126. Es decir, el 75 % de los adolescentes de esta muestra
tienen niveles de glucemia hasta 126 mg/dl. O mas significativamente,
el 25 % de ellos tienen niveles de 126 mg/dl o mayores, es decir que
tienen diabetes.
1.3.2. Medidas de dispersion
Las medidas de dispersion dan idea de cuanto se dispersan o concentran los datos
de nuestra muestra.
Marcela Ribas - Federico De Olivera
1.3 Medidad de resumen 47
Son utiles para medir, de algun modo, la representatividad de las medidas de ten-
dencia central. En otras palabras: los valores centrales pierden significacion
cuando la dispersion es alta, y por ello debemos conocer y complementar las
medidas de posicion, con las medidas de dispersion.
EJEMPLO: los ingresos mensuales de 4 personas (en $) son los siguientes: 7.800,
8.200, 8.000, 8.400.
La media es 8.100, y a simple vista notamos que los valores estan concentrados
en torno a ella, pues se separan poco de la media (la dispersion es baja).
Los ingresos mensuales de otras 4 personas son los siguientes:
800 2 700 1 000 12 900
La media es tambien 8.100, pero se advierte una dispersion mucho mayor que
en el caso anterior. Por lo tanto la informacion que brinda la media en este caso
se desvirtua y para no realizar conclusiones erroneas imaginar que 8.100 es un
sueldo representativo de estas 4 personas , debemos acompanarla de una medida
de dispersion, como es el desvıo standard.
Rango: R
El rango de un conjunto de datos es la diferencia entre el mayor y el menor de
todos ellos. Da idea de la amplitud del recorrido total de la variable en la muestra.
Para datos agrupados en intervalos, es la diferencia entre el extremo superior del
ultimo intervalo y el extremo inferior del primer intervalo. Es decir: R = 152–48 =
104. Al interpretarlo, decimos que los valores de glicemia de los adolescentes de
mi muestra estan entre 48 mg/dl y 152 mg/dl, (es decir recorren 104 valores).
Una limitacion que tiene R es que solo considera los valores extremos, sin aportar
Marcela Ribas - Federico De Olivera
48 1. La Estadıstica Descriptiva
informacion sobre los valores interiores.
Rango Intercuartılico: RI o desviacion respecto a Xme:
RI = Q3–Q1
Es una medida complementaria de la mediana, la cual se encuentra en el intervalo
que corresponde al rango intercuartılico.
En nuestro ejemplo,
RI = 126–94 = 32 . Se interpreta diciendo que el 50 % de los adolescentes de la
muestra tienen niveles de glicemia de entre 94 mg/dl y 126 mg/dl (recorren 32
valores).
Varianza : S2
Da idea de la dispersion promedio de los datos, respecto a la media aritmetica. Se
calcula como el promedio del cuadrado de las desviaciones de los valores respecto
de la media.
S2 =
∑(ci–(media)2).ni
n
o mas facil para los calculos S2 =∑
(c2i · hi)− (media)2
Entonces la varianza muestral se puede calcular facilmente a partir de la tabla,
agregando la columna c2i · hi y siendo
∑c2i · hi la suma de dicha columna. Por lo
tanto S2 = 12654, 6− (110,4)2 = 466, 44
Observacion 1: Las desviaciones de cada xi con respecto a la media, se elevan
al cuadrado pues de lo contrario la suma de todas ellas serıa siempre cero.
Observacion 2: La varianza es una de las mas importantes medidas de disper-
sion, pero su resultado implica una magnitud que no tiene una interpretacion util
Marcela Ribas - Federico De Olivera
1.3 Medidad de resumen 49
en sı misma, pues al elevar al cuadrado, tenemos unidades de medida al cuadrado.
Su significado cobra relevancia al comparar la varianza de dos muestras: a may-
or varianza, mayor dispersion y menor concentracion de datos. Como tiene el
inconveniente de medir la dispersion, en terminos del cuadrado de las unidades,
se calcula su raız cuadrada: la desviacion standard
Desvıo tıpico o desciacion standard: S
Se calcula tomando la raız cuadrada de la varianza.
Entonces S = 21, 6
Al contrario de la varianza, donde los desvıos se elevan al cuadrado y entonces los
valores quedan expresados en unidades al cuadrado, en la desviacion standard, al
aplicarles la raız cuadrada, los llevamos nuevamente a su unidad original, y por lo
tanto S tiene interpretacion en sı misma: En promedio, los niveles de glicemia de
los adolescentes de la muestra se desvıan 21,6 mg/dl, con respecto a la media que
es 110,4 mg/dl. Pero dicha dispersion, ¿ es grande o pequena ?. Esto lo contesta
el coeficiente de variacion.
Coeficiente de variacion : C.V. relaciona la desviacion standard con la me-
dia, brindando una medida sobre la dispersion relativa del conjunto de observa-
ciones. Se calcula solo cuando los datos son positivos:
C.V. =S
media
Por lo tanto C.V = 21,6 mg/dl /110,4 mg/dl = 0,196 = 0,20 redondeando
Al C.V. generalmente se lo interpreta como un porcentaje. Como es una medi-
da que no tiene unidades, resulta muy util para comparar muestras que tengan
unidades diferentes.
Marcela Ribas - Federico De Olivera
50 1. La Estadıstica Descriptiva
Se interpreta diciendo que el desvıo standard de los niveles de glucemia, representa
un 20 % de la media, lo cual es una baja dispesion. Y por lo tanto podemos
concluir que la media de 110,4 mg/dl representa bien a mi muestra.
Marcela Ribas - Federico De Olivera
1.4 Ejericicos 51
1.4. Ejericicos
Atencion es muy importante que interpretes los resultados de casa ejercicio. Uno
de los objetivos de la Estadıstica es resumir y presentar informacion cuantitativa
de forma clara, por lo que es especialmente relevante que, en la resolucion de los
ejercicios, se exprese de forma evidente el planteamiento del problema, el metodo
seguido para su resolucion, los resultados y las conclusiones que se obtengan.
1. A continuacion se presenta una lista de variables, las cuales el estudiante
debe poder identificar de acuerdo a la clasificacion senalada el punto ante-
rior:
a) Numero de micciones en 24 horas.
b) Presion arterial sistolica (mm de Hg).
c) Color de ojos (agrupados en tres categorıas: 1) celestes, azules o verdes;
2) pardos o negros; 3) otros).
d) Apetito sexual: fuerte, moderado, leve o nulo.
e) Numero de deposiciones por dıa en un bebe de tres meses.
f ) Numero de cromosomas.
g) Cantidad de globulos rojos.
2. Los items de este primer ejercicio, tienen como fuente de datos la tabla
que se presenta a continuacion, la cual surge de una encuesta realizada
a usuarios de un servicio de salud. El significado de las variables, que se
encuentran en la primera fila de la tabla, se explican a continuacion de la
misma.
Edad Sexo BH Talla Peso GLU CT HDL
Marcela Ribas - Federico De Olivera
52 1. La Estadıstica Descriptiva
78 0 0 145 67.00 106 188 35
37 0 0 156 97.50 90 212 37
43 0 0 158 60.00 98 202 39
46 0 0 158 81.00 101 275 43
20 0 0 155 55.50 80 358 43
36 0 0 164 67.40 113 189 43
42 0 0 159 64.20 91 191 45
41 0 0 156 77.00 106 223 46
90 0 0 145 54.50 119 302 50
39 0 0 159 68.10 92 184 51
39 0 0 149 53.10 109 183 54
43 0 0 161 70.00 98 280 55
35 0 0 173 77.50 89 207 56
36 0 0 159 60.50 110 219 57
61 0 0 155 80.00 117 196 58
75 0 0 150 43.50 85 196 59
24 0 0 165 66.20 84 182 60
53 0 0 169 66.80 96 218 64
37 0 0 160 65.20 100 193 69
57 0 0 152 85.50 137 260 69
24 0 0 174 64.00 73 196 70
22 0 0 159 54.90 78 158 70
28 0 0 161 57.80 86 239 75
28 0 0 164 75.50 85 283 80
21 0 1 164 64.00 87 193 39
36 0 1 160 55.00 88 217 42
34 0 1 151 57.00 105 163 52
Marcela Ribas - Federico De Olivera
1.4 Ejericicos 53
35 0 1 158 66.00 93 242 54
26 0 1 167 47.70 82 179 61
21 0 1 157 57.40 72 232 77
71 1 0 154 61.60 96 233 34
35 1 0 173 97.50 138 211 36
29 1 0 169 81.00 101 229 39
50 1 0 167 67.50 103 221 41
39 1 0 174 88.00 102 214 42
39 1 1 167 82.00 97 273 45
47 1 1 164 70.00 240 264 49
39 1 1 180 81.00 80 238 67
69 1 1 168 71.40 109 235 77
41 1 1 166 82.00 125 255 30
EDAD: En anos
SEXO: 0 (Mujeres) 1 (Varones)
BH: Bebedor/a habitual: 1 (Sı) 0 (No)
TALLA: en cm.
PESO: En Kg.
GLU: Glucemia (mg/dl)
CT : Colesterol Total (mg/dl)
HDL: Fraccion de colesterol unido a lipoproteınas de alta densidad: High
Density Lipoproteins (mg/dl).
a) Clasifica todas las variables de la tabla, segun sean cuantitativas, cual-
itativas, discretas o continuas.
b) Haz una tabla con las frecuencias absolutas, relativas y acumuladas,
Marcela Ribas - Federico De Olivera
54 1. La Estadıstica Descriptiva
a partir de los datos de la variable edad, de la tabla anterior. Con-
sidera 5 intervalos de igual longitud. Interpreta los valores de la tabla
construida.
c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas,
a partir de los datos de glucemia de los varones de la tabla anterior.
Considera 4 intervalos de igual longitud. ¿ Que porcentaje de hombres
tienen un nivel normal de glucemia ? Contesta de dos formas: a partir
de la tabla de frecuencias y a partir de los datos originales. Explica las
diferencias que surjan.
d) Representa el histograma de la variable talla.Considera 5 interval-
os.Haz lo mismo, discriminando por sexo, considerando los mismos
intervalos. Compara.
e) Representa la tabla de frecuencias de la variable BH, diferenciando por
tres grupos de edades: de 20 a 39 anos, de 40 a 59 anos y de 60 a 90
anos. Compara.
f ) ¿Que puedes decir sobre las medidas de tendencia central de la variable
CT en las mujeres de la tabla? ¿Y sobre su dispersion?. Considere 5
intervalos.
g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( coles-
terol bueno) mas alto que los hombres”, a la luz de esta muestra.
3. Con el fin de observar la relacion entre la inteligencia y el nivel socioe-
conomico (medido por el salario mensual familiar, en miles de pesos) se
tomaron dos grupos: uno formado con personas de cociente intelectual infe-
rior a 95 y otro formado por los demas. De cada persona se anoto el salario
mensual familiar. Teniendo en cuenta los resultados que se indican en la
tabla:
Marcela Ribas - Federico De Olivera
1.4 Ejericicos 55
Nivel socioeconomico Personas con CI < 95 Personas con CI ≥ 95
Intervalos Frecuencia Frecuencia
[4, 10) 75 19
[10, 16) 35 26
[16, 22) 20 25
[22, 28) 30 30
[28, 34) 25 54
[34, 40] 15 46
a) Dibuje un grafico que permita comparar ambos grupos.
b) Calcule las medidas de tendencia central para cada uno de los dos
grupos de personas.
c) Calcular las medidas de dispersion para cada uno de los grupos.
d) ¿Que conclusiones se pueden sacar a raız de la informacion obtenida
en los items anteriores?
4. Un estudio consistio en anotar el numero de palabras leıdas en 15 segundos
por un grupo de 120 sujetos dislexicos y 120 individuos normales. Teniendo
en cuenta los resultados de la tabla
N ro de palabras leıdas Dislexicos Normales
25 56 1
26 24 9
27 16 21
28 12 29
29 10 28
30 2 32
calcule:
a) Las medias aritmeticas de ambos grupos.
Marcela Ribas - Federico De Olivera
56 1. La Estadıstica Descriptiva
b) Las medianas de ambos grupos.
c) El porcentaje de sujetos dislexicos que superaron la mediana de los
normales.
d) Compare la variabilidad relativa de ambos grupos.
5. En una epidemia de escarlatina, se recogieron el numero de fallecidos, en
40 ciudades de un paıs, obteniendose la siguiente tabla:
N ro de fallecidos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1
a) Representar graficamente estos datos.
b) Obtener la distribucion acumulada y representarla.
c) Calcular media, mediana y moda. Interpretarlas
d) Calcular la varianza y la desviacion standard.
e) Calcular el porcentaje de ciudades con al menos 2 muertos.
f ) Calcular el porcentaje de ciudades con mas de 3 muertos.
g) Calcular el porcentaje de ciudades con, a lo sumo, 5 muertos.
1.5. Artıculos OMS
A continuacion se presentan algunos extractos del artıculo: “Informe sobre la
salud en el mundo 2008. La atencion primaria de la salud: Mas necesaria que
nunca”.
Marcela Ribas - Federico De Olivera
La atención prim
aria de saludM
ás necesaria que nunca
Informe sobre la salud en el mundo 2008
La atención primaria de salud
Más necesaria
que nunca
OMS
Informe sobre la salud en el m
undo 2008
reformas en pro de la coBertUra
UniVersal
reformas de la prestación de serVicios
reformas del lideraZGo
reformas de las polÍticas
pÚBlicas
10
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca
Recuadro 1.3 Conforme mejora la información se hacen más patentes las múltiples dimensiones de las crecientes desigualdades sanitarias
En los últimos años se ha descrito de forma mucho más detallada el alcance de las diferencias existentes en cada país en cuanto a vulnerabilidad, acceso a la atención y resultados sanitarios (figura 1.9)59. El hecho de disponer de mejor información ha permitido observar que las desigualdades en materia de salud tienden a aumentar, lo que resalta los fallos y la desigualdad de las medidas adoptadas por los sistemas de salud para responder a las necesidades sanitarias de la población. Pese a la importancia concedida últimamente a la reducción de la pobreza, los sistemas de salud siguen teniendo dificultades para llegar a los pobres tanto en las zonas rurales cuanto en las urbanas, así como para afrontar las muy diversas causas y consecuencias de la desigualdad en materia de salud.
0
20
40
60
80
100
Figura 1.9 Desigualdades en materia de salud y en la prestación de atención en los paísesGasto de los hogares en salud por habitante como porcentaje del gasto total de los hogares, por grupo de ingresos
0Côte d’Ivoire
1988
1
2
3
4
5
6
Ghana1992
Madagascar1993–4
Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior
Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior
Tiempo medio (minutos) para desplazarse a un ambulatorio, por grupo de ingresos
0Bosnia y Herzegovina
2003–4Comoras2003–4
Ecuador2003–4
10
20
30
40
50
Mujeres sometidas a profilaxis contra la malaria (%), por grupo de ingresos
Cobertura vacunal básica completa (%), por grupo de ingresos
Guinea2005
Malawi2004
Níger2006
Tanzanía2004
0
20
40
60
80
100
Bangladesh2004
Colombia2005
Indonesia2002–3
Mozambique2003
0
20
40
60
80
100
Tasa de mortalidad neonatal, por nivel de estudios de la madre
Sin estudios Estudios primarios Educación secundaria o superior
Bolivia2003
Colombia2005
Lesotho2003
Nepal2006
Filipinas2003
0
20
40
60
80
100
Partos atendidos por profesionales sanitarios (%), por nivel de estudios de la madre
Benin2001
Bolivia2003
Botswana1998
Camboya2005
Perú2000
Fuentes: (60, 61, 62, 63).
32
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca
de uno de los artífices de la estrategia de APS de ese país: «Dado que era imposible poner en marcha el proyecto en todas las provincias al mismo tiempo, decidimos centrarnos cada año en una sola provincia» (recuadro 2.3).
Entre los factores que limitan ese despliegue progresivo de redes de atención primaria cabe destacar la falta de una categoría de personal de nivel intermedio con dotes de liderazgo que orga-nice los distritos sanitarios y tenga la capacidad de mantener, año tras año, el esfuerzo constante requerido para lograr resultados sostenibles para toda la población. Cuando la puesta en marcha se ha llevado a cabo como una actividad meramente administrativa, los resultados han sido decep-cionantes: muchos distritos sanitarios existen sólo teóricamente. Sin embargo, allí donde la impaciencia y la presión para lograr la visibili-dad a corto plazo se han gestionado de manera adecuada, la combinación de la respuesta a las necesidades y la demanda y la participación de la población y las instancias principales ha permitido construir redes sólidas de atención primaria, incluso en situaciones de conflicto y posconflicto muy difíciles y faltas de recursos (recuadro 2.4).
En la práctica la distinción entre el despliegue rápido de intervenciones prioritarias y el des-pliegue progresivo de redes de atención prima-ria no suele ser tan sencilla como se acaba de describir. Sin embargo, pese a esa convergencia, la búsqueda de un compromiso entre rapidez y sostenibilidad es un verdadero dilema político30. En Malí, por poner un ejemplo, se ha demostrado que, si se le permite elegir, la gente opta volun-tariamente por la puesta en marcha progresiva mediante la transformación de los centros de salud comunitarios – cuya infraestructura es propiedad de la comunidad local, que también se hace cargo de contratar al personal – en la base de distritos sanitarios funcionales.
Lo realmente importante es que la preocupa-ción por la equidad no se traduzca en la búsqueda del «mínimo común denominador»: la igualdad de acceso a un conjunto de servicios en gran medida insatisfactorios. La calidad y la sostenibilidad son importantes, de ahí la gran necesidad de armonización entre los numerosos proveedores públicos y privados sin fines de lucro y comercia-les, dinámicos y de diversos tipos. El despliegue gradual de servicios de salud brinda la oportuni-dad de imprimir una coherencia beneficiosa a la dirección de la prestación de atención sanitaria a nivel de distrito. Ejemplos típicos y en gran escala de este enfoque en los países en desarrollo son la subcontratación de servicios distritales de salud
Recuadro 2.3 Reducción de la brecha urbano-rural mediante la expansión progresiva de la cobertura de APS en las zonas rurales de la República Islámica del Irán31
En los años setenta las políticas del Gobierno iraní hicieron hincapié en la prevención como forma de inversión a largo plazo, la asignación de recursos a las zonas rurales y desfavorecidas, y la primacía de la atención ambulatoria respecto a la hospitalización. Se estableció una red de equipos distritales encargados de supervisar y administrar casi 2500 centros rurales sanitarios en aldeas. La plantilla de esos centros es un equipo formado por un médico, una partera, una enfermera y varios técnicos sanitarios. Cada centro supervisa de uno a cinco pequeños puntos de atención conocidos como «casas de salud». Gracias a esas 17 000 casas de salud, más del 90% de la población rural tiene acceso a atención sanitaria. En las zonas rurales remotas, el personal de las casas de salud está formado por behvarz (trabajadores de salud multifuncio-nales) que, tras ser seleccionados por la comunidad, reciben entre 12 y 18 meses de formación y luego son contratados por la Administración. Los equipos distritales imparten formación basada en la solución de problemas, así como supervisión y apoyo permanentes.
El Gobierno aplicó esta estrategia progresivamente, ampliando la cober-tura de provincia en provincia. Con los años, la red de APS ha crecido y está ahora en condiciones de prestar servicios a más de 24 millones de personas en aldeas rurales y localidades pequeñas, aproximando los consultorios a los lugares donde las personas viven y trabajan, e impartiendo formación al personal sanitario auxiliar necesario para que proporcione servicios de planificación familiar, atención preventiva y atención curativa esencial para la mayoría de los problemas sanitarios. En la actualidad las tasas de utilización de los servicios rurales de salud son similares a las de las zonas urbanas. La puesta en marcha progresiva de este sistema ha contribuido a reducir las diferencias de mortalidad infantil entre las zonas urbanas y las rurales (figura 2.5).
Mortalidad por 1000 menores de cinco años
1980
Figura 2.5 Mortalidad de menores de cinco años en zonas rurales y urbanas, República Islámica del Irán, 1980–200032
80
Urbana
60
40
20
0
Rural
1985 1990 1995 2000
16
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca
misma oferta. Los sistemas de salud son también reflejo de una cultura de consumo que se está generalizando. Sin embargo, por otra parte hay indicios de que la población es consciente de que esos sistemas de salud no aportan una respuesta adecuada a las necesidades y la demanda, y de que se mueven por intereses y objetivos no rela-cionados con las expectativas de las personas. A medida que las sociedades se modernizan y se vuelven más prósperas e informadas, va cam-biando la vida que la gente desea llevar como personas y como miembros de la sociedad, es decir, cambian sus valores112. Hoy día se tiende a considerar los servicios de salud más como un producto, pero también son cada vez mayores las expectativas con respecto a la salud y la atención sanitaria. La gente se interesa más de que lo se piensa por la salud como factor que influye en su vida cotidiana y la de sus familias (recuadro 1.5)113, y espera que sus familias y comunida-des estén protegidas de los riesgos y los peligros para la salud. Desea una atención sanitaria que la trate como personas con derechos y no como meros objetivos de programas o beneficiarios de obras de caridad. Está dispuesta a respetar a los profesionales sanitarios, pero desea ser respe-tada a su vez, y que exista un clima de confianza mutua114.
Las personas también tienen expectativas sobre la manera en que la sociedad se debe ocu-par de la salud y la atención sanitaria. Aspiran a una mayor equidad y solidaridad sanitarias y cada vez toleran menos la exclusión social, aunque a título individual se resistan a veces a actuar conforme a esos valores115. Esperan que las autoridades sanitarias, ya sean de la Adminis-tración o de otros organismos, hagan un mayor esfuerzo para proteger su derecho a la salud. Las encuestas sobre valores sociales realizadas desde la década de los ochenta muestran cada vez más puntos en común a este respecto entre los valores de los países en desarrollo y los de las sociedades más prósperas, donde la protección de la salud y el acceso a la atención a menudo se dan por des-contados112,115,116. La mayor prosperidad, el acceso a conocimientos y la conectividad social están asociados a un aumento de las expectativas. La población quiere poder intervenir más en lo que ocurre en su lugar de trabajo, en la comunidad en que vive y en las decisiones gubernamentales importantes que afectan a su vida117. El deseo de que la atención y la protección de la salud sean
mejores, de que haya menos inequidades en salud y de poder participar en las decisiones que afec-tan a la salud es más común e intenso que hace 30 años. En consecuencia, actualmente se espera mucho más de las autoridades sanitarias.
Equidad sanitaria Rara vez, si no nunca, se logra una situación de equidad en cuanto a la salud, la riqueza o el poder. Algunas sociedades son más igualitarias que otras,
Recuadro 1.5 La salud, una de las principales prioridades personales
Cuando se pregunta a las personas por los problemas más importantes con que se enfrentan ellas y sus familias, casi siempre se citan en primer lugar los apuros económicos, seguidos de cerca por la salud118. En uno de cada dos países, las enfermedades propias, los costos de la atención sanitaria, la mala calidad de la atención y otros temas de salud son las principales preocupaciones personales de más de una tercera parte de la población encuestada (figura 1.11). Así pues, no resulta sorprendente que el desmoronamiento del sistema de atención sanitaria – incluso los meros indicios de un posible desmoronamiento – pueda provocar una situación de descontento popular que amenace las ambiciones de los políticos considerados responsables119.
Figura 1.11 Porcentaje de la población que cita la salud como su principal preocupación, por delante de otras cuestiones como los problemas económicos, la vivienda y la delincuencia118
PoloniaUcrania
Federación de RusiaBulgaria
AlemaniaItalia
SueciaIsraelTurquía
EspañaRepública Checa
FranciaEslovaquia
Reino Unido
MéxicoChile
CanadáPerúArgentinaBrasil
Estados UnidosVenezuela
Bolivia
República de CoreaChina
JapónMalasia
BangladeshIndia
Indonesia
MarruecosPakistán
EgiptoLíbanoKuwait
JordaniaTerritorio palestino ocupado
UgandaMalí
República Unida de TanzaníaCôte d’Ivoire
SenegalNigeria
GhanaSudáfrica
KenyaEtiopía
0 10 20 30 40 50 60 70
Bloque tematico 2
La Probabilidad y las Variables
Aleatorias
Objetivo:
A lo largo del primer bloque aprendimos lo que es la Estadıstica Descriptiva y
estudiamos en detalle algunas de sus principales herramientas. Este conocimiento
es fundamental para estudiar el area fascinante de la Estadıstica Inferencial, tema
del siguiente y ultimo bloque, el cual constituye el nucleo del curso. Pero aun
nos falta comprender un concepto que sirve de nexo entre las dos ramas de la
Estadıstica: la Probabilidad
El objetivo de este segundo bloque tematico, es presentar la Teorıa de las Proba-
bilidades, rama de la Matematica y hacer una revision de algunos de sus aspectos,
seleccionados con el fin de permitir al estudiante comprender la Inferencia Es-
tadıstica.
Marcela Ribas - Federico De Olivera
62 2. La Probabilidad y las Variables Aleatorias
2.1. Introduccion
Con la Estadıstica Descriptiva nuestra preocupacion principal era la presentacion
y descripcion de los conjuntos de datos, que llamamos muestra, de la manera mas
significativa y eficaz. En la Estadıstica Inferencial, vamos mas alla: buscamos
basarnos en la informacion particular anterior para hacer una afirmacion general
acerca de la poblacion. Y este proceso inductivo solo es posible gracias al apoyo
que nos da la teorıa de las probabilidades.
Para poder aplicar las reglas de la probabilidad (que pronto veremos) es necesario
que la muestra sea aleatoria lo cual, basicamente significa que cada muestra de
tamano dado n tiene igual probabilidad de ser elegida y que cada elemento de
la poblacion tiene igual probabilidad de estar en la muestra. Lo anterior permite
generalizar una caracterıstica que presenta una muestra, a toda la poblacion, es
decir, permite hacer inferencia.
2.2. Teorıa de las probabilidades
En la realidad objetiva, los fenomenos son de dos tipos:
1. ciertos: seguros o imposibles. Por ejemplo es seguro que manana la Tierra
seguira girando en torno al Sol. Y es imposible que, si tiro un dado comun,
salga el 10.
2. o posibles. Por ejemplo es posible que manana llueva.
La probabilidad intentara dar una medida a los fenomenos que se mueven en
el ambito de “lo posible”, denominados tambien eventos o sucesos inciertos o
aleatorios. Dicha medida sera una medida de confianza, que le daremos a la
incertidumbre de nuestras previsiones, sobre sucesos pasados o futuros.
Marcela Ribas - Federico De Olivera
2.2 Teorıa de las probabilidades 63
Definiciones de probabilidad
La probabilidad se puede estudiar desde dos puntos de vista:
1. A priori o definicion clasica: la probabilidad se deduce usando la razon, no
la experiencia. Pero para aplicar dicha definicion se requiere que se cumplan
determinadas condiciones:
a) Numero finito de alternativas posibles.
b) Estas deben ser igualmente probables.
La “probabilidad de ocurrencia un evento A”, se escribe como P (A) y se
la define como la relacion o cociente entre el numero de casos favorables al
evento A y el numero de casos posibles:
Sea N : la cantidad de casos posibles y N(A): la cantidad de casos favorables
al evento A, entonces:
P (A) =cantidad de casos favorables
cantidad de casos posibles=N(A)
N
Supongamos que tenemos un dado no cargado y deseamos saber cual es la
probabilidad de obtener un numero mayor que 4 en una tirada.
Definimos A = “ obtener 5 o 6 en una tirada”. Ası P (A) = 26.
Observemos que para este calculo no tuvimos que recurrir a ninguna colec-
cion de datos observados. Solo utilizamos nuestra razon.
2. A posteriori o definicion empırica o frecuencista: la probabilidad se deduce
utilizando la experiencia observada despues del hecho, es decir, despues de
reunir algunos datos. Las condiciones requeridas son:
a) realizar determinadas pruebas un numero grande de veces
Marcela Ribas - Federico De Olivera
64 2. La Probabilidad y las Variables Aleatorias
b) todas en las mismas condiciones (experimentos repetibles).
La “probabilidad de ocurrencia un evento A” ( P (A)) se la define como la
relacion o cociente entre el numero de pruebas en las cuales el evento A se
verifica y el numero total de pruebas realizadas, cuando este ultimo tiende
a ser cada vez mas grande:
Sea n: cantidad de pruebas realizadas y n(A): cantidad de pruebas, en las
cuales el evento A se verifica. Entonces:
P (A) = lımn→+∞
n(A)
n= lım
n→+∞h(A)
proporcion (frecuencia relativa) de pruebas en las cuales el evento A se
verifica, cuando el numero de pruebas tiende a ser cada vez mas grande.
En la practica, no calculamos ningun lımite. Simplemento realizamos la
suficiente cantidad de pruebas o experimentos a fin de tener un n confiable
(ello depende de cada caso, lo veremos despues), contamos la cantidad de
pruebas en las cuales se cumple el evento A y realizamos el cociente, es
decir obtenemos h(A) = n(A)/n. Esta frecuencia relativa la tomamos como
una estimacion o aproximacion del verdadero valor de P (A), desconocido
generalmente.
Supongamos que tenemos un dado que sospechamos que esta cargado a
favor del 6, es decir que este numero tiene mas probabilidad de salir que
el resto. Entonces calcularemos esta probabilidad, de forma empırica. Lan-
zamos el dado por ejemplo 100 veces y observamos cuantas veces sale el
6. Si fuera un dado honesto deberıa salir aproximadamente 16 o 17 veces
(100/6 = 16, 67). Si el 6 sale 17 veces, entonces h(6) = 17/100 = 0, 17 que
es aproximadamente 1/6 , la probabilidad a priori.
Si el 6 sale muchas mas veces, sospecharıamos que esta cargado. Pero,
¿que significa muchas mas veces? ¿Con 20 veces alcanza ? ¿O deben ser al
Marcela Ribas - Federico De Olivera
2.3 Principales reglas de la Probabilidad 65
menos 25 veces que sale el 6, para afirmar que el dado esta cargado a favor
del 6? Lo resolveremos mas adelante, al estudiar la Inferencia Estadıstica.
2.3. Principales reglas de la Probabilidad
1. Como la probabilidad es, por definicion una proporcion, su valor fluctua
entre 0 y 1.
Ejemplo: como es seguro el que E: “una persona tenga el grupo sanguıneo
A, B, AB u O” se cumple entonces P (E) = 1. Y como es imposible que D:
“una persona tenga el grupo sanguıneo A y O a la vez”, entonces P (D) = 0.
Ası como P (“una persona tenga grupo sanguıneo O”) es un valor entre 0 y
1.
2. Probabilidad de la union
a) Para dos sucesos cualesquiera:
Sean A y B dos sucesos. La probabilidad de ocurrencia de A o B se
puede expresar como P (A ∪B) y vale
P [A ∪B] = P [A] + P [B]− P [A ∩B]
b) Para tres sucesos cualesquiera:
Sean A, B y C tres sucesos. La probabilidad de ocurrencia de A o B o
C se puede expresar como :
P [A∪B∪C] = P [A]+P [B]+P [C]–P [A∩B]–P [A∩C]–P [C∩B]+P [A∩B∩C]
Marcela Ribas - Federico De Olivera
66 2. La Probabilidad y las Variables Aleatorias
c) Para sucesos mutuamente excluyentes:
Sean A y B mutuamente excluyentes, es decir que son sucesos que
no pueden ocurrir al mismo tiempo, de forma que A∩B = ∅. Entonces
la probabilidad de que se cumpla el suceso A o B es:
P [A ∪B] = P [A] + P [B]
Esta regla se cumple tambien para mas de dos sucesos mutuamente
excluyentes.
3. Probabilidad de la interseccion:
a) Para sucesos dependientes:
Primero daremos una nocion de probabilidad condicionada.
NOTACION: Anotaremos como P [A|B] a la probabilidad de que ocur-
ra el suceso A, condicionada al hecho de que el suceso B ya ha ocurrido.
Usualmente se denomina probabilidad de A dado B, a P [A|B].
Analoga definicion para P [B|A]: probabilidad de B, dado A.
Por ejemplo, si lanzamos un dado honesto y consideramos los siguientes
eventos:
A = “sale un 4”
B = “sale un numero par”
P (A) = 1/6, un caso favorable entre 6 posibles. Pero P (A|B) = 1/3,
pues hay un caso favorable entre 3 posibles: puede ser el 2, 4 o 6
solamente pues ya sabemos que sale un numero par.
Marcela Ribas - Federico De Olivera
2.3 Principales reglas de la Probabilidad 67
¿Cuanto es P (B|A) ?. P (“sale par”| “sale el 4”) = 1, pues como ya
sabemos que sale el 4, es seguro que salga un numero par.
La probabilidad de ocurrencia de A y B se expresa como P [A ∩ B] y
vale
P [A ∩B] = P [A]. · P [B|A]
o
P [A ∩B] = P [B] · P [A|B]
Se usa una u otra formula, dependiendo de los datos que se tengan.
b) Para sucesos independientes:
Si A y B son sucesos independientes, la probablidad de ocurrencia
de A y B es:
P [A ∩B] = P [A] · P [B]
Pues P [A|B] = P [A] y P [B|A] = P [B], ya que los eventos A y B no
se influyen o condicionan mutuamente, al ser independientes.
c) Para sucesos mutuamente excluyentes:
Si A y B son mutuamente excluyentes, al cumplirse A ∩ B = ∅,
entonces
P [A ∩B] = P [∅] = 0
3. Pues el ∅ simboliza un suceso imposible.
4. Probabilidad del suceso contrario
Marcela Ribas - Federico De Olivera
68 2. La Probabilidad y las Variables Aleatorias
Sea Ac el suceso opuesto o contrario al suceso A. Se le llama tambien el
suceso complementario de A. Su probabilidad puede calcularse en base a la
P [A], ası:
P [Ac] = 1− P [A]
Ejemplo: El cuadro siguiente muestra la distribucion de la predisposicion
al alcoholismo, segun cada grupo sanguıneo, en un grupo de 200 personas:
Grupo Sanguıneo Alcoholico No alcoholico Total
A 35 35 70
B 9 9 18
AB 1 5 6
O 70 36 106
Total 115 85 200
Se escoge al azar una persona del grupo anterior:
a) ¿ Cual es la probabilidad de que tenga el grupo sanguıneo A o AB?
b) ¿ Cual es la probabilidad de que tenga el grupo A o sea alcoholico ?
c) ¿ Cual es la probabilidad de que sea del grupo B o AB o no sea
alcoholico ?
d) ¿ Cual es la probabilidad de que sea alcoholico y del grupo O ?
e) ¿ Cual es la probabilidad de que sea del grupo A y AB ?
f ) ¿ Cual es la probabilidad de que no sea del grupo O ?
g) Los eventos “ser alcoholico” y “ser del grupo AB”, ¿ son independientes
?
Notaciones:
Marcela Ribas - Federico De Olivera
2.3 Principales reglas de la Probabilidad 69
A: “la persona es del grupo A”
B: “la persona es del grupo B”
AB: “la persona es del grupo AB”
O: “la persona es del grupo O”
AL: “la persona es alcoholica”
a) P [A ∪ AB] = P [A] + P [AB] = 70/200 + 6/200 = 0, 38
b) P [A∪AL] = P [A]+P [AL]−P [A∩AL] = 70/200+115/200–35/200 =
0, 75
c)
P [B ∪ AB ∪ ALc] = P [B] + P [AB] + P [ALc]
−P [B ∩ AB]− P [B ∩ ALc]− P [ALc ∩ AB]
+P [B ∩ AB ∩ ALc]
=18
200+
6
200+
85
200− 0− 9
200− 5
200+ 0 =
95
200
= 0, 475
d) P [O ∩ AL] = P [O] · P [AL|O] = 106/200,70/106 = 0, 35
Otra forma: P [O ∩ AL] = P [AL] · P [O|AL] = 115/200,70/115 = 0, 35
e) P [A ∩ AB] = P [∅] = 0
f ) P [Oc] = 1–P [O] = 1–106/200 = 0, 47
g) Si P [AL] = P [AL|AB], entonces el evento AL es independiente del
evento AB.
Pero P [AL] = 115/200 = 0, 575 y P [AL|AB] = 1/6 = 0, 167.
Marcela Ribas - Federico De Olivera
70 2. La Probabilidad y las Variables Aleatorias
De igual manera son distintas P [AB] = 0, 03 y P [AB|AL] = 0, 0087.
Por lo tanto, no podemos afirmar que “ser alcoholico” y “ser del grupo
AB” sean eventos independientes. Quizas guarden cierta relacion, a
pesar de que no podamos establecer, con certeza, cual es esta relacion.
2.4. Variables Aleatorias (v.a)
Hasta ahora vimos probabilidades de sucesos o sea probabilidades de conjuntos.
A traves de ejemplos, vamos a acercarnos ahora al concepto de variable aleatoria,
cuyo principal objetivo es trabajar con los numeros reales. En concreto, dicha
variable aleatoria permite asociar, a cada suceso, con un subconjunto de los reales.
Asumimos la siguiente clasificacion, entre los pacientes de un hospital: entre 0 y
2 anos es un bebe; entre 2 y 9 anos es un nino; entre 9 y 15 anos un adolescente;
entre 15 y 21 anos, un joven; entre 21 y 60, un adulto y mas de 60, un adulto
mayor.
Por ejemplo, considerando la variable aleatoria X= edad del paciente, la
P [“que el paciente sea un adolescente”], lo podemos escibir como P [9 < X ≤ 15]
, o la P [“que el paciente sea un adulto mayor”] = P [X > 60] , y ası con las
demas categorıas:
P [“que el paciente sea un bebe”] = P [0 < X ≤ 2]
P [“que el paciente sea un nino”] = P [2 < X ≤ 9]
P [“que el paciente sea un joven”] = P [15 < X ≤ 21]
P [ “que el paciente sea un adulto”] = P [21 < X ≤ 60]
Todas las variables aleatorias tienen valores que las caracterizan, llamados
parametros. Dos de ellos muy importantes son la media poblacional o es-
peranza (que se simboliza µ ) y la varianza poblacional (que se simboliza σ2
Marcela Ribas - Federico De Olivera
2.4 Variables Aleatorias (v.a) 71
).
La esperanza es el promedio de todos los valores que toma la variable en la
poblacion y la varianza poblacional, es un parametro que nos da idea de como
estan dispersos los valores de la variabla aleatoria, alrededor de su esperanza: a
mayor varianza, mas alejados estan los valores, de la esperanza.
Observar la similitud de dichos parametros, con respecto a la media y varianza
muestrales: se diferencian en que, mientras que la media y la varianza pobla-
cionales son valores fijos (parametros), pues son unicos para cada poblacion, la
media y la varianza muestrales varıan en cada muestra, y por lo tanto son “vari-
ables”.
Otros parametros son la mediana y moda poblacionales, cuyo calculo es similar
a sus homonimos muestrales. No nos concentraremos en estos parametros en este
curso.
El calculo exacto de la esperanza y varianza poblacionales para una variable
aleatoria generica, exceden el nivel de este curso introductorio de probabilidad.
Este analisis, ası como la presentacion de algunas variables aleatorias discretas y
continuas, se presentan en un anexo, al final de este segundo bloque.
El estudio de las variables aleatorias cuantitativas discretas y continuas, es fun-
damental en ciencias de la salud. La mayor parte de ellas se comportan como
cuantitativas continuas y, cumpliendo ciertas condiciones, las variables biologicas
puede decirse que, en lıneas generales, siguen una distribucion llamada Normal.
En seguida veremos que significa esto.
Marcela Ribas - Federico De Olivera
72 2. La Probabilidad y las Variables Aleatorias
2.4.1. Variable aleatoria Normal
En Estadıstica y Probabilidad se llama distribucion Normal, distribucion de
Gauss o distribucion gaussiana, a una de las distribuciones de probabilidad
de variable continua que con mas frecuencia aparece en fenomenos reales.
La grafica que muestra como se distribuyen las probabilidades de esta vari-
able aleatoria (llamada funcion de densidad), tiene una forma acampanada y
es simetrica respecto de su esperanza. Esta curva se conoce como campana de
Gauss. La importancia de esta distribucion radica en que permite modelizar nu-
merosos fenomenos naturales, sociales y psicologicos.
Figura 2.1: Grafico de la densidad de la v.a. Normal
Esta grafica asigna probabilidades a la variable Z , la cual tiene una distribucion
Normal con media 0 y varianza 1, ( se anota ∼ N(0, 1)), denominada usualmente
como variable Normal Standard.
El area de la zona sombreada indica p = la probabilidad de que la variable Z
tome valores menores que el valor a (o menores o iguales a a). Por este motivo al
valor a a veces se lo anota como a = zp . O sea
P [Z ≤ zp] = p
Para calcular probabilidades con esta variable, basta saber leer adecuadamente
la siguiente tabla, y efectuar unos sencillos calculos. En esta tabla se muestran
Marcela Ribas - Federico De Olivera
2.4 Variables Aleatorias (v.a) 73
las probabilidades de que la variable aleatoria Normal Z, con esperanza 0 y
varianza 1, tome valores por debajo de un cierto numero zp: la parte entera de zp
esta en las columnas y sus decimales en las filas. En su encuentro o interseccion
esta p = P [z ≤ zp]
2.4.2. Tabla de la Distribucion Normal Estandar
Zp 0 1 2 3 4
0 0, 500 000 0, 841 344 0, 977 249 0, 998 650 0, 999 968
0,01 0, 503 989 0, 843 752 0, 977 784 0, 998 693 0, 999 969
0,02 0, 507 978 0, 846 135 0, 978 308 0, 998 736 0, 999 970
0,03 0, 511 966 0, 848 494 0, 978 821 0, 998 777 0, 999 972
0,04 0, 515 953 0, 850 830 0, 979 324 0, 998 817 0, 999 973
0,05 0, 519 938 0, 853 140 0, 979 817 0, 998 855 0, 999 974
0,06 0, 523 922 0, 855 427 0, 980 300 0, 998 893 0, 999 975
0,07 0, 527 903 0, 857 690 0, 980 773 0, 998 929 0, 999 976
0,08 0, 531 881 0, 859 928 0, 981 237 0, 998 964 0, 999 977
0,09 0, 535 856 0, 862 143 0, 981 691 0, 998 999 0, 999 978
0,1 0, 539 827 0, 864 333 0, 982 135 0, 999 032 0, 999 979
0,11 0, 543 795 0, 866 500 0, 982 570 0, 999 064 0, 999 980
0,12 0, 547 758 0, 868 643 0, 982 997 0, 999 095 0, 999 981
0,13 0, 551 716 0, 870 761 0, 983 414 0, 999 125 0, 999 981
0,14 0, 555 670 0, 872 856 0, 983 822 0, 999 155 0, 999 982
0,15 0, 559 617 0, 874 928 0, 984 222 0, 999 183 0, 999 983
0,16 0, 563 559 0, 876 975 0, 984 613 0, 999 211 0, 999 984
0,17 0, 567 494 0, 878 999 0, 984 996 0, 999 237 0, 999 984
0,18 0, 571 423 0, 880 999 0, 985 371 0, 999 263 0, 999 985
0,19 0, 575 345 0, 882 976 0, 985 737 0, 999 288 0, 999 986
Marcela Ribas - Federico De Olivera
74 2. La Probabilidad y las Variables Aleatorias
0,2 0, 579 259 0, 884 930 0, 986 096 0, 999 312 0, 999 986
0,21 0, 583 166 0, 886 860 0, 986 447 0, 999 336 0, 999 987
0,22 0, 587 064 0, 888 767 0, 986 790 0, 999 358 0, 999 987
0,23 0, 590 954 0, 890 651 0, 987 126 0, 999 380 0, 999 988
0,24 0, 594 834 0, 892 512 0, 987 454 0, 999 402 0, 999 988
0,25 0, 598 706 0, 894 350 0, 987 775 0, 999 422 0, 999 989
0,26 0, 602 568 0, 896 165 0, 988 089 0, 999 442 0, 999 989
0,27 0, 606 419 0, 897 957 0, 988 396 0, 999 462 0, 999 990
0,28 0, 610 261 0, 899 727 0, 988 696 0, 999 480 0, 999 990
0,29 0, 614 091 0, 901 474 0, 988 989 0, 999 499 0, 999 991
0,3 0, 617 911 0, 903 199 0, 989 275 0, 999 516 0, 999 991
0,31 0, 621 719 0, 904 902 0, 989 555 0, 999 533 0, 999 991
0,32 0, 625 515 0, 906 582 0, 989 829 0, 999 549 0, 999 992
0,33 0, 629 299 0, 908 240 0, 990 096 0, 999 565 0, 999 992
0,34 0, 633 071 0, 909 877 0, 990 358 0, 999 581 0, 999 992
0,35 0, 636 830 0, 911 491 0, 990 613 0, 999 595 0, 999 993
0,36 0, 640 576 0, 913 084 0, 990 862 0, 999 610 0, 999 993
0,37 0, 644 308 0, 914 656 0, 991 105 0, 999 624 0, 999 993
0,38 0, 648 027 0, 916 206 0, 991 343 0, 999 637 0, 999 994
0,39 0, 651 731 0, 917 735 0, 991 575 0, 999 650 0, 999 994
0,4 0, 655 421 0, 919 243 0, 991 802 0, 999 663 0, 999 994
0,41 0, 659 096 0, 920 730 0, 992 023 0, 999 675 0, 999 994
0,42 0, 662 757 0, 922 196 0, 992 239 0, 999 686 0, 999 995
0,43 0, 666 402 0, 923 641 0, 992 450 0, 999 698 0, 999 995
0,44 0, 670 031 0, 925 066 0, 992 656 0, 999 709 0, 999 995
0,45 0, 673 644 0, 926 470 0, 992 857 0, 999 719 0, 999 995
0,46 0, 677 241 0, 927 854 0, 993 053 0, 999 729 0, 999 995
Marcela Ribas - Federico De Olivera
2.4 Variables Aleatorias (v.a) 75
0,47 0, 680 822 0, 929 219 0, 993 244 0, 999 739 0, 999 996
0,48 0, 684 386 0, 930 563 0, 993 430 0, 999 749 0, 999 996
0,49 0, 687 933 0, 931 887 0, 993 612 0, 999 758 0, 999 996
0,5 0, 691 462 0, 933 192 0, 993 790 0, 999 767 0, 999 996
0,51 0, 694 974 0, 934 478 0, 993 963 0, 999 775 0, 999 996
0,52 0, 698 468 0, 935 744 0, 994 132 0, 999 784 0, 999 996
0,53 0, 701 944 0, 936 991 0, 994 296 0, 999 792 0, 999 997
0,54 0, 705 401 0, 938 219 0, 994 457 0, 999 799 0, 999 997
0,55 0, 708 840 0, 939 429 0, 994 613 0, 999 807 0, 999 997
0,56 0, 712 260 0, 940 620 0, 994 766 0, 999 814 0, 999 997
0,57 0, 715 661 0, 941 792 0, 994 915 0, 999 821 0, 999 997
0,58 0, 719 042 0, 942 946 0, 995 059 0, 999 828 0, 999 997
0,59 0, 722 404 0, 944 082 0, 995 201 0, 999 834 0, 999 997
0,6 0, 725 746 0, 945 200 0, 995 338 0, 999 840 0, 999 997
0,61 0, 729 069 0, 946 301 0, 995 472 0, 999 846 0, 999 997
0,62 0, 732 371 0, 947 383 0, 995 603 0, 999 852 0, 999 998
0,63 0, 735 652 0, 948 449 0, 995 730 0, 999 858 0, 999 998
0,64 0, 738 913 0, 949 497 0, 995 854 0, 999 863 0, 999 998
0,65 0, 742 153 0, 950 528 0, 995 975 0, 999 868 0, 999 998
0,66 0, 745 373 0, 951 542 0, 996 092 0, 999 873 0, 999 998
0,67 0, 748 571 0, 952 540 0, 996 207 0, 999 878 0, 999 998
0,68 0, 751 747 0, 953 521 0, 996 318 0, 999 883 0, 999 998
0,69 0, 754 902 0, 954 486 0, 996 427 0, 999 887 0, 999 998
0,7 0, 758 036 0, 955 434 0, 996 532 0, 999 892 0, 999 998
0,71 0, 761 148 0, 956 367 0, 996 635 0, 999 896 0, 999 998
0,72 0, 764 237 0, 957 283 0, 996 735 0, 999 900 0, 999 998
0,73 0, 767 304 0, 958 184 0, 996 833 0, 999 904 0, 999 998
Marcela Ribas - Federico De Olivera
76 2. La Probabilidad y las Variables Aleatorias
0,74 0, 770 350 0, 959 070 0, 996 927 0, 999 907 0, 999 998
0,75 0, 773 372 0, 959 940 0, 997 020 0, 999 911 0, 999 998
0,76 0, 776 372 0, 960 796 0, 997 109 0, 999 915 0, 999 999
0,77 0, 779 350 0, 961 636 0, 997 197 0, 999 918 0, 999 999
0,78 0, 782 304 0, 962 462 0, 997 281 0, 999 921 0, 999 999
0,79 0, 785 236 0, 963 273 0, 997 364 0, 999 924 0, 999 999
0,8 0, 788 144 0, 964 069 0, 997 444 0, 999 927 0, 999 999
0,81 0, 791 029 0, 964 852 0, 997 522 0, 999 930 0, 999 999
0,82 0, 793 892 0, 965 620 0, 997 598 0, 999 933 0, 999 999
0,83 0, 796 730 0, 966 375 0, 997 672 0, 999 935 0, 999 999
0,84 0, 799 545 0, 967 115 0, 997 744 0, 999 938 0, 999 999
0,85 0, 802 337 0, 967 843 0, 997 813 0, 999 940 0, 999 999
0,86 0, 805 105 0, 968 557 0, 997 881 0, 999 943 0, 999 999
0,87 0, 807 849 0, 969 258 0, 997 947 0, 999 945 0, 999 999
0,88 0, 810 570 0, 969 946 0, 998 011 0, 999 947 0, 999 999
0,89 0, 813 267 0, 970 621 0, 998 073 0, 999 949 0, 999 999
0,9 0, 815 939 0, 971 283 0, 998 134 0, 999 951 0, 999 999
0,91 0, 818 588 0, 971 933 0, 998 192 0, 999 953 0, 999 999
0,92 0, 821 213 0, 972 571 0, 998 249 0, 999 955 0, 999 999
0,93 0, 823 814 0, 973 196 0, 998 305 0, 999 957 0, 999 999
0,94 0, 826 391 0, 973 810 0, 998 358 0, 999 959 0, 999 999
0,95 0, 828 943 0, 974 412 0, 998 411 0, 999 960 0, 999 999
0,96 0, 831 472 0, 975 002 0, 998 461 0, 999 962 0, 999 999
0,97 0, 833 976 0, 975 580 0, 998 510 0, 999 964 0, 999 999
0,98 0, 836 456 0, 976 148 0, 998 558 0, 999 965 0, 999 999
0,99 0, 838 912 0, 976 704 0, 998 605 0, 999 966 0, 999 999
Marcela Ribas - Federico De Olivera
2.4 Variables Aleatorias (v.a) 77
A continuacion explicaremos como proceder si, en lugar de tener una variable Z,
N(0, 1), tenemos una variable X: Normal con media µ y varianza σ (N(µ, σ) , y
queremos hallar p = P [X ≤ b] .
Previamente, presentaremos algunas propiedades.
Distribucion de probabilidades alrededor de la media en una variable aleatoria X
, con distribucion N(µ, σ).
Notacion: X ∼ N(µ, σ)
Figura 2.2: Grafico de la densidad de la v.a. Normal de parametros µ y σ
Algunas propiedades de la distribucion Normal, X ∼ N(µ, σ) son:
1. Es simetrica respecto de su media, µ ;
2. La moda y la mediana son ambas iguales a la media, µ;
3. Los puntos de inflexion de la curva se dan para x = µ− σ y x = µ+ σ.
4. Distribucion de probabilidad en un entorno de la media:
a) en el intervalo [µ − σ, µ + σ] se encuentra comprendida, aproximada-
mente, el 68,26 % de la distribucion;
Marcela Ribas - Federico De Olivera
78 2. La Probabilidad y las Variables Aleatorias
b) en el intervalo [µ − 2σ, µ + 2σ] se encuentra, aproximadamente, el
95,44 % de la distribucion;
c) por su parte, en el intervalo [µ−3σ, µ+3σ] se encuentra comprendida,
aproximadamente, el 99,74 % de la distribucion. Estas propiedades son
de gran utilidad para el establecimiento de intervalos de confianza. Por
otra parte, el hecho de que practicamente la totalidad de la distribucion
se encuentre a tres desviaciones tıpicas de la media justifica los lımites
de las tablas empleadas habitualmente en la normal estandar.
5. Si X ∼ N(µ, σ) , a y b son numeros reales, entonces (aX + b) ∼ N(aµ +
b, aσ).
6. Si X ∼ N(µx, σx) e Y ∼ N(µy, σy) son variables aleatorias normales inde-
pendientes , entonces:
a) Su suma esta normalmente distribuida con
S = X + Y ∼ N(µx + µy,√σ2x + σ2
y)
b) Su diferencia esta normalmente distribuida con
D = X − Y ∼ N(µx − µy,√σ2x + σ2
y)
c) Si las varianzas de X e Y son iguales, entonces S y D son independi-
entes entre sı.
7. Si X1, . . . , Xn son variables normales estandar independientes, entonces
X21 + · · ·X2
n sigue una distribucion χ2 con n grados de libertad. Esta vari-
able aleatoria sera de gran utilidad a la hora de realizar algunas pruebas de
hipotesis estadısticas, que se basen en medir diferencias. El calculo de prob-
abilidades asociado a la variable χ2 se encuentra tabulado y sera explicado
en el bloque tematico 3.
Marcela Ribas - Federico De Olivera
2.4 Variables Aleatorias (v.a) 79
8. Si X1, . . . , Xn son variables normales estandar independientes, entonces la
media muestral
X =X1 + · · ·+Xn
n
y la varianza muestral
S2 =[(X1 −X)2 + · · · (Xn −X)2]
n− 1
son independientes. Esta propiedad caracteriza a las distribuciones Nor-
males.
2.4.3. Estandarizacion de variables aleatorias Normales
Como consecuencia de la Propiedad 5, es posible relacionar todas las vari-
ables aleatorias normales con la distribucion Normal estandar. En efecto: Si
X ∼ N(µ, σ), entonces Z = X−µσ
es una variable aleatoria Normal estandar:
Z ∼ N(0, 1).
La transformacion de una distribucion X ∼ N(µ, σ) en una v.a. Con distribucion
N(0, 1) se llama normalizacion, estandarizacion o tipificacion de la variable
X.
Y a la inversa: si Z es una distribucion Normal estandar Z ∼ N(0, 1), entonces
X = σZ + µ
es una variable aleatoria Normal tipificada de media µ y varianza σ2.
Como la distribucion Normal estandar esta tabulada y las otras distribuciones
Normales pueden obtenerse como transformaciones simples de la distribucion
estandar, como se describe mas arriba, se pueden usar los valores tabulados de
la funcion de distribucion normal estandar para encontrar valores de la funcion
de distribucion de cualquier otra distribucion Normal.
Marcela Ribas - Federico De Olivera
80 2. La Probabilidad y las Variables Aleatorias
Ejemplo: Si X ∼ N(1, 2), y deseo calcular la P [X < 2], entonces planteo
P [X ≤ 2] = P [X − 1
2≤ 2− 1
2] = P [Z ≤ 1
2]tabla= 0,691462
Otros ejemplos se presentaran en el practico.
Marcela Ribas - Federico De Olivera
2.5 Ejercicios 81
2.5. Ejercicios
1. En una universidad de Argentina, el 50 % de los alumnos habla ingles, el
20 % frances y el 5 % los dos idiomas. ¿Cual es la probabilidad de encontrar
alumnos que hablen alguna lengua extranjera?
2. El 60 % de los individuos de una poblacion estan vacunados contra una
cierta enfermedad. Durante una epidemia se sabe que el 20 % la ha contraıdo
y que 2 de cada 100 individuos estan vacunados y son enfermos. Calcular el
porcentaje de vacunados que enferma y el de vacunados entre los que estan
enfermos.
3. Dos tratamientos A y B curan una determinada enfermedad en el 20 % y
30 % de los casos, respectivamente. Suponiendo que ambos actuan de modo
independiente, cual de las dos siguientes estrategias utilizar para curar a
un individuo con tal enfermedad:
a) Aplicar ambos tratamientos a la vez.
b) Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A.
4. Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar
un control antidopaje; Se sabe que 2 de los jugadores del equipo han tomado
sustancias prohibidas. ¿Cual es la probabilidad de elegir para el analisis a
alguno de los infractores?
5. Estamos interesados en saber cual de dos analisis A y B es mejor para
el diagnostico de una determinada enfermedad, de la cual sabemos que la
presentan un 10 % de individuos de la poblacion. El porcentaje de resultados
falsos positivos del analisis A es del 15 % y el de B es del 22 %. El porcentaje
de falsos negativos de A es del 7 % y de B es del 3 %.
¿Cual es la probabilidad de acertar en el diagnostico con cada metodo?
Marcela Ribas - Federico De Olivera
82 2. La Probabilidad y las Variables Aleatorias
6. Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. Tal tecnica
tiene una sensibilidad del 91 % y una especificidad del 98 %. En la poblacion
que nos ocupa la probabilidad de colelitiasis es del 20 %.
a) Si a un individuo de tal poblacion se le aplican los ultrasonidos y dan
positivos, ¿cual es la probabilidad de que sufra la colelitiasis?
b) Si el resultado fuese negativo, ¿cual es la probabilidad de que no tenga
la enfermedad?
Sugerencia: Siendo T+ el evento “el diagostico es positivo” y E el evento
“el paciente esta enfermo”, el teorema de Bayes nos dice que:
P (E|T+) =P (T+|E)P (E)
P (T+|E)P (E) + P (T+|Ec)P (Ec)
De ahora en mas tenerlo presente.
7. Entre los estudiantes de una Facultad se dan las siguientes proporciones:
el 40 % son hombres. El 70 % de los varones fuman, mientras que entre
las mujeres solo fuman el 20 %. Escogido un estudiante al azar, calcular la
probabilidad de que fume.
Sugerencia: Siendo H el suceso “el estudiante es Hombre”, F “el estudiante
fuma”, analogo para mujer (M) y no fuma (F c), el Teorema de probabili-
dades Totales nos dice:
P (F ) = P (F |H)P (H) + P (F |M)P (M)
De ahora en mas tenerlo presente.
8. Los estudios epidemiologicos indican que el 20 % de los ancianos sufren un
deterioro neuropsicologico. Sabemos que la tomografıa axial computerizada
(TAC) es capaz de detectar este trastorno en el 80 % de los que lo sufren,
pero que tambien da un 3 % de falsos positivos entre personas sanas. Si
Marcela Ribas - Federico De Olivera
2.5 Ejercicios 83
tomamos un anciano al azar y da positivo en el TAC, ¿cual es la probabil-
idad de que este realmente enfermo?
9. Una enfermedad puede estar producida por tres virus: A, B, o C. En el
laboratorio hay 3 tubos de ensayo con el virus A, 2 tubos con el virus B
y 5 tubos con el virus C. La probabilidad de que el virus A produzca la
enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el
virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad.
¿Cual es la probabilidad de que el virus que se inocule sea el C?
10. El 70 % de los estudiantes aprueba una asignatura A y un 60 % aprueba
otra asignatura B. Sabemos, ademas, que un 35 % del total aprueba ambas.
Elegido un estudiante al azar, calcular las probabilidades de las siguientes
situaciones:
a) Haya aprobado la asignatura B, sabiendo que ha aprobado la A.
b) Haya aprobado la asignatura B, sabiendo que no no ha aprobado la A.
c) No haya aprobado la asignatura B, sabiendo que ha aprobado la A.
d) No haya aprobado la asignatura B, sabiendo que no ha aprobado la A.
11. En un campus universitario existen 3 carreras sanitarias. Se sabe que el
50 % cursan estudios de Enfermerıa el 30 % Medicina y el 20 % Veterinaria.
Los que finalizaron sus estudios son el 20, 10 y 5 % respectivamente. Elegido
un estudiante al azar, hallar la probabilidad de que haya acabado la carrera.
12. En una mutualista, sucede que muchas veces un individuo enfermo es di-
agnosticado como sano y a veces uno sano es diagnosticado como enfermo.
Las estadısticas de datos se resumen en el siguiente cuadro:
Enfermo Sano
Diagnosticado enfermo 89 12
Diagnosticado sano 11 388
Marcela Ribas - Federico De Olivera
84 2. La Probabilidad y las Variables Aleatorias
Calcular las siguientes probabilidades:
a) Que un individuo este enfermo.
b) Que un individuo este sano.
c) Que un individuo sano sea diagnosticado como enfermo.
d) Que un individuo enfermo sea diagnosticado como sano.
e) Que a un individuo le den un diagnostico errado.
f ) Que un individuo, diagnosticado como sano, este enfermo.
g) Que un individuo, diagnosticado como enfermo, este sano.
13. Entre los diabeticos, el nivel de glucosa en sangre X, en ayunas, puede
suponerse de distribucion aproximadamente normal, con media 106 mg/100
ml y desviacion tıpica 8 mg/100 ml.
a) Hallar P [X ≤ 112].
b) ¿Que porcentaje de diabeticos tienen niveles comprendidos entre 102
y 112 mg/100 ml.
c) Hallar P [106 ≤ X ≤ 110].
d) Hallar P [X ≤ 115].
e) Hallar el punto x caracterizado por la propiedad de que el 75 % de
todos los diabeticos tiene un nivel de glucosa en ayunas inferior o
igual a x.
f ) Hallar el punto x caracterizado por la propiedad de que el 25 % de
todos los diabeticos tiene un nivel de glucosa en ayunas inferior o
igual a x.
14. Se supone que la glucemia basal en individuos sanos, Xs, sigue una dis-
tribucion Normal con µs = 80 y σs = 10, mientras que en los diabeticos,
Marcela Ribas - Federico De Olivera
2.5 Ejercicios 85
Xd, sigue una distribucion Normal con media µd = 160 y σd = 31, 4. Si se
conviene en clasificar como sanos al 2 % de los diabeticos (con valores mas
bajos):
a) ¿Por debajo de que valor xs se considera sano a un individuo
diabetico?.
b) Si un individuo sano tiene un valor de glucemia mayor a xs es con-
siderado diabetico. ¿Que porcentaje de sanos seran clasificados como
diabeticos?.
c) Se sabe que en la poblacion en general el 10 % de los individuos son
diabeticos ¿cual es la probabilidad de que un individuo elegido al azar
y diagnosticado como diabetico, realmente lo sea?
15. Se supone que en una cierta poblacion humana el ındice cefalico I, (co-
ciente entre el diametro transversal y el longitudinal expresado en tanto
por ciento), se distribuye segun una Normal. El 58 % de los habitantes son
dolicocefalos (I ≤ 75), el 38 % son mesocefalos (75 < I ≤ 80) y el 4 %
son braquicefalos (i > 80). Hallar la media y la desviacion tıpica del ındice
cefalico en esa poblacion.
16. Se esta llevando a cabo un estudio que pretende descubrir cual es el nivel
del tabaquismo en la Universidad.
Analizando datos, se descubre que la cantidad promedio de cigarrillos fuma-
dos diariamente por los estudiantes es de 15,2 cigarrillos con una desviacion
standard de 9,5 cigarrillos. Asimismo se encuentra que tiene distribucion
Normal.
Suponga que una caja chica (una cajilla) tiene 10 cigarrillos.
a) ¿ Cual es la probabilidad de que una persona no termine una cajilla a
diario?.
Marcela Ribas - Federico De Olivera
86 2. La Probabilidad y las Variables Aleatorias
b) ¿ Cual es la probabilidad de que fume mas de media cajilla diaria ?.
c) Al 30 % las personas que consumen mas cigarrillos se les realiza un
estudio posterior, para analizar el origen de su tabaquismo. Por lo
tanto seran analizadas aquellas personas que fuman.............................
cigarrillos por dıa.
Marcela Ribas - Federico De Olivera
2.6. Anexo: Esperanza matematica y Varianza
2.6.1. Distribucion de Probabilidad de la variable aleato-
ria X
Para las v. a. discretas, se define la funcion de cuantıa PX(x).
Es una funcion tal que, a cada valor que toma la v.a. X, le asigna su
probabilidad.
PX(x) = P (X = x)
Para las v. a. continuas, se define la funcion de densidad fX(x).
En este curso no nos ocuparemos de esta funcion, por requerir calculos
matematicos avanzados.
Propiedades que cumplen PX(x) y fX(x)
1. 0 ≤ PX(x) ≤ 1 ∀x ∈ Rec(X)
fX(x) ≥ 0 ∀x ∈ R
2.∑
x∈Rec(X) PX(x) = 1∫ +∞−∞ fX(x)dx = 1
2.6.2. Esperanza de X: E(X)
Esperanza ( o valor medio, o media poblacional, o valor esperado ) de una v. a.
X es el “promedio ponderado” de los valores que toma la v. a. X.
88 2. La Probabilidad y las Variables Aleatorias
En las v. a. discretas, los valores x son ponderados por sus probabilidades.
E(X) =∑
x∈Rec(X)
PX(x)
En las v. a. continuas, los valores x son ponderados por la funcion de den-
sidad.
E(X) =
∫ ∞−∞
x · fx(x)dx
2.6.3. Varianza de X: V ar(X)
Varianza de una v. a. X: es el promedio ponderado de las
desviaciones al cuadrado, de todos los valores que toma la v. a. X, respecto a
su esperanza.
V ar(X) = E[(X–E(X))2]cuentas
= E(X2)− E(X)2
En las v. a. discretas, los valores x son ponderados por sus probabilidades.
V ar(X) =∑
x∈Rec(X)
(x−E(X))2·P (X = x) =[ ∑x∈Rec(X)
x2·P (X = x)]−[E(X)
]2
¿ Como calculo E(X2) ? . Para v. a. discretas:
E(X2) =∑
x∈Rec(X)
x2 · P (X = x)
En las v. a. continuas, los valores x son ponderados por la funcion de den-
sidad.
V ar(X) =
∫ +∞
−∞(x− E(X))2 · fx(x)dx
Dado el grado de difultad matematico la definicion para v.a. continuas es
solo a los efectos ilustrativos.
Marcela Ribas - Federico De Olivera
2.6 Anexo: Esperanza matematica y Varianza 89
Propiedades de la Varianza de X
1. V ar(a) = 0 , para toda constante a
2. V ar(a ·X) = a2 · V ar(X)
3. Si X e Y son v. a. independientes V ar(X + Y ) = V ar(X) + V ar(Y ) .
No podemos interpretar el valor de la varianza de X, pues no tiene interpretacion
en sı misma , por ser una magnitud expresada en unidades al cuadrado (recordar
Estadıstica Descriptiva). Para poder interpretar, debemos tomar la raız cuadrada-
da de la varianza, es decir: la desviacion standard (o desviacion tıpica ).
Propiedades de la esperanza de X
1. E(a) = a , para toda constante1 a.
2. E(a ·X) = a · E(X), para toda constante a y toda variable aleatoria X.
3. E(X + Y ) = E(X) + E(Y ), para todo par de variables aleatorias X e Y .
Desvıo standard de X:√V ar(X)
Es un “tipo de promedio ponderado” de las desviaciones, de todos los valores que
toma la v. a. X, respecto a su esperanza (E(X) ).
De acuerdo con esta definicion, el desvıo standard se calcula tomando la raız
cuadrada de la varianza.
1Una constante es pensada como una variable aleatoria que con probabilidad 1 tomo siempre
el mismo valor
Marcela Ribas - Federico De Olivera
90 2. La Probabilidad y las Variables Aleatorias
2.7. Algunas variables aleatorias
2.7.1. Variable aleatoria Uniforme Discreta
Es una variable discreta cuyo recorrido es un conjunto finito de puntos, y cumple,
ademas, que cada punto de su recorrido tiene igual probabilidad.
Si X es una variable uniforme discreta toma valores en el conjuto {x1, x2, . . . , xn},
o sea esta compuesto por n puntos, entonces cumplira que:
P (X = x1) =1
n
P (X = x2) =1
n...
P (X = xn) =1
n
P (X = x) = 0 si x 6∈ {x1, x2, . . . , xn}
Ejemplos:
1. X1 = numero que sale en la cara superior al tirar un dado.
Rec(X1) = {1, 2, . . . , 6}.
P (X1 = 1) = 1/6, . . . , P (X1 = 6) = 1/6
2. X2 = numero que sale al sacar una carta de una baraja espanola (sin
comodines).
Marcela Ribas - Federico De Olivera
2.7 Algunas variables aleatorias 91
Rec(X2) = 1, 2, . . . , 12.
P (X2 = 1) = 4/48 = 1/12, . . . , P (X2 = 12) = 1/12
2.7.2. Variable aleatoria Bernoulli
La variable aleatoria Bernoulli surge a partir de un determinado experimento
aleatorio, del cual pueden resultar solo dos situaciones:
1. un exito E, con probabilidad p
2. o un fracaso F = EC , con probabilidad 1–p.
A partir de lo anterior, se define la variable aleatoria de Bernoulli ( X ) como:
X =
1 si sucede exito (E)
0 si sucede fracaso (F )
La funcion de probabilidad de esta variable es, entonces:
P (X = 1) = P (E) = p
P (X = 0) = P (F ) = 1− p
Esperanza y varianza de una v.a. Bernoulli
E(X) =∑
x∈Rec(X) x · P (X = x) = 0 · P (X = 0) + 1 · P (X = 1) = p
V ar(X) =[∑
x∈Rec(X) x2 · P (X = x)
]−[E(X)
]2= p− p2 = p(1− p)
En resumen, si X ∼ Bernoulli(p), entonces E(X) = p y V ar(X) = p(1− p).
Marcela Ribas - Federico De Olivera
92 2. La Probabilidad y las Variables Aleatorias
2.7.3. Variable aleatoria Binomial
El esquema de la variable aleatoria Binomial consta de los siguientes elementos:
1. Un experimento aleatorio, del cual pueden resultar:
a) un exito E, con probabilidad p
b) o un fracaso F = EC , con probabilidad (1–p)
2. Un numero n de repeticiones del experimento anterior, realizadas:
a) de forma independiente
b) y siempre en las mismas condiciones.
La v. a. Binomial X se define como
X =“ cantidad de exitos (E) en los n experimentos realizados”.
Observacion: ¿ Que tipo de v. a. es ?.
Analicemos su recorrido: Rec(X) = 0, 1, 2, ..., n. Por lo tanto, como es un conjunto
finito, la v. a. Binomial es una v. a. discreta.
¿Cual es la distribucion de probabilidad para la v.a. Binomial X?
Al ser X una v. a. discreta, tiene funcion de cuantıa PX(i) = P (X = i), la cual
puede calcularse por medio de calculos combinatorios de conteo:
PX(i) = P (X = i) = Cni · pi(1− p)n−i
donde i ∈ Rec(X) y Cni = n!
(n−i)!i! = n·(n−1)·(n−2)···3·2·1[(n−i)·(n−i−1)·(n−i−2)···3·2·1][i·(i−1)·(i−2)···3·2·1]
Ejemplo:
Marcela Ribas - Federico De Olivera
2.7 Algunas variables aleatorias 93
Tiro un dado tres veces ¿ Cual es la probabilidad de que me salga solo un seis en
las tres tiradas ?
Vamos a analizarlo, sin usar la formula de la v. A. Binomial (en forma explıcita):
1. El seis puede salir en cualquiera de las tres tiradas; entonces los eventos que
me sirven son:
A : 6, 6= 6, 6= 6
B : 6= 6, 6, 6= 6
C : 6= 6, 6= 6, 6
2. Como las tiradas son independientes, entonces:
P (A) = P (“6 en la 1ra tirada” y “no 6 en la 2da tirada” y “ no 6 en la 3ra tirada”)indep
= P (“6 en la 1ra tirada”) · P (“no 6 en la 2da tirada”) · P (“ no 6 en la 3ra tirada”)
=16· 5
6· 5
6=(
16
)1
·(
56
)2
De la misma forma se obtiene:
P (B) =56· 1
6· 5
6=(
16
)1
·(
56
)2
P (C) =56· 5
6· 1
6=(
16
)1
·(
56
)2
3. Por lo tanto, la probabilidad de que me salga solo un seis en las tres tiradas es :
P (A ∪B ∪ C) mutuamente=excluyentes
P (A) + P (B) + P (C) = 3 ·(
16
)1
·(
56
)2
Otra forma: usando la v.a. Binomial.
Antes que nada , analizo si estoy en presencia de un experimento Binomial:
Marcela Ribas - Federico De Olivera
94 2. La Probabilidad y las Variables Aleatorias
1. Existe un experimento aleatorio, que consiste en tirar una vez el dado, en
el cual hay dos resultados posibles:
un exito E: si sale un seis, con probabilidad p = 1/6
o un fracaso F = EC = “si no sale un seis” , con probabilidad (1−p) =
5/6
2. Un numero n = 3 de repeticiones del experimento anterior, realizadas :
de forma independiente, pues el resultado de una tirada no condiciona
los resultados de las tiradas siguientes.
y siempre en las mismas condiciones, pues supongo que el dado no se
carga con las sucesivas tiradas; es decir, la probabilidad de que salga
un seis, es siempre 1/6 .
Entonces, la probabilidad de que me salga solo un seis en las tres tiradas ,
es
PX(1) = P (X = 1) = Cn1 ·p1(1−p)n−1 = C3
1 ·(
1
6
)1
·(
1− 1
6
)3−1
= 3·(
1
6
)1
·(
5
6
)2
igual a lo calculado antes.
Esperanza y varianza de una v.a. Binomial
Sea X una v. a. Binomial con parametros p = probabilidad de Exito, y n =
cantidad de repeticiones. Se demuestra que X puede ser representada por una
suma de n variables Bernoulli de parametro p todas independientes, es decir:
X = X1 +X2 + · · ·+Xn
Marcela Ribas - Federico De Olivera
2.7 Algunas variables aleatorias 95
donde X ∼ Binomial(n, p), y X1, X2, . . . , Xn son Bernoulli(p) todas independi-
entes.
Ahora, usando las propiedades de la esperanza y la varianza tenemos:
1.
E(X) = E(X1 +X2 + · · ·+Xn)
= E(X1) + E(X2) + · · ·+ E(Xn))
= p+ p+ · · ·+ p
= n · p
2.
V ar(X) = V ar(X1 +X2 + · · ·+Xn)
indep= V ar(X1) + V ar(X2) + · · ·+ V ar(Xn))
= p(1− p) + p(1− p) + · · ·+ p(1− p)
= n · p(1− p)
En resumen, siX ∼ Binomial(n, p), entonces E(X) = n·p y V ar(X) = n·p(1−p).
2.7.4. Variablea aleatorias continuas
Variable aleatoria Normal
Una v. a. X se distribuye Normal, con esperanza E(X) = µ, µ ∈ R y varianza
V ar(X) = σ2, σ ∈ R+, si su funcion de densidad es: fX : R→ R tal que
fX(x) =1
√2πσ · e
−12· (x−µ)2
σ2
Marcela Ribas - Federico De Olivera
96 2. La Probabilidad y las Variables Aleatorias
Notacion: Siendo σ =√V ar(X) el desvıo standard de X, anotamos X ∼
N(µ, σ) para indicar que X es una v.a. Con distribucion normal y cuya esperanza
es µ y su desvıo standard es σ.
Vale aclarar que algunos autores prefieren poner en el segundo parametro la
varianza en lugar del desvıo standard, en todo caso hay que estar atento a la
bibliografıa a leer.
NOTA: µ es el parametro de posicion y puede ser un numero real cualquiera, σ
es el parametro de dispersion y debe ser un numero real positivo.
Distribucion Normal Standard o Tipificada
Una v. a. Z se distribuye Normal Standard, o sea si sus parametros son cero y
uno respectivamente, es decir: Z ∼ N(0, 1).
Es inmediato deducir que E(Z) = 0 y V ar(Z) = 1.
La funcion de densidad de la v.a. Normal estandard es φ : R→ R tal que
φ(x) =1
2π· e−
12·x2
Observacion: ¿ Como calculo probabilidades con la v.a. Z, con Z ∼ N(0, 1) ?
Teoricamente, deberıamos efectuar el calculo:
P (Z ≤ a) =
∫ a
−∞φ(x)dx =
∫ a
−∞
1
2π· e−
12·x2
dx
Pero ello es imposible incluso con calculo avanzado, en lugar de ello, buscamos el
resultado en la tabla de la variable Normal Standard, de la forma explicada en el
bloque tematico 2.
Marcela Ribas - Federico De Olivera
2.7 Algunas variables aleatorias 97
2.7.5. Teorema de De Moivre – Laplace
Aproximacion de la distribucion Binomial, por la distribucion Nor-
mal
Sea X una v.a. Con X ∼ Binomial(n, p), por lo tanto E(X) = np y V ar(X) =
np(1− p)
Entonces, la v. a.
Y =X − np√np(1− p)
tiende a la Normal standard (Z ∼ N(0, 1)), conforme el numero de ensayos
independientes n tiende al infinito.
Esquematicamente: Si X ∼ Binomial(n, p), entonces
X − np√np(1− p)
n→∞→ Z ∼ N(0, 1)
Este teorema es util, pues cuando el n es grande, puede ser engorroso hacer los
calculos con la formula de la cuantıa Binomial.
2.7.6. Otras variables aleatorias continuas
Otras variables aleatorias continuas, muy utiles en Inferencia Estadıstica son:
variable aleatoria t de Student: se utiliza en el test de hipotesis sobre
la media, cuando la varianza es desconocida.
variable aleatoria chi2: se utiliza en el test de hipotesis sobre la varianza,
en la comparacion de medias entre dos poblaciones Normales y en el test
de independencia, entre otros.
Marcela Ribas - Federico De Olivera
98 2. La Probabilidad y las Variables Aleatorias
variable aleatoria F: se utiliza en el analisis de varianzas entre dos pobla-
ciones Normales.
Su analisis practico sera tratado al presentarse cada test estadıstico, en el bloque
tematico 3. Su analisis teorico no se presenta, pues su desarrollo matematico es
muy complejo.
2.8. Artıculo: Pruebas diagnosticas
A continuacion se presenta el artıculo sobre pruebas diagnosticas, escrito por Pita
Fernandez y Pertegas Dıaz, de la Unidad de Epidemiologıa Clınica y Bioestadısti-
ca del Complexo Hospitalario-Universitario Juan Canalejo, La Coruna (Espana).
Marcela Ribas - Federico De Olivera
Investigación: Pruebas diagnósticas 1/6
www.fisterra.com Atención Primaria en la Red
Pruebas diagnósticas Pita Fernández, S. spita@canalejo.org, Pértegas Díaz, S. spertega@canalejo.org Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España) Cad Aten Primaria 2003; 10: 120-124. Actualización 14/07/2003. __________________________________
La medicina es una ciencia de probabilidades y un arte de manejar la incertidumbre. Dicha incertidumbre se extiende no sólo a las actividades preventivas, terapéuticas y pronósticas sino también a las diagnósticas. En las fases del proceso diagnóstico intervienen la historia clínica, la exploración física y la realización de pruebas complementarias1-2. Cuando existen varias hipótesis diagnósticas, se realizará el diagnóstico diferencial y las pruebas complementarias tratarán de aclarar las dudas existentes. Si solamente hay una sospecha diagnóstica, las pruebas complementarias tratarán de confirmarla. La realización simultánea de varias pruebas complementarias se denomina pruebas complementarias en paralelo y la realización de pruebas complementarias según los resultados de otras previas, se denomina pruebas complementarias en serie. Al realizar pruebas en paralelo aumenta la probabilidad de diagnosticar a un enfermo, pero también aumenta la probabilidad de considerar como enfermo a un sano. El riesgo de la realización de pruebas en serie es no diagnosticar a algunos enfermos. En cambio, pocos sanos serán considerados como enfermos.
Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en enfermos y negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un test son3:
• Validez: Es el grado en que un test mide lo que se supone que debe medir. ¿Con que frecuencia el resultado del test es confirmado por procedimientos diagnósticos más complejos y rigurosos? La sensibilidad y la especificidad de un test son medidas de su validez.
• Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se repite su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la introducida por el propio observador y la derivada del propio test, determinan su reproductividad.
• Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o negativo. ¿Con que seguridad un test predecirá la presencia o ausencia de enfermedad? Ante un resultado positivo de un test ¿qué probabilidad existe de que este resultado indique presencia de la enfermedad? Veremos posteriormente que esta probabilidad está muy influenciada por la prevalencia de la patología.
A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la población general, que tenga los mínimos efectos adversos y que económicamente sea soportable.
En este trabajo se revisarán fundamentalmente los conceptos que determinan la validez de un test (sensibilidad y especificidad) y su seguridad (valores predictivos positivos y negativos).
La validez de una prueba diagnóstica. Sensibilidad y especificidad.
El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo. En casos como éste, generalmente un resultado positivo se asocia con la presencia de enfermedad y un resultado negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes, los datos obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o “gold standard” que vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad y especificidad4:
Investigación: Pruebas diagnósticas 2/6
www.fisterra.com Atención Primaria en la Red
Sensibilidad
Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad.
Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla como la que se muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Es decir:
FNVPVPadSensibilid+
=
De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”.
Especificidad
Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para un sujeto sano se obtenga un resultado negativo. En otras palabras, se puede definir la especificidad como la capacidad para detectar a los sanos. A partir de una tabla como la Tabla 1, la especificidad se estimaría como:
FPVNVNdadEspecifici+
=
De ahí que también sea denominada “fracción de verdaderos negativos (FVN)”.
Ejemplo:
Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se incluyó a 2.641 pacientes con sospecha de cáncer prostático que acudieron a una consulta de Urología durante un periodo de tiempo determinado. Durante su exploración, se recogió el resultado del tacto rectal realizado a cada uno de estos pacientes, según fuese éste normal o anormal, y se contrastó con el posterior diagnóstico obtenido de la biopsia prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla 2. Se encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de sujetos estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56% (634/1121) y la especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un 56,56% de los casos de cáncer prostático y normal en un 82,3% de los casos que presentaron finalmente otras patologías. Esto significa que un 100-56,56=43,44% de los pacientes que efectivamente tenían cáncer presentaban tactos normales. Claramente ello indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus derivados, para poder establecer el diagnóstico de forma más precisa.
Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad, pero esto no siempre es posible. En general, las pruebas de screening deben ser de alta sensibilidad para poder captar a todos los enfermos. Una prueba muy sensible será especialmente adecuada en aquellos casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, como ocurre con enfermedades peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las que un falso positivo no produzca serios trastornos psicológicos o económicos para el paciente (por ejemplo, la realización de mamografía en el cáncer de mama).
Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad de que un sujeto sano sea clasificado adecuadamente. En general, las pruebas confirmatorias del diagnóstico deben ser de alta especificidad, para evitar falsos positivos. Los tests de alta especificidad son necesarios en enfermedades graves pero sin tratamiento disponible que las haga curables, cuando exista gran interés por conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas (por ejemplo, en el caso del SIDA).
Investigación: Pruebas diagnósticas 3/6
www.fisterra.com Atención Primaria en la Red
La seguridad de una prueba diagnóstica. Valores predictivos.
Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto (positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en una dirección. Por medio de los valores predictivos completaremos esta información5:
Valor predictivo positivo:
Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de pacientes con un resultado positivo en la prueba que finalmente resultaron estar enfermos:
FPVPVPVPP+
=
Valor predictivo negativo:
Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Se estima dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la prueba:
VNFNVNVPN+
=
Retomando el ejemplo anterior sobre cáncer prostático, el valor predictivo positivo es en este caso del 70,21% (634/903) y el valor predictivo negativo del 71,98% (1251/1738). Ello significa que en un 70,21% de los pacientes con un tacto anormal finalmente se confirmó la presencia de cáncer, mientras que de los que no se detectaron anomalías en el tacto un 71,98% estaban efectivamente sanos.
La influencia de la prevalencia.
Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir completamente la validez de la prueba diagnóstica, presentan la desventaja de que no proporcionan información relevante a la hora de tomar una decisión clínica ante un determinado resultado de la prueba. Sin embargo, tienen la ventaja adicional de que son propiedades intrínsecas a la prueba diagnóstica, y definen su validez independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica.
Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presenta la limitación de que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto de estudio. Cuando la prevalencia de la enfermedad es baja, un resultado negativo permitirá descartar la enfermedad con mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor predictivo positivo.
Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean tests que han confirmado tener una alta validez, con valores aproximados de sensibilidad y especificidad de un 99,5%. Supongamos que se aplicase esta prueba a la totalidad de la población gallega, que se cifra en 2.800.000 habitantes. Si asumimos que en Galicia existen 6.000 pacientes VIH positivos (lo cual implicaría una prevalencia de 6000/ 2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos, obteniéndose un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos con un resultado positivo en el test resultarían estar realmente afectados, mientras que un 70,1% de los
Investigación: Pruebas diagnósticas 4/6
www.fisterra.com Atención Primaria en la Red
mismos no presentarían la enfermedad. Resulta obvio que en una comunidad como la gallega la utilización de esta prueba no resultaría útil, debido a la alta proporción de falsos positivos que conllevaría.
Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el número de enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho mayor de un 800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba positiva aumenta de un 29,9% a un 98,7%, disminuyendo la proporción de falsos positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la prevalencia es alta, un resultado positivo tiende a confirmar la presencia de la enfermedad, mientras que si la prevalencia es baja, un resultado positivo no permitirá afirmar su existencia.
Razones de probabilidad
Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos de un test. Por lo tanto, éstos , no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos diferentes, ni tampoco a la hora de extrapolar los resultados de otros estudios a datos propios. Por ello, resulta necesario determinar otros índices de valoración que sean a la vez clínicamente útiles y no dependan de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de verosimilitudes, razón de probabilidad, o cociente de probabilidades6. Estos miden cuánto más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia de enfermedad:
• Razón de verosimilitudes positiva o cociente de probabilidades positivo: se calcula dividiendo la probabilidad de un resultado positivo en los pacientes enfermos entre la probabilidad de un resultado positivo entre los sanos. Es, en definitiva, el cociente entre la fracción de verdaderos positivos (sensibilidad) y la fracción de falsos positivos (1-especificidad):
dadEspecifici-1adSensibilid
=+RV
• Razón de verosimilitudes negativa o cociente de probabilidades negativo: se calcula dividiendo la probabilidad de un resultado negativo en presencia de enfermedad entre la probabilidad de un resultado negativo en ausencia de la misma. Se calcula por lo tanto, como el cociente entre la fracción de falsos negativos (1-sensibilidad) y la fracción de verdaderos negativos (especificidad):
dadEspecificiadSensibilid-1
=−RV
Volvamos de nuevo al ejemplo planteado en la Tabla 2 sobre el diagnóstico de cáncer prostático a partir del tacto rectal. En este caso, se obtiene un cociente de probabilidades positivo de 3,20. Ello viene a indicarnos que un tacto anormal es, por lo tanto, 3 veces más probable en un paciente con cáncer prostático que en otro sujeto sin cáncer.
La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una prueba en un solo índice. Además, pueden obtenerse razones de probabilidad según varios niveles de una nueva medida y no es necesario expresar la información de forma dicotómica, como resultado de normal o anormal o bien positivo y negativo. Por último, al igual que sucede con la sensibilidad y la especificidad, no varía con la prevalencia. Esto permite utilizarlo como índice de comparación entre diferentes pruebas para un mismo diagnóstico.
Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo o negativo), pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro numérico, sobre todo cuando éste se realiza a partir de determinaciones analíticas. La generalización a estas situaciones se consigue mediante la elección de distintos valores de corte que permitan una clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. La estrategia de análisis adecuada consistiría en
Investigación: Pruebas diagnósticas 5/6
www.fisterra.com Atención Primaria en la Red
representar gráficamente los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha curva se convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la prevalencia de la enfermedad en la población de referencia y en base al cual se podrán establecer comparaciones entre diferentes pruebas diagnósticas7-10.
En definitiva, es sumamente importante el saber valorar la validez y seguridad de las diferentes pruebas diagnósticas con el fin de seleccionar la más adecuada en cada momento. La sensibilidad, la especificidad y los valores predictivos son los criterios tradicionalmente utilizados para valorar la capacidad predictiva de un test11,12. Los estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener esta información. No obstante, no debemos olvidar que existen determinados aspectos en el diseño de este tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. Una vez más, el cálculo de intervalos de confianza puede ayudarnos a conocer la precisión de los índices calculados. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la presencia de sesgos11,13,14.
Bibliografía
1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed. Madrid: Editorial médica panamericana; 1994.
2. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary test. Am Heart J 1980; 100: 928. [Medline]
3. Morrison AS. Screnning in Chronic disease. Second edition. New York: Oxford University Press; 1992.
4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity. BMJ 1994; 308: 1552. [Medline]
5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. BMJ 1994; 309: 102. [Medline]
6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P. Likelihood ratios: a real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36. [Medline]
7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC en la evaluación de las pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline]
8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline]
9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating characteristic plots. BMJ 1994; 309: 188. [Medline]
10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten Primaria 1998; 5(4): 229-235.
11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed Barcelona: Harcourt; 2000.
12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the essentials. 3ª ed. Baltimore: Williams and Wilkins; 1996.
13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol 1997; 50: 507-519. [Medline] [Texto completo]
14. Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ 1997; 315: 540-543. [Medline] [Texto completo]
Tabla 1. Relación entre el resultado de una prueba diagnóstica y la presencia o ausencia de una enfermedad.
Verdadero diagnóstico Resultado de la prueba
Enfermo Sano
Positivo Verdaderos Positivos
(VP) Falsos Positivos
(FP)
Negativo Falsos Negativos
(FN) Verdaderos Negativos
(VN)
Investigación: Pruebas diagnósticas 6/6
www.fisterra.com Atención Primaria en la Red
Tabla 2. Resultados de la exploración y biopsia prostática de una muestra de pacientes con sospecha de cáncer de próstata.
Resultado de la biopsia prostática Resultado del tacto rectal Cáncer Patología benigna Total
Anormal 634 269 903
Normal 487 1251 1738
Total 1121 1520 2641
Tabla 3. Resultados de la aplicación del test de VIH en una población de baja prevalencia.
Verdadero diagnóstico Resultado del test
VIH+ VIH- Total
Positivo 5.970 13.970 19.940
Negativo 30 2.780.030 2.780.060
Total 6.000 2.794.000 2.800.000
a
Tabla 4. Resultados de la aplicación del test de VIH en una población de alta prevalencia.
Verdadero diagnóstico Resultado del test
VIH+ VIH- Total
Positivo 796.000 10.000 806.000
Negativo 4.000 1.990.000 1.994.000
Total 800.000 2.000.000 2.800.000
Bloque tematico 3
La Inferencia Estadıstica
Objetivo:
El tercer bloque presenta a la Inferencia Estadıstica, a traves de algunos de sus
instrumentos, y tiene el objetivo de mostrar el poder que tiene la Estadıstica
como ciencia que busca crear conocimiento acerca de la realidad.
3.1. Introduccion:
La Inferencia Estadıstica se basa en la informacion particular que brinda la
muestra; informacion que es resumida por la Estadıstica Descriptiva y, con la
ayuda de la teorıa de las Probabilidades, busca hacer una afirmacion general
acerca de la poblacion. Si esta afirmacion involucra un valor fijo caracterıstico
de la poblacion (parametro), estamos en el ambito de la Inferencia Estadıstica
Parametrica. Cuando no sea ası, trataremos con las herramientas de la Inferencia
Estadıstica no Parametrica, por ejemplo cuando buscamos saber si dos variables
estan relacionadas o en cambio, son independientes.
Marcela Ribas - Federico De Olivera
106 3. La Inferencia Estadıstica
Cada una de estas Inferencias presenta diversos test o pruebas de hipotesis, cuyos
complejos mecanismos seran sintetizados y presentados a traves de ejemplos, a
fin de facilitar la comprension del estudiante.
3.2. La Inferencia Estadıstica Parametrica
Lo primero es acercarnos informalmente al concepto de estimacion: para nosotros
estimar sera “calcular aproximadamente siguiendo las reglas de la Inferencia
Estadıstica”.
Un ejemplo de Estadıstica Parametrica lo tenemos cuando queremos “estimar”
la media de una poblacion: lo primero que hacemos es tomar un conjunto de n
observaciones de esa poblacion y calculamos la media de esas observaciones. Un
valor calculado a partir de una muestra, tal como la media de la muestra, se llama
estadıstico. En otras palabras un estadıstico es una funcion de observaciones de
la muestra.
3.2.1. Parametro vs Estadıstico
Debemos diferenciar entre un estadıstico y un parametro de poblacion. Para
hacerlo, usamos con frecuencia los terminos media de la muestra (X) y media
de la poblacion (µ), en lugar de usar simplemente media. Un parametro de la
poblacion tiene un cierto valor constante, pero no se conoce en realidad.
Por otra parte, podemos calcular un estadıstico a partir de la muestra, pero el es-
tadıstico variara de muestra a muestra. Aunque quisieramos conocer el parametro
de la poblacion, observamos solamente muestras obtenidas de la poblacion. Por
Marcela Ribas - Federico De Olivera
3.2 La Inferencia Estadıstica Parametrica 107
lo tanto , tenemos que estimar el parametro de la poblacion, a partir de un
estadıstico.
¿ Como podrıamos hacer para tener una idea aproximada del valor de µ, la media
poblacional de la variable X ? Considerando una muestra de tamano n, evaluando
Xi en cada uno de ellos y calculando el valor de X
¿ Por que X?. Porque es un “buen estimador” del valor desconocido µ, pues
tiene buenas propiedades, entre ellas que “los valores de X (correspondientes a
las distintas muestras) no se alejan, en promedio demasiado” del verdadero valor
de µ.
Ahora, ¿que podemos decir del valor de µ, conociendo el valor de X?. No podemos
decir tan rapidamente que coinciden, pues en una muestra la informacion es
parcial. Nos acercaremos a la respuesta, conociendo la distribucion de X como
variable aleatoria. En la Figura siguiente se muestra el camino a seguir para
estimar la media de la poblacion.
3.2.2. Distribuciones de algunos Estadısticos
En la Inferencia Estadistica debemos conocer la distribucion de probabilidades de
varios estadısticos. Para acercarnos a la idea de estas distribuciones, realizamos
un experimento de muestreo: por ejemplo, usando una computadora generamos
un conjunto de n = 5 observaciones de una variable aleatoria X, con distribucion
Normal, con esperanza 50 y varianza 22; y calculamos X , Z y T donde
Marcela Ribas - Federico De Olivera
108 3. La Inferencia Estadıstica
Figura 3.1: Esquema de estimacion
Z =√n
(X − µ)
σ
T =√n
(X − µ)
S ′
siendo S ′ , la raız cuadrada de S ′2 , la cuasivarianza muestral, estadıstico que
definiremos pronto.
Repetimos los anteriores calculos 10.000 veces. De esta manera tendremos 10.000
observaciones de los estadısticos X, Z y T . La siguiente tabla muestra los
primeros 10 casos y a continuacion esta el grafico de los histogramas de las 10.000
observaciones de los estadısticos mencionados: allı podremos observar el contorno
de la distribucion de cada uno de ellos.
Marcela Ribas - Federico De Olivera
3.2 La Inferencia Estadıstica Parametrica 109
N ro X1 X2 X3 X4 X5 X Z T
1 51,211 49,354 50,188 54,322 45,428 50,101 0,112413 0,069844
2 50,973 50,214 50,019 48,069 47,735 49,402 −0,668633 −0,941755
3 49,686 49,305 49,690 50,055 48,630 49,473 −0,588893 −2,177293
4 47,132 51,674 54,448 50,065 53,702 51,404 1,569804 1,066539
5 48,283 48,706 53,621 51,713 52,172 50,899 1,004885 0,870111
6 49,627 50,567 51,059 49,848 52,029 50,626 0,700043 1,443663
7 53,001 45,007 51,038 52,913 50,581 50,508 0,568062 0,348364
8 47,056 47,349 50,346 50,156 49,707 48,923 −1,204446 −1,514269
9 52,669 45,245 50,407 49,501 53,309 50,226 0,252742 0,158192
10 50,646 51,328 53,196 49,756 49,672 50,920 1,028452 1,424934...
......
......
......
......
Figura 3.2: Histograma del estadıstico X
Marcela Ribas - Federico De Olivera
110 3. La Inferencia Estadıstica
Figura 3.3: Histograma del estadıstico Z
Figura 3.4: Histograma del estadıstico T
Marcela Ribas - Federico De Olivera
3.2 La Inferencia Estadıstica Parametrica 111
3.2.3. Distribucion de X
De la figura 3.2 podemos ver que:
a) X se distribuye simetricamente alrededor de su media, dando la apariencia
de una distribucion Normal.
b) La media de X (igual a 50,0023) se acerca mucho a la media de la poblacion
( µ = 50).
c) La desviacion standard de X (igual a 0,9011) se acerca 1√n
“veces” por la
desviacion standard de la poblacion (2/√
5 = 0, 8944).
Todas estas observaciones nos lleva a presentar los siguientes teoremas que gen-
eralizan los resultados.
Estos teoremas, por lo general, se cumplen: depende fundamentalmente de la
forma en que extraigamos nuestra muestra. Pero, como los distintos tipos de
muestreos no es un tema que abordaremos con detalle en este curso, solo di-
remos que estos resultados se verifican cuando los muestreos se realizan sobre
poblaciones muy grandes, como es el caso de las investigaciones biologicas.
Teorema 1
Supongamos que X1, X2, . . . , Xn es una muestra de n observaciones de la variable
X en una poblacion con una media µ y una varianza σ2, y que X es la media de
la muestra. Entonces el valor esperado, la varianza y la desviacion standard de
X, son respectivamente:
E(X) = µ
V ar(X) =σ2
n√V ar(X) =
σ√n
Marcela Ribas - Federico De Olivera
112 3. La Inferencia Estadıstica
Teorema 2
Supongamos que X1, X2, ..., Xn es una muestra de n observaciones de la variable
X que tiene, en la poblacion, una distribucion de probabilidades Normal (µ, σ2)
y X es la media de la muestra.
Entonces, X se distribuye Normal de parametros (µ, σ2/n), es decir,
X ∼ N
(µ,σ2
n
)
Teorema 3 (Teorema del Lımite Central)
La distribucion de la media muestral X, de una una variable que en la poblacion
tiene varianza finita, tiende a seguir una distribucion Normal, a medida que el
tamano de la muestra tiende hacia el infinito.
Segun el teorema 2, la media muestral de una variable que en la poblacion se
distribuye Normalmente, se distribuye exactamente en forma de una distribu-
cion Normal. Y el teorema 3 dice que, aun si la distribucion de una poblacion
no es Normal, la media muestral se aproxima a la distribucion Normal. Esta
aproximacion se cumple mejor para n (tamano muestral) de valor grande, pero
es adecuada, segun algunos investigadores, para un valor de n tan bajo como
n = 20.
3.2.4. Distribucion de Z =√n·(X−µ)σ
De la figura 3.2, podemos ver que:
a) Z se distribuye simetricamente alrededor de su media, dando la apariencia
de una distribucion Normal.
b) La media de Z (igual a 0, 0026) se acerca mucho a cero.
Marcela Ribas - Federico De Olivera
3.2 La Inferencia Estadıstica Parametrica 113
c) La desviacion standard de Z (igual a 1, 0075) se acerca a uno.
Todas estas observaciones nos lleva a presentar el siguiente teorema:
Teorema 4
Sea X la media de una muestra X1, X2, . . . , Xn de variables Normales con media
µ y varianza σ2. Entonces el estadıstico Z =√n (X−µ)
σse distribuye Normal con
media cero y varianza uno.
Ahora vamos a definir un nuevo estadıstico, o sea una variable que depende de
los valores de la muestra.
Definicion 1
S ′2 Llamamos cuasivarianza muestral al estadıstico S ′2 determinado por:
S ′2 =1
n− 1
n∑i=1
(xi − X)
Observacion: La cuasivarianza muestral se puede definir a partir de la varianza
muestral S2, ası:
S ′2 =1
n− 1
n∑i=1
(xi − X) = S2 n
n− 1
Recordar que
S2 =n∑i=1
(xi − X)2 =
[1
n
n∑i=1
(xi)2
]− (X)2
Como vemos, el calculo de S2 es mas facil a nivel manual, lo que lo hace preferible
en un primer momento, para calcular las medidas descriptivas de la muestra
(recordar Estadıstica Descriptiva).
Sin embargo, S ′2 tiene mejores propiedades que S2, como estimador de la varianza
poblacional, pues se cumple que la Esperanza de S ′2 es σ2. Por eso, para la
Marcela Ribas - Federico De Olivera
114 3. La Inferencia Estadıstica
Inferencia Estadıstica, el estadıstico de relevancia es S ′2.
3.2.5. Distribucion de T =√n · (X−µ)
S′.
Nuevamente en la figura 3.2 vemos que la distribucion del estadıstico T es acam-
panada y similar a la distribucion de Z, pero tiene una variacion ligeramente
mayor. Ello se debe a que en el denominador de T esta el estadıstico S ′ que,
como todo estadıstico, varıa con cada muestra distinta, mientras que en el de-
nominador de Z esta σ, parametro poblacional, y, por lo tanto, fijo. Se dice que
la distribucion de T “tiene colas mas pesadas”, pues T acumula mas probabili-
dad que Z, en valores alejados de la media. La distribucion de T se explica en el
siguiente teorema.
Teorema 5
Sea X y S ′, la media y la raız cuadrada de la cuasivarianza, respectivamente, y
sea una muestra X1, X2, . . . , Xn de variables Normales con media µ y varianza σ2.
Entonces el estadıstico T =√n (X−µ)
S′sigue una distribucion denominada t con
n− 1 grados de libertad; lo cual se anota: T ∼ tn−1.
El grafico y la tabla siguiente, muestran las probabilidades acumuladas, para
distintos valores de t, las cuales se leen en el interior de la tabla.
Marcela Ribas - Federico De Olivera
3.2 La Inferencia Estadıstica Parametrica 115
Tabla de probabilidades de la distribucion t con n grados de
libertad
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
Marcela Ribas - Federico De Olivera
116 3. La Inferencia Estadıstica
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
∞ 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576
3.3. Estimacion puntual e intervalos de confian-
za
3.3.1. Estimacion puntual e intervalos de confianza para
µ cuando conozco σ2
Un investigador esta interesado en estudiar la presion diastolica (mınima) de
la sangre de varones, en edades comprendidas entre 20 y 30 anos, sometidos a
tension nerviosa. Pretende responder la pregunta ¿ cual es la presion diastolica
media, bajo tension nerviosa para este grupo ?
Marcela Ribas - Federico De Olivera
3.3 Estimacion puntual e intervalos de confianza 117
Lo primero que debe realizar es tomar una muestra aleatoria de un determinado
tamano n, dentro de la poblacion en estudio (todos los varones de entre 20 y
30 anos, sometidos a tension nerviosa). Con respecto al valor de n, veremos mas
adelante como se determina, para que se cumpla ciertos requisitos que buscamos
en nuestra investigacion.
La presion diastolica es la variable de interes a observar y medir para cada uno
de los integrantes de la muestra extraıda. Para contestar la pregunta anterior
(¿ cual es la presion diastoloca media, bajo tension nerviosa para este grupo ?)
deberıamos conocer la media de la variable antedicha, en la poblacion referida,
valor que llamaremos µ. Pero µ es un parametro desconocido que deberemos
estimar a partir de la media muestral X , calculada a partir de la muestra. Ya
conocemos la distribucion de la media muestral X. Ello nos va a ser de utilidad
para realizar la siguiente Inferencia Estadıstica.
NOTA: se dice que X es un estimador de µ, y se escribe
µ = X
Ahora, ¿que podemos decir del valor de µ, conociendo el valor de X ?.
Para contestar, podemos utilizar dos procedimientos:
1) Se estima el verdadero valor de µ, a partir del valor particular de X ,
que proviene de la muestra. Este procedimiento se denomina Estimacion
Puntual .
En la practica, se calcula X a partir de una muestra, y se toma ese valor
como estimador (valor aproximado) de la media poblacional, µ .
Por ejemplo, luego que se midio la presion diastolica para cada uno varones
de entre 20 y 30 anos, sometidos a tension nerviosa, de mi muestra, con esos
datos calculo X (supongo que X = 10). Se que µ es distinto a X, pero por
Marcela Ribas - Federico De Olivera
118 3. La Inferencia Estadıstica
la propiedad de E(X) = µ (esta propiedad dice que si hago un promedio de
todos los posibles valores de X, obtengo µ) confıo en que X es util, como
aproximacion del valor desconocido µ, y escribo
µ = 10
2) Otra opcion es no quedarnos simplemente con el valor de X, sino que con-
struımos un intervalo con centro en X, de radio ε.
NOTA: ε es el maximo error que nos permitimos cometer, al aproximar el valor
de µ, por X. Decimos entonces que el intervalo de la forma:
[X − ε, X + ε]
contiene a µ, con una cierta probabilidad (1−α) o nivel de confianza (1−α)·100 %
Este procedimiento se denomina Estimacion por Intervalo de Confianza.
¿ Como se determina el intervalo [X − ε, X + ε]?. Es decir ¿Como se determina
ε?
Se debe cumplir que en el (1 − α) · 100 % de las muestras que se extraigan, los
intervalos [X−ε, X+ε], deben incluir el verdadero valor del parametro poblacional
µ.
En otras palabras, la probabilidad de que el intervalo aleatorio [X − ε, X + ε]
contenga la media poblacional µ, debe ser igual a 1− α.
Definicion 2
Al valor epsilon se lo denomina precision. Y el valor 1− α es una probabilidad y
se llama nivel de confianza.
Se debe cumplir, por lo tanto, que:
P (X − ε ≤ µ ≤ X + ε) = 1− α
Marcela Ribas - Federico De Olivera
3.3 Estimacion puntual e intervalos de confianza 119
De ahı, buscamos dejar la variable aleatoria√n (X−µ)
σen el “ medio de la de-
sigualdad”, para utilizar lo que conocemos sobre su distribucion: por el Teorema
del Lımite Central (teorema 3) y por el teorema 4 se cumple que :
√nX − µσ
n→+∞−→ Z donde Z ∼ N(0, 1)
Entonces realizamos las siguientes operaciones:
P (X − ε ≤ µ ≤ X + ε) = 1− α ⇔ P (−ε ≤ µ− X ≤ ε) = 1− α
⇔ P (ε ≥ X − µ ≥ −ε) = 1− α
⇔ P (−ε ≤ X − µ ≤ ε) = 1− α
⇔ P(−√n·εσ≤√n · X−µ
σ≤√nσ· ε)
= 1− α
Entonces, siendo√n · (X−µ)
σ∼= Z ∼ N(0, 1), se cumple que, cuando n es grande :
P
(−√n · εσ≤ Z ≤
√n · εσ
)= 1− α donde Z ∼ N(0, 1)
Ahora buscamos obtener el valor de√n·εσ
:
A partir de la afirmacion anterior, se deduce que:
P
(Z ≤
√n · εσ
)= 1− α
2ver que la Normal es simetrica
Por lo tanto: el numero z que acumula 1− α2
de probabilidad, es z1−α2
=√n·εσ
Busco despejar ε , para construir el intervalo de confianza: z1−α2
=√n·εσ⇒ ε =
z1−α2·σ
√n
Marcela Ribas - Federico De Olivera
120 3. La Inferencia Estadıstica
Aquı ε es llamdo error de muestreo.
Ası tengo, entonces, determinado el intervalo de confianza para la media
poblacional µ:
[X −
(z1−α/2) · σ√n
, X +(z1−α/2) · σ√
n
]INTERPRETACION: La probabilidad de que el intervalo anterior incluya el
verdadero valor de µ, es (1− α).
¿Que relacion existe entre ε y n ?
Ya vimos que ε =(z1−α2
)·σ√n
, por lo tanto, se deduce que: n =(z1−α2
)2·σ2
ε2
Vemos que la relacion entre ε y n es inversa: cuanto mas grande es el tamano de
la muestra n, menor es ε, el error que se comete, al aproximar el valor de µ, por
X .
3.3.2. Intervalo de confianza para µ , cuando no conozco
σ2
Observacion: Por lo general no conozco σ. Lo que conozco es S ′ , estadıstico
calculado a partir de los valores de la muestra, y que es un buen estimador de σ.
Se dice que S ′2 es un estimador de σ2, y se escribe:
σ2 = S ′2
Tambien se cumple que S ′ es un estimador de σ , y se escribe:
σ = S ′
Al sustituir σ por el estimador S ′, el estadıstico usado en el intervalo de confianza
para µ, cambia: en lugar de Z es T, y su distribucion tambien cambia:
Marcela Ribas - Federico De Olivera
3.3 Estimacion puntual e intervalos de confianza 121
vimos, por el teorema 5 que, si la muestra proviene de una variable, que se
distribuye Normal en la poblacion, el estadıstico T tiene una distribucion t con
n− 1 grados de libertad.
Observacion: Se cumple que la distribucion tn−1n→+∞−→ Z ∼ N(0, 1)
Por lo tanto si n es grande ( n > 30 ) y la muestra proviene de una Poblacion
Normal, utilizo el siguiente intervalo de confianza aproximado para µ:
[X −
(z1−α/2) · S ′√n
, X +(z1−α/2) · S ′√
n
]Intervalo aproximado para µ si n > 30 y la poblacion es Normal.
Siendo tn−1,1−α/2 el valor de la tabla t que acumula 1− α/2 de probabilidad a su
izquierda, para n− 1 grados de libertad.
Pero si la muestra es pequena, y proviene de una poblacion Normal, el intervalo
de confianza para µ es[X −
(tn−1,1−α/2
)· S
√n
, X +
(tn−1,1−α/2
)· S
√n
]
Ejemplo: Supongamos que mi muestra esta compuesta por 100 varones de entre
20 y 30 anos, sometidos a tension nerviosa, cuya presion diastolica media es X =
10 y cuya varianza es S2 = 0, 81. Supongamos tambien que la variable presion
diastolica se distribuye Normal en la poblacion. Si busco obtener un intervalo
aproximado para µ, que tenga un 95 % de confianza, entonces 1–α = 0, 95 de
donde 1 − α/2 = 0, 975 y si voy a la tabla con valores Normales (0, 1), veo que
el valor z que acumula 0, 975 de probabilidad, es 1, 96 , y anoto z1−α/2 = 1, 96 .
Con todos estos datos, calculo ε:
ε =z1−α/2S
′√n
Marcela Ribas - Federico De Olivera
122 3. La Inferencia Estadıstica
para el intervalo de confianza aproximado para µ:
ε = (1, 96) ·√
0, 81
10= 0, 1764
Y construyo en intervalo de confianza aproximado al 95 % para µ, que es:
[10–0, 1764; 10 + 0, 1764]
o sea [9, 8236; 10, 1764].
Con este resultado, afirmo que la probabilidad, de que la presion diastolica media
entre todos los varones de entre 20 y 30 anos que estan sometidos a tension
nerviosa , este entre 9, 8 mmHg y 10, 2 mmHg, es de 0, 95.
Si deseo calcular el intervalo de confianza exacto para µ, debo ir a la tabla de
la distribucion t, y observar cuanto es t99 para una probabilidad acumulada de
0, 975: es t99;0,975 = 1, 9842.
Entonces, ε = (1, 9842),0, 91/10 = 0, 1806 y el intervalo de confianza al 95 % para
µ que es [10–0, 1806; 10 + 0, 1846] o sea [9, 8194; 10, 1806].
3.3.3. Intervalo de confianza para una proporcion
Para comprender, en terminos estadısticos , que es una proporcion definamos una
nueva variable aleatoria: Una variable aleatoria X se denomina de Bernouilli con
parametro p, si toma solo dos valores
X =
1 si ocurre el exito
0 si ocurre el fracaso
Donde el parametro p es:
p = P (X = 1) = “probabilidad de que ocurra el exito”
Marcela Ribas - Federico De Olivera
3.3 Estimacion puntual e intervalos de confianza 123
Se cumple que E(X) = µX = p, es la proporcion de exitos en la poblacion
Por lo tanto el parametro p es una media poblacional, y podemos encontrar
un intervalo de confianza para el: si el valor de p: proporcion de exitos en la
poblacion, es desconocido, podemos calcular el valor de X : proporcion de exitos
en la muestra, y realizar la inferencia correspondiente.
Ası como se dijo que X (media muestral) es un buen estimador de µ(media
poblacional) , y se escribe:
µ = X
Tambien se dice que X : proporcion de exitos en la muestra es un buen estimador
de p (proporcion poblacional), y se escribe por ello:
p = X
proporcion de exitos en la muestra
Al igual que antes, podemos estimar de dos formas, el verdadero valor de p, a
partir de p, la proporcion muestral:
Estimacion Puntual de p: Se estima el verdadero valor de p = µX , a partir
del valor particular de p = X , proporcion muestral.
E stimacion de p por intervalo de confianza: En este caso, para la distribu-
cion de p = X , se aplicara el Teorema de De-Moivre Laplace (ver anexo al
bloque 2), donde surge que la variable
Z =X − np√np(1− p)
n→∞−→ N(0, 1)
Marcela Ribas - Federico De Olivera
124 3. La Inferencia Estadıstica
donde X es la cantidad de exitos en la poblacion.
Y el intervalo de confianza para la proporcion poblacional p es :[p−
z1−α/2 ·√p(1− p)√n
; p+z1−α/2 ·
√p(1− p)√n
]
Ejemplo: Queremos estimar en Uruguay, la proporcion de personas de mas de 60
anos, que tienen problemas cardıacos (exito). Con ese fin, extraemos una muestra
aleatoria de tamano 500, dentro de la poblacion de interes. Encontramos que
la cantidad de personas de la muestra que tienen problemas cardıacos son 6,
con lo cual la proporcion de personas con problemas cardıacos en la muestra es
p = 6/500 = 0, 012, estimacion puntual de p. Y el intervalo de confianza al 99 %
de confianza es
[0, 012−
z1−0,01/2 ·√
0, 012(1− 0, 012)√500
; 0, 012 +z1−0,01/2 ·
√0, 012(1− 0, 012)√
500
]donde z1−0,01/2 = z0,995 = 2, 58
Y entonces el intervalo de confianza al 99 %, para p, queda [−0, 00056; 0, 02456]
Se interpreta diciendo que 0, 99 es la probabilidad de que la proporcion de per-
sonas de mas de 60 anos con problemas cardıacos, este entre 0 % y 2, 456 %.
Marcela Ribas - Federico De Olivera
3.4. Prueba de Hipotesis
Hasta ahora hemos estudiado como, a partir de una muestra de una variable
extraıda de una cierta poblacion, podemos obtener una estimacion puntual o
bien establecer un intervalo mas o menos aproximado, para acercarnos a conocer
los parametros que caracterizan dicha variable aleatoria en esa poblacion.
Pueden presentarse en la practica, situaciones en las que exista una teorıa pre-
concebida, relativa a la caracterıstica de la poblacion sometida a estudio. Tal
serıa el caso, por ejemplo si pensamos que un nuevo tratamiento medico puede
tener un porcentaje de mejorıa mayor que otro tratamiento estandar, o cuando
nos planteamos si los ninos de los distintos departamentos del Uruguay tienen el
mismo desempeno escolar.
Este tipo de circunstancias son las que nos llevan al estudio de la parte de la
Estadıstica Inferencial que recibe el nombre de Contraste o Prueba de Hipotesis.
Esta implica ciertas pasos:
1. Planteamiento de dos teorıas o hipotesis, que denominaremos
hipotesis nula (H0) e hipotesis alternativa (H1) que, de alguna manera,
reflejaran esa idea a priori que tenemos y que pretendemos contrastar con
la “realidad”, observada a traves de la muestra extraıda.
La Hipotesis nula reflejara la idea conservadora, que reflejara la “perma-
nencia” el “no cambio”, aquella idea que el investigador esta dispuesto a
creer a priori; mientras que en la hipotesis alternativa, como lo dice su nom-
bre, plantearemos que “las cosas pueden ser diferentes” a lo que pensamos
habitualmente. A veces, H1 es la negacion de H0, pero no necesariamente
debe ser ası.
La logica implıcita en la prueba de hipotesis es una logica conser-
126 3. La Inferencia Estadıstica
vadora: mientras no tengamos suficientes elementos (a partir de la
evidencia que brinda la muestra) para afirmar que Ho no se cumple,
“no la rechazaremos”. Es decir, las conclusiones que saquemos seran que:
Rechazamos H0 o No rechazamos H0.
Durante el procedimiento anterior, implıcitamente, se dan diferentes tipos
de errores que podemos cometer, debido a que, habitualmente, el estu-
dio y las conclusiones que obtengamos para una poblacion cualquiera, se
habra apoyado exclusivamente en el analisis de solo una parte de esta.
La realidad puede ser que H0 sea cierta o que H0 no sea cierta. Si intersec-
tamos estos dos sucesos con las dos decisiones posibles, arriba mencionadas,
tendremos los dos errores posibles en el cuadro siguiente:
a) Rechazar H0 cuando esta es cierta, al cual llamaremos error de tipo 1
(el mas grave) y cuya probabilidad de ocurrencia designaremos con la
letra alfa.
P (“Rechazar H0 dado H0 cierta”) = α
b) No rechazar H0, cuando esta es falsa, al cual llamaremos error de tipo
2, y cuya probabilidad de ocurrencia designaremos con la letra beta.
P (“No rechazar H0 dado H0 falsa”) = β
De la probabilidad con la que estemos dispuestos a asumir estos errores,
dependera, por ejemplo, el tamano de la muestra requerida.
no rechazar H0 rechazar H0
H0 es cierta Correcto (Probabilidad: 1− α) Error tipo 1 (Probabilidad: α)
H0 es falsa Error tipo 2 (Probabilidad: 1− β) Correcto (Probabilidad: β)
Marcela Ribas - Federico De Olivera
3.4 Prueba de Hipotesis 127
2. Decision acerca de cual sera el estadıstico que resuma adecuada-
mente la informacion muestral, en relacion al parametro o caracterıstica
poblacional, acerca del cual se va a llevar a cabo el contraste.
3. Division del espacio muestral en dos regiones no solapadas: region
crıtica (donde se rechaza H0) y region de aceptacion (donde no se rechaza
H0). La region crıtica se establece, fijando de antemano el error de
tipo 1 en un pequeno valor α, llamado nivel de significacion, de forma
que la probabilidad de que el estadıstico tome un valor en ella, cuando la
hipotesis nula es cierta, sea alfa. De esta forma, solo nos equivocaremos en
nuestra decision, al cometer el error mas grave, un alfa.100 % de las veces.
4. Obtencion de la muestra de un determinado tamano, la cual nos dara in-
formacion acerca de la caracterıstica poblacional de interes.
5. Calculo del estadıstico en la muestra recogida.
6. Resolucion de la prueba de hipotesis o decision: Si el valor muestral
del estadıstico cae en la region crıtica, se rechaza H0. Si cae en la region de
aceptacion, entonces no se rechaza H0.
Los contrastes desarrollados en este capıtulo se apoyan en el supuesto de que los
datos de la poblacion de partida siguen una distribucion Normal.
La verificacion de este supuesto implica una prueba de hipotesis previa (test de
Kolmogorof-Smirnoff), que por su complejidad, no explicaremos en este curso.
3.4.1. Sıntesis de algunos Test Parametricos
Seran presentados a traves de ejemplos:
Marcela Ribas - Federico De Olivera
128 3. La Inferencia Estadıstica
Ejemplo 1
Por fistulizacion se obtuvo el PH de 6 muestras de bilis hepatica con los siguientes
resultados:
7, 83; 8, 52; 7, 32; 7, 79; 7, 57; 6, 58
Se desea saber al nivel de significacion del 0, 05 si la bilis hepatica puede con-
siderarse neutra (PH = 7). Si se conociera σ = 0, 5, ¿que decision tomarıamos
?
Solucion:
El PH de la bilis hepatica es considerada una variable aleatoria Normal X, con
media µ, desconocida, y desvıo standard σ = 0, 5 conocido.
1. Planteo de la prueba de hipotesis:
H0) µ = 7
H1) µ 6= 7
A esta prueba se la llama prueba de hipotesis o contraste de dos
colas.
α = 0, 05 = probabilidad del error de tipo 1
2. Estadıstico: X pues es el mejor estimador de µ. Lo calculamos : X = 7, 60
Este valor es distinto a 7, pero no podemos asegurar que la media pobla-
cional no sea 7, pues la media muestral tiene variacion y no siempre es igual
a la media de la poblacion.
La variacion de X se debe a que es una variable aleatoria que, como vimos
anteriormente tiene una cierta distribucion: X se distribuye Normal con
parametros (µ, σ2/n).
3. Region crıtica implica los valores de X que me llevan a rechazar H0.
Marcela Ribas - Federico De Olivera
3.4 Prueba de Hipotesis 129
Se debe cumplir que:
P (“ Rechazar H0 dado H0 cierta”) = 0, 05 = α
pues establecimos como dato, que queremos esa probabilidad de error de
tipo 1. Rechazamos H0, es decir rechazamos que µ sea 7, si X esta alejada
de 7. Y por el contrario No rechazamos H0 si X esta cerca de 7, a menos
de ε de distancia, es decir si se cumple, matematicamente que
X ∈ (7− ε, 7 + ε)⇔ 7− ε < X < 7 + ε
Busco encontrar el valor de ε y ası calcular los valores crıticos 7− ε y 7 + ε
para obtener la Region de Aceptacion (7 − ε, 7 + ε) (e implıcitamente la
Region Crıtica, que es el complemento, en R).
P (“Rechazar H0 dado H0 cierta ”) = 0,05 entonces
P (“No rechazar H0 dado H0 cierta ”) = 0,95 entonces
P (“X pertenezca a la region de aceptacion, dado H0 cierta ”) = 0,95 entonces
P (7− ε < X < 7 + ε), dado H0 cierta ) = 0,95
Entonces, busco dejar en el medio de la desigualdad, una variable con dis-
tribucion tabulada que me permita encontrar los extremos del intervalo.
Se que (X−µ)√n
σ∼ N(0, 1). Recordando que µ = 7 si H0 es cierta, tenemos
P (−ε < X − 7 < ε) = 0,95
P(−ε√n
σ< (X−µ)
√n
σ< ε
√nσ
)= 0,95
Por lo tantoε√n
σ= z1−0,05/2 = z0,975 = 1,96
Marcela Ribas - Federico De Olivera
130 3. La Inferencia Estadıstica
de donde obtenemos que ε = 0,4. Por lo tanto la Region de Aceptacion son
las muestras que cumplen que X ∈ (6,6; 7,4).
Simplificando el procedimiento para encontrar la Region Crıtica podemos
decir que la Region Crıtica esta formada por aquellas muestras tales que:
|z0| =∣∣∣∣(X − µ0)
√n
σ
∣∣∣∣ ≥ z1−α/2
siendo z0 un estadıstico cuando H0 se cumple.
En el caso de mi muestra se cumple que:
X = 7,6⇒ (X−µ0)√n
σ= (7,6−7)
√6
0,5= 2,94
α = 0,05⇒ z1−α/2 = z0,975 = 1,96
Como 2,94 > 1,96 estamos en la Region Crıtica, entonces Rechazo H0.
Conclusion: Con un 95 % de confianza, puede afirmarse que el PH (prome-
dio) de la bilis hepatica no es 7.
Marcela Ribas - Federico De Olivera
3.4 Prueba de Hipotesis 131
Prueba de Hipotesis para µ con σ conocido
Contraste de dos colas o bilateral
1) Planteo de Hipotesis 1) Planteo del Hipotesis
y nivel de significacion y nivel de significacion
H0 : µ = µ0 H0 : µ = 7
H1 : µ 6= µ0 H1 : µ 6= 7
nivel de significacion α α = 0,05
2) Estadısticos 2) Estadısticos
X =Pni=1Xin
X = 7,6
Z0 = (X−µ)√n
σz0 = (7,6−7)
√6
0,5= 2,94
Estadıstico, si se cumple H0
3) Region Crıtica y Decision 3) Region Crıtica y Decision
Si |z0| ≥ z1−α/2 rechazo H0 z0 = 2,94, z1−α/2 = z0,975 = 1,96
Si |z0| < z1−α/2 no rechazo H0 como |z0| = 2,94 > 1,96 rechazo H0
4) Conclusion 4) Conclusion
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepatica no es 7
Marcela Ribas - Federico De Olivera
132 3. La Inferencia Estadıstica
Ejemplo 2
En el ejemplo anterior, ¿ podemos considerar que la bilis hepatica es alcalina (con
PH mayor a 7) ?
Solucion:
Ahora la prueba de hipotesis implica la misma hipotesis nula (µ = 7) pero otra
hipotesis alternativa (µ > 7). A esta prueba se la llama prueba de hipotesis o
contraste de una cola. Por lo tanto, con respecto al ejemplo anterior, tendremos
otra region crıtica (y por lo tanto otra region de aceptacion).
Se resume el procedimiento en el siguiente cuadro:
Marcela Ribas - Federico De Olivera
3.4 Prueba de Hipotesis 133
Prueba de Hipotesis para µ con σ conocido
Contraste de una cola o unilateral
1) Planteo de Hipotesis 1) Planteo del Hipotesis
y nivel de significacion y nivel de significacion
H0 : µ = µ0 H0 : µ = 7
H1 : µ > µ0 H1 : µ > 7
nivel de significacion α α = 0,05
2) Estadısticos 2) Estadısticos
X =Pni=1Xin
X = 7,6
Z0 = (X−µ)√n
σz0 = (7,6−7)
√6
0,5= 2,94
Estadıstico, si se cumple H0
3) Region Crıtica y Decision 3) Region Crıtica y Decision
Si z0 ≥ z1−α rechazo H0 z0 = 2,94, z1−α = z0,95 = 1,64
Si z0 < z1−α no rechazo H0 como z0 = 2,94 > 1,64 rechazo H0
4) Conclusion 4) Conclusion
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepatica es alcalina
Marcela Ribas - Federico De Olivera
134 3. La Inferencia Estadıstica
Ejemplo 3
Supongamos ahora que no conocemos la desviacion standard del grado de PH de
la bilis hepatica, y lo debemos estimar a partir de la muestra obtenida. ¿ Podemos
considerar ahora que la bilis hepatica es neutra ?.
Solucion:
La prueba de hipotesis es similar a la del ejemplo 1, excepto en el estadıstico pues
al tener que estimar σ, este cambia: ya no tenemos una distribucion Normal (0,1),
sino que ahora tendremos la distribucion t con n-1 grados de libertad (recordar
intervalo de confianza para µ con σ desconocida)
Estimamos σ a partir de la raız cuadrada de la cuasivarianza muestral.
σ2 = n·S2
n−1= S ′2
donde S2 =∑X2i /n− X2 = 348,77
6− (7, 6)2 = 0, 368
σ2 = 6·0,3685
= 0,442 = S ′2
⇒ σ = 0,66 = S ′
Se resume el procedimiento en el siguiente cuadro:
Marcela Ribas - Federico De Olivera
3.4 Prueba de Hipotesis 135
Prueba de Hipotesis para µ con σ desconocido
Contraste de dos colas o bilateral
1) Planteo de Hipotesis 1) Planteo del Hipotesis
y nivel de significacion y nivel de significacion
H0 : µ = µ0 H0 : µ = 7
H1 : µ 6= µ0 H1 : µ 6= 7
nivel de significacion α α = 0,05
2) Estadısticos 2) Estadısticos
X =Pni=1Xin
X = 7,6
S ′ =√
nS2
n−1con S2 =
∑X2i /n− X2 S ′ = 0,66
T0 = (X−µ0)√n
S′T0 = (7,6−7)
√6
0,66= 2,23
Estadıstico, si se cumple H0
con distribucion tn−1
3) Region Crıtica y Decision 3) Region Crıtica y Decision
Si |t0| ≥ tn−1,1−α/2 rechazo H0 tn−1,1−α/2 = t5,0,95 = 2,015
Si |t0| < tn−1,1−α/2 no rechazo H0 como |t0| = 2,23 > 2,015 rechazo H0
4) Conclusion 4) Conclusion
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepatica no es 7
Marcela Ribas - Federico De Olivera
136 3. La Inferencia Estadıstica
3.5. La Inferencia Estadıstica no Parametrica
Hasta ahora presentamos ejemplos de pruebas de hipotesis que involucran afir-
maciones acerca de parametros poblacionales desconocidos, lo cual entra dentro
de lo que se denomina Inferencia Estadıstica Parametrica.
Ahora, en la Inferencia Estadıstica No Parametrica, las hipotesis no tendran
parametros sino que involucraran afirmaciones acerca de alguna caracterıstica
estadıstica de la poblacion, como por ejemplo seran del tipo: las observaciones son
independientes, la distribucion de la variable en estudio es normal, la distribucion
es simetrica, etc.
En este curso presentaremos un test no parametrico que es util para decidir si
dos variables son o no independientes.
3.5.1. Test de independencia de dos variables:
Explicaremos el mecanismo de esta prueba de hipotesis a la luz de un ejemplo.
Ejemplo 4
Se encuesta a 400 ciudadanos uruguayos y se les hizo dos preguntas:
1) ¿ De que afiliacion polıtica es? Para simplificar el estudio de esta variable
se les pidio que se definieran por izquierda o derecha.
2) ¿ Esta de acuerdo con la aprobacion de la ley ZZZ ? Los valores de esta
variable se clasifican en tres categorıas: a favor, indeciso o en contra
Una vez obtenidas las respuestas (suponiendo que todos ellos contestan ambas
preguntas), se armo la tabla siguiente, y se completo con los datos conseguidos a
traves de la encuesta:
Marcela Ribas - Federico De Olivera
3.5 La Inferencia Estadıstica no Parametrica 137
A favor Indecision En contra
Derecha 68 22 110
Izquierda 92 18 90
Nuestro objetivo es averiguar si hay independencia o, por el contrario, hay
relacion, entre la opinion sobre una determinada ley (una variable) y la tendencia
polıtica (la otra variable). Para ello se deben seguir los siguientes pasos:
1. Plantear la Prueba de Hipotesis:
H0) No hay asociacion entre las dos variables (son independientes)
H1) Existe cierto grado de asociacion o dependencia entre ellas.
2. Computar las frecuencias observadas ( n0 ) y completar el cuadro
descriptivo con los totales.
A favor Indecision En contra Total
Derecha 68 22 110 200(50 %)
Izquierda 92 18 90 200(50 %)
Total 160 40 200 400(100 %)
Observacion: Se observa que existe: un 50 % de afiliados a la derecha y
un 50 % de afiliados a la izquierda.
Si las opiniones no dependieran del perfil polıtico (H0), entonces
dichos porcentajes se deberıan mantener dentro de cada opinion (a favor,
en contra o indecision).
3. Calcular las frecuencias esperadas: ne ( frecuencias esperadas, si se
cumple H0: variables independientes):
Marcela Ribas - Federico De Olivera
138 3. La Inferencia Estadıstica
Por ejemplo:
P (Derecha y A favor)si hay indep
= P (Derecha) ·P (Afavor) =160
400· 200
400= 0, 2
Entonces la frecuencia esperada correspondiente a la categorıa Derecha-A
favor es: 0, 2 · 400 = 80
P (Izquierda e indeciso)si hay indep
= P (Izquierda)·P (indeciso) =200
400· 40
400= 0, 05
Entonces la frecuencia esperada correspondiente a la categorıa Izquierda-A
favor es: 0, 05 · 400 = 20
Y ası se calculan analogamente todas las frecuencias esperadas y se completa
el cuadro de frecuencias esperadas:
A favor Indecision En contra
Derecha 80 20 10
Izquierda 80 20 100
4. Calcular el estadıstico χ-cuadrado o Estadıstico de Pearson ob-
servado, que se define de la siguiente forma:
χ2observado =
∑ (n0 − ne)2
ne
Cuadro de ayuda para el calculo del estadıstico de Pearson observado:
Marcela Ribas - Federico De Olivera
3.5 La Inferencia Estadıstica no Parametrica 139
no ne no–ne (no–ne)2 (no − ne)2/ne
68 80 −12 144 1,8
92 80 12 144 1,8
22 20 2 4 0,2
18 20 −2 4 0,2
110 100 10 100 1
90 100 −10 100 1
Total: 6
χ2obs =
∑ (no−ne)2ne
= (68−80)2
80+ (92−80)2
80+ (22−20)2
20+ (18−20)2
20+ (110−100)2
100+ (90−100)2
100= 6
Por lo tanto: el estadıstico de Pearson observado vale 6
5. Buscar el estadıstico chi cuadrado crıtico o sea aquel que permite
construir la region crıtica y decidir. Primero hay que calcular los grados de
libertad, que se definen de la siguiente forma.
Grados de libertad: (no de categorıas en las filas –1) · (no categorıas en las columnas –1 )
O sea : (2–1) · (3–1) = 2 grados de libertad.
Busco el valor de la distribucion χ2 correspondiente a dos grados de libertad,
con una confianza 1−α (α es la probabilidad del error de tipo 1: decir que
existe relacion entre las variables, cuando son independientes).
Si busco tener un nivel de confianza del 95 %, entonces hallo x tal que
P (χ2 < x) = 0, 95.
Buscando en la tabla de la distribucion χ2 (se presenta a continuacion), se
obtiene que x = 5, 99 (estadıstico crıtico con 2 grados de libertad y
que acumula 0,95 de probabilidad).
Marcela Ribas - Federico De Olivera
140 3. La Inferencia Estadıstica
6. Regla de decision:
Si el estadıstico observado es mayor que el crıtico, entonces rec-
hazo H0 Si es menor o igual al crıtico, entonces no rechazo H0.
7. Decision:
95 % de confianza: (en cinco de cada 100 muestras me puedo equivocar en
mi decision)
Como 6 > 5, 99, entonces Rechazamos H0 (rechazo la independencia entre
las variables).
Con un 95 % de confianza puedo pensar que existe cierto grado de depen-
dencia entre las variables.
Observacion:
Si deseo elevar mi nivel de confianza al 97 % y con ello disminuir la proba-
bilidad del error de tipo 1 (α) a un 3 %, mi decision va a cambiar, en este
caso.
Si busco tener un nivel de confianza del 97 %, entonces hallo el valor x tal
que P (χ2 < x) = 0, 97.
Buscando en la tabla de la distribucion χ2 (se presenta a continuacion), se
obtiene que x = 7, 38. (estadıstico crıtico con 2 grados de libertad
y que acumula 0,97 de probabilidad).
97 % de confianza: (en tres de cada 100 muestras me puedo equivocar en
mi decision).
Como 6 < 7, 38, entonces No rechazo H0 (no rechazo que haya independen-
cia).
Con un 97 % de confianza no rechazo que haya independencia. O sea, la
evidencia observada no me permite negar la posibilidad de que las variables
Marcela Ribas - Federico De Olivera
3.5 La Inferencia Estadıstica no Parametrica 141
puedan ser independientes.
Marcela Ribas - Federico De Olivera
142 3. La Inferencia Estadıstica
Tabla de la distribucion χ2:
P (χ2n ≥ x)=α
Grados de libertad\ α 0,1 0,05 0,03 0,01 0,01
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,6
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
11 17,28 19,68 21,92 24,73 26,76
12 18,55 21,03 23,34 26,22 28,3
13 19,81 22,36 24,74 27,69 29,82
14 21,06 23,68 26,12 29,14 31,32
15 22,31 25 27,49 30,58 32,8
16 23,54 26,3 28,85 32 34,27
17 24,77 27,59 30,19 33,41 35,72
Marcela Ribas - Federico De Olivera
3.5 La Inferencia Estadıstica no Parametrica 143
18 25,99 28,87 31,53 34,81 37,16
19 27,2 30,14 32,85 36,19 38,58
20 28,41 31,41 34,17 37,57 40
21 29,62 32,67 35,48 38,93 41,4
22 30,81 33,92 36,78 40,29 42,8
23 32,01 35,17 38,08 41,64 44,18
24 33,2 36,42 39,36 42,98 45,56
25 34,38 37,65 40,65 44,31 46,93
26 35,56 38,89 41,92 45,64 48,29
27 36,74 40,11 43,19 46,96 49,65
28 37,92 41,34 44,46 48,28 50,99
29 39,09 42,56 45,72 49,59 52,34
30 40,26 43,77 46,98 50,89 53,67
40 51,81 55,76 59,34 63,69 66,77
50 63,17 67,5 71,42 76,15 79,49
60 74,4 79,08 83,3 88,38 91,95
70 85,53 90,53 95,02 100,43 104,21
80 96,58 101,88 106,63 112,33 116,32
90 107,57 113,15 118,14 124,12 128,3
100 118,5 124,34 129,56 135,81 140,17
Marcela Ribas - Federico De Olivera
144 3. La Inferencia Estadıstica
3.6. Ejercicios
1. Hallar los valores x tales que se cumplan las condiciones impuestas:
a) T se distribuye t con 6 grados de libertad y P (T < x) = 0, 975
b) T se distribuye t con 30 grados de libertad y P (T < x) = 0, 995
c) T se distribuye t con 10 grados de libertad y P (T > x) = 0, 05
d) T se distribuye t con 15 grados de libertad y P (T > x) = 0, 005
2. Se quiere estimar el resultado de un referendum mediante un sondeo. Para
ello se realiza un muestreo aleatorio simple con n = 100 personas y se ob-
tienen que 35 de ellos votaran a favor y 65 votaran en contra (suponemos
que no hay indecisos para simplificar el problema, a una variable dicotomi-
ca). Con un nivel de significacion del 5 %, calcule un intervalo de confianza
para el verdadero resultado de las elecciones.
3. Los analistas de la empresa que realiza el sondeo no estan conformes con los
resultados de la encuesta anterior. En particular les parece que el margen de
error es muy grande. Deciden fijar este error en 1 punto porcentual, como
maximo y buscan tambien tener un nivel de confianza de 97 % ¿ Como
pueden conseguir estos objetivos ?
4. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos
sanos, obteniendose
0, 98; 0, 85; 0, 77; 0, 92; 1, 12; 1, 06; 0, 89; 1, 01; 1, 21; 0, 77
¿Cuanto vale la produccion diaria media de bilis en individuos sanos,
suponiendo que la muestra ha sido obtenida por muestreo aleatorio sim-
ple sobre una poblacion Normal? Considerar una confianza del 95 %.
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 145
5. La cantidad mınima requerida para que un anestesico surta efecto en una
intervencion quirurgica fue por termino medio de 50 mg, con una desviacion
tıpica de 10, 2 mg, en una muestra de 60 pacientes. Obtener un intervalo de
confianza para la media, al 99 %, suponiendo que la muestra fue extraıda
mediante muestreo aleatorio simple sobre una poblacion Normal.
6. Un investigador esta interesado en estimar la proporcion de muertes debidas
a cancer de estomago en relacion con el numero de defunciones por cualquier
tipo de neoplasia. Su experiencia le indica que serıa sorprendente que tal
proporcion supere el valor de 1/3. ¿Que tamano de muestra debe tomar
para estimar la anterior proporcion, con una confianza del 98 %, para que
el valor estimado no difiera del valor real en mas de 0, 03?.
7. Un cardiologo se encuentra interesado en encontrar lımites de confianza al
90 %, para la presion sistolica tras un cierto ejercicio fısico. Obtenerlos, si en
50 individuos se obtuvo x = 13, S = 3 y suponemos que el comportamiento
de la variable sistolica es Normal.
8. En una muestra de 25 bebes varones de 12 semanas de vida se obtuvo un
peso medio de 5,900 gr y una desviacion tıpica de 94 gr.
a) Obtener un intervalo de confianza (al 95 %) para el peso medio pobla-
cional.
b) ¿Cuantos ninos habra que tomar para estimar dicha media con una
precision de 15 gr?
9. En un determinado servicio odontologico se sabe que el 22 % de las visitas
llevan consigo una extraccion dentaria inmediata. En cierto ano, de 2.366
visitas, 498 dieron lugar a una extraccion inmediata. ¿ Entran en contradic-
cion las cifras de ese ano con el porcentaje establecido de siempre?
Marcela Ribas - Federico De Olivera
146 3. La Inferencia Estadıstica
10. Solo una parte de los pacientes que sufren un determinado sındrome neu-
rologico consiguen una curacion completa. Si de 64 pacientes observados,
se han curado 41, dar una estimaciones puntual y un intervalo, de la pro-
porcion de los que sanan. ¿Que numero de enfermos habra que observar
para estimar la proporcion de curados con un error inferior a 0,05 y una
confianza del 95 %?
11. En una determinada region se tomo una muestra aleatoria de 125 individ-
uos, de los cuales 12 padecıan afecciones pulmonares.
a) Estımese la proporcion de afecciones pulmonares en dicha region.
b) Si queremos estimar dicha proporcion con un error maximo del 4 %,
para una confianza del 95 %, ¿que tamano de muestra debemos tomar?
12. En una muestra de tabletas de aspirinas, de las cuales observamos su peso
expresado en gramos, obtenemos:
1, 19; 1, 23; 1, 18; 1, 21; 1, 27; 1, 17; 1, 15; 1, 14; 1, 19; 1, 2
Suponiendo la Normalidad para esta distribucion de pesos, determinar un
intervalo al 80 % de confianza para el peso promedio de las aspirinas.
13. Se quiere estimar la incidencia de la hipertension arterial en el embarazo.
¿Cuantas embarazadas tenemos que observar para, con una confianza del
95 %, estimar dicha incidencia con un error del 2 % en los siguientes casos:
a) Sabiendo que un sondeo previo se ha observado un 9
b) Sin ninguna informacion previa.
Ejercicios de Prueba de Hipotesis:
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 147
En todos los problemas que siguen a continuacion, se supone que las mues-
tras han sido elegidas de forma independiente, y que las cantidades cuanti-
tativas que se miden, se distribuyen segun una distribucion Normal.
14. El calcio se presenta normalmente en la sangre de los mamıferos en con-
centraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La
desviacion tıpica normal de esta variable es 1 mg de calcio por cada 100 ml
del volumen total de sangre. Una variabilidad mayor a esta puede ocasionar
graves trastornos en la coagulacion de la sangre. Una serie de nueve pruebas
sobre un paciente revelaron una media muestral de 6,2 mg de calcio por 100
ml del volumen total de sangre, y una desviacion tıpica muestral de 2 mg
de calcio por cada 100 ml de sangre. ¿Hay alguna evidencia, para un nivel
α = 0, 05, de que el nivel medio de calcio para este paciente sea mas alto
del normal?
15. El numero de accidentes mortales en una ciudad es, en promedio, de 12
mensuales. Tras una campana de senalizacion y mejoramiento de las vıas
urbanas se contabilizaron en 6 meses sucesivos: 8, 11, 9, 7, 10, 9 accidentes
mortales. ¿Fue efectiva la campana ?
16. El promedio de las puntuaciones de un numero elevado de alumnos de
Bioestadıstica es de 7,50. Un determinado ano se examinaron 50 alumnos
con resultados promedio de 8,25 y desviacion tıpica de 1. ¿Variaron las
calificaciones?.
17. El peso medio de mujeres de 20 a 30 anos es de 53 kg. Un estudio realizado
en 16 mujeres de tales edades que siguen una dieta vegetariana da x = 50
y S = 5. ¿Modifica la dieta el peso medio?
18. Una poblacion infantil se dice que es susceptible de recibir una campana
educacion e higiene si su porcentaje de ninos con dientes cariados es superior
Marcela Ribas - Federico De Olivera
148 3. La Inferencia Estadıstica
al 15 %. Una poblacion con 12.637 ninos, ¿debe hacerse la campana si de
387 de ellos 70 tenıan algun diente cariado?
19. Un 8 % de los individuos que acuden a un servicio sanitario son hiperuti-
lizadores del mismo (mas de 11 visitas al ano) y, de entre ellos, un 70 %
son mujeres. De entre los no hiperutilizadores, son mujeres el 51 %. ¿Puede
afirmarse que han variado los habitos de estas si, tras una campana de in-
formacion y control de visitas, de 90 mujeres elegidas al azar 6 resultaron
hiperutilizadoras?
20. Se conoce que un 20 % de los individuos tratados cronicamente con digoxina
sufren una reaccion adversa por causa de ella. A 10 pacientes se les admin-
istro durante largo tiempo digoxina mas otros medicamentos, y de ellos 5
desarrollaron la reaccion adversa. ¿Puede afirmarse que la asociacion entre
la digoxina y los otros medicamentos hace variar el numero de reacciones
adversas?
21. Con el proposito de determinar como influye la dinamica familiar sobre el
control metabolico de la glicemia en pacientes diabeticos tratados con hi-
poglicemiantes orales, se procedio a seleccionar una muestra de 80 pacientes
diabeticos a los cuales se les aplico el test del apgar familiar encontrandose
30 pacientes con alteraciones de la dinamica familiar, 40 pacientes no pre-
sentaron alteraciones ni en la dinamica familiar ni en el control metabolico
de la glicemia y solo 30 pacientes presentaron mal control metabolico de la
glicemia.
22. Un grupo de investigadores inicia un estudio de epidemia de hepatitis para la
cual se plantean como hipotesis que las malas condiciones sanitarias favore-
cen la propagacion de los casos, observandose que de 240 sujetos estudiados
27 tenıan hepatitis de los cuales 7 tenıan altas condiciones sanitarias y 80
que no presentaron hepatitis tenıan bajas condiciones sanitarias.
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 149
23. Un investigador plantea un diseno epidemiologico para poner en evidencia
como influye el estrato social sobre el peso al nacer, para lo cual controla
la edad materna y conforma dos grupos uno de 40 con bajo peso y otro de
720 recien nacidos con peso normal observando: que los ninos con bajo peso
30 pertenecıan al estrato social bajo, mientras que de los ninos con peso
normal 700 pertenecıan al estrato social alto.
Marcela Ribas - Federico De Olivera
Solucion de algunos ejercicios:
Correspondientes al Bloque tematico 1:
[2]
a) Clasifica todas las variables de la tabla, segun sean cualitativas: nom-
inales u ordinales; o cuantitativas: discretas o continuas.
EDAD: Variable cuantitativa continua, pues existen innumerables val-
ores posibles de edades, entre dos edades distintas cualesquiera.
Nota: El hecho que la variable se mida en anos, no impide que sea
continua. Entre una persona que tiene 30 anos y otra que tiene 31
anos, puede existir otra que tenga 31 anos y 6 meses, y ası el tiempo,
que es continuo, se puede seguir subdiviviendo indefinidadmente.
SEXO: Variable cualitativa nominal, a pesar de los numeros 0 y 1,
pues solo se utilizan para codificar: la adjudicacion de los numeros es
arbitraria.
BH: Bebedor/a habitual: Variable cualitativa nominal, por el mismo
motivo anterior.
TALLA: Variable cuantitativa continua, pues existen innumerables
valores posibles, entre dos alturas o tallas distintas cualesquiera.
PESO: Variable cuantitativa continua.
GLU: Variable cuantitativa continua.
CT : Variable cuantitativa continua.
HDL: Variable cuantitativa continua.
Observacion: es normal que las variables continuas, al medirlas y regis-
trarlas, se redondeen a valores enteros, lo que no impide que pudieran
registrarse con valores decimales, lo que harıa mas evidente su caracter
de continuas.
3.6 Ejercicios 151
b) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a
partir de los datos de la variable edad, de la tabla anterior. Considera
5 intervalos de igual longitud.
Como el mınimo valor de edad, en mi muestra de 40 usuarios del
servicio de salud, es 20 y la maxima edad es 90, la longitud de cada
intervalo sera: ( 90 - 20 ) / 5 = 14
Edades ni hi Porcentaje F ∗i
[20, 34) 10 10/40 = 0, 25 25 0, 25
[34, 48) 21 21/40 = 0, 525 52, 5 0, 775
[48, 62) 4 4/40 = 0, 1 10 0, 875
[62, 76) 3 3/40 = 0, 075 7, 5 0, 95
[76, 90) 2 2/40 = 0, 05 5 1
40 1 100
Interpretacion de algunos valores de la tabla anterior :
En la columna ni, el 21: Entre los usuarios del servicio de salud de la
muestra, hay 21 de ellos que tienen entre 34 y 47 anos de edad.
En la columna hi, el 0,25: Entre los usuarios del servicio de salud de la
muestra, hay un 25 % de ellos que tienen entre 20 y 33 anos de edad.
En la columna Porcentaje, el 10: Entre los usuarios del servicio de
salud de la muestra, hay un 10 % de ellos que tienen entre 48 y 61
anos de edad.
En la columna F ∗i , el 0,775: Entre los usuarios del servicio de salud de
la muestra, hay un 77,5 % de ellos que tienen menos de 48 anos.
c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a
Marcela Ribas - Federico De Olivera
152 3. La Inferencia Estadıstica
partir de los datos de glucemia de los varones de la tabla anterior.
Glucemia ni hi F ∗i
[80, 120) 7 0, 7 0, 7
[120, 160) 2 0, 2 0, 9
[160, 200) 0 0 0, 9
[200, 240) 1 0, 1 1
10 1
Un nivel normal de glucemia es aquel que se encuentra en el intervalo
[75, 100).
A partir de la tabla anterior, calcularemos el porcentaje de hombres
que se encuentran en el intervalo [80, 100), pues no hay nadie en el
intervalo [75, 80).
Para hacerlo utilizaremos una regla de tres simple:
[80, 120) longitud 40 70 %
[80, 100) longitud 20 x = 20 · 70/40 = 35 %
Por lo tanto, a partir de la tabla de frecuencias, vemos que existe
un 35 % de hombres en mi muestra que tienen un nivel normal de
glucemia. A partir de los datos originales, vemos que hay tres hom-
bres con un nivel normal de glucemia, lo cual corresponde a un 30 %.
La diferencia se debe a que el 30 % es real, mientras que el 35 % es
estimado, siguiendo la hipotesis de distribucion uniforme de los datos
en el intervalo correspondiente, lo cual no siempre se cumple. Pero,
a pesar de que este ultimo dato es estimado, es el que mas comun-
mente se calcula, pues los datos originales, luego de construir la tabla
de frecuencias, generalmente no se vuelven a tomar en cuenta.
d) Representa el histograma de la variable talla. Considera 5 intervalos.
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 153
Discrimina por sexo, considerando los mismos intervalos. Compara.
Tallas ni hi f ∗i
[145, 152) 5 0, 125 0, 0178
[152, 159) 10 0, 25 0, 0357
[159, 166) 12 0, 3 0, 0428
[166, 173) 7 0, 175 0, 025
[173, 180] 6 0, 15 0, 0214
40 1
Marcela Ribas - Federico De Olivera
154 3. La Inferencia Estadıstica
Tallas de hombres ni hi f ∗i
[145, 152) 0 0 0
[152, 159) 1 0, 1 0, 0143
[159, 166) 1 0, 1 0, 0143
[166, 173) 5 0, 5 0, 0714
[173, 180] 3 0, 3 0, 0428
10 1
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 155
Tallas ni hi f ∗i
[145, 152) 5 0, 16 0, 0228
[152, 159) 9 0, 3 0, 0428
[159, 166) 11 0, 37 0, 0528
[166, 173) 2 0, 07 0, 01
[173, 180] 3 0, 1 0, 0143
30 1
Comparando los histogramas, se observa lo esperado: que a nivel global
las estaturas se distribuyen en torno a los valores centrales, sin embargo
las alturas masculinas se concentran en valores altos, y las femeninas,
en valores medio-bajos
e) Representa la tabla de frecuencias de la variable BH, diferenciando por
Marcela Ribas - Federico De Olivera
156 3. La Inferencia Estadıstica
tres grupos de edades: de 20 a 39 anos, de 40 a 59 anos y de 60 a 90
anos. Compara.
B.H 20a39 hi 40a59 hi 60a90 hi
0 16 0, 7 8 0, 8 5 0, 83
1 8 0, 3 2 0, 2 1 0, 17
24 1 10 1 6 1
Comparando, observamos que: el 30 % de los jovenes de 20 a 39 anos, es
bebedor habitual, el 20 % de los adultos entre 40 y 59 anos es bebedor
habitual, y el 17 % de los adultos mayores de 60 a 90 anos es bebedor
habitual.
Observamos una clara tendencia descendente en la frecuencia de los
bebedores habituales, a medida que avanzamos en los intervalos de
edad.
f ) ¿Que puedes decir sobre las medidas de tendencia central de la variable
CT en las mujeres de la tabla? ¿Y sobre su dispersion? Considere 5
intervalos.
Colesterol total ci ni hi F ∗i ci · hi c2i · hi
[158, 198) 178 14 0, 47 0, 47 83, 66 14,891, 48
[198, 238) 218 8 0, 27 0, 74 58, 86 12,831, 48
[238, 278) 258 4 0, 13 0, 87 33, 54 8,653, 32
[278, 318) 298 3 0, 1 0, 97 29, 8 8,880, 4
[318, 358) 338 1 0, 03 1 10, 14 3,427, 32
30 1 216, 0 48,684, 0
El promedio de colesterol total, en las mujeres de esta muestra, es de
216 mg/dl de sangre. (Si lo calculamos a partir de datos originales da
un promedio de 218 mg/dl).
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 157
Calculo la mediana:
Xme = 198 +(0, 5–0, 47)
0,2740
= 202, 44
El 50 % de las mujeres de esta muestra, tienen un valor de colesterol
total de hasta 202,44 mg/dl de sangre . Intervalo modal: [158, 198) .
La mayor parte de las mujeres de esta muestra (un 47
OBSERVAR: Que el promedio (216 mg/dl) no se encuentra en el
intervalo modal [158,198), lo que implica que dicho promedio no rep-
resenta bien a esta muestra, la cual contentra muchos datos (un 47 %)
entre 158 mg/dl y 198 mg/dl. Como el promedio es mayor, esto sugiere
que existen unas “relativamente pocas” mujeres que tienen colesteroles
muy altos, que me influyen en la media y me la “tiran hacia arriba”.
Al observar la tabla de frecuencias se constata lo anterior.
Calculo la varianza, el desvıo standard y el coeficiente de variacion:
S2 = 48,684–(216)2 = 2,028
S = 45, 03
En promedio, los datos de colesterol de las mujeres de esta muestra,
se alejan 45,03 mg/dl del promedio, que es de 216 mg/dl.
C.V =45, 03
216= 0, 21
Esto implica que el desvıo standard es un 21 % de la media, lo cual,
empıricamente, es un valor muy elevado. Esto nos confirma la mala
representatividad de la media en nuestra muestra, y nos sugiere acom-
panarla con las otras medidas de tendencia central, a fin de conocer
las caracterısticas de nuestra muestra, lo mejor posible.
g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( coles-
terol bueno) mas alto que los hombres”, a la luz de esta muestra.
Marcela Ribas - Federico De Olivera
158 3. La Inferencia Estadıstica
Consultando literatura al respecto, se averiguo cuales son los valores
deseables de HDL y cuales los crıticos, escontrandose lo siguiente: un
nivel de HDL de menos de 40 mg/dl implica un riesgo de cardiopatıa
(incluyendo un posible ataque cardıaco), mientras que un HDL mayor
a 60 ayuda a proteger al individuo contra esta patologıa del corazon.
Por lo tanto, se sugiere considerar los intervalos para la variable HDL,
que aparecen en la siguiente tabla, y organizar los datos segun estos,
discriminados por sexo:
mujeres hombres
HDL(mg/dl) ni hi ni hi
[30, 40) 4 0, 13 4 0, 4
[40, 60) 16 0, 54 4 0, 4
[60, 80] 10 0, 33 2 0, 2
30 1 10 1
En la tabla anterior se observa que el 40 % de los hombres de esta
muestra, tienen muy bajo el HDL o colesterol bueno, contra un 13 %
de las mujeres. Ası como el 33 % de estas tienen un muy buen nivel
de HDL (mayor a 60 mg/dl, que protege de riesgo cardıaco) contra un
20 % de los hombres. Con estos dos argumentos la frase “las mujeres
tienden a tener un colesterol HDL( colesterol bueno) mas alto que los
hombres”, encuentra su confirmacion en esta muestra.
Analizando un poco mas profundidad podemos calcular el nivel medio
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 159
de HDL para hombres y mujeres, por separado.
mujeres hombres
HDL(mg/dl) hi ci hi · ci hi ci hi · ci[30, 40) 0, 13 35 4, 55 0, 4 35 14
[40, 60) 0, 54 50 27 0, 4 50 20
[60, 80] 0, 33 70 23, 1 0, 2 70 14
1 54, 65 1 48
Y obviamente, el promedio de HDL es mas alto en las mujeres que en
los hombres (54,65 mg/dl contra 48mg/dl). Esto era esperado ya por
nosotros pues las frecuencias relativas, arriba comentadas, influyen en
el promedio.
Correspondientes al Bloque tematico 2:
[1]
a) x = 2,447
b) x = 2,75
c) x = 1,812
d) x = 2,947
[1]
Sea A el suceso hablar ingles: P (A) = 0, 5. Sea B el suceso hablar frances:
P (B) = 0, 2. El suceso hablar frances e ingles es A ∩B : P (A ∩B) = 0, 05.
Ası:
P (A ∪B) = P (A) + P (B)− P (A ∩B) = 0, 5 + 0, 2− 0, 05 = 0, 65
Marcela Ribas - Federico De Olivera
160 3. La Inferencia Estadıstica
[2]
Sean los siguientes sucesos V y E:
V : “que el individuo este vacunado contra una cierta enfermedad”. P (V ) =
0, 6
E: “que el individuo contraiga la enfermedad anterior”. P (E) = 0, 2
P (V ∩ E) = 0, 02
Calculo P (E|V ) y P (V |E)
P (E|V ) = P (V ∩ E) · P (V ) = 0,02 · 0, 6 = 0, 012
P (V |E) = P (V ∩ E) · P (E) = 0,02 · 0, 2 = 0, 004
[3] Tomamos los porcentajes como probabilidades de curar. Sean los sigu-
ientes eventos:
As e=“el tratamiento A surte efecto”
Bs e=“el tratamiento B surte efecto”
analoga notacion para el resto de los eventos.
a)
P (“curar en a)”) = P(As e ∪Bs e
)= P
(As e
)+ P
(Bs e
)− P
(As e ∩Bs e
)indep= 0,2 + 0,3− 0,2 · 0,3 = 0,44
b)
P (“curar en b)”) = P(As e ∪ [Bs edado queAno s e]
)disjuntos
= P(As e
)+ P
([Bs edado queAno s e]
)indep= 0,2 + 0,3 = 0,5
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 161
Notemos que es mas efectivo aplicar primero B y si no da resultado aplicar
A, que aplicar los dos al mismo tiempo. Es importante discutir y plantearse
que esta sucediendo para que suceda esto aparentemente anti intuitivo.
[5] Recordemos que falso positivo es diagnosticar positivamente una
enfermedad dado que el paciente no esta enfermo. De forma analoga,
falso negativo es diagnosticar negativamente una enfermedad dado que el
paciente si esta enfermo.
Sean los eventos:
A+=“se diagnostica positivamente con el analisis A”
A−=“se diagnostica negativamente con el analisis A”
analogo para B+ y B−
E=“el paciente esta enfermo”, Ec=“el paciente no esta enfermo”
Sabemos que P (E) = 0,1, P (A+|Ec) = 0,15, P (A−|E) = 0,07, P (B+|Ec) =
0,22 y P (B−|E) = 0,03
Luego, nos interesa P ([A+ ∩ E] ∩ [A− ∩ Ec]) y P ([B+ ∩ E] ∩ [B− ∩ Ec]).
P ([A+ ∩ E] ∪ [A− ∩ Ec])disjuntos
= P (A+ ∩ E) + P (A− ∩ Ec)
= P (A+|E)P (E) + P (A− ∩ Ec)P (Ec)
= [1− P (A−|E)]P (E) + [1− P (A+|Ec)]P (Ec)
= [1− 0,07] · 0,1 + [1− 0,15] · 0,9 = 0,858
Marcela Ribas - Federico De Olivera
162 3. La Inferencia Estadıstica
P ([B+ ∩ E] ∪ [B− ∩ Ec])disjuntos
= P (B+ ∩ E) + P (B− ∩ Ec)
= P (B+|E)P (E) + P (B− ∩ Ec)P (Ec)
= [1− P (B−|E)]P (E) + [1− P (B+|Ec)]P (Ec)
= [1− 0,03] · 0,1 + [1− 0,22] · 0,9 = 0,799
En resumen, La probabilidad de acertar el diagnostico con el analisis A es
0.858 y con en analisis B es 0.799.
[6]
Recordemos que la sensibilidad es la proporcion de diagnosticados positi-
vamente sobre el total de enfermos (el complemento del falso negativo), y
la especificidad es la proporcion de diagnosticados negativamente sobre el
total de sanos (el complemento de falsos positivos).
Usando analoga notacion para los sucesos que en el ejercicio anterior, ten-
emos que P (E) = 0,2, S = P (T+|E) = 0,91 y E = P (T−|Ec) = 0,98
a)
P (E|T+) =P (T+|E)P (E)
P (T+|E)P (E) + P (T+|Ec)P (Ec)
=0,91 · 0,2
0,91 · 0,2 + (1− 0,98) · 0,8= 0,919
b)
P (Ec|T−) =P (T−|Ec)P (Ec)
P (T−|Ec)P (Ec) + P (T−|E)P (E)
=0,98 · 0,8
0,98 · 0,8 + (1− 0,91) · 0,2= 0,978
En resumen, La probabilidad de estar enfermo dado que el test dio positivo
es 0.919 y la probailidad de estar sano dado que el test dio negativo es
0.978.
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 163
[7]
P (F ) = P (F |H)P (H) + P (F |M)P (M) = 0,7 · 0,4 + 0,2 · 0,6 = 0,4
La probabilidad que un estudiante al azar fume es 0,4.
[8]
Al darnos informacion de lo que sucede con el tratamiento y deseamos lo
que sucede con el paciente, podemos tratar de usar el Teorema de Bayes:
P (E|TAC+) =P (TAC+|E)P (E)
P (TAC+|E)P (E) + P (TAC+|Ec)P (Ec)
=0,8 · 0,2
0,8 · 0,2 + 0,03 · 0,8= 0,87
[9]
Al darnos informacion de lo que sucede con el animal (segunda etapa) y
pedirnos informacion sobre la primera etapa (de donde proviene el virus)
podemos intentar aplicar el Teorema de Bayes.
Sean los sucesos: E= “el animal se enferma”, A=“el virus aplicado es A”,
analogo para B y C. la probabilidad pedida es:
P (C|E) =P (E|C)P (C)
P (E|A)P (A) + P (E|B)P (B) + P (E|C)P (C)
=17· 5
1013· 3
10+ 2
3· 2
10+ 1
7· 5
10
= 0,234
[13]
a) Para hallar esta probabilidad tenemos que tipificar:
Marcela Ribas - Federico De Olivera
164 3. La Inferencia Estadıstica
P (X ≤ 112) = P (X − 106 ≤ 112− 106)
= P( X − 106
8︸ ︷︷ ︸Z∼N(0,1)
≤ 112− 106
8
)= P (Z ≤ 0,75)
Ahora buscamos en la Tabla Normal, en la primer fila buscamos la
unidad, en este caso 0, y en la primer columna los decimales, en este
caso 0.75 (pues su suma es 0.75 que es lo que deseamos). Donde se
crucen las correspondientes columna y fila es la probabilidad pedida:
P (X ≤ 112) = P (Z ≤ 0,75) = 0,773372
b) Lo que nos piden es P (102 ≤ X ≤ 112) multiplicado por 100 para ser
porcentaje. Luego
P (102 ≤ X ≤ 112) = P (X ≤ 112)− P (X ≤ 102)
tipificando= P (Z ≤ 0,75)− P (Z ≤ −0,5)
Para calcular P (Z ≤ −0,5) recordemos la igualdad para v.a. normales
tipificadas P (Z ≤ −x) = 1− P (Z ≤ x), por lo tanto
P (102 ≤ X ≤ 112) = P (Z ≤ 0,75)− [1− P (Z ≤ 0,5)]
tabla= 0,773372− [1− 0,691462] = 0,464834
c) Analogo al anterior.
d) Analogo al primero.
e) Lo que nos estan pidiendo es hallar x de modo que P (X ≤ x) = 0,75.
Primero debemos estandarizar:
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 165
P (X ≤ x) = P
Z ≤ x− 106
8︸ ︷︷ ︸z0,75
= 0,75
Ahora debemos buscar en la tabla, el valor 0.75, pero ojo, no en fila-
columna pues esl valor que nos dan es de una probabilidad, debemos
buscar 0.75 en el “interior” de la tabla y ver a que fila y columna corre-
sponde. En este caso, 0.75 no se encuentra, pero su valor mas proximo
es 0.751747 en la primer columna (0) y en la fila correspondiente a
0.68, por lo tanto z0,75 = 0 + 0,68 = 0,68.
Por ultimo, dbemos hallar x, es decir:
x− 106
8= 0,68⇒ x = 0,68 · 8 + 106 = 111, 44
f ) Es similar al anterior pero ahora recordar que P (Z ≤ z0,25) = 1 −
P (Z ≤ −z0,25) ya que en la tabla no aparecen valores menores a 0.5 y
en este caso −z0,25 sera un valor positivo pues z0,25 es negativo.
[14]
a) Nos piden xs tal que P (Xd ≤ xs) = 0,02, por lo tanto tipificamos:
P (Xd ≤ xs) = P (Z ≤ xs − 160
31,4︸ ︷︷ ︸z0,02
) = 0,02
Luego, como probabilidades menores a 0.5 no las encontramos en la
tabla, usamos que P (Z ≤ z0,02) = 1− P (Z ≤ −z0,02) = 0,02, entonces
P (Z ≤ −z0,02) = 0,98 y buscando en la tabla obtenemos que −z0,02 =
2,06. Por ultimo
−z0,02 = −xs − 160
31,4= 2,06⇒ xs = −2,06 · 31,4 + 160 =
Marcela Ribas - Federico De Olivera
166 3. La Inferencia Estadıstica
Por lo tanto, un individuo diabetico con valor de glucemia menor a
xs = 95,316 es considerado sano.
b) Ahora, en la distribucion de los sanos queremos P (Xs ≥ 95,316), lo
cual es puede calcularse mediante el complemento P (Xs ≥ 95,316) =
1− P (Xs ≤ 95,316), tipificando
P (Xs ≤ 95,316) = P
(Z ≤ 95,316− 80
10
)= P (Z ≤ 1,5316)
tabla= 0,936
Por ultimo, la probabilidad buscada es: P (Xs ≥ 95,316) = 1 −
0,936881 = 0,063119 y solo el 6,3119 % de los sanos seran clasifica-
dos como diabeticos.
c) Consideremos los siguientes sucesos:
D=“el individuo es Diabetico”
S=“el individuo es Sano”
dD=“el individuo es diagnosticado Diabetico”
La probabilidad pedida es P (D|dD). Como nos dan informacion de
lo que sucede con el tratamiento y queremos saber si el paciente es
enfermo o no podemos intentar aplicar Bayes.
P (D|dD) =P (dD|D)P (D)
P (dD|D)P (D) + P (dD|S)P (S)
=0,98 · 0,1
0,98 · 0,1 + 0,063119 · 0,9= 0, 633
La probabilidad de que un diagnosticado diabetico realmente lo sea es
0,633
Correspondientes al Bloque tematico 3:
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 167
[2] Dada una persona cualquiera (i) de la poblacion, el resultado de su voto
(Xi) es una variable dicotomica:
Xi =
1 si vota a favor
0 si vota en contra
Entonces: Xi se distribuye Ber(p) con p = P (Xi = 1)
El parametro a estimar, a traves de un intervalo de confianza con α =
0, 05, es p, y tenemos, sobre una muestra de tamano n = 100, la siguiente
estimacion puntual de p:
p = 35/100 = 0, 35
El intervalo de confianza, al 95 %, para p es: [0,2565; 0,4435] El intervalo
de confianza, al 95 %, para 1− p es: [0,5565; 0,7435]
Afirmamos, con una probabilidad de 0, 95, que los que votaran a favor estan
entre un 25, 65 % y un 44, 35 %. Y los que votaran en contra estan entre
un 55, 65 % y un 74, 35 %. Observar que no es muy precisa la informacion
obtenida, pues tenemos con esa muestra un error aproximado de 9, 3 puntos
porcentuales, al nivel de confianza del 95 %.
[3] Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de
confianza hasta el 97 % (α = 003) hemos de tomar una muestra logicamente
de mayor tamano; llamemosle m a esta nueva muestra.
Un valor de m que satisface nuestros requerimientos con respecto al error
es:
m ≥p(1− p)Z2
1−α/2
0,012
Marcela Ribas - Federico De Olivera
168 3. La Inferencia Estadıstica
Si en un principio no tenemos una idea sobre que valores puede tomar p,
debemos considerar el peor caso posible (el que nos da la maxima varianza),
que es en el que se ha de estimar el tamano muestral cuando p = 1/2.
Ası, en este caso, como no se tiene una idea previa del posible resultado
del referendum, hay que tomar un tamano de muestra, m , que se calcula
mediante:
m ≥ 1
2· 1
2· (z1−0,03/2)2/(0, 01)2 = 11772, 25
Es decir, que para conseguir estimar con un 97 % de confianza, el porcenta-
je de personas que votan a favor del referendum con un error de un 1 %
maximo, debemos encuestar a por lo menos 11773 persona Ası, para tener
un resultado tan fiable, el numero de personas a entrevistar es muy elevado,
lo que puede volver excesivamente costoso el procedimiento.
[4] La estimacion puntual de la produccion diaria media de bilis, en indi-
viduos sanos, es de X = 0,958 litros. Y la varianza muestral es S2 = 0,019.
Como debo estimar la varianza poblacional, utilizo la tabla t y obtengo
t9, 0, 975 = 2,262. El error de estiamcion es de 0,0987 litros. Por lo tanto,
con un 95 % de confianza decimos que la produccion diaria media de bilis
esta entre 0,859 litros y 1,057 litros.
[5] Con un 99 % de confianza podemos decir que la cantidad mınima re-
querida para que un anestesico surta efecto en una intervencion quirurgica
esta entre 46, 5 mg y 53, 5 mg.
[6] En general, cuando no tenemos datos sobre la proporcion, a los efectos
de estimar la varianza tomamos p = 0, 5 para cubrirnos con la mayor vari-
anza posible. Pero, en este caso tenemos como dato que p es menor a 0, 333.
Y lo usamos para considerar una varianza menor a la maxima y ası tomar
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 169
una muestra menor. Haciendo calculos, se obtiene que se debe tomar una
muestra mayor a 1340, si queremos estimar la proporcion de muertes de-
bidas a cancer de estomago en relacion con el numero de defunciones por
cualquier tipo de neoplasia, con una confianza del 98 %, y no errarle en esa
proporcion en mas de un 0, 03.
[7] Como no conocemos el desvıo poblacional y lo estimamos, usamos la
tabla t. Pero el valor de t49;0,95 no se encuentra en la tabla propuesta en
el teorico correspondiente a este material. Tomamos entonces el valor de
t40, 0, 95 = 1, 684 para cubrirnos mas, pues cuanto menor es el tamano
muestral mayor es el error posible. Ası, obtenemos el intervalo, con un 90 %
de confianza, para la presion sistolica tras un cierto ejercicio fısico:[12,29;
13,71].
[8]
[5.861,2; 5.938,8] (usamos t24;0,975 = 2, 064 y la precision es de 38, 8
gr).
Para bajar la precision a 15 gr debemos muestrear a 168 bebes varones
de 12 semanas de vida (el calculo da n = 167, 3 pero se redondea
siempre hacia arriba para cubrirse de cumplir con los requerimientos
pedidos). A los efectos del calculo de n, como el desvıo poblacional es
desconocido, se considero el desvıo muestral de la anterior muestra de
25 bebes.
[9] Se considera la variable X, con distribucion Bernoulli, definida ası: X =
1, si la visita de lugar a una extraccion inmediata yX = 0, en caso contrario.
El parametro a estimar es p = proporcion de visitas al servicio odontologico
que da lugar a una extraccion inmediata. De la muestra extraıda obtengo
p = 0, 21 . Un intervalo de confianza, al 95 % es [0,194; 0,226] y al 99 % de
confianza es [0,188; 0,232 ].
Marcela Ribas - Federico De Olivera
170 3. La Inferencia Estadıstica
En conclusion, como 0,22 forma parte de ambos intervalos, tanto con un
95 % como con un 99 % de confianza, puedo decir que es posible que en ese
servicio odontologico el 22 % de las visitas lleven consigo una extraccion
dentaria inmediata. Por lo tanto las cifras del ano analizado no entran en
contradiccion con el porcentaje estabelcido de siempre.
[14] X: concentracion de calcio en la sangre de los mamıferos (en mg por
cada 100 ml de l total de sangre)
H0) µ = 6
H1) µ > 6
α = 0, 05
X = 6, 2 . Entonces z0 = 0, 6 < 1, 64 = z1−0,05. Entonces , no rechazo H0:
la evidencia muestral no es suficiente como para rechazar que el paciente
tenga un nivel normal de concentracion de calcio en la sangre.
[15] X: numero de accidentes mortales en una ciudad
H0) µ = 12
H1) µ < 12
α = 0, 05
X = 9 y S = 1, 29. Entonces t0 = −5, 7 < t5, z0,05 = −2, 015 . Entonces,
rechazo H0: la campana fue efectiva pues disminuyeron los accidentes de
transito (µ < 12).
[16] X: puntuacion de los alumnos de Bioestadıstica
H0) µ = 7, 5
H1) µ 6= 7, 5
α = 0, 05
Marcela Ribas - Federico De Olivera
3.6 Ejercicios 171
X = 8, 25 . Entonces t0 = 5, 3 > t49, z0,975 aprox t60, z0, 975 = 2. Entonces,
rechazo H0: Variaron las calificaciones (µ distinto de 7)
[17] X: peso de mujeres de 20 a 30 anos , en kg
H0) µ = 53
H1) µ 6= 53
α = 0, 05
n = 16
X = 50 y S = 5. Entonces t0 = −2, 4 , cuyo valor absoluto es 2, 4 > t15,
z0,975 = 2, 231. Entonces, rechazo H0: la dieta vegetariana modifica el peso
(pues µ no es 53, en las mujeres vegetarianas).
Marcela Ribas - Federico De Olivera
Bibliografıa
[1] Hitoshi Kume, Herramientas estadısticas basicas para el mejoramiento de
la calidad. Ed. Norma, Bs. As. 2002.
[2] J.S. Milton, J.O. Tsokos, Estadıstica para Biologıa y Ciencias de la Salud.
Ed. McGraw-Hill, Espana 1989.
[3] Francisca Rıus Dıaz, Francisco Javier Baron Lopez, Elisa Sanchez Font y
Luis Parras Guijosa, Bioestadıstica: metodos y aplicaciones.
http://www.bioestadistica.uma.es/libro/