INFERENCIA 3

9
1 BIOESTADISTICA 2004 INFERENCIA ESTADISTICA Ing. Wilfredo Mormontoy Laurel MPH 1. DEFINICIÓN Es el procedimiento por el que se llega a inferencias respecto a una población, con base en los resultados que se obtienen en una muestra extraída de esa población. Puesto que las poblaciones son descritas por medidas numéricas descriptivas, llamados parámetros de la población, se puede hacer inferencias acerca de la población haciendo inferencias respecto a sus parámetros. INFERENCIA ESTADISTICA 2. AREAS DE LA INFERENCIA ESTADISTICA 2. AREAS DE LA INFERENCIA ESTADISTICA.- Tiene dos áreas: A. ESTIMACIÓN.- Efectuar una estimación es usar las medidas calculadas en una muestra (estimadores) para predecir el valor de uno o más parámetros de la población. Un estimador es a menudo expresado en términos de una fórmula matemática que da la estimación como una función de las medidas muestrales. La estimación de un parámetro poblacional puede realizarse de dos maneras: 1. Por punto. Se usan las medidas de la muestra para calcular un un único valor num nico valor numérico rico que es la estimación del parámetro poblacional. 2. Por intervalo. Las medidas de la muestra pueden también usarse para calcular dos dos valores num valores numéricos ricos que definen un intervalo el cual, con un cierto nivel de confianza, se considera que incluye al parámetro. La “bondad” de un estimador se evalúa observando su comportamiento en repetidas muestras. Hablaremos en general de un parámetro poblacional W. Un estimador ŵ para el parámetro W, generará estimaciones en repetidas muestras de la población y producirá una distribución de los estimadores este estimador será considerado bueno si las estimaciones se agrupan estrechamente al rededor de W. Si la media de los estimadores es W, entonces ŵ se dice que es un estimador insesgado de W y E (ŵ) = W. Si la dispersión (varianza) de ŵ es más pequeña que la de cualquier otro estimador, entonces ŵ se dice que tiene varianza mínima Por lo tanto, un buen estimador deberá tener las siguientes propiedades: a.- Ser insesgado b.- Varianza mínima Así por ejemplo: X es un estimador insesgado y de varianza mínima de µ. p también es un estimador insesgado y de varianza mínima de π; etc. En la siguiente tabla veremos algunos parámetros, estimadores y los errores estándar del estimador:

Transcript of INFERENCIA 3

Page 1: INFERENCIA 3

1

BIOESTADISTICA 2004INFERENCIA ESTADISTICA

Ing. Wilfredo Mormontoy Laurel MPH

1. DEFINICIÓNEs el procedimiento por el que se llega a inferencias respecto a una población, con base en los resultados que se obtienen en una muestra extraída de esa población.Puesto que las poblaciones son descritas por medidas numéricas descriptivas, llamados parámetros de la población, se puede hacer inferencias acerca de la población haciendo inferencias respecto a sus parámetros.

INFERENCIA ESTADISTICA

2. AREAS DE LA INFERENCIA ESTADISTICA2. AREAS DE LA INFERENCIA ESTADISTICA.-Tiene dos áreas:

A. ESTIMACIÓN.-Efectuar una estimación es usar las medidas calculadas en una muestra (estimadores) para predecir el valor de uno o más parámetros de la población.Un estimador es a menudo expresado en términos de una fórmula matemática que da la estimación como una función de las medidas muestrales.

La estimación de un parámetro poblacional puede realizarse de dos maneras:

1. Por punto. Se usan las medidas de la muestra para calcular un un úúnico valor numnico valor numééricorico que es la estimación del parámetro poblacional.

2. Por intervalo. Las medidas de la muestra pueden también usarse para calcular dos dos valores numvalores numééricosricos que definen un intervalo el cual, con un cierto nivel de confianza, se considera que incluye al parámetro.La “bondad” de un estimador se evalúa observando su comportamiento en repetidas muestras.

Hablaremos en general de un parámetro poblacional W. Un estimador ŵ para el parámetro W, generará estimaciones en repetidas muestras de la población y produciráuna distribución de los estimadores este estimador será considerado bueno si las estimaciones se agrupan estrechamente al rededor de W. Si la media de los estimadores es W, entonces ŵ se dice que es un estimador insesgado de W y E (ŵ) = W.Si la dispersión (varianza) de ŵ es más pequeña que la de cualquier otro estimador, entonces ŵse dice que tiene varianza mínima

Por lo tanto, un buen estimador deberá tener las siguientes propiedades:

a.- Ser insesgadob.- Varianza mínimaAsí por ejemplo:

•X es un estimador insesgado y de varianza mínima de µ.• p también es un estimador insesgado y de varianza mínima de π; etc.En la siguiente tabla veremos algunos parámetros, estimadores y los errores estándar del estimador:

Page 2: INFERENCIA 3

2

Parámetro

Estimador

Error estándar

µ

x =∑xI / n

EEx = σ/√n ó EEx = s / √n

(µ1-µ2)

(x1 -x2 )

____________ EE(x1 -x2) = √(σ2

1/n1 + σ22/n2) ó

______________ EE(x1 -x2) = √(sp

2/n1 + sp2/n2)

Donde: s2

p = (n 1-1)s 12 + (n 2-1)s 2

2 n1 +n2 - 2

π

p =a/n

________ EEp = √(π(1-π)/n) ó _________ EEp = √(p(1-p) /n) n >30

Parámetro

Estimador

Error estándar

(π1 -π2)

(p1 – p2)

__________________ EE(p1 - p2) =√π1(1-π1)/n1 + π2(1-π2)/n2 __________________ EE(p1 - p2) =√p1 (1-p1)/n1 + p2(1-p2)/n2 (n1 y n2 > 30)

Una estimación por intervalo es una regla que nos dice cómo calcular dos valores que forman un intervalo estrecho que incluye al parámetro. No todos los intervalos generados por un estimador incluirán realmente el parámetro. La probabilidad de que una estimación por intervalo incluya el parámetro se denomina nivel de confianza..Sabemos que:W: parámetro poblacional. EEŵ : error estándar del estimadorŵ: estimador del parámetro. c : coeficiente de confiabilidad, cuyo valor depende del nivel de confianza utilizado.

El modelo general de estimación por intervalo de un parámetro es:

Al restar el producto del estimador se obtiene el limite inferior del intervalo (LI) y al sumar, el limite superior (LS). Por consiguiente, los limites del intervalo de confianza se calculan de la siguiente manera:

Coeficien-te de

Confiabi-lidad

Paráme-tro Estima-dor

Error estándar

del estimador

= ± x

p(ŵ - c EE ŵ < W < ŵ + c EE ŵ ) = (1 - α)

LI = ŵ - c EE ŵLS = ŵ + c EE ŵ

p (LI < W < LS ) = (1 - α)

B.- PRUEBA DE HIPOTESIS:Es un área importante de la Inferencia Estadística se denomina también docimacia de hipótesis o contraste de hipótesis. Una hipótesis estadística es un supuesto acerca de algún parámetro poblacional o sobre alguna situación existente en la población.

Page 3: INFERENCIA 3

3

Existen dos tipos de hipótesis estadística:

a.-Hipótesis nula, H0.-Es un supuesto de no diferencia , de conformidad, de no cambio, de acuerdo, de independencia, etc. Es una hipótesis conservadora y como habitualmente se investiga para observar diferencias, cambios, asociaciones etc., la H0 generalmente se plantea con la finalidad de rechazarla y es la que se somete a contrastación.

b.-Hipótesis alterna, H1.-Supuesto alternativo a la H0; es decir, si la H0 es rechazada, entonces los datos apoyan al cumplimiento de la H1.Al tomar una decisión respecto a la H0, se puede correr el riesgo de cometer dos distintos tipos de error.

En la tabla siguiente se muestra la terminología propia de la prueba de hipótesis

PPPLLLAAANNNTTTEEEAAAMMMIIIEEENNNTTTOOO (((SSSIIITTTUUUAAACCCIIIOOONNN PPPOOOBBBLLLAAACCCIIIOOONNNAAALLL)))

DECISIÓN Ho c ier t a

Ho f al sa

Rec hazar Ho

EErrrroorr TTiippoo II

Prob: α (p)

Nivel de Significación

AAcciieerrttoo

Prob. (1-β) Potencia

No r ec hazar Ho

AAcciieerrttoo

Prob: (1-α)

Nivel de confianza

EErrrroorr TTiippoo IIII

Prob: β

Las cuatro son probabilidades condicionales:α = Prob. (rechazar H0 / H0 cierta ) (1-α) = Prob. ( no rechazar H0 / H0 cierta )β = Prob. ( no rechazar H0 / H0 falsa )(1-β) = Prob. (rechazar H0 / H0 falsa )

α y β están relacionadas de manera inversa: al decrecer una aumenta la otra. Habitualmente αestá bajo nuestro control; pero, β sólo está en forma indirecta mediante su relación inversa con α. (α+β) ≠ 1 salvo en un caso muy especial (α+β) = 1, esto sucede cuando H0 = H1; en este caso (α+β) son complementarios.

Mostraremos estas cuatro probabilidades utilizando la distribución de medias y una prueba unilateral.

(1-α) (1- β)

H0 H1

_xc

µ0 µ1

β α_xi

Zona de no rechazo de H0 Zona de rechazo de H0

β α

Generalmente no se calcula la probabilidad de cometer el error tipo II, o sea β, porque su cálculo se puede hacer solamente para hipótesis alternas (H1 ) específicas.

A falta de una buena razón para tomar cualquier otro valor hipotético como una hipótesis especifica, lo mejor que podemos hacer es seleccionar arbitrariamente varias alternativas razonables, cada una en la vecindad del valor de H0, es decir, calcular una probabilidad β para varias hipótesis especificas alternas.

Page 4: INFERENCIA 3

4

La representación gráfica de la relación entre valores de β , para diferentes valores de H1 , se denomina curva característica de operación (CCO) y la relación entre potencia (1- β) y valores de H1 se llama función de potencia y la gráfica, curva de potencia.

Siendo α y β medidas de la probabilidad de cometer errores, sería ideal que estos valores fueran mínimos; es decir, tener pequeñas probabilidades de tomar decisiones equivocadas.

Pero, una disminución de α (en el gráfico anterior al mover la media crítica hacia la derecha) producirá al mismo tiempo un aumento de β o viceversa.

Veamos este punto con mayor amplitud utilizando para ello, el siguiente ejemplo del campo legal.

Sea:

H0: el acusado es inocente

H1: el acusado es culpable

Si se condena a un hombre inocente (rechazar Ho) se comete un error tipo I, mientras que si se pone en libertad a un hombre culpable se incurre en el error tipo II

La recomendación del juez es que la

“culpabilidad” debe probarse mas allá de una

duda “razonable”, lo que significa que α debe

mantenerse muy pequeña. No hay manera de

reducir α a cero (si pudiera reducirse se

aseguraría completamente que no se condene

a un inocente) sin aumentar β a 1 (permitiendo

que la persona salga en libertad y haciendo

que el juicio carezca de sentido).

La única forma como α y β pueden reducirse simultáneamente es mejorar los procedimientos de detección criminal, es decir aumentar la evidencia que guarda relación con H0. Por consiguiente, la decisión del Juez será mejor si dispone de mayor información. Esto, en una prueba de hipótesis estadística, significa utilizar una muestra de elementos razonablemente grande. El aumento de n disminuirá σ/√n y, por consiguiente, también disminuirá la extensión de la distribución de las medias muestrales (ver el gráfico anterior). Esto permite una reducción de α y β: o también una reducción aún mayor de β, con α constante al 5%.

INFERENCIA ESTADISTICA SOBRE MEDIAS ARITMETICAS

1.- ESTIMACIÓN DE LA MEDIA POBLACIONAL (µ)Según el modelo general de estimación por intervalo se tiene :

Modelo utilizado cuando se conoce σ

L.S

µ = x ± z σ

√n L.I.

Ejemplo 1:Estimar la edad promedio de las mujeres que habitualmente consultan en el servicio de Ginecología. Se sabe que σ=9,2 años y en una muestra de n=40 se calculó x =23,3 años.

Solución : Como no se indica el nivel de confianza se supone que es 95%, luego:Z = 1,96; entonces:

µ = 23,3 ± 1,96 9,2√40

26,15 años

20,45 años

Page 5: INFERENCIA 3

5

Interpretación:Con 95% de confianza la media de la población se encuentra entre 20,45 y 26,15 años.Es decir, la edad promedio de las mujeres que habitualmente consultan en ginecología, con una seguridad del 95% fluctuará entre dichos valores.Estos resultados se pueden presentar también como:

I.C. 95% ( 20,45 ; 26,15 años)L.S

µ = x ± t n-1 s √n

L.I.

Ejemplo 2Se desea estimar el tiempo promedio de estancia hospitalaria para cierto tipo de pacientes. Se toma una muestra de 25 historias clínicas y se calcula x =5,7 y s = 4,5 días.Estimar µ con 95% de confianza.

Solución: En este caso no se conoce σ, luego el modelo de estimación, será:

Donde t n-1 es el coeficiente de confiabilidad, cuyo valor se obtiene de la tabla de distribución “t” de Student con n-1 grados de libertad para el nivel de confianza deseado.Algunas características de la distribución “t” de Student son:La distribución tiene forma acampanada.Es simétrica respecto al punto t=0Forma cola rápidamente a la derecha e izquierda; por lo tanto “t” es más variable que ZLa “forma” de la distribución cambia conforme el valor de n. Es decir, para cada grado de libertad (n-1) existe una curva simétrica.A medida que n aumenta, “t” se aproxima a la normal Z.

Luego de la tabla “t” se obtiene para un nivel de significación de 0,05 bilateral: t24 = 2,064

µ = 5,7 ± 2,064 4,8 √25

Interpretación:La probabilidad de que el tiempo promedio de estancia hospitalaria, en la población de pacientes, se encuentre entre 3,72 y 7,68 es de 0,95.

7,68 días3,72 días

2.-PRUEBA DE HIPOTESIS: UNA SOLA MEDIA POBLACIONALEn este caso se contrastará o docimará algunas de las siguientes hipótesis:

H0 : µ = µ0 H0 : µ ≥ µ0 H0 : µ ≤ µ0

H1: µ ≠ µ0 H1 : µ < µ0 H1: µ > µ0

Donde µ0 es un valor que se postula para la media de la población.Ejemplo:Habitualmente la población de mujeres en edad fértil tiene un nivel promedio de Hb de 11,50.

En una muestra de 20 mujeres se encontró unax= 10,9 ; s = 1,2

¿Puede concluirse que la media poblacional ha disminuido significativamente?

Solución:a) Hipótesis: Ho: µ ≥ 11,5

H1 : µ < 11,5 (unilateral negativo)b) Contraste estadístico: Como no se conoce σ,

se usa:

t n-1 = x - µs/√n

Page 6: INFERENCIA 3

6

t 19 = 10,9-11,5 = -2,2361,2/√20

c) Valor de p:Con 19 grados de libertad, el valor de p, para un contraste unilateral está entre 0,01 y 0,025. Se expresa:

0,01 < p < 0,025d) Decisión y Conclusión.D: Siendo p < 0,05; se rechaza HoC: Hubo una disminución estadísticamente

significativa de la media poblacional.

Nota: Si se conociera σ el contraste estadístico se realizaría con:

Z = x - µσ/√n

3.-PRUEBA DE HIPOTESIS: DIFERENCIA ENTRE DOS MEDIAS DE POBLACIONES INDEPENDIENTES

Se contrastará alguna de las hipótesis que sigue:

H0: µ1 = µ2 H0 : µ1 ≥ µ2 H0 : µ1 ≤ µ2

H1: µ1 ≠ µ2 H1: µ1 < µ2 H1: µ1 > µ2

Ejemplo 1:Se llevó a cabo un estudio para comparar las medias aritméticas de ácido úrico en el suero de dos poblaciones de niños.Con Síndrome Down Sin Síndrome Down

n1 = 12 n2 =15x1 =4,5 mg/100ml x2 = 3,4 mg/100ml

Resulta razonable suponer que las dos poblaciones están normalmente distribuidas con varianzas iguales a 1. ¿Existe diferencia significativa entre los niveles de ácido úrico?

Solución:a) Hipótesis Ho: µ1 = µ2

H1: µ1 ≠ µ2

b)Contraste estadístico:Como se conocen las varianzas poblacionales; se usará

= (4,5 - 3,4) – 0 = 2,84√(1/12+1/15)

Z = ( x1 -x2 ) - (µ1-µ2 )√(σ1

2/n1 + σ22/n2)

c) Valor de p: utilizando la tabla de áreas:p= 2(0,0024) = 0,0048

d) Decisión y conclusión:Se rechaza Ho con un error de 0,0048. La conclusión es que difieren estadísticamente las dos poblaciones en cuanto al ácido úrico.

Ejemplo 2:Se realizó un estudio sobre el efecto de las dietas A y B, usando dos grupos de animales experimentales. El grupo 1 recibió la dieta A (enriquecida) y el grupo 2 la dieta B. Después de 5 semanas se calculó la ganancia en peso para cada animal. Los resultados son:

Page 7: INFERENCIA 3

7

Grupo 1 Grupo2n1 = 12 n2 = 12

x1 = 27,2 g x2 = 21,2 g s 1 = 6 g s2 = 3,8 g

¿Puede concluirse que con la dieta A, los animales, ganaron mayor peso que con la B ?Solución:En vista de que no se conocen las varianzas poblacionales se hará uso del contraste “t”. Pero, es necesario recordar antes que para un uso adecuado, los datos deben satisfacer los siguientes supuestos:

Las muestras provienen de poblaciones distribuidas normalmente (supuesto de normalidad).Las muestras constituyen muestras aleatorias (supuesto de aleatoriedad).Las varianzas poblacionales son iguales (supuesto de homogeneidad de varianzas)Si estas suposiciones pueden asociarse a este caso, entonces se usará el contraste “t”:

a) Hipótesis: H0 : µ1 ≤ µ2

H1: µ1 > µ2

b)Contraste estadístico:

Donde: S2p = varianza ponderada

S2p = 62 + (3,8)2 = 25,222

:

S2p = (n 1-1)S2 1 + (n 2-1)S2

2 n1 +n2 - 2

t (n1 + n2-2) = ( x1 -x2 ) - (µ1 - µ2 )√(S2p/ n1 + S2p/ n2)

t22= (27,2 - 21,2) - 0 = 2,927 √(25,22/12 + 25,22/12)

c) Valor de p:0,0025 < p < 0,005

d) Decisión y conclusión:Rechazar Ho; es decir, la dieta A produjo una ganancia mayor de peso que la dieta B.

4.- PRUEBA DE HIPOTESIS: COMPARACION DE DOS MUESTRAS RELACIONADAS (comparaciones pareadas)

Ejemplo:Se tienen los niveles de colesterol total de una muestra de 8 pacientes antes y después de participar en un programa dieta-ejercicio.¿ puede concluirse que el programa tuvo efecto favorable?.

Paciente Antes Después di 1° 201 200 +1 2° 231 236 -5 3° 221 216 +5 4° 260 233 +27 5° 228 224 +4 6° 237 216 +21 7° 326 296 +30 8° 235 195 +40

a.-Hipótesis:

H0 : µd ≤ 0 (Los valores de colesterol no disminuyeron significativamente)

H1 : µd > 0 (Los valores de colesterol disminuyeron significativamente)

Page 8: INFERENCIA 3

8

b) Contraste estadístico

Donde: d = media aritmética de diferencias en la muestra.Sd = desviación estándar de diferencias en la

muestra.µd = media aritmética de diferencias en la población

t7 = 15,375 - 0 = 2,67816,2387/√8

t n-1 = d - µd

Sd /√n

c) Valor de p 0,010 < p < 0,025

d) Decisión y conclusiónSe rechaza Ho. Se concluye que después del programa los niveles de colesterol son significativamente menores que los valores obtenidos antes.

INFERENCIA ESTADISTICA SOBRE PROPORCIONES

1.-ESTIMACION DE UNA PROPORCION POBLACIONALEjemplo: Se desea estimar la proporción de niños menores de cinco años que llegaron al hospital con signos de deshidratación entre Enero y Marzo del 2001. Se toma una muestra de 80 historias clínicas de esa población y se encuentra que 16 habían llegado con signos de deshidratación.

:

Solución: Para estimar el parámetro se utiliza el siguiente modelo:

LS

LI

p = (16/80)100 = 20% q=80% n= 80Reemplazando en la fórmula anterior,los resultados se expresarán : IC 95% (11,2; 28,8% )Lo que indica que, con 95% de confianza, la proporción en la población está entre 11,2 y 28,8%

npqZp ±=π

2.-PRUEBA DE HIPOTESIS: UNA SOLA PROPORCION POBLACIONAL

Puede contrastarse alguna de las siguientes hipótesis:

H0:π=π0 H0 : π≥π0 H0 : π≤π0

H1: π≠π0 H1 : π<π0 H1 : π>π0

Donde π0 es la proporción asignada a la población

Ejemplo:En cierto hospital, durante muchos años se ha observado que el 12% de mujeres tienen su primer bebe antes de cumplir los 15 años. Hay razones para pensar que esta proporción últimamente ha aumentado. Se toma una n de 150 historias clínicas y se encuentra que el 16% de los primeros partos correspondió a menores de 15 años. ¿ El incremento fue estadísticamente significativo?

Page 9: INFERENCIA 3

9

Solución:a) Ho: π≤12%

H1: π>12%b) Contraste estadístico.

Reemplazando:Z = 16 - 12 = 1,51

√ (12x88)/150

c) Cálculo de p:p = 0,0655

Z = p - π√π(1−π)/n

d) Decisión y conclusión:No se rechaza Ho. Es decir, no hubo un incremento estadísticamente significativo.

3.-PRUEBA DE HIPOTESIS: DIFERENCIA ENTRE PROPORCIONES DE DOS POBLACIONES INDEPENDIENTESLas hipótesis que pueden contrastarse son:H0 :π1=π2 H0 : π1≥π2 H0 : π1≤π2

H1: π1≠π2 H1 : π1<π2 H1: π1>π2

Ejemplo: Se desea comparar la proporción de hipertensos en dos razas humanas. Los datos son

Raza A Raza Bn1 = 180 n2 = 120 p1 = 17% p2 = 23% hipertensosq1 = 83% q2 = 77% no hipertensos

Solución:a) H0 : π1=π2

H1 : π1≠π2

b) Contraste estadístico:

Reemplazando:

Z = 17-23 = -1,26√(17x83/180 + 23x77/120)

Z = ( p1 - p2 ) - ( π1− π2 )

√(p1q1/n1 + p2q2/n2)

c) Valor de pp = 2x 0,1038 = 0,2076

d) Decisión y conclusiónNo se rechaza Ho. Las dos razas no difieren respecto a la proporción de hipertensos