Intervalos de Confianza

1

description

estadística

Transcript of Intervalos de Confianza

1. ESTIMACION PUNTUAL Y POR INTERVALO

La estimación de un parámetro involucra el uso de los datos muéstrales en conjunción con alguna estadística. Existen dos formas de llevar a cabo lo anterior: primero por la estimación puntual (estimador), que es un estadístico muestral que se utiliza con el fin de inferir el valor de un parámetro poblacional desconocido. Y la segunda la estimación por intervalo, que es la realización de un estimador en base a datos provenientes de una muestra aleatoria, es un valor especifico observado de un estimador. Así, con el proceso de estimación puntual se pretende hallar una estimación univaluada del parámetro poblacional de interés, ya que mediante una muestra se estima un único valor del mismo. Por Ejemplo, el estadístico xes un “estimador” de la media poblacional, y el valor especifico x que tome cuando es extraída una muestra aleatoria (es decir, la realización de x ¿ es la “estimación puntual”.

El proceso de estimación puntual asigna un único valor al parámetro poblacional desconocido. Por lo tanto, la estimación puntual es correcta o equivoca y, generalmente, ocurrirá este segundo caso, ya que es muy poco probable que la estimación obtenida a partir de una única muestra coincida con el parámetro poblacional. Sin embargo la estimación por sí sola no nos dice nada respecto de cuan equivocada puede ser nuestra estimación.

Los estadísticos y los estimadores son variables aleatorias, ya que su valor varía de una muestra a otra. Por lo tanto, por más que usemos el mismo “estimador”, la “estimación puntual” resultante variara de una muestra a otra. Sin embargo, al conocer la distribución de muestreo del estimador, podemos hallar un intervalo que con cierta probabilidad contendrá al parámetro. Así, ya que mediante la estimación puntual se asigna un solo valor numérico a cada parámetro desconocido, y esto generalmente no es el todo satisfactorio, se a la construcción de un intervalo de confianza para el parámetro.

Así, cuando se lleva a cabo una “estimación por intervalo” se utilizan los datos provenientes de una muestra aleatoria para determinar un intervalo de valores en el cual se cree con cierta probabilidad, que estará el parámetro poblacional de interés. Reiteramos que toda inferencia estadística debe estar asociada a un nivel de riesgo determinado. En las estimaciones puntuales, el error estándar suele utilizarse como medida del riesgo, mientras que en los intervalos de confianza, el nivel de confianza es justamente lo que mide cuan precisa es la estimación realizada.

2. ERROR CUADRÁTICO MEDIO

Sea T cualquier estimador de un parámetro desconocido∅ . Se define el error cuadrático medio de T como el valor esperado del cuadrado de la diferencia entre T y∅ .

Para cualquier estadística T, se denotara el error cuadrático medio por ECM (T); de esta forma

ECM (T) = E (T-∅) ^2.

Puede verse la razón de porque el error cuadrático medio es una cantidad importante para enjuiciar a los posibles estimadores de ∅ mediante el desarrollo de la anterior ecuación; este es,

ECM (T) = E (T^2 - 2∅ T +∅ 2 )

= E (T^2) - 2∅E (T) +∅ 2

= var (T) + [E (T)] ^2 -2∅E (T) +∅^2

= var (T) + [∅- E (T)] ^2.

El error cuadrático medio de cualquier estimador es la suma de dos cantidades no negativas: una es la varianza del estimador y la otra es el cuadrado del sesgo del estimador. Estas dos cantidades se encuentran relacionadas en forma directa con las propiedades deseables de un estimador. De manera específica, la varianza de un estimador debe ser lo más pequeña posible mientras que la distribución de muestreo debe concentrarse alrededor del valor del parámetro. Por lo tanto, el problema visto de manera superficial parece bastante sencillo; esto es, seleccionar, como el mejor estimador de∅ , la estadística que tenga el error cuadrático medio más pequeño posible de entre todos los estimadores factibles de∅ .

Sin embargo, en realidad el problema es mucho más complicado. Aun si fuese práctico determinar los errores cuadráticos medios de un numero grande de estimadores, para la mayor parte de las densidad f(x:∅ ¿ no existe ningún estimador que minimice el error cuadrático medio por todo los posibles valores de ∅ . es decir, un estimador puede tener un error cuadrático medio mínimo para algunos valores de ∅ , mientras que otro estimador tendrá la misma propiedad, pero para otros valores de ∅ .

3. PROPIEDADES DE LOS ESTIMADORES

Si entendemos por estimador el parámetro o expresión que permite, a partir de los datos de la muestra, asignar al correspondiente parámetro poblacional un valor, diremos que un estimador es un buen estimador cuando cumple las cuatro propiedades: centrado o insesgado, eficiente, consistente y suficiente.

3.1 Estimadores insesgados

En el error cuadrático medio de un estimador T, el termino [∅ - E (T)] recibe el nombre de sesgo del estimador. El sesgo de T puede ser positivo, negativo o cero. Puesto que el cuadrado del sesgo es un componente del error cuadrático medio, es razonable insistir que este sea, en valor absoluto, lo más pequeño posible. En otras palabras, es deseable que un estimador tenga una media igual a la del parámetro que se está estimando. Lo anterior da origen a la siguiente definición.

Como puede observarse de la definición anterior, si un estimador es insesgado, entonces, su sesgo es cero. Además, si el sesgo es cero, el ECM es igual a la varianza.

Esta propiedad no garantiza nada respecto de la estimación obtenida a partir de una única muestra. Lo que afirma es que si un estimador es insesgado, entonces, el promedio de todas las estimaciones que se obtendrían con todas las muestras posibles de tamaño n coincidiría con el valor del parámetro. Sin embargo, ya hemos mencionado que es imposible tomar las muestras posibles de un determinado tamaño.

Un estadístico muestral T = u(X1 , X2 ,…… Xn ) es un estimador insesgado del parámetro ∅ si su esperanza matemática es igual al parámetro:

E (T)= ∅

El sesgo de un estimador es la diferencia entre su esperanza y el parámetro:

Sesgo (T) = E (T) - ∅

Esta proposición tiene poca aplicación práctica, ya que generalmente la media poblacional no se conoce. En este caso, utilizamos la varianza muestral como estimador.

3.2 Estimadores eficiente

La eficiencia de un estimador está relacionada con su estabilidad de muestra en muestra: decimos que un estimador es más eficiente que otro si es más estable de una muestra a otra. Por ejemplo, si tomamos muchas muestras, los valores (las realizaciones) de la media muestral estarán más concentrados que las observaciones de la media muestral o el modo muestral. Por lo tanto, la media muestral es un estimador más eficiente (estable) que la mediana muestral y el modo muestral. La estabilidad de las observaciones de una variable aleatoria está íntimamente relacionada con su desvió estándar , y por ende la eficiencia de un estimador estará relacionada con su erros estándar: cuanto más chico el error estándar, más eficiente es el estimador.

En otras palabras cuando se extrae una única muestra, esta podría ser sesgada, y por lo tanto es importante tener una idea del riesgo que se podría estar cometiendo al realizar la estimación puntual. El error estándar del estimador es justamente una medida para ello. Cuanto más pequeño es el error estándar, mejor o más confiables será nuestra estimación puntual.

Si µ es la esperanza matemática de una distribución de probabilidad cualquiera (es decir, es la media poblacional), entonces,

x = 1n

∑i=1

n

X i

Es un estimador insesgado de la misma.

Si la esperanza matemática de una distribución de probabilidad cualquiera es conocida, entonces:

σ^2 =1n

∑i=1

n

¿¿1 - μ) ^2

Es un estimador insesgado de la varianza poblacional

La varianza muestral es un estimador insesgado de la varianza poblacional de cualquier distribución de probabilidades:

S2 = 1

n−1 ∑i=1

n

¿¿1 - X )2 (Es insesgado)

El siguiente estadístico es un estimador sesgado de la varianza poblacional:

S2 = 1n

∑i=1

n

¿¿1-X )2 (es sesgado)

Si bien existen técnicas para determinar si un estimador tiene la mínima varianza que podrá poseer cualquier otro estimador del parámetro. Analizaremos la eficiencia en términos relativos, como una herramienta para comparar dos estimadores puntuales.

3.3 Estimador consistente

Es lógico esperar que cuanta mayor información muestral se posea, mejor serán las estimaciones que se realicen. Por lo tanto, un buen estimador debería mejorar a medida que aumenta el tamaño muestral.

Esta propiedad indica que al aumentar el tamaño de la muestra se tiene casi la certeza de que el valor del estimador se aproximara bastante al valor del parámetro. Es decir que, cuando el tamaño muestral aumenta, el valor de cualquier realización del estimador estará muy próximo al valor del parámetro.

3.4 Estimador suficiente

Se dice que un estimador T es suficiente si utiliza toda la información relevante de la muestra para estimar el parámetro θ de la población. Es decir, un estimador T es suficiente si todo el conocimiento que se obtiene acerca del parámetro θ es mediante la especificación real de todos los valores de la muestra.

Sean T1 y T2 dos estimadores de ∅ . Si Var (T1) < Var (T2), entonces T1 es más eficiente que T2.

La eficiencia relativa de T1 respecto T2 es Var (T1)/Var (T2).

Si los estimadores son sesgados, se suele utilizar el ECM para medir l eficiencia relativa.

Un estimador T del parámetro desconocido ∅ es consistente si “converge en probabilidad” al verdadero valor del parámetro. Es decir, la probabilidad que la diferencia entre el estimador y el parámetro sea muy pequeña tiende al 100% cuando la muestra crece:

limn→∞

P ¿¿n - ∅ |≤ ε ) = 1 para todo ε > 0.

Ejemplo. Se tiene una muestra aleatoria (X1, X2,..., Xn) de tamaño 30 tomada de una población exponencial f(x, l), donde l es un parámetro desconocido. Considere las dos estadísticos siguientes:

T1 = 1

X 1+X 2+X 3… ..+X 29

T2= 1

X 1+X 2+X 3+...+X 30= 1

X

El estadístico T1 no es un estimador suficiente del parámetro l mientras que T2 sí lo es.

Definición: Se dice que un estadístico T = t(X1, X2, ..., Xn) es "suficiente" para un parámetro θ si la distribución conjunta de X1, X2, ..., Xn dado T se encuentra libre de θ, es decir, si se afirma T, entonces X1, X2, ..., Xn no tienen nada más que decir acerca de θ.

Formalmente esto puede expresarse en términos de la distribución condicional de los valores de la muestra, dado que θ = T. Esta cantidad está dada por:

F(X1, x2,…,Xn) = f (X1 , X 2 ,.. Xn , t)

g (t) = f (X1 , X 2 ,…, Xn)

g( t)

Donde la expresión final del numerador se sigue de la condición de suficiencia. Utilidad. Si un estimador insesgado T de un parámetro θ es una función de un estadístico suficiente, entonces tendrá la varianza más pequeña entre todos los estimadores insesgados de θ. Es decir, si existe el estimador más eficiente de θ, éste será un estadístico suficiente.

3.5 Estimadores insesgados de varianza mínima

Para un parámetro que posee un error cuadrático medio mínimo es difícil determinar un estimador para todos los posibles valores del parámetro. Sin embargo, es posible analizar cierta clase de estimadores y dentro de esta clase intentar determinar uno que tenga un ECM mínimo.

Por ejemplo, considérese la clase de estimadores insesgados para el parámetro θ. Si una estadística T se encuentra dentro de esta clase, entonces E(T)= θ y ECM(T)= Var (T). Puesto que es deseable que la varianza de un estimador sea lo mas pequeña posible, debe buscarse uno en la clase de estimadores insesgados, si es que existe, que tenga varianza mínima para todos los valores posibles de θ.

Este estimador recibe el nombre de estimador insesgado de varianza mínima uniforma (VMU) de θ.

La varianza de un estimador insesgado es la cantidad más importante para determinar que tan bueno es el estimador para estimar un parámetro θ.

4. TERMINOLOGIA RELACIONADA CON LOS I.C.

Nivel de significancia: Es la probabilidad de cometer un error de tipo I cuando la hipótesis nula es verdadera como igualdad.

Para denotar el nivel de significancia se utiliza la letra alfa ( ), y los valores que se suelen usar para son 0,05 y 0,01.

En la práctica la persona responsable de la prueba especifica el nivel de significancia. Si el costo de cometer un error es elevado, los valores pequeños de

son preferibles y si el costo no es tan elevado se utilizan valores mayores de .

Enfocándonos en el tema de intervalos de confianza la probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1- =95% (o significancia  =5%).

Nivel de confianza: Es considerado la probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1- . La elección del nivel de confianza depende del investigador. los niveles de confianza mas utilizados son 95.5 y 99.7 % de confianza.

Limite inferior y superior en los I.C: En la estimación por intervalo es necesario calcular estos dos puntos, entres estos hay una determinada probabilidad de que se encuentre el verdadero valor del parámetro poblacional que se desea estimar.

Los límites de un intervalo de confianza son aleatorios ya que se construyen en base a estadísticos muéstrales.

5. INTERVALOS DE CONFIANZA (IC)

El calculo de intervalos de confianza para la estimación de parámetros son técnicas que nos permiten hacer declaraciones sobre que valores podemos esperar de un parámetro.

El intervalo calculado dependerá de:

Lo estimado en la muestra (porcentaje, media..).El intervalo de confianza esta formado por valores ligeramente menores y mayores que la aproximación ofrecida por la muestra.

El tamaño muestral.Cuando más datos hayan participado en el cálculo, más pequeño esperamos que sea la diferencia entre el valor estimado y el valor real desconocido.

La probabilidad (nivel de confianza) con la que el método dará una respuesta correcta.

5.1 Errores asociados al intervalo de confianza.

La construcción de un intervalo de confianza incluye tres errores.

5.1.1 Probabilidad de error

El nivel de confianza es un indicador numérico del grado de confianza con que se realiza la estimación. Complementaria a esa confianza existe una probabilidad de errar. El error es una magnitud que expresa la probabilidad de equivocarse en la estimación. Asume valores entre 0 y 1.

5.1.2 Error máximo admisible

Es una decisión del investigador. Se puede leer de dos modos distintos según se estime la proporción o la muestra poblacional. Cuando se estima la proporción asume valores entre 0 y 1. Sin embargo, cuando se estima la media poblacional el error depende de la unidad de medida de la variable en estudio.

La muestra del Error máximo admisible estará condicionada por los recursos disponibles.

5.1.3 Error típico

Es una medida de dispersión. Mide la variación del estadístico muestral. Dicha variación se explica por medio de fluctuaciones del muestreo.

5.2 Intervalos de Confianza para la Media en Poblaciones Normales con Varianza Conocida

XEs considerado un buen estimador de la media poblacional debido a sus propiedades y características. Como ya Se ha visto en clases anteriores

X N (μ;σ 2/n), cuando se tienen poblaciones con una distribución N (μ;σ 2) o

cuando no se conoce el tipo de distribución, pero n>30 y se conoce σ 2 . Como consecuencia a esto tenemos que:

P(zα /2≤X−μσ /√n

≤ z1−α /2)=1−α

Donde zα /2 y z1−α /2 son los valores que corresponden a una Normal Estándar que

tienen una probabilidad de P( z<Z α2 )=α /2 y P(Z<Z 1−α

2 )=1−α /2, respectivamente.

Se sigue que:

g(μ)1=μ+Z α2

σ√n

limite superior

g(μ)2=μ+Z 1−α2

σ√n

limite Inferior

Ahora bien dado que se tiene una Normal Estándar y que esta tiene la

característica de ser simétrica; se cumple que Zα /2=−Z 1−α2

. Utilizando esta relación

y reagrupando, tenemos:

1−α=P (−Z 1−α

2

∗σ

√n≤ X−μ≤

Z1−α2

∗σ

√n)

¿ P(−X−Z 1−α

2

∗σ

√n≤−μ≤−X+

Z 1−α2

∗σ

√n)

P(X−Z 1−α

2

∗σ

√n≤μ≤ X+

Z 1−α2

∗σ

√n)

EJEMPLO (1):

Suponga que la estatura de los estudiantes varones de la Facultad de Ciencias Económicas de la Universidad de Cartagena se distribuye Normalmente, y se sabe que la Desviación Estándar es de 15 cm. Determine el Intervalo de Confianza que obtendrá la media poblacional con un 99%, si se tiene una muestra de 20 estudiantes.

Varones Facultad de Ciencias Económicas Universidad de Cartagena

1.83 1.82 1.91 1.80 1.85

1.76 1.70 1.80 1.70 1.83

1.76 1.72 1.91 1.84 1.90

1.76 1.77 1.76 1.74 1.81

Al calcular el promedio (realizamos X para esta muestra), tenemos que X=1.7985≈1.80. Teniendo en cuenta que α=0.01 (porque 1−α=99%), buscamos

en la tabla de la Normal el valor para 1−α2=0.995, y tenemos que Z0.995=2.5758.

Finalmente, como sabemos que n=20 y σ=0.15, podemos construir el IC:

P(X−Z0.995σ

√n≤μ≤ X+Z0.995

σ√n )=0.99

P(1.80−2.5758 0.15√20≤μ≤1.75+2.5758 0.15

√ 20 )=0.99P (1.7136≤μ≤1.8363 )=0.99

En conclusión el Intervalo de Confianza de un 100∗(1−α )% para la media poblacional

μ cuando se conoce la Desviación estándar (σ ) es:

P(X−Z1−α2

σ

√n≤μ≤ X+Z1−α

2

σ

√n )=1−α

De acuerdo al resultado se puede decir que con un 99% la estatura media de los varones de la Facultad de Ciencias Económicas de la Universidad de Cartagena esta entre 1.71 m y 1.83 m.

5.3 Intervalos de Confianza para la Media en Poblaciones Normales con Varianza Desconocida.

Como se vio en clases anteriores, cuando se tiene una muestra aleatoria de

tamaño n de una Población Normal (N (μ ;σ ) ) con media(μ ) y varianza (σ 2 ) desconocidas, la distribución de muestreo que sigue la variable en mención es t destudent con n−1 grados de libertad.

T= X−μS√ n

tn−1

De acuerdo con esto, podemos determinar que,

P(t n−1 ; α2 ≤ X−μS√ n

≤tn−1 ;

1−α2 )=1−α

En donde t n−1; α2 y t n−1; 1−α

2 corresponden a valores de una t de Student que tiene

una probabilidad de P(T< t α2;n−1)=

α2 y P(T< t 1−α

2;n−1)=

1−α2 , respectivamente.

Ahora bien, al igual que en la normal, la distribución t de Student es simétrica

respecto al origen, por lo tanto, se cumple que t n−1; α2

=−tn−1 ; 1−α

2. Reagrupando la

expresión anterior y con base a esto se tiene que:

1−α=P (−tn−1 ; 1−α

2

∗S

√n≤ X−μ≤

tn−1; 1−α

2

∗S

√n )¿ P(−X−

tn−1 ; 1−α

2

∗S

√n≤−μ≤−X+

tn−1 ; 1−α

2

∗S

√n )P(X−

tn−1 ; 1−α

2

∗S

√n≤μ≤ X+

tn−1 ; 1−α

2

∗S

√ n )=1−α

EJEMPLO (2):

Una empresa desea controlar la vida útil de sus lámparas. Para ello, se extrae una muestra de 20 artefactos y se los enciende hasta que fallen. La duración de cada artefacto se muestra en la tabla. Si la distribución de la duración es normal, ¿Cuál es el intervalo en el cual se encuentra la duración media con un 99% de confianza?

774 759 755 724660 763 742 601667 707 665 644696 699 778 780691 663 765 575

Como primer paso, calculamos la Media Muestral y la Desviación Estándar con los datos que el ejercicio brinda. Estos son:

X=∑i=1

n1410820

=705.4 Y S=60

Ahora hallamos el cuantil de la distribución t de Student con 19 grados de libertad con una probabilidad de 99.5%. Estos valores provienen de nuestro tamaño de muestra n=20 y α=1%, entonces,

n−1=19 Y 1−α2

=99.5%

Buscamos en la tabla la probabilidad y tenemos que, P (T ≥ t19 ;0.995 )=2.8609≈2.861, por lo tanto el Intervalo de Confianza para este ejercicio estaría dado de la siguiente manera:

P(705.4−2.861 60√20≤μ≤705.4+2.861 60

√20 )P (667.01≤ μ≤743.78 )=0.99

Finalmente obtenemos el Intervalo de Confianza de un 100∗(1−α )% para la media

poblacional μ cuando desconozco varianza

P(X−t 1−α2

; n−1

S

√n≤μ≤ X+t 1−α

2; n−1

S√n )=1−α

En palabras se tiene que con un 99% de confianza se puede decir que la duración media de las lámparas esta entre 667.01 y 743.78 horas

5.4 Intervalos de Confianza para la Diferencia de Medias

Sean X1 , X2 , X3 ,… ,X n y Y 1 ,Y 2 , Y 3 ,…,Y m dos muestras aleatorias de dos

distribuciones normales independientes, de tamaños n con medias μX y μY, y

varianzas σ X2 y σY

2 , respectivamente, entonces tenemos que la distribución de

Muestreo Para La Diferencia De Medias esta dada por:

Z=(X−Y )−(μX−μY )

√ σ X2

n+σY2

m

N (0 ;1 )

Con la Distribución de muestreo expuesta, es posible hallar el valor del cuantil Z1−α

2, de esta forma se podrá construir el correspondiente Intervalo De Confianza.

Entonces, sabemos que:

P(−Z1−α2

≤Z≤ Z1−α2 )=1−α

Reemplazando Z tenemos:

P[−Z1−α2

≤(X−Y )−(μX−μY )

√ σ X2

n+σY2

m

≤ Z1−α2 ]=1−α

Reagrupamos la anterior expresión y nos queda que:

P[ (X−Y )−Z 1−α2 √ σ X

2

n+σY2

m≤ (μX−μY )≤ (X−Y )+Z 1−α

2 √ σ X2

n+σY2

m ]=1−α

Una vez se obtengan los datos de las muestras, se obtienen las respectivas estimaciones para X e Y y con ellas se podrá estimar el intervalo.

Finalmente, el Intervalo de Confianza de un 100∗(1−α )% para la diferencia de

medias, μX−μY , cuando se tienen dos poblaciones Normales independientes con

varianzas conocidas σ X2 y σY

2 es:

P[ x− y−z 1−α2 √ σ X

2

n+σ Y2

m≤ μX−μY ≤ x− y+z 1−α

2 √ σ X2

n+σY2

m ]=1−α

EJEMPLO (3):

Tengamos en cuenta el ejemplo de la estatura de los varones de la Facultad de Ciencias Económicas de la Universidad de Cartagena, donde se construyo el IC con una muestra de 20 varones. Ahora supongamos, que a esta información se suma una muestra

de 30 datos de mujeres de la misma facultad. Considerando las anteriores condiciones y agregando que la distribución de estaturas de mujeres es Normal, con una desviación estándar de 10 cm y son independientes de la estatura de los varones, calcule el IC para un 99% de la diferencia de medias.

El intervalo quedaría de la siguiente forma:

P[v−m−z0.995√ σ v2

n+σm2

m≤ μv−μm≤ v−m+z0.995√ σv

2

n+σ m2

m ]=0.99Para calcular los valores, primero debemos saber que en una Normal Estándar z0.995=2.5747. Luego con la información dad tenemos:

Varones Facultad de Ciencias Económicas Universidad de Cartagena

1.83 1.82 1.91 1.80 1.85

1.76 1.70 1.80 1.70 1.83

1.76 1.72 1.91 1.84 1.90

1.76 1.77 1.76 1.74 1.81

Mujeres Facultad de Ciencias Económicas Universidad de Cartagena

1.64 1.71 1.66 1.76 1.75

1.62 1.63 1.63 1.62 1.87

1.66 1.65 1.64 1.61 1.83

1.83 1.63 1.81 1.70 1.63

1.59 1.53 1.81 1.77 1.83

1.66 1.68 1.78 1.58 1.76

Varones Facultad de Ciencias Económicas Universidad de

Cartagena

1.83 1.82 1.91 1.80 1.85

1.76 1.70 1.80 1.70 1.83

1.76 1.72 1.91 1.84 1.90

1.76 1.77 1.76 1.74 1.81

v=1.80m=1.70

√ σv2

n+σ m2

m=√ 0.15220

+ 0.102

30=0.038188

Reemplazando y efectuando las operaciones respectivas nos queda:

P [1.80−1.70−2.5758∗0.038188≤μv−μm≤1.80−1.70+2.5758∗0.038188 ]=0.99

P [0.0042≤ μv−μm≤0.2009 ]=0.99

En conclusión, observando la muestra, al ser el límite inferior del intervalo, superior a cero, podemos decir que con un 99% de confianza que la estatura media de los varones es superior a la estatura media de las mujeres.

En el segundo caso, en que las varianzas de las dos poblaciones son desconocidas pero son iguales (o se suponga una igualdad entre ellas), entonces, se usara la distribución t de Student. Para estimar la varianza común, como se había dicho en clases anteriores, se usa el siguiente estadístico:

Sp2=

(n−1 ) sx2+(m−1 ) s y

2

n+m−2

Sean {X1 , X2 ;…; Xn } y {Y 1 ,Y 2 ;…;Y n } dos muestras aleatorias de tamaños n y m,

respectivamente, provenientes de dos poblaciones Normales independientes con medias μX y μY, y varianzas desconocidas pero iguales. Entonces:

(X−Y )−(μX−μY )

S p√ 1n + 1m

t n+m−2

EJEMPLO (4):

En conclusión el IC para la diferencia de medias cuando desconozco varianza, y se asume que estas son iguales, es:

P[ x− y−tn+m−2 : 1−α

2

∗Sp√ 1n+ 1m≤μ X−μY ≤ x− y+t

n+m−2 : 1−α2

∗S p√ 1n+ 1m ]=1−α

Supongamos el ejemplo anterior, pero ahora digamos que se desconocen las varianzas poblacionales, pero que estas son iguales. Para construir el intervalo de confianza, primero buscamos el valor de t 30+20−2 ;0.995=2.6822. Luego estimamos la

varianza común Sp2 :

Sp2=

(nv−1 ) Sv2+(nm−1)Sm

2

nv+nm−2

¿(20−1 )0.0642+(30−1)0.092

20+30−2

¿0.006464

→S p=0.0804

Reemplazando en la expresión dada para este Intervalo De Confianza, tenemos que:

0.99=P(1.80−1.70−2.6822∗0.0804≤μv−μm≤1.80−1.70+2.6822∗0.0804)

¿ P(−0.1131≤ μv−μm≤0.3182)

En este caso, al incluir valores negativos el intervalo, no se puede asegurar que la estatura media de los valores sea mayor a la estatura media de las mujeres. Por lo tanto, la afirmación del ejemplo anterior estaba basada exclusivamente en los supuestos respecto de las varianzas poblacionales.

5.5 Intervalos de Confianza para la Proporción cuando se muestra una distribución Binomial

En una distribución binomial cuando n es lo suficientemente grande, esta distribución se aproxima a una Normal. Usando esta propiedad, hemos visto que cuando el tamaño de muestra es grande, la Distribución De Muestreo De Proporción puede aproximarse a una Normal Estándar:

Z= p−p

√ p(1−p) /nN (0 ;1)

Por lo tanto, valiéndose de la simetría de la Distribución Normal, podremos escribir:

P(−Z 1−α2

≤p−p

√ p(1−p)/n≤Z 1−α

2)=1−α

Reagrupando la expresión nos queda que:

1−α=P (−Z 1−α2

∗√ p(1−p) /n≤ p−p≤Z 1−α2

∗√ p(1−p)/n)

¿ P(−p−Z 1−α2

∗√ p(1−p)/n≤−p≤−p+Z 1−α2

∗√ p(1−p)/n)

→P ( p−Z 1−α2

∗√ p (1−p)/n≤ p≤ p+Z 1−α2

∗√ p(1−p)/n)

EJEMPLO (5):

Suponga que en una encuesta tomada a 500 personas, en la ciudad de Cartagena, 300 respondieron que apoyan a Juan Manuel Santos, lo que significa que la proporción muestral es de un 60%. Entonces, sabiendo que z0.975=1.96, el intervalo de 95% de confianza para la proporción poblacional seria:

0.95=P(0.60−1.96∗√ 0.70∗0.30500≤ p0.66+1.96∗√ 0.70∗0.30500 )

¿ P (0.5571≤ p≤0.6429 )

Siendo el límite inferior del intervalo mayor a 0.50, el resultado de esta encuesta permite afirmar con un 95% de confianza que el candidato Juan Manuel Santos ganara las elecciones.

5.6 Intervalos de Confianza para la Diferencia de Proporciones

Sean {A1; A2 ;…; An } y {B1 ;B2 ;…;Bm } dos muestras aleatorias de tamaños n y m,

respectivamente, provenientes de dos poblaciones Bernoulli, con parámetros pA y pB. Sean X e Y la cantidad de éxitos en cada una de ellas (es decir,

X=∑i=1

n

Ai yY=∑i=1

m

Bi). Entonces, aproximadamente, tenemos que:

El Intervalo de Confianza de un 100∗(1−α )% para la Proporción poblacional p, cuando el

tamaño de la muestra es lo suficientemente grande, es:

P( px−Z1−α2

∗√ px (1−px )n

≤ p≤ px+Z 1−α2

∗√ px (1−px)n )=1−α

( Xn −Ym )−( pA−pB )

√ pA(1−pA)n

+pB(1−pB)

m

N (0 ;1)

Con esta distribución de muestreo es inmediata la construcción del intervalo de confianza.

EJEMPLO (6):

Tengamos en cuenta el ejemplo anterior y ahora supongamos que en la ciudad de Bogotá se encuestan a 300 personas, y resulta que 150 están a favor de Juan Manuel Santos. ¿Cuál es el IC al 95% para la diferencia entre las proporciones de ambas ciudades?

Primero, recordemos que en el ejemplo anterior se obtuvo que 300 personas estaban a favor de Juan Manuel Santos una muestra de 500: x=300 y n=500 (xn=0.6). A su vez, con los datos aquí presentados, tenemos que y = 150 y m=300 (

ym

=0.5). Con esta información, podemos calcular la desviación estándar:

s¿=√ x (n−x)n3

+y (m− y )

m3

¿√ 300∗2005003+150∗150

3003≅ 0.03624

Finalmente sabiendo que z0.975=1.96, podemos construir el intervalo:

0.95=P [0.6−0.5−1.96∗0.03624≤ p1−p2≤0.6+0.5+1.96∗0.03624 ]

El Intervalo de Confianza de un 100∗(1−α )% para la Diferencia De Proporciones es:

P[ xn−ym

−z1−α2

∗s¿≤ pA−pB≤xn−

ym

+z 1−α2

∗s¿ ]=1−α

Donde para el cálculo de la Desviación estándar se reemplaza la proporción de cada

población por sus respectivas medidas muestrales (pA=xny pB=

ym

), obteniendo:

s¿=√ x (n−x)n3

+y (m− y )

m3

¿ P [0.0290≤ p1−p2≤0.1710 ]

Por lo tanto, en base a las muestras, con un 95% de confianza podemos afirmar que la diferencia entre la proporción de personas favorables al candidato Juan Manuel Santos en las ciudades de Cartagena y Bogotá, esta entre el 2.90% y el 17.10%. Esto evidencia el mayor apoyo en la ciudad de Cartagena.

5.7 Intervalo de confianza para la varianza

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente propiedad de la distribución X2:

X n−12 =∑

i=1

n (x i−X )2

σ2=

(n−1) S2

σ2X n−12

Consideremos dos cuantiles de esta distribución que nos dejen una probabilidad 1−α en la ``zona central'' de la distribución:

  Figura: Cuantiles de la distribución X n−1

2 .

P[Xn−12 <x

n−1 ;1−α2

2 ]=α2

→P [Xn−1 , α2

2 ≤ X n−12 ≤ X

n−1 , 1−α2

2 ]=1−α

P[Xn−12 >x

n−1 ;1−α2

2 ]=α2

Entonces un intervalo de confianza al nivel 1−αpara la varianza de una distribución gaussiana (cuyos parámetros desconocemos) lo obtenemos teniendo en cuenta que existe una probabilidad  1−α de que:

1−α

Xn−1 ;

α2

2 ≤ Xn−12 ≤ X

n−1 ;1−α2

2 →

→Xn−1 ; α

2

2 ≤(n−1) S2

σ2≤ X

n−1 ; 1−α2

2

→(n−1) S2

Xn−1 ; 1−α

2

2 ≤σ2≤(n−1) S2

Xn−1 ; α

2

2

Por tanto el intervalo que buscamos es:

σ 2ϵ [ (n−1) S2

Xn−1 ; 1−α

2

2 ,(n−1) S2

Xn−1 ; α

2

2 ]EJEMPLO (7):

En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad, obteniéndose en una muestra de tamaño 25 los siguientes valores:

x=170cm

S=10cm

Calcular un intervalo de confianza con α=0.05para la varianza σ 2 de la altura de los individuos de la ciudad.

Solución:

Para estimar un intervalo de confianza para σ 2  (varianza poblacional) el estadístico que nos resulta útil es:

X2=(n−1) S2

σ2Xn−12

Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf. figura 8.8)  

Figura: Percentiles del 2,5% y del 97,5%para la distribución X24

2 .

Xn−1 ,

α2

2 ≤ X2≤Xn−1 ,

1−α2

2

↔X24 ;0.0252 =12.4≤ 24∗10.206

2

σ2≤ X24 ;0.075

2 =39 ' 4

↔σ2 ϵ [63.45 ;201.60 ]

Por tanto, para el valor poblacional de la desviación típica tenemos que 7.96≤σ ≤14.199 con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales S=10 y S=10.206 calculado sobre la muestra.

5.8 Intervalos de Confianza para el Cociente de Varianza

En clases anteriores, hemos visto que cuando se muestrean dos poblaciones normales con medias desconocidas, se verifica que:

sx2

σ x2

s y2

σ y2

F (n−1 ,m−1)

Al igual que en los anteriores casos, una vez conocida la distribución de muestreo, la construcción del intervalo es directa. En este caso, por no ser simétrica la distribución tenemos que:

P(F (n−1 ;m−1 ); α2

sx2

σ x2

s y2

σ y2

≤ F(n−1; m−1) ; 1−α

2 )=1−α

Si se reagrupa la expresión anterior y se realizan las estimaciones correspondientes de los estadísticos Sx

2 y Sy2 , obtenemos el IC para el cociente de

varianzas.

EJEMPLO (8):

En el ejemplo (2), se analizo la duración de las lámparas producidas por una determinada empresa. Ahora supóngase que la empresa esta analizando la posibilidad de adquirir una nueva maquina, y le interesa especialmente que la duración de los productos se mas estable (es decir, que la varianza de la duración sea menor). Para decidir respecto de la compra, se toma una muestra de la producción de la nueva maquina. Las duraciones de las lamparitas se observan en

la tabla, siendo la varianza muestral calculada con estas observaciones: Sy2=1871.

A su vez, recordamos de los ejemplos anteriores que con la muestra de la

producción actual se obtuvo una varianza de Sx2=3600

681 688 655 771 670

674 635 657 694 619

662 782 751 650 684

700 720 757 614 678

679 706 705 682 663

Para realizar la comparación de la variabilidad de los dos métodos de producción se decide construir el intervalo para el cociente de varianzas con un 98% de confianza. Para determinar los límites, ya tenemos calculadas las varianzas muestrales, y nos resta determinar los valores de la variable F con 19 y 24 grados

Si se toman dos muestras aleatorias,{X1; X2 ;…; Xn } y {Y 1 ;Y 2;…;Y m }, de dos poblaciones

normales con medias desconocidas, entonces el intervalo de confianza de un 100∗(1−α )%

es:

P( Sx2

S y2 F

(n−1; m−1) ; 1−α2

≤σx2

σ y2 ≤

Sx2

S y2 F

(n−1; m−1) ; α2)=1−α

de libertad (ya que la primera muestra era de 20 y la segunda de tamaño 25). Entonces, buscamos los cuantiles que acumulan 99% y 1%, de manera que en el

centro quede el 98% deseado: F (19 ;24) ;0.99=2.762 y F(19,24) ;0.01=0.342

Finalmente, utilizando la formula expuesta calculamos el intervalo:

0.98=P( 36001871∗2.762

≤σ x2

σ y2 ≤

36001871∗0.342 )

¿ P(0.697≤ σ x2

σ y2 ≤5.629)

Para asegurar que la nueva maquina es menos variable que la actual, el intervalo debería encontrarse totalmente a la derecha de numero uno (el limite inferior debería ser mayor a 1), ya que ello implicaría que la varianza actual es mayor que la nueva:

1<LI<σ x2

σ y2 →1<

σ x2

σ y2 →σ y

2<σ X2

Como el intervalo calculado con un 98% incluye al uno, no se puede asegurar que la varianza del procedimiento actual sea mayor a la varianza de la nueva maquina.