Tema 2 - Introduccion a la inferencia estadistica.doc

14
TEMA 2: ESTIMACIÓN PUNTUAL. ESTIMACIÓN POR INTERVALOS DE CONFIANZA. 1. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA El objetivo básico de la inferencia estadística es hacer inferencias o sacar conclusiones sobre la población a partir de la información contenida en una muestra aleatoria de la población. Más específicamente, podemos decir que la inferencia estadística consiste en el proceso de selección y utilización de un estadístico muestral, mediante el cual, utilizando la información que nos proporciona una muestra aleatoria, nos permite sacar conclusiones sobre características poblacionales. Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará basada en un estadístico muestral, es decir, en la información proporcionada por la muestra (formalmente definimos un estadístico como una función de las observaciones muestrales). La elección del estadístico apropiado dependerá de cuál sea el parámetro poblacional que nos interese. El valor verdadero del parámetro será desconocido y un objetivo sería estimar su valor, por lo que tal estadístico se denomina estimador. Las inferencias sobre el valor de un parámetro poblacional θ se pueden obtener básicamente de dos maneras: a partir de estimación o bien a partir del contraste de hipótesis. En la estimación, basta seleccionar un estadístico muestral cuyo valor se utilizará como estimador del valor del parámetro poblacional. En el contraste de hipótesis, se hace una hipótesis sobre el valor del parámetro θ y se utiliza la información proporcionada por la muestra para decidir si la hipótesis se acepta o no. Ambos métodos de inferencia estadística utilizan las mismas relaciones teóricas entre resultados muestrales y valores poblacionales. Así pues, una muestra es sacada de la población y un estadístico muestral es utilizado para hacer inferencias sobre el parámetro poblacional. En estimación, la información muestral es utilizada para estimar el valor del parámetro θ. En el contraste de hipótesis, primero se formula la hipótesis sobre el valor de θ y la información muestral se utiliza para decidir si la hipótesis formulada debería ser o no rechazada. Pero cuando se utiliza la inferencia para estimar un parámetro poblacional debemos decir cómo de buena es esa inferencia, o sea debemos dar una medida de su bondad. Para ello será necesario 1

Transcript of Tema 2 - Introduccion a la inferencia estadistica.doc

Page 1: Tema 2 - Introduccion a la inferencia estadistica.doc

TEMA 2: ESTIMACIÓN PUNTUAL. ESTIMACIÓN POR INTERVALOS DE CONFIANZA.

1. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

El objetivo básico de la inferencia estadística es hacer inferencias o sacar conclusiones sobre la población a partir de la información contenida en una muestra aleatoria de la población. Más específicamente, podemos decir que la inferencia estadística consiste en el proceso de selección y utilización de un estadístico muestral, mediante el cual, utilizando la información que nos proporciona una muestra aleatoria, nos permite sacar conclusiones sobre características poblacionales.Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará basada en un estadístico muestral, es decir, en la información proporcionada por la muestra (formalmente definimos un estadístico como una función de las observaciones muestrales). La elección del estadístico apropiado dependerá de cuál sea el parámetro poblacional que nos interese. El valor verdadero del parámetro será desconocido y un objetivo sería estimar su valor, por lo que tal estadístico se denomina estimador.Las inferencias sobre el valor de un parámetro poblacional θ se pueden obtener básicamente de dos maneras: a partir de estimación o bien a partir del contraste de hipótesis.En la estimación, basta seleccionar un estadístico muestral cuyo valor se utilizará como estimador del valor del parámetro poblacional.En el contraste de hipótesis, se hace una hipótesis sobre el valor del parámetro θ y se utiliza la información proporcionada por la muestra para decidir si la hipótesis se acepta o no.Ambos métodos de inferencia estadística utilizan las mismas relaciones teóricas entre resultados muestrales y valores poblacionales. Así pues, una muestra es sacada de la población y un estadístico muestral es utilizado para hacer inferencias sobre el parámetro poblacional. En estimación, la información muestral es utilizada para estimar el valor del parámetro θ. En el contraste de hipótesis, primero se formula la hipótesis sobre el valor de θ y la información muestral se utiliza para decidir si la hipótesis formulada debería ser o no rechazada.Pero cuando se utiliza la inferencia para estimar un parámetro poblacional debemos decir cómo de buena es esa inferencia, o sea debemos dar una medida de su bondad. Para ello será necesario conocer la diferencia existente entre la estimación del parámetro poblacional, calculada a partir de una muestra específica de tamaño n, y el valor verdadero del parámetro poblacional.

2. EL PROBLEMA DE LA ESTIMACIÓN: ESTIMACIÓN PUNTUAL

La estimación estadística se divide en dos grandes grupos: la estimación puntual y la estimación por intervalos. La estimación puntual consiste en obtener un único número calculado a partir de las observaciones muestrales, y que es utilizado como estimación del valor del parámetro θ. Se le llama

1

Page 2: Tema 2 - Introduccion a la inferencia estadistica.doc

estimación puntual porque a ese número, que se utiliza como estimación del parámetro θ, se le puede asignar un punto sobre la recta real. En la estimación por intervalos se obtienen dos puntos ( un extremo inferior y un extremo superior) que definen un intervalo sobre la recta real, el cual contendrá con cierta seguridad el valor del parámetro θ.El estimador del parámetro poblacional θ es una función de las variables aleatorias u observaciones muestrales y se representa por =g ( ) Para una realización particular de la muestra ( ) se obtiene un valor específico del estimador que recibe el nombre de estimación del parámetro poblacional θ y lo notaremos por = g ( )Vemos pues que existe diferencia entre estimador y estimación. El estimador es un estadístico y, por tanto, una variable aleatoria y el valor de esta variable para una muestra concreta ( ) será la estimación puntual. El estimador θ tendrá su distribución muestral.

En la tabla 2.1 expresamos diferentes parámetros poblacionales, sus estimadores y sus estimaciones.

TABLA 2.1 Parámetros poblacionales, estimadores y estimaciones.

Para la elección de estos estimadores puntuales nos hemos basado, principalmente en la intuición y en la posible analogía de los parámetros poblacionales con sus correspondientes valores muestrales, pero éste no será el método más adecuado para la obtención de estimadores puntuales, aunque en este caso se obtienen estimadores satisfactorios para los parámetros poblacionales. En general, el problema de obtener estimadores puntuales no será tan sencillo, por ello tenemos que dar propiedades que serían deseables que se cumplieran por los diferentes estimadores puntuales obtenidos, aunque no existe un mecanismo o método único que nos permita obtener el mejor estimador puntual en todas las circunstancias.Nuestro objetivo ahora será dar algunas propiedades deseables de los estimadores puntuales, con el fin de poder conocer la bondad de los mismos,

Parámetropoblacional

Estimador Estimación

Media

Varianza

Proporción

2

Page 3: Tema 2 - Introduccion a la inferencia estadistica.doc

pues cuantas más propiedades verifiquen los estimadores puntuales mejores serán.

* PROPIEDADES DESEABLES DE LOS ESTIMADORES PUNTUALES

a) Estimador insesgado

Si tenemos un gran número de muestras de tamaño n y obtenemos el valor del estimador en cada una de ellas, sería deseable que la media de todas estas estimaciones coincidiera con el valor de μ . Se dice que un estimador es insesgado si su esperanza matemática coincide con el valor del parámetro a estimar.

b) Estimador eficiente Se dice que los estimadores son eficientes cuando generan una distribución muestral con el mínimo error estándar ,es decir, entre dos estimadores insesgados de un parámetro dado es más eficiente el de menor varianza. c) Estimador consistente Un estimador se dice consistente cuando su valor tiende hacia el verdadero valor del parámetro a medida que aumenta el tamaño de la muestra . Es decir, la probabilidad de que la estimación sea el verdadero valor del parámetro tiende a 1.

d) Estimador suficiente

Se dice de un estimador que es suficiente cuando es capaz de extraer de los datos toda la información importante sobre el parámetro.

3. ESTIMACIÓN POR INTERVALOS

La estimación puntual es poco útil, pues solo obtenemos un valor como aproximación al que tratamos de estimar. Es mucho más interesante obtener un intervalo dentro del cual se tiene una cierta confianza de que se encuentre el parámetro que tratamos de estimar.El objetivo que se pretende con los intervalos de confianza es obtener un intervalo de poca amplitud y con una alta probabilidad de que el parámetro θ se

3

Page 4: Tema 2 - Introduccion a la inferencia estadistica.doc

encuentre en su interior. Así pues, elegiremos probabilidades cercanas a la unidad, que se representan por 1-α y cuyos valores más frecuentes suelen ser 0'90, 0'95 y 0'99.Luego si deseamos obtener una estimación por intervalo del parámetro poblacional θ desconocido, tendremos que obtener dos estadísticos

y que nos darán los valores extremos del intervalo, tales que Al valor 1-α se le llama coeficiente de confianza, yAl valor 100(1-α) % se le llama nivel de confianza.

a) Intervalo de confianza para la proporción poblacional.

Si p representa la proporción de éxitos en una muestra aleatoria de tamaño n suficientemente grande y q=1-p, entonces un intervalo de confianza aproximado para la proporción poblacional p al nivel de confianza del 100(1-α)% viene dado por:

en donde es tal que

P[Z> ]=

y la variable aleatoria Z sigue una distribución N(0,1).

b) Intervalo de confianza para la media de una población normal, siendo σ conocida Supongamos que tenemos una muestra aleatoria de n observaciones de una distribución N(μ, σ). Si σ es conocida, y la media muestral observada es , entonces el intervalo de confianza para la media poblacional μ, al nivel de confianza del 100(1-α)% viene dado por:

donde es tal que

y la variable aleatoria Z→N(0,1).

4

Page 5: Tema 2 - Introduccion a la inferencia estadistica.doc

c) Intervalo de confianza para la media de una población normal, siendo σ desconocida y n<30.

Supongamos que tenemos una muestra aleatoria de n<30 observaciones de una distribución N(μ,σ). Si σ es desconocida, y la media y la desviación típica muestral observadas son x y s, respectivamente, entonces el intervalo de confianza para la media poblacional μ, al nivel de confianza del 100(1-α)% viene dado por:

donde es tal que

y la variable sigue una distribución t-Student con n-1 grados de libertad.

d) Intervalo de confianza para la varianza de una población normal.

Supongamos una muestra aleatoria de n observaciones de una distribución N(μ,σ). Si σ es desconocida y la varianza muestral observada es entonces el intervalo de confianza para la varianza poblacional al nivel de confianza del 100(1-α)% viene dado por:

donde es tal que:

y es tal que:

y la variable aleatoria sigue una distribución de Pearson con n-1 grados de libertad.

e) Intervalo de confianza para la diferencia de medias en poblaciones normales independientes

Supongamos dos muestras independientes de tamaño y procedentes de poblaciones normales.

5

Page 6: Tema 2 - Introduccion a la inferencia estadistica.doc

y , respectivamente. Si las medias para las muestras observadas son e , entonces un intervalo de confianza, al nivel de confianza del 100(1-α)%, para las diferencias de medias poblacionales viene dado por:

en donde es el número tal que: y la variable aleatoria Z sigue

una N(0, 1).

4. ESTIMACIÓN DEL TAMAÑO MUESTRAL

Sabemos que si tomamos una muestra aleatoria simple de tamaño n procedente de una población N(μ,σ), siendo σ conocida, el intervalo de confianza al nivel del 100(1-α)% para la media poblacional μ venía dado por:

Siendo la amplitud del intervalo

(*)

Si, previamente, se fija la longitud del intervalo L y deseamos conocer el tamaño de la muestra para obtener ese intervalo al nivel de confianza del 100(1-α)%, bastará despejar n de la expresión (*), pues L, y σ son conocidos, y tendremos que el tamaño de la muestra será:

el cual nos permitirá construir un intervalo al nivel de confianza del 100(1-α)% y de amplitud L para la media de una población normal con σ conocida. También podríamos hacer el siguiente razonamiento cuando σ sea conocido, si la media μ fuera el valor central del intervalo, entonces x estimaría puntualmente a μ sin error alguno,

μ |---------------------------|----------------|---------------------------|

6

Page 7: Tema 2 - Introduccion a la inferencia estadistica.doc

← error →

Pero generalmente x no será exactamente igual a μ y entonces se comete un error, E=| -μ|, que como máximo será:

E=

entonces si queremos determinar el tamaño de muestra necesario para obtener un intervalo de confianza para la media poblacional μ, admitiendo un error E, tendremos que despejando de la expresión anterior:

Igualmente se tendría para una proporción : n=4 =

7

Page 8: Tema 2 - Introduccion a la inferencia estadistica.doc

EJERCICIOS TEMA 17

1. En un hospital psiquiátrico se ha estudiado una muestra de 150 pacientes y se ha observado que 38 de ellos tienen una cierta tendencia al suicidio. Hallar un intervalo de confianza al nivel de 95% para el parámetro proporción de individuos con tendencia al suicidio de la población. 2. Se desea hacer un estudio de mercado sobre el nivel de aceptación de un tipo de detergente. Para ello, se ha tomado una muestra aleatoria formada por 60 personas, de las cuales 45 son asiduas usuarias del citado detergente. Hallar un intervalo de confianza al nivel de 99% para la población de usuarios del citado detergente en una comarca muy poblada. 3. Un psicólogo escolar ha estudiado que el tiempo de reacción de 1º de Primaria se distribuye normalmente. Con una muestra de 100 alumnos, la media de tiempo de reacción fue de 45 segundos y la desviación típica de 0,04 segundos. Hallar un intervalo de confianza para la media de tiempos de reacción al nivel de confianza de:

a) 90% b) 95% c) 99% d) Interpretar los resultados obtenidos.

4. El nivel de desarrollo cognitivo de niños de 5 años se distribuye según una normal con una varianza poblacional igual a 11,56. Se ha elegido una muestra aleatoria formada por 60 niños de 5 años y se ha determinado que la media del nivel de desarrollo cognitivo es igual a 13 puntos. Hallar un intervalo de confianza para la media poblacional al nivel de 95%.¿Cuántos niños se debería haber tomado en la muestra para estar seguro, al nivel del 95%, de que el error máximo es 0,1? 5. Se sospecha que el número de unidades que contiene cada dosis de un medicamento no llega a las 10.000 que se indican en el envase pero el laboratorio que lo fabrica afirma que el contenido medio de la dosis es de 10.000 unidades. Para comprobarlo, tomamos al azar 100 dosis y determinamos el número de unidades de cada una, obteniendo de media 9940 unidades y de desviación típica 120 unidades.Si suponemos que la distribución del número de unidades en la población es normal, ¿qué podemos decir acerca de la afirmación del laboratorio para un nivel de confianza del 99%?

8

Page 9: Tema 2 - Introduccion a la inferencia estadistica.doc

6. Se afirma que la estatura media de las personas adultas de una determinada región es de 1,80m. Queremos tener una confianza del 99% en saber si la afirmación anterior es correcta o errónea. Para ello, tomamos una muestra al azar de 100 personas adultas, a las que medimos sus alturas, obteniendo de media 1,78 m. y de desviación típica 0,10 m. Suponemos que la variable objeto de estudio es normal.

7. Las edades en que se produce la muerte, para una muestra aleatoria de 39 individuos fallecidos de tuberculosis, dan una media de 50 años y una desviación típica muestral de 6 años. Suponiendo normal la distribución, se pide: a) Estimaciones por puntos no sesgados de la media y la varianza. b) Hallar un intervalo de confianza para la media al nivel del 99%.

8. Los tiempos de reacción ante la palabra divorcio se distribuyen normalmente tanto entre los hombres como entre las mujeres. La desviación típica poblacional de dichos tiempos en el caso de los hombres es 6 segundos y en las mujeres es 7 segundos. Con el fin de estimar la diferencia de medias poblacionales, se escoge una muestra formada por 40 hombres y 38 mujeres, obteniéndose tiempos medios de reacción 15 segundos y 14 segundos, respectivamente. Hallar un intervalo de confianza para la diferencia de medias poblacionales al nivel del 90%.

9. En un estudio sobre hábitos de alimentación en murciélagos, se sabe que la distancia que recorren volando en una pasada en busca de alimento sigue una distribución normal tanto en los machos como en las hembras. Las desviaciones típicas poblacionales son 80 y 75 metros, respectivamente. Con el fin de estimar la diferencia de medias de distancias recorridas, se toma una muestra formada por 40 machos y 35 hembras y se determinan las medias muestrales, que son, respectivamente, 230 y 140 metros. Hallar un intervalo de confianza para la diferencia de medias recorridas poblacionales al nivel del 95%.

10. De una población de personas comparables con exceso de peso se seleccionan dos grupos A y B de 100 y 50 individuos, respectivamente. A los individuos del grupo A se les suministra una nueva dieta con la que sufren una pérdida media de peso al cabo de un mes de 7,9 Kg. con una desviación típica de 0,2 Kg. A los individuos del grupo B se le suministra una dieta con la que sufren una pérdida media de peso al cabo de un mes de 6,8 Kg., con una desviación típica de 0,3 Kg. Hallar los límites de confianza del 95% para la diferencia del número medio de Kg. perdidos producido por el suministro de las dos dietas y .

11. En un Instituto de Investigaciones Dermatológicas se está investigando una afección cutánea de tipo cancerígeno. Se eligen 40 ratas de una misma raza aleatoriamente y se les provoca el cáncer citado; a continuación se las frota con un medicamento. Se elige como variable de respuesta el número de horas que tarda el cáncer en desaparecer. Se obtuvieron los siguientes resultados: =10

9

Page 10: Tema 2 - Introduccion a la inferencia estadistica.doc

horas y s=101 horas. Se admite que la variable de respuesta sigue una distribución normal. Se pide: a) Calcular el intervalo de confianza para la media de la variable de respuesta, al nivel del 90%.b) Si σ=99 horas, calcular el intervalo de confianza al 99% para la media de la variable de respuesta elegida.c) ¿Que tamaño de muestra se necesita para que al nivel de confianza del 95%, la longitud del intervalo sea de 5 horas, supuesto σ= 99 horas?

12. Con el fin estimar la proporción de votantes favorables a un candidato, se ha elegido un muestra al azar formada por 100 personas y se ha detectado que 47 de ellas son favorables al candidato. Si el error máximo que se comete es de 0,1 determinar el tamaño de la muestra, en cada caso, para que la confianza en que el candidato salga elegido sea dela) 90%b) 95%c) 99%.

13. Una muestra aleatoria formada por 130 datos extraídos de población normal de varianza igual a 80 presenta una media muestral de 120. Se pide:a) Hallar el intervalo de confianza para la media poblacional a los niveles de confianza del 95% y del 90%.b) Comparar los intervalos desde el punto de vista de la información que generan.c) Se quiere tener una confianza del 95% de que la estimación no se separa en más de 1,2 de la verdadera media. ¿Cuantas observaciones adicionales deberán tomarse? 14. Un director de una compañía de autobuses está interesado en la puntualidad de su servicio. Toma una muestra aleatoria s, de tamaño 20 y encuentra una media de demora en minutos de 6,8 y una s² muestral de 120.a) Construir un intervalo de confianza para μ al 99%.b) Cuál debería ser el tamaño n muestral para que el largo total del intervalo sea de 10 minutos?

15. Un fabricante de una determinada marca de vehículos de lujo sabe que el consumo de gasolina de sus vehículos se distribuye normalmente. Se selecciona una muestra aleatoria de 6 coches y se observa el consumo cada 100 km., obteniendo las siguientes observaciones 19’2, 19’4, 18’4, 18’6, 20’5, 20’8Obtener un intervalo de confianza para el consumo medio de gasolina de todos los vehículos de esa marca al nivel del 90%. 16. El precio de un determinado artículo perecedero en los comercios de alimentación de una ciudad sigue una distribución normal. Se toma una muestra aleatoria de 8 comercios y se observa el precio de ese artículo, obteniendo las siguientes observaciones:

10

Page 11: Tema 2 - Introduccion a la inferencia estadistica.doc

132, 125, 130, 139, 126, 138, 124, 140 Obtener el nivel de confianza del 95% a) Un intervalo de confianza para la media poblacional b) Un intervalo de confianza para la varianza poblacional 17. Se sabe que los estudiantes de una provincia duermen un número de horas diarias que se distribuye según una ley Normal de media μ horas y desviación típica σ=2 horas.a) A partir de una muestra de 64 alumnos se ha obtenido el siguiente intervalo de confianza (7,26 - 8,14) para la media de la población.Determinar el nivel de confianza con que se ha construido dicho intervalo.b) Determinar el tamaño muestral mínimo necesario para que el error que se cometa al estimar la media de la población por un intervalo de confianza sea, como máximo, de 0,75 h. con un nivel de confianza del 98%. 18. En una población una variable aleatoria sigue una ley Normal de media desconocida y desviación típica 2.a) Observada una muestra de tamaño 400, tomada al azar, se ha obtenido una media muestral igual a 50. Calcule un intervalo, con el 97% de confianza, para la media de la población.b) Con el mismo nivel de confianza, ¿qué tamaño mínimo debe obtener la muestra para que la amplitud del intervalo que se obtenga sea, como máximo, 1? 19. Se ha medido la talla de 100 personas elegidas al azar, mediante muestra aleatoria s, de entre los estudiantes varones de bachillerato de una gran ciudad, obteniéndose una talla media de 1’75 m. Se sabe que la desviación típica de la población es 0,2 m.¿Con qué nivel de confianza se ha construido el intervalo (1’73 , 1’77) para la media poblacional? 20. La longitud de la ballena azul se distribuye según una ley Normal con desviación típica 7,5 m. En un estudio estadístico realizado a 25 ejemplares se ha obtenido el intervalo de confianza (21’06, 26’94) para la longitud media.a) Calcule la longitud media de los 25 ejemplares de la muestra.b) Calcule el nivel de confianza con el que se ha construido dicho intervalo.

11