Unidad 5 Estadistica Aplicada

8
UNIDAD 5 ESTADISTICA APLICADA 5.1 Inferencia estadística : Concepto, Estimación, Prueba de hipótesis La Inferencia Estadística es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan la función de distribución) que sigue una variable aleatoria de una determinada población, a través de una muestra (parte de la población) obtenida de la misma. Los dos problemas fundamentales que estudia la inferencia estadística son el "Problema de la estimación" y el "Problema del contraste de hipótesis" Cuando se conoce la forma funcional de la función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los parametros que la determinan, estamos en un problema de inferencia estadística paramétrica ; por el contrario cuando no se conoce la forma funcional de la distribución que sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica. En lo que sigue nos vamos a limitar a problemas de inferencia estadística paramétrica, donde la variable aleatoria objeto de estudio sigue una distribución normal, y sólo tendremos que tratar de estimar los parámetros que la determinan, la media y la desviación típica. Esta situación se presenta con frecuencia debido a que es posible a menudo conocer la forma funcional de la distribución de probabilidad, por consideraciones teóricas, quedando únicamente

Transcript of Unidad 5 Estadistica Aplicada

Page 1: Unidad 5 Estadistica Aplicada

UNIDAD 5 ESTADISTICA APLICADA

5.1 Inferencia estadística: Concepto, Estimación, Prueba de hipótesis

La Inferencia Estadística es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan la función de distribución) que sigue una variable aleatoria de una determinada población, a través de una muestra (parte de la población) obtenida de la misma.

Los dos problemas fundamentales que estudia la inferencia estadística son el "Problema de la estimación" y el "Problema del contraste de hipótesis"

Cuando se conoce la forma funcional de la función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los parametros que la determinan, estamos en un problema de inferencia estadística paramétrica ; por el contrario cuando no se conoce la forma funcional de la distribución que sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica.

En lo que sigue nos vamos a limitar a problemas de inferencia estadística paramétrica, donde la variable aleatoria objeto de estudio sigue una distribución normal, y sólo tendremos que tratar de estimar los parámetros que la determinan, la media y la desviación típica.

Esta situación se presenta con frecuencia debido a que es posible a menudo conocer la forma funcional de la distribución de probabilidad, por consideraciones teóricas, quedando únicamente indeterminados los parámetros que determinan la función de distribución.

Como las poblaciones en las que se pretende estudiar una determinada variable aleatoria, son grandes, es muy caro o imposible, estudiar a todos sus individuos; lo que se hace, es estudiar una muestra ( una parte) de la población

En todos estos problemas que estudia la inferencia estadística juega un papel fundamental la "Teoría de la Probabilidad" (distintas formas funcionales de las distribuciones de probabilidad) y la "Teoría de Muestras" (procedimientos para tomar muestras de manera apropiada).

Page 2: Unidad 5 Estadistica Aplicada

ESTIMACIÓN.

El material sobre teoría de la probabilidad constituye la base de la inferencia estadística, rama de la estadística que tiene que ver con el uso de los conceptos de la probabilidad para tratar con la toma de decisiones en condiciones de incertidumbre. La inferencia estadística está basada en la estimación y en la prueba de hipótesis.

Tipos de estimación.

Podemos hacer dos tipos de estimaciones concernientes a una población:

Una estimación puntual: es sólo u número que se utiliza para estimar un parámetro de población desconocido. Una estimación puntual a menudo resulta insuficiente, debido a que sólo tiene dos opciones: es correcta o está equivocada. Una estimación puntual es mucho más útil si viene acompañada por una estimación del error que podría estar implicado.

Una estimación de intervalo: es un intervalo de valores que se utiliza para estimar un parámetro de población. Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del intervalo.

Estimador y estimaciones.

Un estimador es una estadística de muestra utilizada para estimar un parámetro de población. La media de la muestra puede ser un estimador de la media de la población, y la porción de la muestra se puede utilizar como estimador de la porción de la población. También podemos utilizar el alcance de la muestra como un estimador del alcance de la población.

Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese valor como una estimación. Una estimación es un valor específico observado de una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma nuestro estimador en esa muestra.

PRUEBAS DE HIPÓTESIS.

Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del valor de un parámetro desconocido.

Pasos en la prueba de hipótesis:

1.

2. Definir la hipótesis nula: suponer una hipótesis acerca de una población.

3. Formular una hipótesis alternativa: es una contra-hipótesis.

Page 3: Unidad 5 Estadistica Aplicada

4. Definir un criterio de decisión para rechazar o no la hipótesis nula.

5. Recabar datos de la muestra.

6. Calcular una estadística de muestra.

7. Utilizar la estadística de muestra para evaluar la hipótesis.

Generalmente, se habla de "no rechazar" una hipótesis en lugar de "aceptar", ya que las pruebas no son concluyentes.

Introducción.

La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis.

Debemos establecer el valor supuesto o hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula, y se simboliza H0.

Siempre que rechazamos la hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza H1.

Interpretación del nivel de significancia.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado de la estadística de muestra, sino hacer un juicio respecto a la diferencia entre esa estadística de muestra y un parámetro de población hipotetizado. El siguiente paso después de establecer la hipótesis nula alternativa consiste en decidir qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula.

Si suponemos que la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias de muestra que está fuera de ciertos límites.

Siempre que afirmemos que aceptamos la hipótesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo del término aceptar, en lugar de rechazar, se ha vuelto de uso común. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hipótesis nula, nos comportamos como si fuera cierta.

Selección del nivel de significancia.

Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta.

Page 4: Unidad 5 Estadistica Aplicada

5.2-ESTIMACIONES PUNTUALES Y POR INTERVALOS DE CONFIANZA

ESTIMACIÓN PUNTUAL

Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos. Lo más importante de un estimador, es que sea un estimador eficiente. Es decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo o eficiente (varianza mínima)

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con ladesigualdad de Chebyshov.

En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1,θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.

Intervalo de confianza para la media de una población

De una población de media   y desviación típica   se pueden tomar muestras de   elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional: 

Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media

Page 5: Unidad 5 Estadistica Aplicada

μ y una desviación típica dada por la siguiente expresión:  . Esto se representa

como sigue:  . Si estandarizamos, se sigue

que: 

En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado.

Se desea obtener una expresión tal que 

En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99

por ciento. A este valor se le llamará   (debido a que   es el error que se cometerá, un término opuesto).

Para ello se necesita calcular el punto   —o, mejor dicho, su versión

estandarizada   o valor crítico— junto con su "opuesto en la distribución"  . Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:

Dicho punto es el número tal que:

Page 6: Unidad 5 Estadistica Aplicada

Y en la versión estandarizada se cumple que:

Así:

Haciendo operaciones es posible despejar   para obtener el intervalo:

De lo cual se obtendrá el intervalo de confianza:

Obsérvese que el intervalo de confianza viene dado por la media muestral   ± el

producto del valor crítico   por el error estándar  .

Si no se conoce   y n es grande (habitualmente se toma n ≥ 30):

, donde s es la desviación típica de una muestra.

Aproximaciones para el valor   para los niveles de confianza estándar son 1,96

para   y 2,576 para  .