Estadistica Inferencial Flor

27
1 Instituto Tecnológico de Villahermosa Ing. En Gestión Empresarial Materia: Estadística Inferencial I Docente: Ing. Braulio Alberto Mateos Gallegos Semestre: 4to Fecha: 13-03-14 Alumna: Flor de María Sánchez Córdova Unidad #2

Transcript of Estadistica Inferencial Flor

Page 1: Estadistica Inferencial Flor

1

Instituto Tecnológico de Villahermosa

Ing. En Gestión Empresarial

Materia:

Estadística Inferencial I

Docente:

Ing. Braulio Alberto Mateos Gallegos

Semestre: 4to Fecha: 13-03-14

Alumna:

Flor de María Sánchez Córdova

Unidad #2

Page 2: Estadistica Inferencial Flor

2

Índice

INTRODUCCION...........................................................................................................................................3

2.1 Concepto básico de inferencia estadística..........................................................................................4

2.2 Distribuciones de muestreo...................................................................................................................5

2.3 Estimación puntual..................................................................................................................................7

2.4 Estimación de intervalos........................................................................................................................8

2.5 Intervalo de confianza para medias....................................................................................................10

Intervalo de confianza para la media de una población.................................................................10

Intervalo de confianza para una proporción.....................................................................................11

2.6 Intervalo de confianza para la diferencia de medias........................................................................12

2.7 Intervalo de confianza para proporciones..........................................................................................14

2.8 Intervalo de confianza para diferencias de proporciones................................................................15

2.9 Intervalo de confianza para varianzas................................................................................................16

2.10 Intervalo de confianza para razones de dos varianzas.................................................................18

CONCLUSION.............................................................................................................................................20

BIBLIOGRAFIAS ......................................................................................................................................21

Semestre: 4to Fecha: 13-03-14

Alumna:

Flor de María Sánchez Córdova

Unidad #2

Page 3: Estadistica Inferencial Flor

3

INTRODUCCIONLa estadística para su estudio se divide en estadística descriptiva y estadística inferencial. Los métodos básicos de la estadística inferencial son la estimación y el contraste de hipótesis, que juegan un papel fundamental en la investigación. Por tanto, algunos de los objetivos que se persiguen en este tema son:

• Calcular los parámetros de la distribución de medias o proporciones muéstrales de tamaño n, extraídas de una población de media y varianza conocidas.

• Estimar la media o la proporción de una población a partir de la media o proporción maestral.

• Utilizar distintos tamaños muéstralos para controlar la confianza y el error admitido.

• Contrastar los resultados obtenidos a partir de muestras.

• Visualizar gráficamente, mediante las respectivas curvas normales, las estimaciones realizadas.

En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de los individuos de la población ya sea por el coste que supondría, o por la imposibilidad de acceder a ello. Mediante la técnica inferencial obtendremos conclusiones para una población no observada en su totalidad, a partir de estimaciones o resúmenes numéricos efectuados sobre la base informativa extraída de una muestra de dicha población

Page 4: Estadistica Inferencial Flor

4

2.1 Concepto básico de inferencia estadísticaPuede definirse la Inferencia Estadística como

“El conjunto de métodos estadísticos que permiten deducir (inferir) como se distribuye la

población en estudio o las relaciones estocásticas entre varias variables de interés a partir

de la información que proporciona una muestra”.

Para que un método de inferencia estadística proporcione buenos resultados debe de:

Basarse en una técnica estadístico-matemática adecuada al problema y

suficientemente validada.

Utilizar una muestra que realmente sea representativa de la población y de un

tamaño suficiente.

La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones

generales para toda la población a partir del estudio de una muestra, y el grado de

fiabilidad o significación de los resultados obtenidos.

Page 5: Estadistica Inferencial Flor

5

2.2 Distribuciones de muestreoMuestreo: operación por la que se extrae de la población los elementos que van a formar

parte de la muestra.

Las muestras aleatorias obtenidas de una población son, por naturaleza propia,

impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y tomadas

de la misma población tenga la misma media muestral o que sean completamente

parecidas; puede esperarse que cualquier estadístico, como la media muestral, calculado

a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra,

por ello, se quiere estudiar la distribución de todos los valores posibles de un estadístico.

Tales distribuciones serán muy importantes en el estudio de la estadística inferencial,

porque las inferencias sobre las poblaciones se harán usando estadísticas muestrales.

Con el análisis de las distribuciones asociadas con los estadísticos muestrales, podremos

juzgar la confiabilidad de un estadístico muestral como un instrumento para hacer

inferencias sobre un parámetro poblacional desconocido.

Como los valores de un estadístico, tal como la media, varían de una muestra aleatoria a

otra, se le puede considerar como una variable aleatoria con su correspondiente

distribución de frecuencias.

La distribución de frecuencia de un estadístico muestral se denomina distribución

muestral. En general, la distribución muestral de un estadístico es la de todos sus valores

posibles calculados a partir de muestras del mismo tamaño.

Distribución Muestral de Medias

Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una población

grande. Se calcula la media muestral x para cada muestra; la colección de todas estas

medias muestrales recibe el nombre de distribución muestral de medias, lo que se puede

ilustrar en la siguiente figura:

Page 6: Estadistica Inferencial Flor

6

El Teorema del Límite Central también nos indica que cuando se extraen muestras de

tamaño mayor a 30 o bien de cualquier tamaño pero provenientes de una población

normal, la distribución muestral de medias tiene un comportamiento aproximadamente

normal, por lo que se puede utilizar la fórmula de la distribución normal con

s, es equivalente al error estándar de la media, entonces la fórmula para calcular la

probabilidad del comportamiento del estadístico, en este caso la media de la muestra ,

quedaría de la siguiente manera:

Error Estándar

El error estándar indica la propagación de las mediciones dentro de una

muestra de datos. Es la desviación estándar dividida por la raíz cuadrada

del tamaño de la muestra de datos. La muestra puede incluir datos de

las mediciones científicas, resultados de exámenes, las temperaturas o una serie de

números al azar. La desviación estándar indica la desviación de los valores de la muestra

a partir de la media de la muestra. El error estándar es inversamente proporcional al

tamaño de la muestra - cuanto más grande la muestra, menor será el error estándar.

Page 7: Estadistica Inferencial Flor

7

2.3 Estimación puntualUna estimación es puntual cuando se usa un solo valor extraído de la muestra para

estimar el parámetro desconocido de la población. Al valor usado se le llama estimador.

La media de la población se puede estimar puntualmente mediante la media de la

muestra:

La proporción de la población se puede estimar puntualmente mediante la proporción de

la muestra:

La desviación típica de la población se puede estimar puntualmente mediante la

desviación típica de la muestra, aunque hay mejores estimadores:

Page 8: Estadistica Inferencial Flor

8

2.4 Estimación de intervalosConsiste en la obtención de un intervalo dentro del cual estará el valor del parámetro

estimado con una cierta probabilidad. En la estimación por intervalos se usan los

siguientes conceptos:

Intervalo de confianza

El intervalo de confianza es una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el

parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada

certeza o nivel de confianza. Pero a veces puede cambiar este intervalo cuando la

muestra no garantiza un axioma o un equivalente circunstancial.

Variabilidad del Parámetro

Si no se conoce, puede obtenerse una aproximación en los datos aportados por la

literatura científica o en un estudio piloto. También hay métodos para calcular el tamaño

de la muestra que prescinde de este aspecto. Habitualmente se usa como medida de esta

variabilidad la desviación típica poblacional y se denota σ.

Error de la estimación

Es una medida de su precisión que se corresponde con la amplitud del intervalo de

confianza. Cuanta más precisión se desee en la estimación de un parámetro, más

estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error,

más ocurrencias deberán incluirse en la muestra estudiada. En caso de no incluir nuevas

observaciones para la muestra, más error se comete al aumentar la precisión. Se suele

llamar E, según la fórmula E = (θ2 - θ1)/2.

Límite de Confianza

Es la probabilidad de que el verdadero valor del parámetro estimado en la población se

sitúe en el intervalo de confianza obtenido. El nivel de confianza se denota por (1-α),

aunque habitualmente suele expresarse con un porcentaje ((1-α)·100%). Es habitual

tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores α de

0,05 y 0,01 respectivamente.

Valor α

Page 9: Estadistica Inferencial Flor

9

También llamado nivel de significación. Es la probabilidad (en tanto por uno) de fallar en

nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-α).

Por ejemplo, en una estimación con un nivel de confianza del 95%, el valor α es (100-

95)/100 = 0,05

Valor crítico

Se representa por Zα/2. Es el valor de la abscisa en una determinada distribución que

deja a su derecha un área igual a α/2, siendo 1-α el nivel de confianza. Normalmente los

valores críticos están tabulados o pueden calcularse en función de la distribución de la

población. Por ejemplo, para una distribución normal, de media 0 y desviación típica 1, el

valor crítico para α = 0,1 se calcularía del siguiente modo: se busca en la tabla de la

distribución ese valor (o el más aproximado), bajo la columna "Área"; se observa que se

corresponde con -1,28. Entonces Zα/2 = 1,64. Si la media o desviación típica de la

distribución normal no coinciden con las de la tabla, se puede realizar el cambio de

variable t =(X-μ)/σ para su cálculo.

Con estas definiciones, si tras la extracción de una muestra se dice que "3 es una

estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%",

podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con

una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando,

respectivamente, la mitad del error, para obtener el intervalo de confianza según las

definiciones dadas.

Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza van

relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del intervalo

de confianza, tenemos también una mayor probabilidad de éxito en nuestra estimación, es

decir, un mayor nivel de confianza.

Page 10: Estadistica Inferencial Flor

10

2.5 Intervalo de confianza para mediasIntervalo de confianza para la media de una población

De una población de media   y desviación típica   se pueden tomar muestras de   

elementos. Cada una de estas muestras tiene a su vez una media

( ). Se puede demostrar que la media de todas las medias muestrales coincide con la

media poblacional:3 

Pero además, si el tamaño de las muestras es lo suficientemente grande,4 la distribución

de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media

μ y una desviación típica dada por la siguiente expresión:  . Esto se representa

como sigue:  . Si estandarizamos, se sigue

que: 

En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual

caigan un determinado porcentaje de las observaciones, esto es, es sencillo

hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado

(véase el uso de las tablas en una distribución normal).

Se desea obtener una expresión tal que 

En esta distribución normal de medias se puede calcular el intervalo de confianza donde

se encontrará la media poblacional si sólo se conoce una media muestral ( ), con una

confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99

por ciento. A este valor se le llamará   (debido a que   es el error que se cometerá,

un término opuesto).

Para ello se necesita calcular el punto   —o, mejor dicho, su versión

estandarizada   o valor crítico— junto con su "opuesto en la distribución"  .

Page 11: Estadistica Inferencial Flor

11

Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente

imagen:

Dicho punto es el número tal que:

Y en la versión estandarizada se cumple que:

Así:

Haciendo operaciones es posible despejar   para obtener el intervalo:

De lo cual se obtendrá el intervalo de confianza:

Obsérvese que el intervalo de confianza viene dado por la media muestral   ± el

producto del valor crítico   por el error estándar  .

Si no se conoce   y n es grande (habitualmente se toma n ≥ 30):5

, donde s es la desviación típica de una muestra.

Aproximaciones para el valor   para los niveles de confianza estándar son 1,96

para   y 2,576 para  .6

Intervalo de confianza para una proporción

El intervalo de confianza para estimar una proporción p, conocida una proporción

muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% es:

Page 12: Estadistica Inferencial Flor

12

En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y

la aproximación de una binomial por una normal.

2.6 Intervalo de confianza para la diferencia de medias

*Intervalo de confianza para la diferencia de medias de dos distribuciones

normales, varianzas desconocidas pero iguales

Si  s12 y s2

2 son las medias y las varianzas de dos muestras aleatorias de tamaño

n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con

varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100( )

por ciento para la diferencia entre medias es:

En donde:

Es el estimador combinado de la desviación estándar común de la población con n1+n2 – 2

grados de libertad.

Ejemplos:

1. Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio

en cemento estándar y en cemento contaminado con plomo. Los niveles bajos de

calcio indican que el mecanismo de hidratación del cemento queda bloqueado y

esto permite que el agua ataque varias partes de una estructura de cemento. Al

tomar diez muestras de cemento estándar, se encontró que el peso promedio de

Page 13: Estadistica Inferencial Flor

13

calcio es de 90 con una desviación estándar de 5; los resultados obtenidos con 15

muestras de cemento contaminado con plomo fueron de 87 en promedio con una

desviación estándar de 4. Supóngase que el porcentaje de peso de calcio está

distribuido de manera normal. Encuéntrese un intervalo de confianza del 95% para

la diferencia entre medias de los dos tipos de cementos. Por otra parte, supóngase

que las dos poblaciones normales tienen la misma desviación estándar.

Solución:

El estimador combinado de la desviación estándar es:

Al calcularle raíz cuadrada a este valor nos queda que sp = 4.41

Expresión que se reduce a – 0.72    1- 2   6.72

Nótese que el intervalo de confianza del 95% incluye al cero; por consiguiente,

para este nivel confianza, no puede concluirse la existencia de una diferencia entre

las medias.

Page 14: Estadistica Inferencial Flor

14

2.7 Intervalo de confianza para proporcionesDada una variable aleatoria con distribución Binomial B(n, p), el objetivo es la

construcción de un intervalo de confianza para el parámetro p, basada en una

observación de la variable que ha dado como valor x. El mismo caso se aplica si

estudiamos una Binomial B(1, p) y consideramos el número de veces que ocurre el

suceso que define la variable al repetir el experimento n veces en condiciones

de independencia.

Existen dos alternativas a la hora de construir un intervalo de confianza para p:

Considerar la aproximación asintótica de la distribución Binomial en la distribución

Normal.

Utilizar un método exacto.

Aproximación asintótica

Tiene la ventaja de la simplicidad en la expresión y en los cálculos, y es la más

referenciada en la mayoría de textos de

estadística. Se basa en la aproximación

que, trasladada a la frecuencia relativa, resulta

Tomando como estadístico pivote

 que sigue una distribución N(0, 1), y añadiendo una corrección

por continuidad al pasar de una variable discreta a una continua, se obtiene el intervalo de

confianza asintótico: Donde zα/2 es el valor de una distribución Normal estándar que deja a

su derecha una probabilidad de α/2 para un intervalo de confianza de  (1 − α) · 100

%. Las condiciones

Page 15: Estadistica Inferencial Flor

15

generalmente aceptadas para considerar válida la aproximación asintótica anterior son:

2.8 Intervalo de confianza para diferencias de proporciones*Intervalo de confianza para la diferencia de dos proporciones con datos

independientes

Los límites para el intervalo de una diferencia de proporciones correspondientes a dos

muestras independientes son:

Donde el símbolo zα/2 es el mismo valor crítico que antes, prob(Z > zα/2) = α/2, y

corresponde a un intervalo de confianza 1 − α %.

Este intervalo puede utilizarse de manera alternativa al contraste de hipótesis para decidir

(con nivel de significación α %) si hay igualdad de los dos grupos. Se decidirá por la

igualdad de los grupos si el valor 0 queda incluido en cualquier posición en el intervalo.

Aunque se haga el contraste de dos proporciones, en primer lugar, es aconsejable

obtener el intervalo de confianza de la diferencia de medias, si éste ha resultado

significativo, puesto que ayudará a interpretar si existe significación aplicada además de la

estadística.

Si se dispone de alguna información previa y sólo quiere calcularse alguno de los dos

intervalos unilaterales, bastará sustituir zα/2 por zα y descartar el límite superior o inferior

del intervalo según el caso. Por ejemplo, el intervalo unilateral derecho corresponde a:

Page 16: Estadistica Inferencial Flor

16

2.9 Intervalo de confianza para varianzas

De una población con distribución normal con media m y varianza s 2 se obtiene una

muestra aleatoria de tamaño n. Para obtener el intervalo de confianza para la varianza ( s

2 ) se parte de la expresión (1.4):

Se divide por ns2 :

Se invierte:

Reescribiendo:

(2.6)

Page 17: Estadistica Inferencial Flor

17

Donde   y   pertenecen a una distribución chi-cuadrado con (n-1) grado de libertad,

por lo tanto,   y   son diferentes y  <  .

Ejemplo

La varianza de la resistencia a la rotura de 30 cables probados fué de 32.000 lbs  2. Halle

un intervalo de confianza del 90 por ciento, para la varianza de la resistencia de todos los

cables de ésta marca.

Solución Se utiliza la expresión 2.6. Los valores de   y   pertenecen a una

distribución chi-cuadrado con 29 grados de libertad. Como puede observarse en la figura

2.3 el área que hay por debajo de Z a /2 es 0,05, por lo tanto   =17,71 y el área que hay

por debajo de   es 0,95, por lo tanto   =42,56

Figura 2.3 Percentiles de la distribución chi-cuadrado

Reemplazando en la expresión 2.6 se obtiene:

 

Por razones de utilidad se halla el intervalo de confianza para la desviación estándar,

sacando la raíz cuadrada de los límites, por lo tanto:

Page 18: Estadistica Inferencial Flor

18

Interpretación  El promedio de variación o de dispersión de la rotura de los cables de

dicha marca, está entre 150 y 233 lbs . con una confiabilidad del 90 por ciento.

2.10 Intervalo de confianza para razones de dos varianzasCuando se desea hacer inferencias acerca de las varianzas de dos poblaciones, es necesario colocarlas en forma de razón. Si las varianzas son iguales, entonces el cociente es igual a 1, en caso de que sean diferentes, su cociente también se alejará de 1. Como por lo general no se conocen las varianzas de las poblaciones de interés, cualquier

comparación que se desee, tendrá que estar basada en las varianzas muestrales   y  , las cuales deberán ser de muestras independientes y extraídas de poblaciones normales. 

Entonces,  es un estimador insesgado de   y   tendrá una distribución   con n1 - 1 grados de libertad. 

De manera similar   será un estimador de   y   tendrá una distribución   con n2 - 1 grados de libertad.

La razón de estos dos estimadores:   sigue una distribución F de Fisher, o simplemente distribución F que posee las siguientes propiedades:1.      La distribución F depende de dos valores de grados de libertad, uno correspondiente

al numerador y otro al denominador, a los cuales nos referiremos como grados de libertad del numerador (glnum= n1 = n1 – 1) y grados de libertad del denominador (glden=  n2  = n2 – 1).

2.      La densidad de la variable F viene dada por:

Page 19: Estadistica Inferencial Flor

19

3.      La distribución F para cada par de valores de grados de libertad n1 y n2.4.      Hay una distribución F para cada par de valores de grados de libertad.

5.      Como la distribución , una distribución F es positivamente asimétrica, pero su asimetría se reduce con los aumentos de los grados de libertad.

6.      Si X tiene densidad , entonces   tendrá una distribución , esto es

7.      La distribución muestral usada para hacer inferencias entre dos varianzas es la F de

Fisher:

con n1 - 1 y n2 - 1 grados de libertad en el numerador y denominador, respectivamente.   El intervalo de confianza para el cociente de varianzas está dado por:

Despejando     se tiene:

 NOTA: El valor de cola izquierda de la distribución F de Fisher está dado por:

  , donde n1 = n1 - 1 y  n2  = n2 - 1

Page 20: Estadistica Inferencial Flor

20

CONCLUSION

En definitiva, como vimos en el desarrollo de la unidad, la idea consta de que , a partir de una población se extrae una muestra por algunos de los métodos existentes, con la que se generan datos numéricos que se van a utilizar para generar estadísticos con los que realizar estimaciones o contrastes poblacionales.

Existen dos formas de estimar parámetros: la estimación puntual y la estimación por intervalo de confianza. En la primera se busca, con base en los datos muéstrales, un único valor estimado para el parámetro. Para la segunda, se determina un intervalo dentro del cual se encuentra el valor del parámetro, con una probabilidad determinada.

El estudio de la estadística inferencial es de suma importancia, ya que se encuentra

presente en muchas de las actividades de nuestra vida cotidiana.

Page 21: Estadistica Inferencial Flor

21

BIBLIOGRAFIAS

http://www.ditutor.com/inferencia_estadistica/estadistica_inferencial.html

http://www.udc.es/dep/mate/estadistica2/sec1_2.html

http://web.usal.es/~modesto/pdf/A4.-%20Teoria%20del%20muestreo.pdf

http://es.wikipedia.org/wiki/Intervalo_de_confianza

http://www.ematematicas.net/estadistica/muestreo/?tipo=intervalos

http://www.ub.edu/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo8/B0C8m1t11.htm

http://www.ub.edu/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo11/B0C11m1t14.htm

http://www.uoc.edu/in3/e-math/docs/Estimacion_IC.pdf