INFERENCIA ESTADÍSTICA

50
1 INFERENCIA ESTADÍSTICA Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras. M P obtención de la muestra conclusiones

description

INFERENCIA ESTADÍSTICA. Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras. obtención de la muestra. conclusiones. P. M. Problema de estimación: ¿Por qué una encuesta de 1500 personas permite predecir - PowerPoint PPT Presentation

Transcript of INFERENCIA ESTADÍSTICA

Page 1: INFERENCIA ESTADÍSTICA

1

INFERENCIA ESTADÍSTICA

Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras.

MMP

obtención de la muestra

conclusiones

Page 2: INFERENCIA ESTADÍSTICA

2

Problema de estimación:

¿Por qué una encuesta de 1500 personas permite predecir bastante bien el resultado de una elección con 10 millones de votantes? ¿Cómo se consigue? ¿Cómo se mide la precisión del resultado?

Problema de test de hipótesis:

Las normas de calidad exigen que, en un lote de 5000 bombillas, a lo sumo el 3% pueden durar menos de 1000 horas. En un estudio de control de calidad de una fabrica de bombillas sería muy costoso examinar cada una. Se decide usar una muestra de 500 bombillas. Si obtenemos el 3,2% de bombillas defectuosas, ¿deberíamos declarar el lote completo defectuoso?

Page 3: INFERENCIA ESTADÍSTICA

3

Problema de estimación:

Se busca precisar una característica totalmente desconocida de la población a partir de los datos obtenidos sobre una muestra.

Estimar el porcentaje de la población (10 millones) que votó a ZP a partir de una muestra de 1500 votantes.

O estimar la duración promedio de las bombillas del lote de 5000, a partir de una muestra de 500.

Page 4: INFERENCIA ESTADÍSTICA

4

Problema de test de hipótesis:

Se busca comprobar alguna información sobre la población a partir de los datos obtenidos de una muestra.

ZP obtiene más del 65% de los votos.

Menos del 3% de las bombillas del lote de 5000 duran menos de 1000 horas.

Las bombillas duran más de 1000 horas en promedio.

Page 5: INFERENCIA ESTADÍSTICA

5

Muestra aleatoria simple con reemplazo

Supongamos una población de tamaño N donde cierta característica se distribuye como la variable aleatoria X. Una muestra aleatoria simple con reemplazo de n observaciones de la variable aleatoria X es un conjunto de variables aleatorias X1, X2, ..., Xn independientes e idénticamente distribuidas (iid).

Cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.

Page 6: INFERENCIA ESTADÍSTICA

6

Observa que las probabilidades de escoger cualquier elemento de la población para formar parte de la muestra son iguales (1/N) y que además las extracciones son independientes.

Se puede escoger por azar varias veces al mismo elemento. Pero si la población N es muy superior al tamaño n de la muestra esa probabilidad es despreciable. En ese caso una muestra con reposición es equivalente a una muestra sin reposición. Trabajaremos siempre con reposición.

Page 7: INFERENCIA ESTADÍSTICA

77

Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer

elemento elemento de la de la

muestramuestra

66 6,6 6,86,8 6,106,10 6,126,12 6,146,14

88 8,68,6 8,8 8,108,10 8,128,12 8,148,14

1010 10,610,6 10,810,8 10,10 10,1210,12 10,1410,14

1212 12,612,6 12, 812, 8 12,1012,10 12,12 12,1412,14

1414 14,614,6 14,8 14,8 14,1014,10 14,1214,12 14,14

Ejemplo: Sea una población compuesta por 5 unicornios con las siguientes longitudes de cuerno: 6, 8, 10, 12 y 14. Escribamos todas las muestras aleatorias con reemplazo posibles de tamaño 2.

En total serán: 52 = 25.

Page 8: INFERENCIA ESTADÍSTICA

8

En el ejemplo la variable aleatoria X de la población puede tomar los valores 6, 8, 10, 12 y 14, cada uno con probabilidad 1/5. Es decir la variable aleatoria X tiene una densidad de probabilidad discreta uniforme.

Una muestra consta de n = 2 observaciones de esa variable aleatoria X. Podemos interpretarla como una variable aleatoria bidimensional

(X1, X2), donde X1 y X2 son independientes y están idénticamente distribuidas (iid). De hecho cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.

Page 9: INFERENCIA ESTADÍSTICA

9

Estadísticos

Cualquier función de las variables aleatorias observadas se denomina estadístico:

Los dos estadísticos mas conocidos son

la media muestral y la varianza muestral.

La raíz cuadrada de la varianza muestral es la desviación estándar muestral.

),...,,( 21 nXXXT

2sx

s

Page 10: INFERENCIA ESTADÍSTICA

10

Los parámetros poblacionales son fijos, no aleatorios. Por ejemplo, la media de la población anterior es: = (6 + 8 + 10 + 12 + 14) / 5 = 10.

Mientras que los estadísticos son variables aleatorias (su valor depende de la muestra seleccionada: los estadísticos calculados para distintas muestras darán, en general, resultados distintos).Por ejemplo, la media de la muestra (6, 6) es: = (6 + 6) / 2 = 6. Y la de la muestra (6, 12) es: = (6 + 12) / 2 = 9. Etc...

x

x

Page 11: INFERENCIA ESTADÍSTICA

11

Como estos estadísticos son variables aleatorias, podemos entonces hablar de sus distribuciones.

Si tomamos una muestra de tamaño n y calculamos la media de esta muestra obtenemos un valor determinado.

Si repetimos este mismo experimento un gran número de veces obtendremos una gran cantidad de valores distintos para .

A partir de esta “variedad” de valores distintos obtenidos para la media muestral, podemos obtener la distribución de probabilidad de la misma. Esta distribución será la distribución de la media muestral.

x

x

Page 12: INFERENCIA ESTADÍSTICA

1212

Medias Medias

muestrales muestrales

Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer

elemento elemento de la de la

muestramuestra

66 6 77 88 99 1010

88 77 8 99 1010 1111

1010 88 99 10 1111 1212

1212 99 1010 1111 12 1313

1414 1010 1111 1212 1313 14

Calculemos para el ejemplo anterior todas las medias muestrales posibles:

x

donde i = 1, ..., 25 es ahora el índice de las posibles muestras.

Page 13: INFERENCIA ESTADÍSTICA

13

La distribución de medias muestrales es:

P

6 7 8 9 10 11 12 13 14

1/25

2/25

5/25

4/25

3/25

4/25

3/25

2/25

1/25

x

Page 14: INFERENCIA ESTADÍSTICA

14

Como es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de medias muestrales:

1025

1)(

25

1

i

ixxE

Y observa que coincide con la media poblacional:

105

14121086)(

xE

¿Ocurre siempre?

x

Page 15: INFERENCIA ESTADÍSTICA

15

Población: P. ej.: todas las familias españolas (N).

Variable aleatoria de interés X X: P. ej.: consumo de vino.

La media de las N familias será:

La varianza La desviación típica

N

iiN x

Nxxx

NXE

121

1)...(

1)(

Estimación de parámetros

Page 16: INFERENCIA ESTADÍSTICA

16

Tomemos una muestra.Sean las familias elegidas en la muestra y los consumos anuales de vino. Para simplificar los llamaremos

La media muestral de las n familias que forman la muestra será:

Page 17: INFERENCIA ESTADÍSTICA

17

La desviación típica y la varianza muestral de las n familias de la muestra serán:

n

jj xx

ns

1

22 )(1

n

jj xx

ns

1

2)(1

Se llama a la media muestral un estimadorestimador de la media poblacional y a la varianza muestral s2 un estimadorestimador de la varianza poblacional2.

x

Page 18: INFERENCIA ESTADÍSTICA

18

)()( XEXE i

Dado un muestreo, el valor xi será uno de los posibles valores que puede tomar la variable aleatoria Xi. ¿Cuál es su valor esperado? Como Xi se distribuye como X.

n

i

n

ii

n

ii n

XEn

Xn

ExE111

1)(

1)

1()(

Para la distribución de la media muestral:

De modo que: )(xECuando se cumple la igualdad, se dice que Cuando se cumple la igualdad, se dice que el estimador de el estimador de es insesgado. es insesgado.x

Page 19: INFERENCIA ESTADÍSTICA

1919

Varianzas Varianzas

muestrales muestrales

Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer

elemento elemento de la de la

muestramuestra

66 0 11 44 99 1616

88 11 0 11 44 99

1010 44 11 0 11 44

1212 99 44 11 0 11

1414 1616 99 44 11 0

Calculemos para el ejemplo de los unicornios todas las varianzas muestrales posibles:

x

2

1

22 )(2

1

iii xxs donde i = 1, ..., 25 es ahora el

índice de las posibles muestras.

Page 20: INFERENCIA ESTADÍSTICA

20

Hemos obtenido de nuevo una distribución,

ahora la distribución de varianzas muestrales:

P

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

5/25

8/25

2/254/25

6/25

2s

Page 21: INFERENCIA ESTADÍSTICA

21

Como s2 es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de las varianzas muestrales:

425/10025

1)(

25

1

22 i

issE

La varianza

poblacional es:

22 )( sEObserva que ahora:

Decimos entonces que el estimador sDecimos entonces que el estimador s2 2 de de 22 es es sesgado.sesgado.

Page 22: INFERENCIA ESTADÍSTICA

22

Definamos el estimador (seudovarianza muestral):

que solo se distingue de la varianza muestral en dividir entre (n-1) en vez de n. Para el ejemplo de los unicornios tendremos ahora que:

n

jj xx

ns

1

22* )(

1

1

825/20025

1)(

25

1

2*

2*

iissE

22* )( sE

que si que es insesgado para la varianza poblacional:

Page 23: INFERENCIA ESTADÍSTICA

23

Muestreo desde una población Normal

Sea X una variable aleatoria que se distribuye en una población como una normal con media y varianza 2, es decir N(, ).

Tomemos una muestra aleatoria de tamaño n de esta población normal.

¿Cuál es la distribución muestral de ?x

Page 24: INFERENCIA ESTADÍSTICA

24

2 )()( XVarXVar i

Observemos que:

De modo que la varianza de la distribución de la media muestral será:

nn

xVarn

xn

VarxVar

n

i

n

ii

n

ii

2

1

22

12

1

1

)(11

)(

)()( 2 XVarabaXVar Y además suponemos independencia entre las variables Xi

Page 25: INFERENCIA ESTADÍSTICA

25

Si la muestra aleatoria x1, x2, ..., xn se toma a partir de

una población normal con media y varianza 2, la media muestral tendrá distribución normal con media

y varianza 2/n, N(, /n).

Vemos entonces que la distribución de la media muestral tiene una dispersión menor alrededor de la media poblacional y cuanto más grande es la muestra, menor es la varianza.

Page 26: INFERENCIA ESTADÍSTICA

26

Distribuciones para muestras grandes

Cuando el tamaño de la muestra es grande, podemos derivar un número de propiedades que son muy útiles en la práctica. Dos de esas propiedades son la LEY DE LOS GRANDES NUMEROS y el TEOREMA CENTRAL DEL LIMITE.

Page 27: INFERENCIA ESTADÍSTICA

27

Ley de los grandes números

Sea la media de una muestra aleatoria de valores z1,

z2, ..., zn que son iid. Entonces a medida que aumenta el

tamaño de la muestra, la media muestral se encuentra más y más cerca de su valor esperado E(Z).

Como caso especial, cuando es , la media muestral, tenemos que E( ) = y converge a .

De la misma manera, s2 converge a 2 cuando n tiende a infinito.

z

z xx x

Page 28: INFERENCIA ESTADÍSTICA

28

Teorema central del límite Sea x1, x2, ..., xn una muestra aleatoria de

observaciones tomadas de la misma distribución y sea E(Xi) = y Var(Xi) = 2.

Entonces la distribución muestral de la variable aleatoria

converge a la normal standard N(0, 1) cuando n tiende a infinito. El TCL se cumple aún cuando la distribución desde la que se toman las observaciones no sea normal. Esto significa que si nosotros nos aseguramos que el tamaño de la muestra es grande, entonces podemos usar la variable Zn para responder preguntas acerca de la población de la cual provienen las observaciones.

n

xZn

/

)(

Page 29: INFERENCIA ESTADÍSTICA

29

Distribución muestral de la media

Veremos primero el caso de que la distribución subyacente sea normal, con media y varianza

La media de la distribución muestral de medias es

La varianza de la distribución muestral de medias es

2 / n

2

La forma de la distribución muestral de la media es normal.

Nota: La desviación típica de la distribución muestral suele ser denominada: error típico de tal estadístico (v.g., “error típico de la media”, etc.)

Veamos varios ejemplos donde iremos variando el tamaño n de las muestras.

Page 30: INFERENCIA ESTADÍSTICA

30

Distribución muestral de la media. Ejemplo 1

N10

400

300

200

100

0

Desv. típ. = 4.75

Media = 99.9

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media = 100

Varianza = 225

Desv. típica = 15

Distribución muestral de la media:

Tamaño muestral =10

Media = 100

Varianza = 225/10 =22.5

Desv.típica = 22.5 4.74

La línea (en este y sucesivos ejemplos) es una curva normal

En este y sucesivos gráficos: Número de muestras n

Page 31: INFERENCIA ESTADÍSTICA

31

Distribución muestral de la media. Ejemplo 2

N20

500

400

300

200

100

0

Desv. típ. = 3.36

Media = 100.0

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media = 100

Desv. Típica = 15

Distribución muestral de la media:

Tamaño muestral = 20

Media = 100

Varianza = 225/20 = 11.3

Desv. típica = 3.35

Page 32: INFERENCIA ESTADÍSTICA

32

Distribución muestral de la media. Ejemplo 3

N50

700

600

500

400

300

200

100

0

Desv. típ. = 2.12

Media = 99.95

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media = 100

Desv. Típica = 15

Distribución muestral de la media:

Tamaño muestral = 50

Media = 100

Varianza = 225/50 = 4.5

Desv. típica = 2.12

Page 33: INFERENCIA ESTADÍSTICA

33

Distribución muestral de la media

Veamos ahora el caso en que la distribución subyacente sea arbitraria, si bien sabemos que la media es y la varianza es

La media de la distribución muestral de medias es

La varianza de la distribución muestral de medias es

2 / n

2

La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal. En concreto, la distribución muestral se acercará más y más a la distribución normal (media y varianza 2/n) a medida que se aumente el tamaño de cada muestra.

Page 34: INFERENCIA ESTADÍSTICA

34

Distribución muestral de la media. Ejemplo 4

Distribución poblacional subyacente (dist. Gamma):

Media = 100

Varianza = 100

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

80 85 90 95 100 105 110 115 120

0,)(

)( 1

xexp

qxf qxp

p

q

pXE ][

2][

q

pXVar

Page 35: INFERENCIA ESTADÍSTICA

35

Distribución muestral de la media. Ejemplo 4

DISGAMMA

500

400

300

200

100

0

Desv. típ. = 3.12

Media = 100.0

N = 3600.00

Distribución poblacional subyacente (dist. GAMMA):

Media = 100

Varianza = 100

Distribución muestral de la media:

Tamaño muestral = 10

Media = 100

Varianza = 100/10 = 10

Desv. típica = 10 3.16

Page 36: INFERENCIA ESTADÍSTICA

36

Distribución muestral de la media. Ejemplo 5

Distribución poblacional (dist. EXPONENCIAL):

Media = 0.1 = 1/

Varianza = 0.01 = 1/2

0

2

4

6

8

10

12

0 0.1 0.2 0.3 0.4 0.5 0.6

La distribución EXPONENCIAL tiene 1 parámetro: (en el ejemplo: 10)

Page 37: INFERENCIA ESTADÍSTICA

37

Distribución muestral de la media. Ejemplo 5a

EXPON10

.244.231

.219.206

.194.181

.169.156

.144.131

.119.106

.094.081

.069.056

.044.031

400

300

200

100

0

Desv. típ. = .03

Media = .100

N = 3600.00

Distribución muestral de la media:

Tamaño muestral = 10

Media = 0.1

Varianza = 0.01/10 = 0.001

Desv. típica = 0.03

Distribución poblacional (dist. EXPONENCIAL):

Media = 0.1=1/

Varianza = 0.01 = 1/2

Observad que la dist. muestral se aproxima a la normal

Page 38: INFERENCIA ESTADÍSTICA

38

Distribución muestral de la media. Ejemplo 5b

Distribución muestral de la media:

Tamaño muestral = 20

Media = 0.1

Varianza = 0.01/20 = 0.0005

Desv. típica = 0.022

EXPON20

500

400

300

200

100

0

Desv. típ. = .02

Media = .099

N = 3600.00

Distribución poblacional (dist. EXPONENCIAL):

Media = 0.1 = 1/

Varianza = 0.01 = 1/2

Observad que la distribución muestral se aproxima más a la normal (al elevar el tamaño muestral).

Page 39: INFERENCIA ESTADÍSTICA

39

Distribuciones usadas en inferenciaDistribuciones usadas en inferencia

Distribución Ji-Cuadrado o Chi-cuadrado o 2 de Pearson con “n” grados de libertad.Sean X1 , X2 , ... ,Xn n variables aleatorias continuas independientes tal que Xi = N (0,1) con i = 1, ..., n (i.i.d.). Definamos la variable aleatoria:

n

iniXY

1

22

0,

22

)(2

21

2

xn

eyyf n

yn

YSu densidad de probabilidadserá:

Page 40: INFERENCIA ESTADÍSTICA

40

la función gamma es:

1.

2.

0

1 dyey y

nYE nYVar 22)21()(n

Y itt

nYE

nYVar 2

y

)( yfY

Page 41: INFERENCIA ESTADÍSTICA

41

TABLA DE 2

2n

0.99 0.975 0.025 0.01n1

2

3

4

5

grados de libertadvalores acumulados de 2

n

orden percentílico

p

Page 42: INFERENCIA ESTADÍSTICA

42

Distribución muestral del estadístico

Cuando las distribución de la que obtenemos la varianza muestral es normal, el estadístico anterior se distribuye según la distribución chi-cuadrado con n -1 grados de libertad.

Es fácil de demostrar

2

2*)1(

sn

Page 43: INFERENCIA ESTADÍSTICA

43

22

2

1 como distribuye se

)1,0( como distribuye se

),( como distribuyese Si

xx

Nxx

NX

2*

11

2* s)1(

1

1s 22

nxxxxn

n

i

n

i

212 como distribuye se

)1( 2*

nsn

n

iniX

1

22

Tipificando

Page 44: INFERENCIA ESTADÍSTICA

44

Otra distribución que aparece en inferencia es lat-Student, tn

Student era el seudónimo de W.S. Gosset, un pionero estadista que trabajó en la Cervecería Guiness de Dublín.

Sea X v.a.c. tal que X ~ N (0,1)Y v.a.c. tal que Y ~ 2

n

nY

Xtn

tn

n

ntn

tf

n

T ,

2

12

1

)(

2

12

Con función de densidad de probabilidad:

Page 45: INFERENCIA ESTADÍSTICA

45

0tE 2

n

ntVar

Page 46: INFERENCIA ESTADÍSTICA

46

TABLA DE LA DISTRIBUCION DE t (Student)

t.55 t.60 t.99 t.995n1

2

3

4

5

orden percentílico

grados de libertad

valores

acumulados de tp

tp

Page 47: INFERENCIA ESTADÍSTICA

47

Distribución muestral de

Cuando la distribución de la que obtenemos las medias muestrales es normal, el estadístico anterior, se distribuye según la distribución t de Student con tn-1 grados de libertad.

Cuando la distribución de la que obtenemos las medias muestrales no es normal, el estadístico anterior, se distribuye como una normal tipificada para valores de n > 30.

Nota: comparar con el teorema central del límite.

ns

x

/

Page 48: INFERENCIA ESTADÍSTICA

48

La distribución F de Fisher o F-Snedecor es otra distribución que aparece con frecuencia en inferencia:Sea X v.a.c. tal que X ~ 2

n

Y v.a.c. tal que Y ~ 2m independientes

Definamos ),( mnF

mYnX

Z

0,)(

22

2)( 2

12

2/2/

zmnz

mn

mnmn

zfmnn

nn

Z

Page 49: INFERENCIA ESTADÍSTICA

49

2

m

mZE

)()()(42

222

2

mmnmnm

ZV

(m,n)

Page 50: INFERENCIA ESTADÍSTICA

50

Distribución muestral del estimador

Cuando las distribuciones de la que obtenemos las varianzas muestrales son normales:

y extraemos dos muestras de tamaño n y m respectivamente. El estadístico anterior se distribuye según la distribución F de Fisher con n - 1 grados de libertad en el numerador y m -1 grados de libertad en el denominador, Fn-1, m-1.

22*

22*

/

/

yy

xx

s

s

),(),( yyxx NyN