Tipos de Muestreo

16
TEMA: ESTIMACION Y PRUEBA DE HIPOTESIS INFERENCIA ESTADISTICA: Es un conjunto de métodos mediante los cuales podemos hacer afirmaciones con respecto a una población completa a partir de únicamente la observación de una parte de la población (muestra) FORMAS BASICAS PARA REALIZAR LA INFERENCIA ESTADISTICA: Estimación Prueba de Hipótesis ESTADISTICOS: Medidas en una muestra (media, varianza, proporción, etc.) PARAMETROS: Medidas en una población (µ, α 2 , P) ESTIMADOR: Es una función de variables aleatorias observables usadas para estimar un parámetro poblacional (utilizando distribución de probabilidad de cada estimador) POBLACION, VARIABLE, DATOS, PARAMETROS Y MUESTRA Elementos. (Cualquier naturaleza) Característica de interés. ( Es individual, es variable) se representa por X Datos. Son los valores realmente observados de X. Así x i representa la i-ésima obs de X donde i = 1,2, ... Muestra. Una parte de la población (Debe ser representativa de la población) Población (tamaño N) Parámetro: Son características poblacionales (constantes, se representan por letras griegas) μ= x 1 +x 2 + ...+x N N = . N x i N , τ= N x i , σ 2 = . N ( x i μ ) 2 N , σ= σ 2 ¿Por qué se muestrea? Para tomar decisiones con base a información real, completa, por tal razón se utiliza la información de una muestra para estimar los parámetros. VENTAJAS DEL MUESTREO Rapidez y bajo costo de la información (Oportuna, exactitud aceptable) Población muy grande (Infinita) Evita la destrucción de la población (La medición de la característica destruye al elemento) TIPOS DE MUESTREO

Transcript of Tipos de Muestreo

Page 1: Tipos de Muestreo

TEMA: ESTIMACION Y PRUEBA DE HIPOTESIS

INFERENCIA ESTADISTICA:Es un conjunto de métodos mediante los cuales podemos hacer afirmaciones con respecto a una población completa a partir de únicamente la observación de una parte de la población (muestra)

FORMAS BASICAS PARA REALIZAR LA INFERENCIA ESTADISTICA: Estimación Prueba de Hipótesis

ESTADISTICOS: Medidas en una muestra (media, varianza, proporción, etc.)

PARAMETROS: Medidas en una población (µ, α2, P)

ESTIMADOR: Es una función de variables aleatorias observables usadas para estimar un parámetro poblacional (utilizando distribución de probabilidad de cada estimador)

POBLACION, VARIABLE, DATOS, PARAMETROS Y MUESTRA Elementos. (Cualquier naturaleza) Característica de interés. ( Es individual, es variable) se representa por X Datos. Son los valores realmente observados de X. Así xi representa la i-ésima obs de X donde i = 1,2, ... Muestra. Una parte de la población (Debe ser representativa de la población) Población (tamaño N)

Parámetro: Son características poblacionales (constantes, se representan por letras griegas)

μ=x1+x2+. . .+x N

N=∑

.

N

x i

N , τ=∑

N

xi ,

σ 2=∑

.

N

( xi−μ)2

N , σ=√σ2

¿Por qué se muestrea?Para tomar decisiones con base a información real, completa, por tal razón se utiliza la información de una muestra para estimar los parámetros.

VENTAJAS DEL MUESTREO Rapidez y bajo costo de la información (Oportuna, exactitud aceptable) Población muy grande (Infinita) Evita la destrucción de la población (La medición de la característica destruye al elemento) TIPOS DE MUESTREO

No probabilisticos Probabilisticosi) No todos los elementos tienen posibilidad de i) Todos tienen posibilidad de integrar la muestraintegrar la muestra ii) Selección según el criterio personal ii) Selección conforme las leyes del azariii) La precisión no se puede medir objetivamente iii) La precisión se puede medir objetivamente

TIPOS DE MUESTREOS PROB: MAS, MASIS, MAE, MAC

MASCada muestra posible y cada elemento tienen igual probabilidad de integrar la muestra

Condiciones para que sea práctico:i) pequeña y N no es muy grandeii) Fácil acceso a los elementos y poco costoso

Page 2: Tipos de Muestreo

¿ Cómo seleccionarla?1) Construir el marco muestral 3) Usar una tabla de N° aleatorios2) Con o sin reposición i) Asignar códigos ii) Entrada iii) Dirección iv) Código Elemento MASISTSe utiliza un intervalo uniforme que se mide en el orden o en el tiempo para garantizar que cada elemento tuvo la misma prob de integrar la muestraCondiciones para que sea práctico:i) Se dispone de una listaii) Se tiene un proceso contínuo de producción ¿ Cómo seleccionarla?1. Numerar u ordenar los elementos poblacionalesPor ejemplo: 1, 2, 3, . . . . . . . N. 2. Obtener el intervalo de muestreo

k=N

n

3. Seleccionar al azar un punto de arranque r 1 ≤r ≤ k4. Tomar cada k-ésimo elemento a partir del punto de arranque r

r, r + k, r + 2k, . . . . .

MUESTRA DE UNA V.A. Sea X una v.a. asociada a un experimento aleatorio Si repetimos n veces y hacemos que la v.a. Xi represente la i-ésima obs. de X en la i-ésima realización de . Entonces las v.a. X1, X2,...,Xn forman una muestra aleatoria de X

Estadístico Sea X1, X2,...,Xn una muestra aleatoria de X y h una función de las v.a. X1, X2,...,Xn Definimos que Y = h(X1, X2,...,Xn) es un estadístico

Estimador de un parámetro (Theta)Sea X una v.a. cuya dist. de prob. depende de . Sea X1, X2,...,Xn una muestra aleatoria de X y g

una función de las v.a. X1, X2,...,Xn. Se define que (Theta con acento ) θ̂ = g(X1, X2,...,Xn) es un estimador de

La media muestral

X̄=∑

n

X i

n es un estimador de la media poblacional

El total muestral

N X̄ es un estimador del total poblacional

Varianza muestral

S2=∑

n

( x i− x̄ )2

n−1 es un estimador de 2

Desviación estándar muestral

Page 3: Tipos de Muestreo

S=√ S2 es un estimador de

PRECISION Y EXACTITUD DE UNA ESTIMACION

El error de muestreo de una estimación se denota y define así em = |θ̂ - θ |

No son medibles pero son controlables. A menor em mayor precisión

Para , em = |X̄ - μ |

Errores ajenos al muestreoAlgunas causas de estos errores son:i) Los intrumentos de medida (cuestionarios, entrevistas, etc.) no son precisos, esto es, no miden lo que se pretende.

ii) Entrevistados dan respuestas incorrectas. iii) Entrevistador anota las respuestas en lugares inapropiados.

Estos errores no son medibles pero pueden ser controlados evitando la causa que los producen.Error total. A menor error total mayor exactitud

DISTRIBUCION MUESTRAL DE UN ESTIMADOR

PROPIEDADES DE UN ESTIMADOR

1. Insesgadura. μ

θ̂=θ

De otra manera, θ̂ se llama sesgado y a la diferencia μ

θ̂−θ

le llamaremos sesgo.

θ̂ 1 θ̂ 2

μθ̂

μ

θ̂ Estimador insesgado Estimador sesgado

2. Eficiencia

Sean θ̂ 1 y θ̂ 2 estimadores de un mismo parámetro

σ

θ̂1

2

σ

θ̂2

2

θ̂1 es más eficiente que θ̂2

θ̂1 μ

θ̂

θ̂2, μ

θ̂ ¿Qué estimador preferiría usted?

σ

θ̂ : error estándar de θ̂ . Error de muestreo esperado (promedio). Un indicador de la precisión del estimador.

Page 4: Tipos de Muestreo

MUESTREO EN POBLACIONES CON UNA DIST DE PROB

X ~

( μ , σ ) ⇒ { X̄ ~ ( μX̄

= μ , σX̄

= σ√ n

)¿Para un muestreo sin reposición de una población finita

σ X̄ = σ√ n

√N - nN - l

Algunas observaciones importantes relacionadas con el σ X̄

son las siguientes:

i)σ X̄

ii) A menor menor σ X̄

A mayor tamaño de muestra n menor σ X̄

iii) A menor σ X̄

mayor precisión del estimador X̄

Muestreo en poblaciones normales

X ~

Normal (μ , σ ) ⇒ { X̄ ~ N ormal (μX̄

= μ , σX̄

= σ√ n

)¿

Muestreo en poblaciones no normalesTeorema del límite central (TLC)

X ~

No Normal ( μ , σ ) y n≥ 30 ⇒ { X̄ ~ aprox .Normal ( μX̄

= μ , σX̄

= σ√ n

)¿

ESTIMADOR PUNTUAL Y POR INTERVALO

Un estimadro puntual de un parámetro es aquel que proporciona un único estimado de ese parámetro

Un estimador por intervalo de un parámetro Es el que define un par de v.a. Li (lím inf) y Ls (Lím sup) tales queP(Li Ls) = 1- Nivel de confianzaP(De que no se encuentre en [ Li , Ls ] = RiesgoCada muestra proporciona un intervalo de confianza del (1 - )%En muestreo repetido esperamos que un (1 - )% de los intervalos particulares obtenidos de [ Li , Ls] cubran el parámetro y un ()% no lo cubra

ESTIMADOR PUNTUAL DE Y Media muestral Total muestral

X̄=∑

n

X i

n N X̄

El error estándar de X̄

El error estándar deN X̄

σ X̄ = σ

√ n

si la población es infinita σ N X̄=Nσ X̄

σ X̄ = σ√ n

√N - nN - l si la población es finita.

Page 5: Tipos de Muestreo

ESTIMADOR POR INTERVALO PARA Y CUANDO ES CONOCIDA Cuando tomamos muestras de tamaño n (n 30 si no Normal)

Dist poblacional de X Dist muestral de X̄ Normal o no Normal Normal o aprox Normal

conoc σ X̄

X X̄

X̄ es insesgado μ X̄=μ

Error estándar de X̄

σ X̄ =

σ

√ n

si población inf

σ X̄ =

σ√ n

√N - nN - l si población fin

Expresando el error de muestreo X̄ - , en unidades del σ X̄

1−α Normal estándar

α2

α2

- zα /2 0 zα /2

X̄ - μσ X̄

= Z

Si zα/2 es un valor de Z que tiene a su derecha una área acumulada de

α2 y a su izquierda un

área acumulada de 1 -

α2

P( - zα/2 ≤

X̄ - μ σ X̄

≤ zα/2) = 1 - α

P( - { X̄ ¿ - zα/2 σx ≤ - μ ≤ - { X̄ ¿ + z α/2 σ x ) = 1 - α ,

P( X̄ - zα/2 σx ≤ μ ≤ { X̄ ¿ + z α/2 σ x ) = 1 - α

Hay una confianza del (1 - )100% de que X̄ - zα/2 σx ≤ μ ≤ { X̄ + zα/2 σx ¿O de una manera más breve Un estimador por intervalo de confianza del (1 - )100% para está dado por

X̄ ± zα/2 σ x

donde límite inf: X̄ - zα /2 σ X̄ y lím sup: X̄ + zα /2 σ x

Page 6: Tipos de Muestreo

Con un razonamiento similarUn estimador por intervalo de confianza del (1 - )100% para está dado por

N X̄ ± zα/2 σN X̄ donde σ N X̄=Nσ X̄

Si sustituimos σ X̄ o σ N X̄ por su correspondiente fórmula según la población sea infinita o finita,

llegamos a las fórmulas de la página 23

TAMAÑO DE MUESTRA PARA Queremos estimar con una confianza del (1 - )100% de que

|X̄ - μ | ≤ E donde E es el máximo error permitidoEntonces hay una confianza del (1 - )100% de que

{ X̄ - E ≤ μ ≤ { X̄ ¿+ E ¿ o bien { X̄ ±E ¿

Luego E = zα/2 σx

Si sustituimos σ x

por su correspondiente fórmula según la población sea infinita o finita y luego solucionamos para n llegamos a las fórmulas

ESTIMADOR POR INTERVALO PARA Y CUANDO ES DESCONOCIDA Cuando tomamos muestras de tamaño n (n 30 si no Normal)

Dist poblacional de X Dist muestral de X̄ Normal o no Normal Normal o aprox Normal si n 30

desc σ̂ X̄

X X̄

X̄ es insesgado μ X̄=μ

Error estándar estimado de X̄

σ̂ X̄ =

S

√ n

si población inf

σ̂ X̄ =

S√ n

√N - nN - l si población fin

Expresando el error de muestreo X̄ - , en unidades del σ̂ X̄

1−α t de Student con n-1 g.l

α2

α2

- t α /2 0 t α /2

X̄ - μ

σ̂ X̄

= t

t α /2 es un valor de t que tiene a su derecha una área acumulada de

α2

Con un razonamiento similar al que hicimos con la dist ZUn estimador por intervalo de confianza del (1 - )100% para y estan dados respectivamente por

Page 7: Tipos de Muestreo

X̄ ± tα/2 { σ̂ X̄ ¿ y N { X̄ ± tα/2 { σ̂ ¿N X̄ ¿donde σ̂ N X̄=N σ̂ X̄

Características:1. Es una familia de distribuciones t

2. Es simétrica y de forma acampanada con μ t= 0 y σ t = √ n

n - 2 , n > 2

3. σ

t es ligeramente superior a 1

4.Limgl→∞

dist t = dist Z

La dist t se parece a la distribución Z cuando n 30POBLACIONES CON DIST DE BERNOULLI

Y es una variable aleatoria cualitativa con dos resultados éxito (E) y fracaso (F)Estos resultados pueden ser cuantificados así

Y = ¿ { 1 si E ¿¿¿

Y tiene una distribución de Bernoulli dada por

f ( y ) = ¿ { p si y = 1 ¿¿¿

Con Y = p y Y = √ p ( 1 - p )

Parámetros:

Total poblacional lo definiremos así

= ∑

.

N

y i= N° total de éxitos en la población

Proporción poblacional

p= τ

N =

N 0 total de éxitos en la población Tamaño de la población

Estimadores de p Y Proporción muestral

pS=∑

.

n

Yi

n =

Xn

= No. de éxitos en la muestraTamaño de la muestra

El error estándar estimado de pS

σ̂ pS=¿ {√ pS(1−pS)

n si la población es infinita ¿ ¿¿¿

donde pS es el estimador de p

Total muestral Error estándar estimado de N ps

N ps

σ̂ NpS=N σ̂ p S

Los estimadores por intervalo de confianza del ( 1 - )100 % para p y son respectivamente

pS ± z α/2

σ̂ pS y N pS ± zα/2

σ̂ NpS siempre que n p 5 y n ( 1 – p ) 5

Page 8: Tipos de Muestreo

Si sustituimos σ̂ pS o

σ̂ NpS por su correspondiente fórmula, según la población sea infinita o finita, llegamos a las fórmulas de la pág 39

DETERMINACION DE n PARA p

Si enE=zα/2 σ̂ pS sustituimos

σ̂ pS por su correspondiente fórmula, según la población sea infinita o finita y luego resolvemos para n llegamos a las fórmulas de la pág 40

MUESTREO ALEATORIO ESTRATIFICADOEs práctico utilizarlo en poblaciones donde X tenga una gran variabilidad ( es grande )Estrato es un conjunto de elementos con características parecidas

Parámetros:Total poblacional

= ∑

.

L

τ i

Media poblacional

=

τN

ESTIMADOR DE Y

Media muestral estratificada Error estándar estimado de X̄ st

X̄ st=1N∑

.

L

N i X̄ i

σ̂ X̄ st=

1N √∑.

L

N i2 S i

2

ni

(1 − ni

N i

)

Si

ni

N i

≤0 .05 para i = 1, 2, ... , L , podemos omitir el factor de correción

(1−n i

N i

) dentro del

radical.

Total muestral estratificado Error estándar estimado del NX̄ st

N X̄ st=∑.

L

N i X̄ i

σ̂ N X̄ st=N σ̂ X̄ st

ESTIMADOR POR INTERVALO PARA Y Un estimador por intervalo de confianza del 95% para y estan dados respectivamente por

X̄ st± 2 { σ̂ X̄ st

¿ y

N { X̄ st± 2 { σ̂ ¿NX̄ st

¿

El error máximo permitido en la estimación de es E=2 σ̂ X̄st

El error máximo permitido en la estimación de es E=2 σ̂ N X̄st

SELECCIÓN DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR

Hay muchas maneras para asignar un tamaño de muestra n a los diversos estratos.

El mejor esquema de asignación está influido por tres factores.

1. El número de elementos en cada estrato (Ni)2. La variabilidad de las observaciones dentro de cada estrato (i) 3. El costo por obtener una observación de cada estrato (ci)

Asignación de costo mínimo y menor error de muestreo

Page 9: Tipos de Muestreo

El tamaño de muestra requerido n para estimar con error máximo permitido E y un nivel de confianza del 95% es

n = (∑L N i S i / √c i) (∑L N i S i√ci)

N2( E2

4 )+ ∑L

N i S i2

,

ni = n N i S i / √ci

∑L

N i Si / √c i

Asignación de NeymanSi c1 = c2 = = cL = c, entonces los términos de costos en la fórmula de asignación de costo mínimo se cancelan y queda así

n = (∑L N i Si)

2

N 2(E2

4 ) + ∑L

N i Si2

,

ni = n N i S i

∑L

N i S i

Asignación proporcional

Si c1 = c2 = = cL = c y S12

= S22

= = SL2

= S2

Se cancelan las desviaciones estándar en la fórmula de asignación Neyman y queda

n = N S2

N ( E2

4 ) + S2

donde S2es la varianza común ,

ni = n N i

∑L

N i

= n ( N i

N )

MUESTREO ALEATORIO POR CONGLOMERADOS

Consiste en dividir la población en colecciones de elementos que llamaremos conglomerados Por lo tanto al aplicar este método se logra fácilmente la construcción de un marco que liste todos los conglomerados y la reducción del costo por observar un elemento.El muestreo por conglomerados es menos costoso que el muestreo aleatorio estratificado o simple si se cumple lo siguiente:1. No se encuentra disponible o es muy costoso obtener un buen marco que liste los elementos de la población.2. El costo por obtener observaciones se incrementa con la distancia que separa los elementos.

τ i=∑j=1

mi

x ij

M̄ =

MN

∑n

mi m̄ =

∑n

mi

n

Parámetros: Total poblacional

= ∑N

τ i

Media poblacional

=

τM

ESTIMADOR DE Y

Page 10: Tipos de Muestreo

Media muestral por conglomerado Error estándar estimado de X̄ c

X̄ c = ∑

n

τ i

∑n

mi

σ̂ X̄ c = √ (1 - n

N

nM̄ 2 ) ∑n

( τ i - mi X̄c)2

n - 1

Si

nN 0.05 podemos aproximar el factor ( 1 -

nN ) dentro del radical a 1

Total muestral por conglomerado Error estándar estimado del M X̄ c

M { X̄c = M (∑n

τi

∑n

mi)¿

σ̂ M X̄ c

=M σ̂ X̄c

M puede ser estimado con M̂ ≃ N m̄

ESTIMADOR POR INTERVALO PARA Y

Un estimador por intervalo de confianza del 95% para y estan dados respectivamente por

X̄ c ± 2 { σ̂X̄ c

¿ y

M { X̄c ± 2 σ̂ M X̄c ¿

El error muestral máximo permitido en la estimación de es E=2 σ̂ X̄c

El error muestral máximo permitido en la estimación de es E=2 σ̂ M X̄ c

SELECCIÓN DEL NUMERO DE CONGLOMERADOS EN LA MUESTRA PARA

El número de conglomerados en la muestra n para estimar con error máximo permitido E y un nivel de confianza del 95% es

n = N Sc

2

N { M̄ 2 ( E2

4 ) + Sc2 ¿

donde Sc

2 = ∑

n

( τ i - m i X̄c )2

n - 1

puede calcularse de una muestra preliminar y M̄ puede ser estimado por m̄ con la misma muestra

PRUEBA DE HIPOTESIS

El problema de decisión a estudiar:i) 2 hipótesisii) 2 alternativas

PROCEDIMIENTO DE LA PRUEBA ACERCA DE

1. FORMULACION DE LAS HIPOTESIS2.Hipótesis estadística. Es un supuesto acerca del valor de un parámetroConsideremos una acción y su efecto

Page 11: Tipos de Muestreo

Hipótesis nula (H0) Ausencia de efectoHipótesis alterna (H1) Presencia de efecto

Tipos de pruebas Unilaterales Cola der Cola izq H0 : = 0 ( 0 ) H0 : = 0 ( 0 ) H1 : 0 H1 : 0

Bilaterales H0 : = 0

H1 : 0

2. ELEGIR UN NIVEL DE SIGNIFICACION

Error I: Seleccionar A1 cuando H0 es VP ( error I ) es el nivel de significación Los más usuales = 0.01 ó = 0.05

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE DECISION

Como X̄ - 0 = 47.30-44 = 3.30 qq/mz

H0 : X̄ - 0 no es signif

H1 : X̄ - 0 es signif

¿ Cómo saber si X̄ - 0 es signif ?X̄ − μ0

σ X̄ = Z o t Estadístico de prueba¿ Es Z o t es signif distinto de cero ?

Establezcamos un valor crítico de Z o t cuyo valor dependa de así

Cola der Cola izq α α

0zα Z o t -

zα 0 Z o t

tα Es cero Es mayor Es menor Es cero A R R A

Dos colas Ej 2.2 Población no normal, desc, n 30

1−α

α2

α2 α = 0.05

- zα /2 0 zα /2 Z o t 0 1.65 Z

Page 12: Tipos de Muestreo

- t α /2 t α /2 Es cero Es mayor Es menor Es cero Es mayor A R R A R

Como decir que Z o t es distinto de cero equivale a rechazar H0 y decir que Z o t es cero equivale a "aceptar" H0 la regla de decisión puede resumirse como aparece en la pág 89

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL ESTADISTICO DE PRUEBA

En base a una muestra valoramos que

X̄ − μ0

σ X̄ que puede ser igual a Z o t

5. SELECCIONAR UNA ALTERNATIVA

Rechazo H0 Aceptación de H1

No rechazo H0 "Aceptación" de H0

PROCEDIMIENTO DE LA PUEBA ACERCA DE p

Ahora como la proporción poblacional es una media poblacional, el procedimiento para probar hipótesis acerca de p será el mismo que se utilizó para .

Como las hipótesis serán suposiciones acerca de p, el estadístico de prueba será naturalmente la proporción muestral pS pero estandarizada, esto es, la diferencia pS - p0 expresada en unidades del error estándar de pS donde p0 es el valor supuesto de pSi n es suficientemente grande, esto es, np0 5 y n (1 – p0) 5

entonces el estadístico de prueba es

pS -p0

σ̂ pS

= Z donde

σ̂ pS=

σ̂Y

√n

= √ p0( 1 - p0 )n si la población es infinita

o σ̂ pS=

σ̂Y

√n √N - n

N - 1 = √ p0( 1 - p0 )n √N - n

N - 1 si la población es finita.