Muestreo sistem atico -...

12

Click here to load reader

Transcript of Muestreo sistem atico -...

Page 1: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

Capıtulo 1

Muestreo sistematico

El muestreo sistematico es un tipo de muestreo que es aplicable cuando loselementos de la poblacion sobre la que se realiza el muestreo estan ordenados.Este procedimiento de muestreo se basa en tomar muestras de una manera direc-ta y ordenada a partir de una regla determinıstica, tambien llamada sistematica.Concretamente, a partir de una sola unidad que se selecciona en primer lugar, elresto de unidades de la muestra vienen determinadas automaticamente al apli-carle a dicha unidad una regla seleccion sistematica. Bajo este procedimiento demuestreo, por ejemplo, seleccionamos cada vigesimo nombre de una lista, cadadecimosegunda casa de un lado de una calle, cada quincuagesima pieza de unalınea de montaje, etc..

En este capıtulo consideramos el diseno muestral sistematico mas sencillollamado muestreo sistematico uniforme de paso k. La obtencion de una muestrasistematica de tamano n de una poblacion de N elementos se consigue siguiendoel siguiente procedimiento.

1. Conseguir un listado ordenado de los N elementos de la poblacion.

2. Determinar el tamano muestral n.

3. Definir el tamano del salto sistematico k dado por k = N/n.

4. Elegir un numero aleatorio δ entre 1 y k (δ=arrranque aleatorio). Estenumero permite obtener la primera unidad muestral.

5. A partir de la posicion δ, dando un salto de k unidades, obtendremos lasegunda unidad de la muestra uδ+k y de esta forma, saltando de k en kunidades, el resto de la muestra estara formada por las unidades uδ+2k,uδ+3k, . . ., uδ+(n−1)k.

Ejemplo 1 Consideramos una poblacion de 5000 agricultores pertenecientes auna determinada zona y de la que se pretende extraer una muestra sistematicade 10 agricultores. El procedimiento a seguir es el siguiente:

Definir el tamano del salto sistematico k = 5000/10 = 500.

1

Page 2: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

2

Selecciona un numero aleatorio r entre 1 y 500, (por ejemplo 96).

Seleccionar los restantes elementos de la muestra, 96, 96+500=596,596+500=1096, 1596, 2096, 2596, 3096, 3596, 4096, 4596.

En realidad, bajo muestreo sistematico, clasificamos las unidades de la po-blacion en n zonas o filas de tamano k, las numeramos de izquierda a derechaempezando por la primera unidad de la primera fila y pasando a a primeraunidad de la siguiente fila una que se haya agotado la fila anterior. Una veznumeradas las N = nk unidades podemos expresarlas de la siguiente forma:

i 1 2 3 . . . j . . . k1 u1 u2 u3 . . . uj . . . uk2 uk+1 uk+2 uk+3 . . . uk+j . . . uk+k3 u2k+1 u2k+2 u2k+3 . . . u2k+j u2k+k

......

......

...i u(i−1)k+1 u(i−1)k+2 u(i−1)k+3 . . . u(i−1)k+j . . . u(i−1)k+k

......

......

......

n u(n−1)k+1 u(n−1)k+2 u(n−1)k+3 . . . u(n−1)k+j . . . u(n−1)k+k

Con estas especificaciones, el espacio muestral esta formado por las siguientesk muestras posibles:

(S1) = {u1, u1+k, u1+2k, . . . , u1+(n−1)k}(S2) = {u2, u2+k, u2+2k, . . . , u2+(n−1)k}

...(Sk) = {uk, uk+k, uk+2k, . . . , uk+(n−1)k}

Cada una de estas muestras tiene probabilidad igual a 1/k = n/N de ser selec-cionada. Las probabilidades de inclusion de primer y segundo orden correspon-diente a este diseno muestral son

πi =∑

s∈S;ui∈sp(s) =

1k

=n

N, i = 1, 2, . . . , N,

para la probabilidad de primer orden y

πij = P [(ui, uj) ∈ s]{

1/k si ui y uj estan en la misma muestra0 en otro caso

Ejemplo 2 Dada la poblacion siguiente

ui u1 u2 u3 u4 u5 u6 u7 u8 u9

Xi 1 3 5 2 4 6 2 7 3

se desea obtener una muestra sistematica de tamano 3. Determinar el espaciomuestral.

Page 3: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

3

1. Tenemos el listado ordenado de los 9 elementos.

2. Tamano muestral n = 3.

3. El tamano del salto sistematico es k = N/n = 9/3 = 3.

4. Elegir un numero aleatorio r entre 1 y 3.

Para r = 1, se tiene que la muestra viene dada por {u1, u1+3, u1+6}.Para r = 2, se tiene que la muestra viene dada por {u2, u2+3, u2+6}.Para r = 3, se tiene que la muestra viene dada por {u3, u3+3, u3+6}.

A diferencia de los que puede ocurrir en el muestreo aleatorio, ninguna su-cesion grande de elementos queda sin representacion. En consecuencia, si loselementos considerados en el orden en que aparecen en la lista tienen a for-mar grupos o zonas de elementos parecidos respecto de la caracterıstica que seestudia, el muestreo sistematico puede ser mas representativo que el muestreoaleatorio simple.

En el muestreo sistematico existe, pues un efecto que podemos llamar deextension o estratificacion si cada grupo de k elementos consecutivos a partir delprimero se considera como un estrato. Debe tenerse en cuenta, sin embargo, queen el muestreo estratificado aleatorio la seleccion se efectua independientementeen cada estrato, mientras que en el muestreo sistematico todos los elementosseleccionados ocupan el mismo lugar o numero de orden dentro de cada grupode k elementos.

El efecto anterior sera beneficioso para la representatividad de la muestracuando hay rachas o estratos sucesivos constituidos por elementos iguales o pa-recidos entre si. Por el contrario, si en la ordenacion de elementos poblacionalesexiste cierta periodicidad y k es igual al periodo o multiplo de este, la represen-tatividad disminuye.

En el ejemplo anterior apreciamos que el tamano del salto sistematico es unnumero entero, pero que ocurre si este tamano k no es entero?

Una alternativa para solucionar este problema consiste en considerar el lis-tado ordenado de todos los elementos de la poblacion como circular (es decir,el elemento N + 1 coincide con el elemento 1). En este caso el procedimiento sedesarrolla de la siguiente manera.

Definir el tamano del salto sistematico, k, como el entero mas cercano aN/n.

Elegir un numero aleatorio, r, entre 1 y k.

Seleccionar los elementos de la lista: r, r + k, r + 2k, . . ., r + (n − 1)kteniendo en cuenta que la lista es circular.

Las ventajas e inconvenientes de este metodo de muestreo son, en resumen:

Ventajas

Page 4: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

4

• Extiende la muestra a toda la poblacion.

• Recoge el posible efecto de estratificacion debido al orden en quefiguran las unidades de la poblacion.

• No presenta problemas de calculo algebraico.

• El error de muestreo suele ser inferior que en muestreo aleatorio sim-ple o incluso que en estratificado.

Inconvenientes

• La posibilidad de aumento de la varianza si existe periodicidad en lapoblacion.

• El problema teorico que se presenta en la estimacion de las varianzas

• No hay independencia en la seleccion de unidades en las distintaszonas, ya que las unidades extraıdas en cada zona dependen de laseleccionada en la primera zona.

• En general solo hay seleccion aleatoria para la primera unidad de lamuestra.

1.1. Estimadores lineales insesgados

Las estimaciones del total, media, proporcion y total de clase poblacionalesson los siguientes:

Totalθ = X ⇒ Xstm = N xj ,

siendo xj la media de la muestra sistematica j resultante a partir del puntode arranque j, mj .

Mediaθ = X ⇒ Xstm = xj ,

siendo xj la media de la muestra sistematica siendo xj la media de lamuestra sistematica j resultante a partir del punto de arranque j, mj .

Proporcionθ = P ⇒ Pstm = Pj ,

siendo Pj la proporcion de la muestra sistematica j resultante a partir delpunto de arranque j, mj .

Total de claseθ = A⇒ Astm = NPj ,

siendo Pj la proporcion de la muestra sistematica j resultante a partir delpunto de arranque j, mj .

Page 5: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

5

Ejemplo 3 Dada la poblacion siguiente

ui u1 u2 u3 u4 u5 u6 u7 u8 u9

Xi 1 3 5 2 4 6 2 7 3

se desea obtener una muestra sistematica de tamano 3. Determinar la distribu-cion de probabilidad del estimador del total y el de la media.Solucion. Las muestras posibles son (1, 2, 2), (3, 4, 7) y (5, 6, 3) siendo laprobabilidad de cada una de ellas k = 1/3. Se tiene que:

S(X) P (X) Xstm = N XjXstm = Xj

(1,2,2) 1/3 15 5/3(3,4,7) 1/3 42 14/3(5,6,3) 1/3 42 14/3

La distribucion de probabilidad en el muestreo de estos estimadores viene dadopor:

P (Xstm = 15) =13, P (Xstm = 42) =

23.

P ( Xstm = 5/3) =13, P ( Xstm = 14/3) =

23.

Ademas dicho estimador es insesgado ya que:

E(Xstm) = 1513

+ 4223

=993

= 33 = X.

E( Xstm) =53

13

+143

23

=339

= X.

1.2. Varianza de los estimadores

Bajo muestreo sistematico las varianzas de los estimadores de los parametrosvienen dadas por las siguientes expresiones:

Para la media,

V ( Xstm) =1k

k∑j=1

( Xj − X)2,

donde el ındice j indica que se trata de la muestra sistematica asociadaal j-esimo punto de arranque y la expresion Xj denota la media de lamuestra sistematica asociada al j-esimo punto de arranque.

Para el total,

V (Xstm) =N2

k

k∑j=1

( Xj − X)2,

Page 6: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

6

Para la proporcion,

V ( P stm) =1k

k∑j=1

(Pj − P )2,

siendo Pj la proporcion de la muestra sistematica asociada al j-esimopunto de arranque.

Para el total de clase

V ( Astm) =N2

k

k∑j=1

(Pj − P )2.

Ejemplo 4 Considerando el Ejemplo 3, calcular la varianza del estimadorXstm considerando la definicion y la formula dada en la teorıa.

Para ello, notar que

E[ Xstm] =59

+289

=339,

y por lo tanto, aplicando la definicion de varianza de variable aleatoria es

V ar( Xstm) = E[ X2

stm]− (E[ Xstm])2

=(

53

)2 13

+(

143

)2 23−(

339

)2

= 2.

Aplicando la formula de la varianza para muestreo aleatorio simple, se tieneque

V ar( Xstm) =1k

k∑j=1

( Xj − X)2

=13

((53− 33

9

)2

+ 2(

143− 33

9

)2)

= 2.

1.3. Descomposicion de la varianza

Vamos a realizar la siguiente descomposicion de la suma de cuadrados parael analisis de la varianza poblacional.

n∑i=1

k∑j=1

(Xij − X)2 =n∑i=1

k∑j=1

(Xij − Xj)2 +n∑i=1

k∑j=1

( Xj − X)2

+ 2n∑i=1

k∑j=1

(Xij − Xj)( Xj − X).

Page 7: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

7

El terminon∑i=1

k∑j=1

(Xij − Xj)2,

representa la variacion dentro de las muestras. Por el contrario, el termino

n∑i=1

k∑j=1

( Xj − X)2,

representa la variacion entre muestras. Si definimos la cuasivarianza entre las kmuestras posibles, o cuasivarianza intermuestral, como

S2bs =

1k − 1

n∑i=1

k∑j=1

( Xj − X)2, (1.1)

y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral como

S2ws =

1N − k

n∑i=1

k∑j=1

(Xij − Xj)2, (1.2)

se tiene en cuenta la siguiente division de la cuasivarianza poblacional,

(N − 1)S2 = (k − 1)S2bs + (k(n− 1))S2

ws.

Segun esta nomenclatura, podemos expresar las varianzas de los estimadores dela siguiente forma:

V ( Xsmt) =1k

k∑j=1

( Xj − X)2

=1nk

n∑i=1

k∑j=1

( Xj − X)2

=k − 1k

S2bs

n

=(

1− 1k

)S2bs

n=(

1− n

nk

) S2bs

n=(

1− n

N

) S2bs

n= (1− f)

S2bs

n.

V (Xsmt) =N2

nk

n∑i=1

k∑j=1

(Xj − X)2 =

N2

nk

n∑i=1

k∑j=1

(Xj − X)2

=N2

nkS2bs(k − 1)

= N2 (1− f)S2bs

n.

Page 8: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

8

Se observa que las varianzas de los estimadores aumenta cuanto aumenta la cua-sivarianza intermuestral S2

bs. Por lo tanto, para conseguir una mayor eficienciaen el estimador, la variacion entre muestras debe ser lo mas pequena posible, esdecir, que haya homogeneidad dentro de las muestras y que todas las posiblesmuestras sean lo mas parecidas entre sı. Por otra parte,

V ( Xsmt) = (1− f)S2bs

n=k − 1kn

S2bs =

(N − 1)S2 − (N − k)S2ws

N

=N − 1N

S2 − N − kN

S2ws = σ2 − nk − k

nS2ws

= σ2 − n− 1n

S2ws

V (Xsmt) = N2

(σ2 − n− 1

nS2ws

).

Por lo tanto, la varianza de los estimadores sera menor cuanto mayor sea lacuasivarianza intramuestral S2

ws. Por lo tanto, conviene que la variacion dentrode la muestras sea lo mas grande posible, es decir, que haya heterogeneidadentre las muestras.

En el caso del estimador del total de clase y de la proporcion, se obtienenexpresiones similares del tipo

V ( Xsmt) = (1− f)S2bs

n

V (Xsmt) = N2 (1− f)S2bs

n

V (P ) = σ2 − n− 1n

S2ws

V (A) = N2

(σ2 − n− 1

nS2ws

),

donde, en este caso,

S2ws =

1N − k

n∑i=1

k∑j=1

(Aij − Pj)2, S2bs =

1k − 1

n∑i=1

k∑j=1

(Pj − P )2

Ejemplo 5 Consideramos el ejemplo 3 para el cual habıamos obtenido la dis-tribucion en el muestreo para el estimador de la media y del total y la varianzadel estimador.

V ar(Xstm) =152

3+

2 ∗ 422

3− 332 = 162.

Sin embargo, las varianzas tambien pueden calcularse a partir de las formulasdeducidas para la descomposicion de la varianza.

La cuasi-varianza entre las 3 muestras posibles, o cuasivarianza intermues-

Page 9: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

9

tral, viene dado por

S2bs =

1k − 1

n∑i=1

k∑j=1

(Xj − X)2

=1

3− 1

[n∑i=1

(53− 33

9

)2

+ 2(

143− 33

9

)2]

=32

(53− 33

9

)2

+ 3(

143− 33

9

)2

=182.

Analogamente, la cuasivarianza intramuestral, o cuasivarianza dentro de lasmuestras, viene dada por

S2ws =

1N − k

n∑i=1

k∑j=1

(Xij − Xj)2,

=1

9− 3[(1− 5/3)2 + 2(2− 5/3)2 + (3− 14/3)2 + (4− 14/3)2+

(7− 14/3)2 + (5− 14/3)2 + (6− 14/3)2 + (3− 14/3)2]

=146,

y finalmente la cuasivarianza poblacional es igual a

S2 =1

N − 1

n∑i=1

k∑j=1

(Xij − X)2 =328.

Y comprobamos que se cumple la igualdad

(N − 1)S2 = (N − k)S2ws + (k − 1)S2

bs

Ademas, utilizando la expresion para la varianza del estimador mediante la cua-sivarianza intermuestral se tiene que

V ar(Xstm) = N2(1− 39

)93

= 162,

que coincide con el valor obtenido aplicando la definicion de varianza de variablealeatoria.

1.3.1. Comparacion con el muestreo aleatorio simple

La cuasivarianza intermuestral permite comparar el muestreo sistematico conel muestreo aleatorio simple. Ası, debido a que tenemos las siguientes expresiones

V ar( X) = (1− f)S2

n, V ar( Xsmt) = (1− f)

S2bs

n,

Page 10: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

10

se tiene que el muestreo aleatorio simple tiene mas (menos) precision que elmuestreo sistematico cuando S2 < S2

bs (S2 > S2bs) y coinciden en precision

cuando S2 = S2bs. Analogamente, tenemos que

V ar(X) = N2(1− f)S2

n, V ar(Xsmt) = N2(1− f)

S2bs

n.

Ejemplo 6 Comparar el muestreo sistematico dado en el Ejemplo 3 con elrealizado mediante muestreo aleatorio simple.

En este caso particular, se tiene que la cuasivarianza intermuestral S2bs viene

dada por S2bs = 9 y la cuasi-varianza poblacional es de S2 = 4. Como S2 < S2

bs,entonces el muestreo aleatorio simple en este caso particular tiene mas precisionque el realizado mediante muestreo sistematico.

Pasamos ahora al problema de estimacion de las varianzas

1.4. Estimacion de la varianza de los estimado-res

La estimacion de la varianza de los estimadores es uno de los problemas queplantea el uso de este metodo de muestreo ya que no hay un metodo directopara obtener dichas estimaciones a partir de una muestra sistematica. En estepunto, presentamos tres metodos para aproximar la varianza de los estimadores

1. Si la ordenacion de los elementos en la poblacion “puede considerarsealeatoria”, los resultados que proporcionar una muestra sistematica y unamuestra aleatoria simple son similares. Por tanto, podemos estimar lavarianza de los estimadores de los parametros usuales como si se tratasede un muestreo aleatorio simple. En el caso del estimador de la media

V ( Xstm) = (1− f)S2j

n,

donde S2j es la cuasi-varianza de la muestra tomada, mj . Para el resto de

los estimadores se tiene que

V (Xstm) = N2(1− f)S2j

n

V (Pstm) = (1− f)PjQjn− 1

V (Astm) = N2(1− f)PjQjn− 1

.

Para detectar este aleatoriedad en la poblacion examinamos la cuasiva-rianza intermuestral S2

bs y si esta cercana a la cuasivarianza poblacionalpodemos suponer que la poblacion es aleatoria.

Page 11: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

11

2. Metodo de las diferencias sucesivas.Se basa en utilizar la suma de los cuadrados de las diferencias entre cadados elementos consecutivos de la muestra, y ajustando este resultado con-venientemente por una costante, aproximar la estimacion de la varianzadel estimador de la media mediante la expresion

V ( Xsist) =(1− f)

2n(n− 1)

n−1∑i=1

(Xi −Xi+1)2

V (Xsist) =N(N − n)2n(n− 1)

n−1∑i=1

(Xi −Xi+1)2

3. Metodo de las muestras interpenetrantesEn ocasiones, no podemos estimar la varianza del estimador en funcionde la informacion contenida en una sola muestra sistematica. Se llamanmuestras interpenetrantes al conjunto formado por dos o mas muestraselegidas bajo el mismo esquema de muestreo de forma que cada una deellas proporciona un estimador del parametro poblacional θ de interes.

Sea θ1, θ2, . . . , θk, estimadores insesgados del parametro poblacional θ ycon varianza igual a V ∗(θ) basados en k muestras independientes. Su me-dia

θc =1k

k∑i=1

θi,

es tambien un estimador insesgado de θ ya que

E[θc] =1k

k∑i=1

E[θi] =kθ

k= θ,

y su varianza puede calcularse facilmente como

V (θc) =1k2

k∑i=1

V (θi) =V ∗(θ)k

.

Ademas, un estimador insesgado de esta varianza viene dada por

V (θc) =1

t(t− 1)(t∑i=1

θ2i − tθ2c ).

Para aplicar este metodo al muestreo sistematico, en vez de tomar unamuestra sistematica de tamano n a partir de un unico arranque aleatorio,se toman t muestras sistematicas de tamanos n/t a partir de t arranquesaleatorios.

Ejemplo 7 Para t = 2, es decir, considerando dos muestras sistematicascon distintos arranques, obtener las expresiones de los estimadores de losparametros usuales y las estimaciones de sus varianzas considerando elmetodo de las muestras interpenetrantes.

Page 12: Muestreo sistem atico - matematicas.unex.esmatematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf · Cap tulo 1 Muestreo sistem atico El muestreo sistem atico es un tipo

12

Para el estimador de la media

¯Xc =

x1 + x2

2, V (Xc) =

(x1 − x2)2

4.

Para el estimador del total

¯Xc = N

x1 + x2

2, V Xc =

N2(x1 − x2)2

4.

Para el estimador de la proporcion y el total de clase basta con sustituirlas medias muestrales por las proporciones muestrales en las expresionesanteriores de la media y el total, respectivamente.

Ejemplo 8 En un proceso de control de calidad se trata de analizar la pro-duccion de piezas en serie de 13 maquinas. Para ello se controlaron las piezasproducidas por las 13 maquinas en el primer momento de su funcionamiento.La distribucion de piezas producidas por cada maquina en el primer minuto defuncionamiento es:

Maquina 1 2 3 4 5 6 7 8 9 10 11 12 13Numero piezas 5 5 4 2 5 4 5 4 3 4 4 3 2

Para estimar el numero de piezas defectuosas en el proceso de produccionse realiza un muestreo sistematico 1 en 5, es decir, se selecciona una de cadacinco piezas empezando por la primera pieza de la primera maquina hasta quese agoten sus piezas para pasar a continuacion a la primera pieza de la segundamaquina hasta que se agoten sus piezas y ası sucesivamente. Suponiendo quela primera pieza producida por cada maquina es defectuosa y las demas soncorrectas, se pide

Calcular la varianza del estimador de la proporcion de piezas defectuosasproducidas por las maquinas. ¿Existira ganancia en precision respecto deun muestreo aleatorio simple con fraccion de muestreo del 20 %?

Calcular el coeficiente de correlacion intermuestral.

Suponiendo que la distribucion de la poblacion es aleatoria, estimar lavarianza para cada muestra sistematica. ¿Con que muestra sistematicanos quedaremos que mejor represente a la produccion?