MUESTREO ALEATORIO

En

i'1((i&F)2

nF' F2

Tcnicas avanzadas de investigacin social

Pg. 1Pg. 1Pg. 1Pg. 1

1. Muestreo aleatorio. Conceptos bsicos.

1.1. Conceptos bsicos

1.1.1. Resumen de la informacin en poblaciones y muestras1. Media. Si tenemos una poblacin o un conjunto de individuos compuestos por los

nmeros enteros, 0, 1, 2, ...., 9, todos en la misma proporcin, la probabilidad de extraer al azarun determinado nmero ser de 1/10. Las frecuencias relativas pueden ser interpretadas entrminos de probabilidad y, entonces, el histograma de frecuencia relativa sera el de la figura.Supongamos que un nmero se va a seleccionar al azar de una poblacin, y denotemos su valorpor (. Entonces, los posibles valores para ( (0, 1, 2, ....., 9 en este caso) y las probabilidadesasociadas con tales valores (1/10 para cada uno) constituyen la distribucin de probabilidad parala variable aleatoria (. La probabilidad asociada con ( es denotada algunas veces por p((). As,para esta poblacin, p(0) = p(1) = ..... = p(9) = 1/10.

Las medidas numricas usadas para resumir las caractersticas de una poblacin sondefinidas como valores esperados de (, o una funcin de (. Por definicin, el valor esperado de(, E((), est dado por: E(() = 3(p((), para todos los valores de ( para los cuales p(()>0. As,

E(() = 3(p(() = 0p(0) + 1p(1) + ............ + 9p(9) = 45/10 = 4,5.E(() es igual al valor promedio, o valor medio de todas las mediciones de nuestra

poblacin conceptual. En general, una media poblacional ser denotada por F, por lo que F =E((), donde ( es el valor de una medicin individual seleccionada de la poblacin al azar.

La variabilidad de las mediciones en una poblacin puede ser medida por la varianza, quese define como el valor esperado, o valor promedio, del cuadrado de la desviacin entre unamedicin ( seleccionada aleatoriamente y su valor medio F.

V(() = E((-F) = 3((-F) p(() 2 2En este ejemplo, V(() = E((-F) = 3((-F) p((-F) = (0-4,5) (1/10) + ... + (9-4,5) (1/10) = 1/10(82,5) = 8,25.2 2 2 2La varianza V(() es comnmente denotada por

F = , y la desviacin estndar se define como2

En este ejemplo, F = 2,9.En estudios estadsticos, la poblacin de inters consiste en mediciones desconocidas; es

por eso que nicamente podemos especular acerca de la naturaleza del histograma de frecuenciarelativa o del tamao de F y F. Para obtener alguna informacin acerca de la poblacin,seleccionamos una muestra de n mediciones y estudiamos las propiedades de esta muestra. Apartir de lo que observamos en la muestra inferimos las caractersticas de la poblacin. Lasmediciones en la muestra sern denotadas en general por x , x , .... x . La media, la varianza y1 2 9la desviacin estndar vienen dadas, entonces, por:

x' 1nj xi s 2'E(xi&x)

2

n&1 s' s2

F/ F2

1. Conceptos bsicos.


2,3 3,6 4,1 4,3 4,82,6 3,7 4,1 4,3 4,82,6 3,7 4,1 4,4 4,83,2 3,7 4,1 4,5 4,93,3 3,8 4,2 4,7 5,03,4 3,9 4,3 4,7 5,13,5 4,0 4,3 4,7 5,33,5 4,1 4,3 4,8 5,53,6 4,1 4,1 4,8 6,0

Media: , Cuasivarianza: , y Desviacin estndar:

Ntese que s tiene de divisor n-1 en lugar de n. Esto le convierte en un estimador2insesgado de la varianza poblacional.

1.2. Distribuciones de muestreoTenemos una poblacin de nmeros enteros, del 0 al 9, representados en la misma

proporcin. Seleccionamos cincuenta muestras de tamao n=10 de esta poblacin. Las mediasmuestrales 0 para las 50 muestras son:

Un histograma de frecuencias agrupadas ofrecerauna aproximacin a la distribucin de muestreo terica de0, esto es, mostrndonos la manera en que las 0 tienden adistribuirse cuando se toman muestras repetidas. Ladistribucin de muestreo puede ser considerada como unadistribucin de probabilidad para 0. La distribucin de las0 tiende a concentrarse cerca de la media poblacionalF=4,5, y tiene forma monticular (forma de campana o decurva normal).

Estadsticamente, sabemos que la distribucin de muestreo de 0 debe tener una media F,una desviacin estndar , y una forma como la de la curva normal. Esta distribucin tieneun promedio de 4,22 (cercano a 4,5) y una desviacin estndar de 0,79 (cercana a 0,92). Elhistograma de frecuencia tiene tambin forma aproximada de campana, aunque no muy simtrica.

De las propiedades de la curva normal se deduce que aproximadamente el 68 % de losvalores de 0, en un muestreo repetido, debe caer dentro de una desviacin estndar de la mediade la distribucin de muestreo de las 0. Aproximadamente el 95,45 % de los valores de 0, dentrode dos desviaciones estndar de la media. En el ejemplo, los lmites de confianza:

Lc =0 z (s )xa) lc = 4,22 0,79 ----> (3,43 , 5,01), que contiene 39 de 50, esto es, el 78 % de los valores

de 0 de la muestra;b) lc = 4,22 2(0,79) ----> contiene 45 de 50, esto es, el 90 % de las 0.Si la distribucin de muestreo de alguna cantidad muestral no sigue una distribucin

muestral, segn el teorema de Tchebysheff, para cualquier k$1, al menos (1-1/k ) de las2mediciones en cualquier conjunto deben caer dentro de k desviaciones estndar de su media. Porejemplo, haciendo k=2, se obtiene que al menos 3/4 de cualquier conjunto de mediciones debecaer dentro de 2 desviaciones estndar de su media. Considerando la distribucin normal o elteorme de Tchebysheff, la amplitud de cualquier conjunto de mediciones contiene poco ms quecuatro desviaciones estndar. En otras palabras, la desviacin estndar de un conjunto demediciones puede ser, aproximadamente, 1/4 de la amplitud de ese conjunto.



1.3. Covarianza y correlacinFrecuentemente, en un experimento se obtiene

informacin acerca de ms de una variable de inters.Generalmente, estamos interesados en la simple dependenciade un par de variables, tal como la relacin que existe entrepersonalidad e inteligencia. En particular, nos interesa saber silos datos que representan observaciones pareadas de x y x , en1 2un cierto nmero de gente implican una dependencia entre lasdos variables. Si es as, qu tan intensa es la dependencia?Intuitivamente, concebimos la dependencia de dos variablesindicando que una de ellas se incrementa o disminuye comouna consecuencia de un cambio en la otra. Para ello haremosuso de dos medidas de dependencia, la covarianza y elcoeficiente simple de correlacin lineal. En una grfica, sitodos los puntos tienden a formar una lnea recta, las dosvariables son dependientes. De otra manera, la dependencia espoca o nula.

Supngase que conocemos F y F , las medias de x y x1 2 1 2respectivamente, y localizamos esta punto. Seguidamente, semiden las desviaciones (x F y (x F ). En realidad, la1 - 1) 2 - 2covarianza es una medida de cmo varan conjuntamente x y1x , y su frmula es: E[(x - F ) (x - F )]. Cuando x y x se2 1 1 2 2 1 2encuentran relacionados positivamente, entonces si x >F , tambin ser x >F , y viceversa. Por1 1 2 2ello, el resultado de la covarianza ser positivo. Inversamente, si x y x se encuentra relacionados1 2negativamente, cuando x

1. Conceptos bsicos.


medidas descriptivas numricas de la poblacin se denominan parmetros. Un estimador es unafuncin de variables aleatorias observables usado para estimar un parmetro. Por ejemplo, lamedia muestral 0 puede ser usada como un estimador de la media poblacional F, ya que es unafuncin de las observaciones en la muestra. Por ello, querremos seleccionar un plan de muestreoque nos asegure que E(x) = F y que V(x) es pequea.

En general, suponiendo que 2 es un estimador del parmetro 2. Dos propiedades sondeseables para 2:

1. E(2) = 0.2. V(2) = F es pequea.2Un estimador que posee la propiedad 1 se dice que es insesgado. Si podemos contar con

dos estimadores insesgados de 2, generalmente daremos preferencia al que tenga la menorvarianza. Una vez que sabemos qu estimador 2 estamos usando en una situacin y conocemosalgo acerca de su distribucin de probabilidad, podemos evaluar la magnitud del error deestimacin. Definimos el error de estimacin como |2 - 2|. Aunque no podemos establecer queun estimador observado este dentro de una distancia especificada de 2, podemos, al menosaproximadamente, encontrar un lmite e tal que

P(|2 - 2| # e) = 1 - "para cualquier probabilidad deseada 1 - ", donde 0 < " < 1. Si 2 tiene una distribucin

normal, entonces e = z F , donde z es el valor que separa un rea de ("/2) en la cola del lado"/2 2 "/2derecho de la distribucin normal estndar. Si 1 - " = 0,95, entonces, z = 1,96, osea,0,025aproximadamente 2. Al intervalo (2 - e, 2 + e) se denomina intervalo de confianza para 2 concoeficiente de confiabilidad (1 - "), con un lmite inferior de confianza (LIC) y un lmite superiorde confianza (LSC).



2. Elementos del problema de muestreo

2.1. Trminos tcnicos1. Un elemento es un objeto en el cual se toman las mediciones. En una encuesta, por

ejemplo, para estimar la proporcin de votantes en una comunidad que favorecen la emisin debonos, un elemento es un votante registrado en la comunidad. La medicin tomada es lapreferencia del votante con respecto a la emisin de bonos.

2. Una poblacin es una coleccin de elementos acerca de los cuales deseamos haceralguna inferencia. La poblacin en este ejemplo es la coleccin de votantes en la comunidad. Unatarea importante es definir cuidadosa y completamente la poblacin antes de recolectar lamuestra. La definicin debe contener una descripcin de los elementos que sern incluidos y unaespecificacin de las mediciones que se van a considerar, ya que estos componentes estninterrelacionados.

3. Las unidades de muestreo son colecciones (no traslapadas) de elementos de la poblacinque cubren la poblacin completa. En el ejemplo, una unidad de muestreo puede ser un votanteregistrado en la comunidad. Si los hogares son las unidades de muestreo, estos deben serdefinidos de tal manera que ningn votante en la poblacin pueda ser muestreado ms de una vezy que cada votante tenga una oportunidad de ser seleccionado en la muestra. Si cada unidad demuestreo contiene uno y solamente un elemento de la poblacin, entonces una unidad demuestreo y un elemento de la poblacin son idnticos.

4. Un marco es una lista de unidades de muestreo. Si especificamos al votante individualcomo la unidad de muestreo, una lista de todos los votantes registrados puede servir como elmarco para una encuesta de opinin pblica. Este marco, seguramente, no incluir todos loselementos de la poblacin, ya que las listas no estarn actualizadas, existirn muchos jefes defamilia no registrados como tal, etc. El objetivo es que la diferencia del marco con respecto a lapoblacin sea lo bastante pequea como para permitir que se hagan inferencias acerca de lapoblacin basndose en una muestra obtenida del marco. Algunos esquemas de muestreo puedenrequerir marcos mltiples; por ejemplo, primero una relacin de manzanas de la ciudad, ysegundo, una relacin de votantes dentro de las manzanas seleccionadas.

5. Una muestra es una coleccin de unidades seleccionadas de un marco o de variosmarcos. Los datos son obtenidos de los elementos de la muestra y usados para describir a lapoblacin.

2.2. Como seleccionar la muestra: el diseo de la encuesta por muestreoEl objetivo del muestreo es estimar parmetros de la poblacin, tales como la media o el

total, con base en la informacin contenida en una muestra. El experimentador controla lacantidad de informacin contenida en la muestra por medio del nmero de unidades muestralesque incluye en la muestra y por el mtodo usado para seleccionar los datos muestrales. Cmo

2. Elementos del problema de muestreo.


podemos determinar cul procedimiento usar y el nmero de observaciones (unidadesmuestrales) a incluir en la muestra? La respuesta depende de cunta informacin se deseecomprar. Si 2 es el parmetro de inters, y 2 es un estimador de 2, debemos especificar un lmitepara el error de estimacin; esto es, debemos especificar que 2 y 2 difieran en valor absoluto enuna cantidad menor que e. Representado simblicamente,

error de estimacin = |2 - 2| < e.Debemos establecer tambin una probabilidad (1 - "), que especifica la fraccin de las

veces en muestreo repetido en que requerimos que el error de estimacin sea menor que e:P (error de estimacin < e) = 1 - ".

El error e es igual a zF . Usualmente, z = 2, por lo que e = 2F , y (1 - ") ser2 2aproximadamente 0,95 para distribuciones en forma de campana.

Despus de obtener un lmite especfico con su probabilidad asociada (1 - "), podemoscomparar diseos diferentes (mtodos de seleccin de la muestra) para determinar culprocedimiento proporciona la precisin deseada al mnimo costo. El diseo bsico, el muestreoirrestricto aleatorio, consiste en seleccionar un grupo de n unidades muestrales de tal manera quecada muestra de tamao n tenga la misma oportunidad de ser seleccionada. Una muestrairrestricta aleatoria, en el ejemplo anterior de los bonos, contiene tanta informacin sobre lapreferencia de la comunidad como cualquier otro diseo de muestre, siempre y cuando todos losvotantes en la comunidad tengan caractersticas socioeconmicas similares.

Sin embargo, supngase que la comunidad consta de personas de dos diferentes grupos deingresos, alto y bajo. Los votantes en el grupo alto pueden tener opiniones sobre la emisin debonos que sean muy diferentes de las opiniones de los votantes en el grupo bajo. Es por esto quepara obtener una informacin exacta, deberemos muestrear votantes de cada grupo. Podemosdividir los elementos de la poblacin en dos grupos o estratos, de acuerdo al ingreso, yseleccionar una muestra irrestricta aleatoria de cada grupo. A la muestra resultante se le llamamuestra aleatoria estratificada.

Aunque se desean preferencias individuales en la encuesta, un procedimiento mseconmico, especialmente en reas urbanas, puede ser el muestrear familias especficas, edificiosde apartamentos o manzanas de la ciudad, en lugar de votantes individuales. Las preferenciasindividuales pueden ser obtenidas de cada votante elegible dentro de cada unidad muestreada.Esta tcnica es llamada muestreo por conglomerados. Aunque la poblacin ha sido dividida engrupos, tanto en muestreo por conglomerados como en muestreo aleatorio estratificado, lastcnicas son diferentes. En la segunda tomamos una muestra aleatoria simple en cada estrato,mientras que en la primera tomamos una muestra aleatoria simple de grupos y entoncesmuestreamos todos los elementos de los grupos seleccionados (conglomerados).

Algunas veces, los nombres de las personas en la poblacin de inters se encuentran en unlistado, tal como una lista de registro, o en tarjetas de archivo. Para esta situacin, una tcnicaeconmica es extraer la muestra mediante la seleccin de un nombre cerca del principio de lalista y luego seleccionar cada diez o quince nombres despus del anterior. Si el muestreo esconducido de esta manera, obtenemos una muestra sistemtica.



2.3. Fuentes de error en las encuestasEl error de estimacin se debe a que una muestra no proporciona informacin completa

sobre una poblacin. Esta clase de error es llamada error de muestreo, y puede ser controlado porun diseo cuidadoso de la encuesta. Sin embargo, otro tipo de errores, ms difcil de controlar,pueden introducirse imperceptiblemente en la encuesta. Una causa importante de error es la norespuesta de un individuo seleccionado, que puede introducir un sesgo en los datos muestrales.Por ejemplo, en una encuesta para determinar la aceptacin de los empleados del pago de unacuota mensual por estacionamiento, es bastante probable que nicamente las personas que seopongan enrgicamente al pago de la cuota sean quienes respondan a un cuestionario por correo.

Un segundo problema es que los respondientes dan frecuentemente informacin falsa, aveces por temor, otras por errores de definicin en las preguntas de la encuesta. Otro problemaconcierte a los cambios arbitrarios en los elementos muestrales: los datos deben ser obtenidos delas unidades muestrales exactas que fueron seleccionadas de acuerdo al diseo de muestreo. Unentrevistador no debe sustituir por el vecino ms prximo a una persona que fue seleccionada,ya que la muestra seleccionada con un diseo tiene ms probabilidades conocidas asociadas aella.

1. Reentrevistas. La no respuesta puede ser minimizada teniendo preparado un plancuidadoso para reentrevistas sobre los elementos muestreados. Un nmero fijo de reentrevistasdebe ser requerido para cada elemento muestreado, y estas reentrevistas deben ser en diferentesdas de la semana y a diferentes horas del da. Es importante obtener algunas respuestas en almenos un subconjunto de las no respuestas originales.

2. Recompensas e incentivos. En algunas ocasiones, una tctica apropiada para estimularlas respuestas es ofrecer un premio por la respuesta. Los premios deben ser ofrecidos aparticipantes potenciales en un estudio nicamente despus de que han sido seleccionados parala muestra mediante algn procedimiento objetivo. El tomar como la muestra a aquellos queresponden a un premio anunciado no suele ser apropiado, ya que quienes responden a tal alicientepueden ser no representativos de la poblacin objetivo.

3. Entrevistadores adiestrados. La habilidad de un entrevistador est directamenterelacionada a la calidad y cantidad de la informacin resultante de una encuesta. Los buenosentrevistadores pueden hacer las preguntas de tal manera que se estimule a respuestas honestas,y pueden notar la diferencia entre quienes realmente desconocen la respuesta y aquellos quesimplemente no desean contestar.

4. Verificacin de datos. Los cuestionarios completados deben ser cuidadosamenteanalizados por alguien diferente al entrevistador, para verificar si han sido llenadoscorrectamente. En esta etapa se debe revisar la informacin mediante un sistema preestablecidopara detectar errores reconocibles en la informacin. Las amplitudes de las mediciones puedenser verificadas para separar los casos en que, digamos, la edad de una persona es listada como1000. Los datos pueden comprobarse en un cuestionario bien diseado para ver, por ejemplo, sila edad indicada por el respondiente concuerda con el ao de nacimiento anotado. Los resultadosde la encuesta deben ser representativos de la poblacin, y algunas veces los datos han de serverificados con otros datos conocidos para ver si existen reas potenciales de problemas.

5. Construccin del cuestionario. Tras seleccionar la muestra, lo ms importante de unaencuesta bien estructurada, informativa y exacta es un cuestionario diseado apropiadamente.



2.4. Mtodos de recoleccin de datos1. Entrevista personal. Este procedimiento requiere que el entrevistador realice preguntas

preparadas y registre las respuestas del entrevistado. La ventaja es que, usualmente, la genteresponde cuando es confrontada en persona. Adems, el entrevistador puede notar reaccionesespecficas y eliminar malos entendidos acerca de las preguntas. Aparte del gran costo que estemtodo supone, la mayor limitacin est relacionada con la preparacin de los entrevistadoresy los sesgos que stos pueden introducir en los resultados. Cualquier movimiento, expresinfacial o aseveracin hecha por el entrevistador puede afectar la respuesta obtenida.

2. Entrevistas por telfono. Las encuestas realizadas a travs de entrevistas telefnicas sonfrecuentemente menos costosas que las personales, debido a la eliminacin de gastos detransporte. Un problema importante es el establecimiento de un marco que corresponda fielmentea la poblacin. Los directorios telefnicos tienen muchos nmeros que no corresponden ahogares, y muchos hogares tienen nmeros que no aparecen en el directorio. Una tcnica queevita este problema es marcar los dgitos aleatoriamente, seleccionando primero una reatelefnica, y marcando los ltimos dgitos aleatoriamente. Este tipo de entrevistas ha de hacerseen un perodo ms corto que las entrevistas personales, ya que los entrevistados tienden aimpacientarse cuando se est hablando por telfono. Con cuestionarios propiamente diseadosy entrevistadores adiestrados, las entrevistas por telfono pueden tener tanto xito como lasentrevistas personales.

3. Cuestionarios autoaplicados. Estos cuestionarios usualmente son enviados por correoa los individuos incluidos en la muestra. Deben ser cuidadosamente construidos si se deseaestimular la participacin de los respondientes. El cuestionario autoaplicado no requiereentrevistadores, por lo que supone un ahorro, pero tambin una tasa de respuesta ms baja. Lano respuesta es mayor en esta tcnica al tener el menor contacto con los respondientes, lo quepuede producir importantes sesgos. Una solucin es establecer contacto con los no respondientesa travs de cartas de seguimiento, entrevistas por telfono o entrevistas personales.

4. Observacin directa. Si estamos interesados en estimar el nmero de camiones quecirculan por determinado camino durante las horas de mayor trnsito, podemos asignar a unapersona para contabilizarlo. Posiblemente se utilizara un equipo de conteo electrnico. Ladesventaja de usar un observador estriba en la posibilidad de errores en la observacin.

2.5. Diseo de un cuestionario1. Ordenamiento de las preguntas. El ordenamiento de las preguntas afecta las respuestas,

algunas veces de maneras que parecen impredecibles para el investigador inexperto. La actitudhacia una pregunta en una encuesta est frecuentemente determinada por las preguntas anterioresrelacionadas con el mismo tema. Los investigadores que van a disear un cuestionario debentener cuidado con los problemas comunes de ordenamiento de pregunta y respuesta, considerandolas siguientes tcnicas:

a) Cuestionarios con diferentes ordenamientos para diferentes subconjuntos de la muestra.b) Usar letreros o repeticin de preguntas para un mejor entendimiento.



c) Explicacin durante el anlisis de los datos del contexto en el que se hizo la pregunta.2. Preguntas abiertas contra preguntas cerradas. Ya que los cuestionarios actuales son

frecuentemente diseados para ser contabilizados electrnicamente despus de ser completados,la mayora de las preguntas deben ser preguntas cerradas (con una respuesta numrica simple ocon un nmero fijo de selecciones predeterminadas) para permitir una fcil codificacin yanlisis. Las preguntas abiertas permiten al respondiente la libre expresin de una respuesta noestructurada, matizando el significado de la respuesta. Pero esto puede ocasionar grandesdificultades en el anlisis, porque las respuestas pueden no ser fcilmente cuantificables.

3. Opcin de respuesta. En casi cualquier pregunta, el respondiente puede decir que no sabeo que no tiene una opcin. Ya que tales respuestas no dan informacin til acerca de la preguntay esencialmente reducen el tamao de muestra, trataremos de evitar el uso de esas opciones. Elrespondiente es forzado, entonces, a elegir entre las respuestas informativas listadas, a menos queel entrevistador decida que simplemente no se puede hacer tal eleccin.

4. Redaccin de las preguntas. Las preguntas deben ser hechas en una forma equilibraday clara; en lugar de Apoya usted la aplicacin de la pena de muerte?, sera mejor Apoyausted la pena de muerte o se opone a ella?. Otros errores pueden ser introducidos al haber unacontraposicin en el texto de la pregunta, o por existir una eleccin inapropiada de las palabras.

2.6. Planificacin de una encuesta1. Establecimiento de objetivos.2. Definicin de la poblacin objetivo.3. Seleccin del marco.4. Diseo de muestreo.5. Mtodo de medicin.6. Instrumento de medicin.7. Seleccin y adiestramiento de los investigadores de campo.8. Prueba piloto.9. Organizacin del trabajo de campo.10. Organizacin del manejo de datos.11. Anlisis de los datos.


Pg. 10Pg. 10Pg. 10Pg. 10


Pg. 11Pg. 11Pg. 11Pg. 11

3. Muestreo irrestricto aleatorio

El objetivo de una encuesta por muestreo es hacer una inferencia acerca de la poblacin conbase en la informacin contenida en una muestra. Dos factores afectan la cantidad de informacincontenida en la muestra y, por lo tanto, afectan la precisin de nuestro procedimiento de hacerinferencias. El primero es el tamao de la muestra seleccionada de la poblacin. El segundo esla cantidad de variacin en los datos; la variacin frecuentemente puede ser controlada por elmtodo de seleccin de la muestra. El procedimiento para seleccionar la muestra se denominadiseo de la encuesta por muestreo. Para un tamao de muestra fijo, n, consideraremos diversosdiseos, o procedimientos de muestreo, para obtener las n observaciones en la muestra. Latcnica de muestreo llamada muestreo irrestricto aleatorio se analiza en este captulo.

Definicin. Si un tamao de muestra n es seleccionado de una poblacin de tamao N detal manera que cada muestra posible de tamao n tiene la misma probabilidad de serseleccionada, el procedimiento de muestreo se denomina muestreo irrestricto aleatorio. A lamuestra as obtenida se le llama muestra irrestricta aleatoria.

Pero, cmo seleccionar la muestra irrestricta aleatoria?, y cmo estimar los diversosparmetros poblacionales de inters?

3.1. Cmo seleccionar una muestra irrestricta aleatoriaPara seleccionar una muestra de una poblacin, de tal manera que cada muestra posible de

tamao n tenga la misma probabilidad de ser seleccionada, podemos usar nuestro criterio; estatcnica se denomina muestreo casual. Una segunda tcnica consiste en seleccionar una muestraque consideramos que es tpica o representativa de la poblacin; se trata del muestreorepresentativo. Tanto el muestreo representativo como el casual estn sujetos al sesgo delinvestigador y, lo que es ms importante, conducen a estimadores cuyas propiedades no puedenser evaluadas. Por lo tanto, ninguna de estas tcnicas genera una muestra irrestricta aleatoria.

Muestras irrestrictas aleatorias pueden ser seleccionadas usando, por ejemplo, tablas denmeros aleatorios. Si un nmero aleatorio ocurre dos veces, se omite la segunda ocurrencia,seleccionado el siguiente como su reemplazo.

3.2. Estimacin de una media y un total poblacionalesEl objetivo de la encuesta por muestreo es hacer inferencias acerca de una poblacin a

partir de la informacin contenida en una muestra. Una manera es estimar ciertos parmetros dela poblacin, utilizando la informacin de la muestra. El objetivo de una encuesta por muestreoes, frecuentemente, estimar luna media poblacional, denotada por , o un total poblacional,denotado por J. Supngase que una muestra irrestricta aleatoria de n cuentas es seleccionada, yque vamos a estimar el valor medio por cuenta para la poblacin total de registro de un hospital.Intuitivamente, emplearamos el promedio muestral 0 = 3x / n, para estimar .i

F2n

( N&nN&1

)

F2n

( N&nN&1

)

F2n

( N&nN&1

)

s 2

n( N&n

N&1)

Ex 2i &nx2n&1

E(xi&x)2n&1

z V )(x)'z s2

n( N&n

N)

3. Muestreo irrestricto aleatorio.

Pg. 12Pg. 12Pg. 12Pg. 12

Por supuesto, un valor de 0 revela muy poco acerca de la media poblacional , al menosque podamos evaluar la bondad de nuestro estimador. Por lo tanto, adems de estimar , nosgustara fijar un lmite sobre el error de estimacin. Puede demostrarse que 0 posee muchaspropiedades deseables para estimar , y tiene una varianza que decrece conforme el tamao dela muestra n se incrementa. Ms precisamente, para una muestra irrestricta aleatoria, seleccionadasin reemplazo de una poblacin de tamao N,

E (0 ) = , y V (0 ) =

Problema 1. Tenemos una poblacin de N = 4 mediciones, dadas por {1, 2, 3, 4}. Cadaobservacin unitaria x tiene una probabilidad de 1/4.i

= E(x) = 3x p(x) = (1/4)(1+2+3+4) = 2,50.F = V(x) = E(x - ) = 3(x - ) p(x) = 5/4.2 2 2Ahora, si tomamos una muestra aleatoria de tamao n = 2 (sin reemplazo) de esta

poblacin, existen seis muestra posibles, cada una con una probabilidad de 1/6: {1, 2}, {1, 3},{1, 4}, {2, 3}, {2, 4}, {3, 4}. Las seis medias muestrales, 0, son respectivamente, 1'5, 2'0, 2'5,2'5, 3'0, y 3'5. As,

E(0 ) = 30 p(0) = (1,5)(1/6) + ....... + (3,5)(1/6) = 2,50 = .V(0) = E(0 - ) = 3(0 - ) p(0) = 5/12.2 2Recordando, para este ejemplo, que F = 5/4, N = 4, y n = 2, tenemos que,2

= 5/12 = V(0).

Por lo tanto, se ve que E(0) = , y que V(0) =

Formulario._____________________________________________________

Estimador de la media poblacional : = 0 = 3x / n i Varianza estimada de 0: V(0 ) = , donde s = = 2

Lmite para el error de estimacin:

______________________________________________________________

La cantidad (N - n) / N se denomina correccin por poblacin finita (cpf). Cuando npermanezca pequea con respecto al tamao de la poblacin N, n # (1/20)N, entonces la cpfestar cercana a la unidad, la cpf puede despreciarse, y la varianza estimada ser 0 = s / n.2

Problema 2. Existen N = 1000 registros de pacientes, y tomamos una muestra aleatoria den = 200 cuentas. La media muestral de la deuda fue 0 = $94,22, y la varianza muestral es 445,21.Estimar (el promedio de la deuda para las 1000 cuentas del hospital), y establecer un lmitepara el error de estimacin.

El lmite para el error de estimacin, con z = 2, es e = $2,67. = 0 = $94,22.Ya que n es grande, la media muestral tendr una distribucin aproximadamente normal,

as que ($94,22 $2,67) es un intervalo de confianza para la media poblacin del 95,45%.

N 2 s2

n( N&n

N

z V )(Nx)'z N 2 s2

n( N&n

N

z V )(x)'B


Pg. 13Pg. 13Pg. 13Pg. 13

Problema 3. Una muestra irrestricta aleatoria de n = 9 registros del hospital es seleccionadapara estimar la cantidad promedio de la deuda sobre N = 484 cuentas abiertas. Sus valores son{33'50, 32'00, 52'00, 43'00, 40'00, 41'00, 45'00, 42'50, 39'00}. Estimar (la cantidad promediode la deuda), y establecer un lmite para el error de estimacin.

0 = x / 9 = 368/9 = $40,89.is = 3(x - 0) /(n-1) = 35,67.2 2iEl lmite para el error de estimacin, para z = 2, ser e = $3,94.As, = $40,89 con un error de estimacin menor de $3,94.

Formulario._______________________________________________________

El total poblacional, denotado por J, es la suma de todas las observaciones en la poblacin,y responde a J = N .

Estimador del total poblacional J: J = N0.Varianza estimada de J: V(J) = V(N0) =


Ntese que la varianza estimada de J es N veces la varianza estimada de 0.2__________________________________________________________________

Problema 4. Una empresa industrial est interesada en el tiempo por semana que loscientficos emplean para ciertas tareas triviales. Las hojas de control del tiempo de una muestrairrestricta aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleadoen esas tareas es de 10,31 horas, con una varianza muestral de 2,25. La compaa emplea N=750cientficos. Estimar el nmero total de horas hombre que se pierden por semana en las tareasinsignificantes y establezca un lmite para el error de estimacin.

J = N0 = 750(10,31) = 7732,5 horas.El lmite para el error de estimacin, con z = 2, es de e = 307,4 horas.

3.3. Seleccin del tamao de muestra para estimar la media y total poblacionalesLas observaciones cuestan dinero. Por lo tanto, si la muestra es muy grande, tiempo y

talento son desperdiciados. Por el contrario, si el nmero de observaciones incluidas en lamuestra es muy pequeo, compramos informacin inadecuada, por lo que nuevamente hacemosun mal gasto. El nmero de observaciones necesarias para estimar una media poblacional conun lmite para el error de estimacin de magnitud B, se encuentra al establecer dos desviacionesestndar del estimador 0 igual a B, y resolviendo esta expresin para n. Es decir, debemosresolver:

NF2(N&1)D%F2

z V(Nx)'B zN V(x)'B

NF2(N&1)D%F2


Pg. 14Pg. 14Pg. 14Pg. 14

Usando las ecuaciones anteriores, se puede encontrar la frmula para hallar el tamao demuestra requerido para estimar con un lmite para el error de estimacin B.

n = , donde D = B / z2

En una situacin prctica, la solucin para n presenta un problema debido a que la varianzapoblacional F es desconocida. Puesto que la varianza muestral s frecuentemente se encuentra2 2disponible de un experimento anterior, podemos obtener un tamao de muestra aproximado alreemplazar F por s en la ecuacin. Si N es muy grande, el (N-1) puede ser reemplazado por N.2 2

Problema 1. Calcular la cantidad promedio de dinero para las cuentas por cobrar de unhospital. No conocemos la varianza poblacional F , pero se sabe que la mayora de las cuentas2caen dentro de una amplitud de variacin de $1000 cuentas abiertas. Encontrar el tamao de lamuestra necesaria para estimar con un lmite para el error de estimacin B = $3.

Necesitamos una estimacin de F . La amplitud de variacin es aproximadamente igual a24 desviaciones estndar (4F). As,

100 = 4F ----> F 100/4 = 25 --------> F 6252Por otro lado, D = B /z = 9/4 = 2,25.2 2As, segn la frmula anterior, n =217,56 218 observaciones para estimar con un lmite

para el error de estimacin de $3,00.

De manera semejante, podemos determinar el nmero de observaciones necesarias paraestimar un total poblacional J, con un lmite para el error de estimacin de magnitud B. Eltamao de muestra requerido se encuentra al establecer dos desviaciones estndar del estimadorigual a B y resolviendo esta expresin para n. Esto es, debemos resolver

, o El tamao de la muestra requerido para estimar J con un lmite de error B, ser,

n = , donde D = B /4N .2 2

Problema 2. Un investigador est interesado en estimar la ganancia en peso total en 0 a 4semanas de N = 1000 polluelos alimentados con una nueva racin. Determinar el nmero depolluelos que sern seleccionados en este estudio para estimar J con un lmite para el error deestimacin igual a 1000 gramos. Estudios similares sobre nutricin de polluelos en el pasadoindican que la varianza poblacional fue aproximadamente igual a 36,00 gramos.

D = B /4N = 0,25.2 2Por lo que n 125,98.

3.4. Estimacin de una proporcin poblacionalMuchas veces estaremos interesados en estimar la proporcin de la poblacin que posee

una caracterstica especfica. Un grupo de investigacin de mercados puede estar interesado ensaber qu porcentaje de ventas corresponde a un producto en particular. Muchos de estos

p qn&1 (

N&nN&1)

z V )(p)'z pqn&1 (

N&nN

Npq(N&1)D%pq


Pg. 15Pg. 15Pg. 15Pg. 15

ejemplos muestran una caracterstica del experimento binomial, esto es, una observacinpertenece o no a la categora de inters. Denotaremos la proporcin poblacional por p, y a suestimador por p. Las propiedades de p en muestreo irrestricto aleatorio son equiparables a lasde la media muestral 0 si las mediciones de la respuesta se definen como sigue: sea x = 0 si elii-simo elemento seleccionado no posee la caracterstica especfica, y x = 1 si la posee. Entonces,iel nmero de elementos en una muestra de tamao n que posee una caracterstica especfica es3x . Si seleccionamos una muestra irrestricta aleatoria de tamao n, la proporcin muestral pies la fraccin de elementos en la muestra que poseen la caracterstica de inters. As, segn loanterior,

p = (3x )/ n = 0iPor esta misma razn, tambin podemos pensar en p como p =

Formulario. _______________________________________________________

Estimador de la proporcin poblacional p: p = 0 = (3x )/ niVarianza estimada de p: V(p) = , donde q = 1 - p.

Lmite para el error de estimacin: ___________________________________________________________________

Problema 1. Una muestra irrestricta aleatoria de n = 100 estudiantes del ltimo ao de uncolegio fue seleccionada para estimar: a) la fraccin de N = 300 estudiantes que asistirn a launiversidad, y b) la fraccin de estudiantes que han tenido trabajos de tiempo parcial durante suestancia en el colegio. Denotaremos por y = 0 si el i-simo estudiante no planea asistir a laiuniversidad, y x = 0 si no ha tenido un trabajo a tiempo parcial. A travs de una encuestaisabemos que 15 alumnos de la muestra desean estudiar en la universidad, y que 65 han tenidoun trabajo a tiempo parcial. Estimar p , la proporcin de estudiantes del ltimo ao que planea1asistir a una universidad, y p , la proporcin de estudiantes del ltimos ao que ha tenido un2trabajo a tiempo parcial durante sus cursos en el colegio.

Las proporciones muestrales estn dadas por p = 0,15 y p = 0,65.1 2Los lmites de error, resolviendo las frmulas, son respectivamente 0,059 y 0,078.Por lo tanto, estimamos que el 15 % de los estudiantes del ltimo ao planea asistir a una

universidad con un lmite para el error de estimacin del 5,9 %, y que un 65 % ha tenido untrabajo de tiempo parcial durante su estancia en el colegio, con un lmite para el error deestimacin del 7,8 %.

El tamao de muestra requerido para estimar p con un lmite para el error de estimacinB:

n = , donde p = 1-p y D = B /4.2

Problema 2. Se desea realizar una encuesta para determinar la proporcin de estudiantesque est a favor de una propuesta de cdigo de honor. Determinar el tamao de muestra necesariopara estimar p con un lmite para el error de estimacin de magnitud B=0,05. No existe

1nj ( xiBi )

1n(n&1)j ( xiBi&Jppt)

z V )(Jppt)

ppt'1NJppt' 1Nnj ( xiBi

1N 2n(n&1)j ( xiBi&Jppt)

z V(ppt)


Pg. 16Pg. 16Pg. 16Pg. 16

informacin previa disponible para estimar p, y N=2000 estudiantes.D = 0,000625, y tomando p = q = 0.5 como el peor de los casos, n = 333,56.Problema 3. Supngase que tambin se desea estimar el nmero de estudiantes que

considera que la organizacin del consejo estudiantil funciona de acuerdo a sus necesidades.Determinar el tamao de muestra combinado que se requiere en una encuesta para estimar p , la1proporcin de quienes estn a favor de la propuesta de cdigo de honor, y p , la proporcin de2los que opinan que el consejo estudiantil funciona de acuerdo con sus necesidades, con lmitespara los errores de estimacin de magnitud B =0,05, y B =0,07. En una encuesta similar el ao1 2anterior, se estim que aproximadamente el 60 % de los estudiantes opinaban que el consejosatisfizo adecuadamente sus necesidades.

D = 0,001225.Con p =0,60 -----> n = 178,52.2El tamao de muestra requerido para lograr ambos objetivos es el mayor de los dos: 334.

3.5. Muestreo con probabilidades proporcionales al tamaoVariando las probabilidades con que las diversas unidades de muestreo son seleccionadas,

algunas veces resulta ventajoso. Si, por ejemplo, deseamos estimar el nmero de empleosvacantes en una ciudad, muestreando empresas industriales dentro de ella, encontraremos quemuchas de las empresas sern muy pequeas, mientras que otras sern muy grandes. Una muestrairrestricta aleatoria, no tomara esto en cuenta, por lo que una muestra tpica contendr en sumayora empresas pequeas, que emplean pocos obreros. Podemos mejorar la muestra irrestrictaaleatoria dando a las empresas grandes una mayor oportunidad de aparecer en la muestra, usandoel muestreo con probabilidades proporcionales al tamao o muestreo ppt.

Designaremos B como la probabilidad de que x aparezca en la muestra.i iFormulario. __________________________________________________________

Estimador del total poblacional J: J = ppt

Varianza estimada de J : V(J ) = ppt ppt


Estimador de la media poblacional :

Varianza estimada de : V( ) = ppt ppt



Pg. 17Pg. 17Pg. 17Pg. 17

Tablero Nmero deComponentes

Intervaloacumulado

B i1 10 1-10 10/150

2 12 11-22 12/150

3 22 23-44 22/150

4 8 45-52 8/150

5 16 53-68 16/150

6 24 69-92 24/150

7 9 93-101 9/150

8 10 102-111 10/150

9 8 112-119 8/150

10 31 120-150 31/150

___________________________________________________________________Los estimadores J y son insesgados para cualquier seleccin de B , pero claramenteppt ppt i

el inters del experimentador es seleccionar las B de tal manera que las varianzas de losiestimadores sean lo ms pequeas posibles. La forma prctica de elegir las B se seleccionarlaside manera proporcional a una medida conocida que est altamente correlacionada con x . En eliproblema de estimar el nmero total de empleos vacantes, las empresas pueden ser seleccionadascon probabilidades proporcionales a su fuerza de trabajo total, que debe ser conocida conexactitud antes de seleccionar la muestra. Si bien el nmero de empleos vacantes por empresase desconoce antes del muestreo, ste estar altamente correlacionado con el nmero total deobreros en la empresa.

Problema 1. Un investigador desea estimar el nmero promedio de defectos pro tablero quecontienen componentes electrnicos. Los tableros contienen un nmero diferente decomponentes, y el investigador considera que el nmero de defectos debe estar positivamentecorrelacionado con el nmero de componentes en un tablero. Por lo tanto, se utilizar unmuestreo ppt., siendo la probabilidad de seleccionar cualquier tablero para la muestraproporcional al nmero de componentes en el tablero. Una muestra de n = 4 tableros serseleccionada de N = 10 tableros de la produccin de un da. El nmero de componentes en los10 tableros son, respectivamente, 10, 12, 22, 8, 16, 24, 9, 10, 8,31. Mostrar como seleccionar n=4con probabilidades proporcionales al tamao.

Hay 150 componentes en la poblacin que sermuestreada, numerados del 1 al 150. Se ve en el cuadroque los tableros con mayor nmero de componentestienen mayores probabilidades de seleccin.

Para seleccionar una muestra de n=4 tableros,acudimos a la tabla de nmeros aleatorios yseleccionamos cuatro nmeros aleatorios entre el 1 y el150, saliendo el 14, 56, 94 y 25. Localizamos estosnmeros en la columna del intervalo acumulado, y lostableros correspondientes a esos intervalos constituyenla muestra: tableros 2, 3, 5 y 7. Ntese que con estemtodo podramos haber seleccionado un tablero enparticular ms de una vez.

Problema 2. Despus de que el muestreo delproblema anterior fue completado, el nmero de

defectos encontrados en los tableros 2, 3, 5 y 7 fueron, respectivamente, 1, 3, 2 y 1. Estimar elnmero promedio de defectos por tablero y establecer un lmite para el error de estimacin.

Resolviendo las ecuaciones, con n=4, N=10, x =1, x =3, x =2, y x =1:1 2 3 4La media estimada es: = 68,37/40 = 1,71.pptLa varianza estimada es: V( ) = 0,0295.pptEl lmite para el error de estimacin: 0,34.As, la estimacin del nmero promedio de defectos por tablero, con un lmite para el error

de estimacin, es entonces, 1,71 0,34. El intervalo (1,37, 2,05) proporciona un intervalo deconfianza de aproximadamente 95 % para el nmero promedio de defectos por tablero.


Pg. 18Pg. 18Pg. 18Pg. 18


Pg. 19Pg. 19Pg. 19Pg. 19

4. Muestreo aleatorio estratificado

Definicin. Una muestra aleatoria estratificada es la obtenida mediante la separacin delos elementos de la poblacin en grupos que no presenten traslapes, llamados estratos, y laseleccin posterior de una muestra irrestricta aleatoria simple de cada estrato.

Los motivos principales para utilizar muestreo aleatorio estratificado son:1. La estratificacin puede producir un lmite ms pequeo para el error de estimacin que

el que se generara mediante una muestra irrestricta aleatoria del mismo tamao. Esto esparticularmente cierto si las mediciones dentro de los estratos son homogneas.

2. El costo por observacin en la encuesta puede ser reducido mediante la estratificacinde los elementos de la poblacin en grupos convenientes.

3. Se pueden obtener estimaciones de parmetros poblacionales para subgrupos de lapoblacin. Los subgrupos deben ser, entonces, estratos identificables.

4.1. Cmo seleccionar una muestra aleatoria estratificadaEl primer paso en la seleccin de una muestra aleatoria estratificada es especificar los

estratos claramente, ubicando cada unidad muestral en el estrato apropiado. Despusseleccionamos una muestra irrestricta aleatoria de cada estrato. Las muestras seleccionadas enlos estratos deben ser independientes, es decir, se deben aplicar diferentes esquemas de muestreoaleatorio dentro de cada estrato, de tal manera que las observaciones elegidas en un estrato nodependan de las que se han elegido en otro estrato. Designaremos por L al nmero de estratos,por N al nmero de unidades muestrales en el estrato i, y por N al nmero de unidadesimuestrales en la poblacin.

Es el caso, por ejemplo de una empresa publicitaria desea realizar una encuesta paraestimar el nmero promedio de horas por semana que se ve la televisin en un determinadomunicipio, el cual comprende dos pueblos (A y B), y un rea rural. El pueblo A circunda unafbrica, y la mayora de los hogares son de trabajadores fabriles con nios en edad escolar. Elpueblo B es un suburbio exclusivo de una ciudad vecina y consta de habitantes ms viejos conpocos nios en casa. Existen 155 hogares en el pueblo A, 62 en el pueblo B, y 93 en el rea rural.

La poblacin dividida en tres estratos bien identificados es natural por convenienciaadministrativa para seleccionar las muestras y para ejecutar el trabajo de campo. Adems, loselementos de cada estrato deben presentar tendencias similares de comportamiento entre ellosmismos, por lo que se espera relativamente poca variabilidad en el nmero de horas que se vela televisin en los hogares de cada grupo, reduciendo el lmite para el error de estimacin. Parala muestra aleatoria estratificada, tenemos N =155, N =62, y N =93, con N=310.1 2 3

1N

[N1x1%N2x2%.........%NLxL]'1Nj Nix i

1N 2

[N12V(x1)%.........%NL2V(x L)]'

1N 2j Ni2( Ni&niNi )( si2ni )

z V(x st)

4. Muestreo aleatorio estratificado.

Pg. 20Pg. 20Pg. 20Pg. 20

Estrato 1,pueblo A

Estrato 2,pueblo B

Estrato 3rea rural

35 28 26 4143 29 32 3739 38 40 4528 27 35 34

27 04 49 1015 41 25 30

08 15 21 0714 30 20 1112 32 34 24

Estrato 1 Estrato 2 Estrato 3

n = 2010 = 33,9001s = 35,35812N =1551

n = 820 = 25,1252s =232,41122N = 622

n = 1230 = 19,9003s = 87,63632N = 933

4.2. Estimacin de una media y un total poblacionalesSea 0 la media muestral para la muestra irrestricta aleatoria seleccionada en el estrato i,i

n el tamao de la muestra en el estrato i, la media poblacional para el estrato i, y J el totali i ipoblacional para el estrato i. Entonces, el total de la poblacin J es igual a J +J +.....+J .1 2 LTenemos una muestra irrestricta aleatoria dentro de cada estrato. Por ello sabemos que 0 es uniestimador insesgado de , y que N0 es un estimador insesgado del total del estrato J =N .i i i 1 i iYa que la media poblacional es igual al total poblacional J dividido entre N, un estimadorinsesgado de se obtiene sumando los estimadores de los J de todos los estratos y luegoidividiendo entre N. Denotamos a este estimador por 0 , donde el subndice st indica que se hastutilizado muestreo aleatorio estratificado.

Formulario. __________________________________________________________

Estimador de la media poblacional : 0 = st

Varianza estimada de 0 : stV(0 ) = st

Lmite para el error de estimacin: ______________________________________________________________________

Problema 1. Supongamos que se lleva a cabo la encuesta planeada anterior. Se deciderealizar 20 entrevistas en el pueblo A (n ), 8 en el pueblo B (n ) y 12 en el rea rural (n ). Los1 2 3resultados de las mediciones son las del cuadro. Estimar el tiempo promedio que se ve televisinen horas por semana para cada hogar del municipio y del pueblo B. En ambos casos, fijar unlmite para el error de estimacin (varianzas sacadas de las frmulas de la covarianza).

a) 0 = 27,7 horas por semana que se vesttelevisin en todos los hogares del municipio.

V(0 ) = 1,97.stLmite para el error de estimacin: 2,8.As, el nmero promedio de horas por semana

que se ve televisin en los hogares del municipio esde 27,7 horas. El error de estimacin debe ser menorque 2,8 horas, con una probabilidadaproximadamente igual a 0,95.

b) Las n = 8 observaciones del estrato 22constituyen una muestra irrestricta aleatoria, por loque la estimacin del promedio de ver la televisinpara el pueblo B, con un lmite de aproximadamentedos desviaciones estndar para el error de estimacin,

est dada por: 25,1 10,1. Esta estimacin tiene un lmite grande para el error de estimacinporque s es grande y el tamao de muestra es pequeo. La estimacin de la media poblacional22es bastante buena, pero la estimacin de la media del estrato 2 es deficiente.

j Ni2( Ni&niNi )( si2niz V(Nxst)

z V(Nxst)

n'jLi'1

(Ni2F2i )/wi

N 2D%jLi'1

NiFi2


Pg. 21Pg. 21Pg. 21Pg. 21

Debido a que J es igual a N, un estimador insesgado de J es dado por N0 .stFormulario. _________________________________________________________

Estimador del total poblacional J: N0 = N 0 + ...... + N 0 = 3 N0 .st 1 1 L L i iVarianza estimada de N0 : V(N0 ) = N V(0 ) =st st st2

Lmite para el error de estimacin:_____________________________________________________________________

Problema 2. Del problema anterior, estimar el nmero total de horas por semana que lasfamilias del municipio dedican a ver televisin, y estimar un lmite para el error de estimacin.

N0 = 310(27,7) = 8587 horas.stV(N0 ) = N V(0 ) = 189.278,560 horas.st st2Lmite para el error de estimacin: 870 horas.

4.3. Seleccin del tamao de muestra para estimar la media y total poblacionalesLa cantidad de informacin en una muestra depende del tamao de muestra n, ya que V(0 )st

decrece con el incremento de n. Si queremos que la estimacin de 0 est dentro de B unidadesstde la media poblacional, hemos de igualar

= B;osea, V(0 ) = B /Z . Esta ecuacin contiene la varianza poblacional de 0 en lugar de last st2 2

varianza estimada. Para N grande, la varianza real es muy similar a la varianza estimada, con s ,12s , .........., s reemplazadas por F , F , .........., F .2 L 1 2 L2 2 2 2 2

Hay muchas maneras para asignar un tamao de muestra n a los diversos estratos. En cadacaso, el nmero de observaciones n asignado al i-simo estrato es una fraccin del tamao deimuestra total. Denotamos esta fraccin por w . Por ello, podemos sealar: n = nw , con i = 1, 2,i i i......, L.

Formulario. __________________________________________________________

Tamao de muestra aproximada que se requiere para estimar o J con un lmite B para elerror de estimacin:

con D=B /z para estimar ,2 2 y D=B /4N para estimar J.2 2

_______________________________________________________________________Para usar esta ecuacin, debemos obtener aproximaciones de las varianzas poblacionales

F , F , .........., F , usando las varianzas muestrales de un experimento previo, o conociendo la1 2 L2 2 2amplitud de variacin de las observaciones dentro de cada estrato.

2 V(xst)'2

n(NiFi)/ ci

(N1Fi)/ ci%..............%(NLFL)/ cL'n

(NiFi)/ cij (NkFk)/ ck


Pg. 22Pg. 22Pg. 22Pg. 22

Problema 1. En el problema anterior, una encuesta ya previa sugiri que las varianzas delos estratos eran, aproximadamente, F 25, F 225, y F 100. Deseamos estimar la media1 2 32 2 2poblacional mediante 0 . Seleccionar el tamao de la muestra para obtener un lmite para elsterror de estimacin igual a 2 horas, si las fracciones asignadas son w =1/3, w =1/3, w =1/3 (igual1 2 3nmero de observaciones en cada estrato).

Tenemos N =155, N =62, y N =93. Adems, , por lo que:1 2 3V(0 ) = 1 ------> D = 1.stDe las frmulas, n = 56,7.El experimentador debe tomar n =57 observaciones, con n = n (w ) = 19 = n = n .1 1 2 3Problema 2. En el mismo caso, deseamos estimar el total poblacional J con un lmite de

400 horas para el error de estimacin. Seleccionar el tamao de muestra apropiado, si se va atomar el mismo nmero de observaciones en cada estrato.

D=B /4N = 0,41623.2 2n = 104,2 105.As, n = n = n = 35.1 2 3

4.4. Asignacin de la muestraEl objetivo del diseo de encuesta por muestreo es proporcionar estimadores con varianzas

pequeas al menor costo posible. Despus de elegir el tamao de muestra n, existen muchasmaneras para dividir n entre los tamaos de muestra de los estratos individuales n , n , .......,n .1 2 LCada divisin puede originar una varianza diferente para la media muestral. El mejor esquemade asignacin est influido por tres factores: a) el nmero total de elementos en cada estrato; b)la variabilidad de las observaciones dentro de cada estrato; y c) el costo por obtener unaobservacin de cada estrato. El nmero de elementos en cada estrato afecta la cantidad deinformacin en la muestra. Una muestra de tamao 20 de una poblacin de 200 elementos debecontener ms informacin que una muestra de tamao 20 de 20000 elementos. Entonces se debenasignar tamaos grandes de muestra a los estratos que contienen gran nmero de elementos.

No obstante, si el costo para obtener una observacin vara de un estrato a otro, tomaremosmuestras pequeas de estratos con altos costos. Lo haremos as, a sabiendas de que nuestroobjetivo es mantener el costo del muestreo al mnimo.

Formulario. ___________________________________________________________

Asignacin aproximada que minimiza el costo para el valor fijo de V(0 ) o que minimizastV(0 ) para un costo fijo:st

n =i

[jLk'1

(NkFk)/ ck][jLi'1

(NiFi)/ ci]

N 2D%jLi'1

NiFi2

nNiFij NiFi (j NiFi)

2

N 2D%jLi'1

NiFi2


Pg. 23Pg. 23Pg. 23Pg. 23

n =

N : tamao del i-simo estrato.iF : varianza poblacional para el i-simo estrato.i2c : costo para obtener una observacin individual del i-simo estrato.i____________________________________________________________________

Problema 1. La misma empresa publicitaria encontr que cuesta ms obtener unaobservacin del rea rural que una del pueblo A o del B, debido al traslado de un lugar a otro.El costo por observacin se ha estimado en $9,00, y los costos por observacin en el rea ruralse han estimado en $16,00. Las desviaciones por estrato (aproximadas por las varianzasmuestrales de una encuesta previa) son 5, 15, y 10 respectivamente. Encontrar el tamao demuestra total n y los tamaos de muestra para los tres estratos que permiten estimar, al mnimocosto, el tiempo promedio que se ve televisin, con un lmite para el error de estimacin de 2horas.

Usando las frmulas, n = 57,42 o bien 58.n = 0,32 n = 18,5 o bien 18; 1n = 0,39 n = 22,6 o bien 23;2n = 0,29 n = 16,8 o bien 17.3

En algunos problemas de muestreo estratificado, el costo por obtener informacin es elmismo para todos los estratos (c = c = ..... = c ), por lo que los trminos de costo es cancelan1 2 Len la ecuacin. Este mtodo para seleccionar n , n , ......., n se denomina asignacin de Neyman:1 2 L

Formulario. ____________________________________________________________

n = , y n = i

_______________________________________________________________________

Problema 2. La misma firma publicitaria decide utilizar entrevistas por telfono parareducir costos. El costo es, entonces, el mismo en los tres estratos. Las desviaciones estndarsiguen siendo 5, 15, y 10 respectivamente. La empresa desea estimar la media poblacional conun lmite para el error de estimacin igual a 2 horas. Encontrar el tamao aproximado de lamuestra n y los tamaos de muestra para los tres estratos.

Hallamos que D = 1, y que n = 56,34 o bien 57.Entonces, n = nw = (57)(0,30) = 17,1 1

n = nw = (57)(0,35) = 202 2 n = nw = (57)(0,35) = 20.3 3

j NiFi2ND% 1

NjLi'1 NiFi2


Pg. 24Pg. 24Pg. 24Pg. 24

Problema 3. Un investigador quiso estimar el peso promedio de 90 ratas (50 machos y 40hembras) que han sido alimentados con cierta dieta. Separando las ratas en dos estratos, porsexos, el investigador seleccion la rata ms pequea y la ms grande en cada estrato y las peso.La amplitud de variacin fue de 10 gramos para los machos y de 8 para las hembras. Qutamao debe tener la muestra para estimar el promedio poblacional con un lmite de 1 gramo parael error de estimacin? El costo de muestra es el mismo para ambos estratos.

F 10/4 = 2,5 y F 8/4 = 2,01 2n = 16,83Entonces, n = nw = (17)(0,61) = 10,1 1

n = nw = (17)(0,39) = 7.2 2

Adems de encontrar costos iguales, en algunas ocasiones encontramos varianzas iguales.En este caso, se cancelan las F en la ecuacin. Este mtodo de asignacin de la muestra a losiestratos es llamado asignacin proporcional porque los tamaos de muestra son proporcionalesa los tamaos de los estratos:

Formulario. ___________________________________________________________

n = n (N / N) , y n = i i

________________________________________________________________________

Problema 4. La empresa publicitaria del ejemplo anterior considera que las varianzasaproximadas que se usaron en los ejemplos previos son errneas y que las varianzas de losestratos son iguales, con un valor igual a 10. Mediante entrevistas por telfono, con lo que loscostos son iguales, se desea estimar el nmero promedio de horas por semana que se ve latelevisin en los hogares del municipio, con un lmite para el error de estimacin de 2 horas.Encontrar el tamao de muestra y los tamaos de estratos necesarios para lograr esta exactitud.

D = 1, con lo que n = 75,6 o bien 76.n = 38; n = 15; n = 23.1 2 3

Problema 5. En el mismo ejemplo, supngase que los costos de ver la televisin son de $9para los pueblos A y B, y de 16$ para la zona rural. Las varianzas son, aproximadamente, 5, 15,y 10, respectivamente. Dado que la empresa publicitaria tiene nicamente $500 para gastar enmuestreo, elegir el tamao de muestra y la asignacin que minimice V(0 ).st

Con estos datos, en un problema anterior, encontramos que w =0,32; w =0,39; y w =0,29.1 2 3Ya que el costo total debe ser igual a $500, tenemos que

c n + c n + c n = 9n + 9n + 16n = 500.1 1 2 2 3 3 1 2 3Ya que n = nw : 9n(0,32) + 9n(0,39) + 16n(0,29) =500i i Despejando, tenemos que n = 45,33.As, n = 14; n = 18; y n = 13.1 2 3

1N

(N1p1%.........%NLpL)'1Nj Nipi

1N 2j Ni2( piqini&1 )( Ni&niNi )

z V )(pst)

n'jLi'1

(Ni2piqi)/wi

N 2D%jLi'1

Nipiqi


Pg. 25Pg. 25Pg. 25Pg. 25

4.5. Estimacin de una proporcin poblacionalSupngase que la empresa publicitaria quiere estimar la proporcin de hogares que ven un

programa particular. La poblacin se divide en estratos, al igual que antes, y se toma una muestraaleatoria de cada estrato. Luego se realizan las entrevistas para determinar la proporcin p i(estimador insesgado de p ) de hogares integrantes del estrato i, donde se ve el programa. Al igualique antes, N p es un estimador insesgado del nmero total de hogares del estrato i donde veni ieste programa particular. Por lo tanto, N p + N p + ....... + N p es un buen estimador del1 1 2 2 L Lnmero de hogares en que ven el programa en la poblacin. Dividiendo esta cantidad entre N,obtenemos un estimador insesgado de la proporcin poblacional p de hogares donde se ve elprograma.

Formulario. __________________________________________________________

Estimador de la proporcin poblacional p: p = st

Varianza estimada de p : V(p ) =st st

Lmite para el error de estimacin:_____________________________________________________________________

Problema 1. La empresa publicitaria quiso estimar la proporcin de hogares en elmunicipio del mismo ejemplo donde se ve el programa X. Los estratos contienen N =155, N =62,1 2y N =93 hogares. Una muestra aleatoria estratificada de n = 40 es seleccionada con asignacin3proporcional: se toma una muestra irrestricta aleatoria de cada estrato; los tamaos son n =20,1n =8, y n =12. Dieron positivo 16 de la primera entrevista, 2 de la segunda y 6 de la tercera.2 3Estimar la proporcin de hogares donde se ve el programa X, y fijar un lmite para el error.

p ' = 0,80; p ' = 0,25; y p ' = 0,50.1 2 3p = 0,60 = 0,0045.stLimite para el error de estimacin: 0,14.

4.6. Seleccin del tamao de muestra y asignacin para estimar proporcionesFormulario. __________________________________________________________

Tamao de muestra que se requiere para estimar p con un lmite B para el error:

nNi piqi/ci

N1 p1q1/ci%..............%NL pLqL/cL'n

Ni piqi/cij Nk pkqk/ck

ni'nNi piqij Ni piqi n'

(j Ni piqi)2N 2D%j Nipiqi

n' j NipiqiND% 1

Nj Nipiqi


Pg. 26Pg. 26Pg. 26Pg. 26

Asignacin aproximada que minimiza el costo para un valorfijo de V(p ) o minimiza stV(p ) para un costo fijo:st_______________________________________________________________________

Problema 1. Los datos del apartado 4.2. fueron tomados de un muestreo realizado el aopasado. Se quiere realizar ahora un nuevo estudio en el mismo municipio para estimar laproporcin de hogares donde se ven el programa X. Aunque las proporciones son desconocidas,del estudio anterior se tiene que son 0,80, 0,25, y 0,50. El costo por observacin es $9 paracualquiera de los pueblos, y de 16 $ para el rea rural. Los hogares que se encuentran dentro delos estratos son 155, 62, y 93, respectivamente. La empresa quiere estimar la proporcinpoblacional p, con un lmite para el error de estimacin igual a 0,1. Encontrar el tamao de lamuestra n y los tamaos de los estratos que darn el lmite deseado a un costo mnimo.

Resolviendo las ecuaciones, tenemos que n = 62,3 o bien 63.n =31, n =14, y n =18.1 2 3

Si el costo de muestreo no vara de un estrato a otro, entonces los factores de costo secancelan. Tambin si las varianzas, as como los costos, son iguales en todos los estratos, laecuacin se simplifica:

Formulario. ________________________________________________________Asignacin de la muestra para costos iguales:

, y

Asignacin de la muestra para varianzas y costos iguales (asignacin proporcional):

n = n (N / N), y i i

____________________________________________________________________

Problema 2. Supngase del ejemplo anterior que se van a efectuar entrevistas por telfono,por lo que los costos de muestreo son los mismos en todos los estratos. Deseamos estimar laproporcin poblacional p con un lmite de 0,1 para el error de estimacin. Encontrar el tamaode muestra apropiado para lograr este lmite al costo mnimo.

n = 61,08 o bien 62, con n =29, n =12, y n =21.1 2 3Problema 3. En el mismo ejemplo, con entrevistas por telfono, la empresa considera que

la proporcin de hogares donde se ve el programa X est cercana a 0,4 en cada uno de los tresestratos, y desea estimar la proporcin poblacional p con un lmite de 0,1 para el error deestimacin. Encontrar el tamao de muestra n con este lmite al mnimo costo.

Tenemos que n = 73,3 o bien 74, y que n =37, n =15, y n =22.1 2 3

J)y' yx

(Jx)' nynx

(Jx)'j yij xi (Jx)

r'j yij xi


Pg. 27Pg. 27Pg. 27Pg. 27

5. Estimacin de razn, regresin y diferencia

5.1. Encuestas que requieren el uso de estimadores de raznLa estimacin de la media y el total poblacionales se ha basado, hasta ahora, en una

muestra de las mediciones de respuestas obtenidas por muestreo irrestricto aleatorio estratificadoy muestreo aleatorio estratificado. Algunas veces, otras variables estn ntimamente relacionadascon la respuestas. Midiendo una o ms variables auxiliares, podemos obtener informacinadicional para estimar la media poblacional. As, por ejemplo, el precio al por mayor que se pagapor las naranjas en remesas grandes se basa en el contenido de azcar de la carga. Un mtodopara estimar esta cantidad es primero estimar el contenido medio de azcar por naranja, , yyluego multiplicarlo por el nmero de naranjas N en la carga. El problema es contar el nmerototal de naranjas.

Sin embargo, el contenido de azcar de una sola naranja, y, est ntimamente relacionadocon su peso, x. Por otro lado, la razn del contenido total de azcar J con el peso total de la cargayde naranjas J es igual a la razn del contenido medio de azcar por naranja, , con el pesox ymedio . Por lo tanto: / = N / N = J / J -------> J = ( / ) J .x y x y x y x y y x xPodemos estimar y usando y 0, los promedios de azcar y el peso para la muestray xde n naranjas, junto con J , el peso total de las naranjas en el camin. As, una estimacin dexrazn del contenido total de azcar J es:y

Esta sera la forma adecuada, ya que no conocemos N, por lo que no podemos estimar eltotal poblacional usando el estimador simple N. Si N es conocida, tenemos la eleccin de usarel estimador simple o el estimador de razn. Si y y x estn altamente correlacionadas, elestimador de razn deber ser mejor que el simple. Otros parmetros de inters que se puedenaveriguar mediante esta tcnica son la media poblacional, , y la razn poblacional, R (J / J )y y x

5.2. Estimacin de razn usando muestreo irrestricto aleatorioCon una muestra irrestricta aleatoria de tamao n seleccionada de una poblacin finita de

N elementos:

Formulario. ___________________________________________________________

Estimador de la razn poblacional R:

V )(r)'V )(j yij xi )'( N&nnN )( 12x )j (yi&rxi)2

n&1

z V )(r)

J)i'j yij xi (Jx)'rJxV )(J)y)'J2xV )(r)'J2x( N&nnN )(

1

2x)j (yi&rxi)2

n&1

z V )(J)y)


Pg. 28Pg. 28Pg. 28Pg. 28

Varianza estimada de r:

Lmite para el error de estimacin : _____________________________________________________________________

Problema 1. En una encuesta para examinar las tendencias en bienes races, un investigadorest interesado en el cambio relativo del valor calculado de las casas de una comunidad enparticular durante un perodo de dos aos. Una muestra irrestricta aleatoria de n = 20 casas esseleccionada de N = 1000 casas de la comunidad. El investigador obtiene el valor calculado paraeste ao (y) y el valor correspondiente para hace dos aos (x) de cada una de las casas de lamuestra. El investigador desea estimar R, el cambio relativo en el valor calculado para las Ncasas, usando la informacin contenida en la muestra:

3x = 154,5; 3y = 164,7; 3x = 1210,55; 3y = 1373,71; 3x y = 1288,95.i i i i i i2 2Por las frmulas,

r = 1,07Lmite para el error de estimacin: 0,02.

As, la razn R para la poblacin deber estar entre 1,05 y 1,09.

Formulario. __________________________________________________________

Estimador de razn del total poblacional J : y

Varianza estimada de J : y

Lmite para el error de estimacin: _______________________________________________________________________

Problema 2. En un estudio para estimar el contenido total de azcar de una carga denaranjas, una muestra aleatoria de n = 10 naranjas fue pesada y extrado el jugo. El peso total detodas las naranjas era de 1800 libras. Estimar J , el contenido total de azcar de las naranjas, yyestablecer un lmite para el error de estimacin.

Contenido de azcar: {0'021, 0'030, 0'025, 0'022, 0'033, 0'027, 0'019, 0'021, 0'023, 0'025}Peso de la naranja: {0'40, 0'48, 0'43, 0'42, 0'50, 0'46, 0'39, 0'41, 0'42, 0'44}

Azcar: 3 y = 0,246; Peso: 3 x = 4,35.i iJ = 101,79 libras.yDebido a que desconocemos N, suponemos que la cpf es casi la unidad, ya que N es un

nmero muy elevado; y dado que r = 0,0566:El lmite para el error de estimacin es: 6,3.

)i'j yij xi (x)'rxV )()y)'2xV )(r)'2x( N&nnN )(

1

2x)j (yi&rxi)2

n&1

z V )()y)

V )(r)'( N&nnN

)( 12x

)j (yi&rxi)2n&1

F)2s 2'j (yi&rxi)2n )&1

D'B22 xz 2

n' NF2ND%F2


Pg. 29Pg. 29Pg. 29Pg. 29

Formulario. ____________________________________________________________

Estimador de razn de una media poblacional :y

Varianza estimada de : y


Problema 3. Una compaa desea estimar la cantidad promedio de dinero pagado a losyempleados por gastos mdicos durante los primeros tres meses del ao en curso. Los informesdel promedio por trimestres anteriores estn disponibles. Una muestra aleatoria de 100 registrosde empleados se seleccion de una poblacin de 1000 empleados. Con los datos siguientes,estimar y establecer un lmite para el error de estimacin.y

Total para el trimestre actual: 3 y = 1750.iTotal para el trimestre correspondiente del ao anterior: 3 x = 1200.iTotal poblacional J para el trimestre correspondiente al ao anterior: J = 12500.x xTambin: 3 y = 31650; 3 x = 15620; 3 y x = 22059,35.2 2i i i i

= 12,5 ---------> = 18,23.x yLmite para el error de estimacin: 0,42.

Resumen:Estimadores: R = r.

J = r J .y x = r .y x

Varianzas aproximadas:

V(J ) = J V(r).y x2 V( ) = V(r).y x2

5.3. Seleccin del tamao de la muestraFormulario. ____________________________________________________________

Tamao de muestra requerido para estimar R, con un lmite para el error de estimacin B:

, donde , y

Para estimar , la misma frmula, con D= B /zy 2 2.Para estimar J , la misma frmula, con D = B /(N z ).y 2 2 2_________________________________________________________________________


Pg. 30Pg. 30Pg. 30Pg. 30

Problema 1. Una compaa industrial desea estimar la razn de cambio del ao pasado coneste ao en cuanto el nmero de horas-hombre que se pierden debido a enfermedad. Se efectuun estudio preliminar con n = 10 registros de empleados, y los resultados son los presentadosa continuacin. El nmero total de horas-hombre que se perdieron por esta causa el ao anteriorfue de J =16300. Estimar R, el cambio relativo para la compaa, con un lmite para el error deyB=0,01. Suponga que la compaa tiene 1000 empleados.

Horas-hombre perdidas en el ao anterior y: {12, 24, 15, 30, 32, 26, 10, 15, 0, 14}. Horas-hombre perdidas en el ao actual x: {13, 25, 15, 32, 36, 24, 12, 16, 2, 12}.

r = 1,05. F = 3474.2 = 16,3 ----------> D = 0,006642.xn = 343,416 344.Problema 2. Un investigador desea estimar el nmero promedio de rboles por acre eny

una plantacin de 1000 acres. Para ello, se planea seleccionar n parcelas de 1 acre y contar elnmero de rboles y en cada parcela. Tambin se dispone de fotografas areas de la plantacin,con las cuales estimar el nmero de rboles x en cada parcela para la plantacin completa.Determinar el tamao de muestra necesario para estimar con un lmite para el error deyestimacin de magnitud B = 1,0. Un estudio previo con n = 10 parcelas dio lo siguiente:

Estimacin area, x: {23, 14, 20, 25, 12, 18, 30, 27, 8, 31}Nmero actual, y: {25, 15, 22, 24, 13, 18, 35, 30, 10, 29)r = 1,06 -----------> F = 4,21.2D = 1/4 -----------> n = 16,56 17.Problema 3. Un investigador desea comparar el valor verdadero en dlares del inventario

de un hospital, J , con el inventario registrado, J , obtenido de los registros del hospital. En estey xinventario, los registros listan N = 2100 artculos de diferente tipo y el nmero de cada artculoen particular. Se desea obtener un valor total para cada artculo, x, multiplicando el nmero totalde cada artculo registrado por el valor unitario de cada artculo. El valor total de inventarioobtenido, segn los registros, est dado por J = 3x = $950.000. Determinar el tamao dex imuestra (nmero de artculos) necesario para estimar J con un lmite para el error de B = $500.y

Debido a que no hay informacin previa, debe realizarse un estudio preliminar con n=15:Valor de computadora, x: {15, 9'5, 14'2, 20'5, 6'8, 9'8, 25'7, 12'6, 15'1, 30'9, 7'9, 28'6,

14'7, 20'5, 10'9}.Valor real, y: {14,9, 12'5, 22, 6'3, 8'4, 28'5, 10, 14'4, 28'2, 15'5, 26'3, 13'1, 19'5, 9'8}r = 0,98 ----------> F = 7,4444.2D = 0,01417 ----------> n = 420,2326 421.

5.4. Estimacin de regresinEl estimador de razn es ms apropiado cuando la relacin entre y y x es lineal a travs del

origen. Si existe una relacin lineal entre las y y las x observadas, pero no necesariamente unaque pase a travs del origen, la informacin extra proporcionada por la variable auxiliar x puedeser tomada en cuenta mediante un estimador de regresin de la media . Debe conocerse y xantes de que el estimador pueda ser empleado, como en el caso de la estimacin de razn paray.

b'j (yi&y)(xi&x)j (xi&x)2 'jyixi&nxyj x 2 i&nx2

( N&nNn

)( 1n&2

)[j (yi&y)2&b 2j (xi&x)2]z V )(yL)


Pg. 31Pg. 31Pg. 31Pg. 31

La lnea fundamental que muestra la relacin bsica entre las y y las x algunas veces esreferida como la lnea de regresin de y sobre x, usndose el subndice L en las frmulas. Elestimador dado a continuacin supone que las x son fijadas de antemano y que las y son variablesaleatorias. Podemos considerar que el valor de x es algo que ya ha sido observado, semejante alos ingresos en el primer trimestre del ao pasado, y la respuesta y como una variable aleatoriaque ser observada, tal como los ingresos trimestrales actuales de una compaa. Las propiedadesprobabilsticas del estimador, entonces, dependen solamente de y para un conjunto dado de x.

Formulario. ___________________________________________________________

Estimador de regresin de una media poblacional : = + b( - 0)y yL x

con

Varianza estimada de : V( ) =yL yL


Problema 1. Se hizo un examen de conocimientos matemticos a 486 estudiantes, antes desu ingreso a cierto colegio. De estos estudiantes, una muestra irrestricta aleatoria de n = 10estudiantes fue seleccionada y se observaron sus progresos en clculo. Despus las calificacionesfinales en clculo fueron anotadas en la lista adjunta. Se sabe que = 52 para los 486 estudiantesxque presentaron el examen. Estimar para esta poblacin, y establecer un lmite para error.y

Puntuacin en el examen x: {39, 43, 21, 64, 57, 47, 28, 75, 34, 52}Calificacin final en clculo y: {65, 78, 52, 82, 92, 89, 73, 98, 56, 75}

= 76, y 0 = 46.b = 0,766 ---------> = 80.yLV( ) = 7,397.yLLmite para el error de estimacin : 5,4.Ntese que el estimador de regresin de es mayor que el valor de , puesto que 0 resultay

ser menor que , y b es positivo.x

5.5. Estimacin de diferenciaEl mtodo de diferencia para estimar una media o un total poblacionales es miliar al de

regresin, ajustando el valor de hacia arriba o hacia abajo en una cantidad que depende de ladiferencia ( - 0). Sin embargo, no se calcula el coeficiente de regresin b, fijndose ste igualxa la unidad.

( N&nNn

)j (di&d)2n&1

z V )(yD)


Pg. 32Pg. 32Pg. 32Pg. 32

Muestra Valorinterv.

Valor libro

di

1 9 10 -1

2 14 12 +2

3 7 8 -1

4 29 26 +3

5 45 47 -2

6 109 112 -3

7 40 36 +4

8 238 240 -2

9 60 59 +1

10 170 167 +3

Formulario. ____________________________________________________________

Estimador de diferencia de una media poblacional : = + ( - 0) = + d.y yD x xdonde d = - 0

Varianza estimada de : V( ) = , donde d = - x .yD yD i i i

Lmite para el error de estimacin: ________________________________________________________________________

Problema 1. Los auditores frecuentemente estn interesados en comparar el valorintervenido de los artculos con el valor asentado en el libro. Generalmente, los valores en el libroson conocidos para cada artculo en la poblacin, y los valores intervenidos son obtenidos conuna muestra de esos artculos. Los valores en el libro entonces pueden utilizarse para obtener unabuena estimacin del valor intervenido total o promedio para la poblacin.

Supngase que una poblacin contiene 180 artculosinventariados con un valor establecido en el libro de $13.320.Denote por x el valor en el libro y por y el valor intervenido deli ii-simo artculo. Una muestra irrestricta aleatoria de n = 10artculos produce los resultados de la tabla adjunta. Estimar elvalor intervenido medio de mediante el mtodo de diferenciayy estimar la varianza .yD

= 72'1 , 0 = 71'7 , y = 74.xV( ) = 0,59.yD

Problema 2. En el mismo ejemplo, estimar usando unyestimador de regresin y un estimador de razn. En cada caso,calcular una estimacin de la varianza.

a) Estimador de regresin:b = 0,99 -------> = 74,38.yLV( ) = 2,24.yLb) estimador de razn: = 74,41.yV( ) = 0,66.y

Las tres estimaciones de son aproximadamente iguales, pero en este caso el estimadoryde diferencia tiene la varianza estimada ms pequea, y el estimador de regresin tiene lavarianza estimada ms grande con mucho. El estimador de diferencia trabaja bien cuando lagrfica de y contra x muestra que los puntos caen a lo largo de una lnea recta con pendiente iguala la unidad. El estimador de razn es muy til para los casos en donde la dispersin de los puntosresulta ms grande a medida que los valores de x y y se incrementan. Si la grfica de y contra xcae a lo largo de una lnea recta con pendiente muy diferente a la unidad, entonces el estimadorde regresin puede producir ganancias sustanciales.

V )(y)'( N&nNnM2

)j (yi&ymi)2n&1

z V )(y)


Pg. 33Pg. 33Pg. 33Pg. 33

6. Muestreo por conglomerados

Definicin. Una muestra por conglomerados es una muestra aleatoria en la cual cadaunidad de muestreo es una coleccin, o conglomerado, de elementos. El muestreo porconglomerados es menos costoso que el aleatorio estratificado o irrestricto, si el costo por obtenerun marco que liste todos los elementos poblacionales es muy alto o si el costo por obtenerobservaciones se incrementa con la distancia que separa los elementos.

La primera tarea en muestreo por conglomerados es especificar los conglomeradosapropiados. Los elementos dentro de un conglomerado estn frecuentemente juntos fsicamente,por lo que tienden a presentar caractersticas similares: la medicin en un elemento de unconglomerado puede estar altamente correlacionada con la de otro elemento. Por ello, la cantidadde informacin acerca de un parmetro poblacional puede no incrementarse sustancialmente altomar nuevas mediciones dentro de un conglomerado; en este caso, sera desperdiciar dinerotomar un conglomerado de gran tamao. Sin embargo, pueden ocurrir situaciones en las cualeslos elementos dentro de un conglomerado sean muy diferentes entre s; en tales casos, unamuestra que contenga pocos conglomerados grandes puede producir una estimacin muy buenade un parmetro poblacional. Si los estratos deben ser tan homogneos interiormente como seaposible, pero diferir con otros tanto como sea posible, los conglomerados deben ser tanheterogneos interiormente como sea posible, a la vez que muy similares entre s, para poderaprovechar las ventajas econmicas del muestreo por conglomerados.

6.1. Estimacin de una media y un total poblacionalesUsaremos la siguiente notacin:N = nmero de conglomerados en la poblacin.n = nmero de conglomerados seleccionados en una muestra irrestricta aleatoria.m = nmero de elementos en el conglomeradoim = (1/n)3 m = tamao promedio del conglomerado en la muestra.iM = 3 m = nmero de elementos en la poblacin.iM = M/N = tamao promedio del conglomerado en la poblacin.y = total de todas las observaciones en el i-simo conglomerado.i

Formulario. ____________________________________________________________

Estimador de la media poblacional : = 3 y / 3 m i i Varianza estimada de :


My'Mj yij miV )(My)'M 2V )(y)'N 2( N&n

Nn)j (yi&ymi)2

n&1

z V )(My)

6. Muestreo por conglomerados.

Pg. 34Pg. 34Pg. 34Pg. 34

Cong. i

Nresid.

mi

Ingreso cong. yi

Cong.

i

Nresid.

mi

ingresocong.

yi

1 8 $96000 14 10 49000

2 12 121000 15 9 53000

3 4 42000 16 3 50000

4 5 65000 17 6 32000

5 6 52000 18 5 22000

6 6 40000 19 5 45000

7 7 75000 20 4 37000

8 5 65000 21 6 51000

9 8 45000 22 8 30000

10 3 50000 23 7 39000

11 2 85000 24 3 47000

12 6 43000 25 8 41000

13 5 540000

La varianza estimada es sesgada y seraun buen estimador de V() nicamente si nfuera grande, digamos n $ 20. El sesgodesaparece cuando los tamaos de losconglomerados m , m , ...., m son iguales.1 2 N

Problema 1. Se desea estimar el ingresopromedio por persona en cierta ciudadpequea. No existe una lista disponible deadultos residentes, por lo que la ciudad esdividida en bloques rectangulares,considerando cada bloque de la ciudad comoun conglomerado. Se realizan entrevistas en25 bloques muestreados, obteniendo los datosde la tabla. Estimar el ingreso promedio porpersona en la ciudad y establecer un lmitepara el error de estimacin.

Por las frmulas: = $8801.Ya que M es desconocido, la M que

aparece en la ecuacin debe ser estimada porm, donde m = 6,04.

V() = 653,785.Lmite para el error: 1617.

Formulario. ____________________________________________________________

Estimador del total poblacional J:

Varianza estimada de M:

Lmite para el error de estimacin: _________________________________________________________________________

Problema 2. En el ejemplo anterior, estimar el ingreso total de todos los residentes de laciudad, y poner un lmite para el error de estimacin, suponiendo que existen 2500 residentes.

M = $22.002.500Lmite para el error de estimacin: 4.042.848En los dos problemas, el lmite para el error de estimacin es grandes, y podra ser reducido

incrementando el tamao de muestra. En ocasiones en nmero de elementos de la poblacin noes conocido, por lo que no

podemos usar el estimador M, pudiendo usar otro estimador del total poblacional que nodepende de M:

Ny t'Nnj yi

V )(Ny t)'N 2V )(y t)'N 2(N&nNn

)j (yi&y t)2n&1

z V )(Ny t)


Pg. 35Pg. 35Pg. 35Pg. 35

Formulario. ____________________________________________________________

Estimador del total poblacional J, que no depende de M: , con y = 3y / n t i

Varianza estimada de N:

Lmite para el error de estimacin:______________________________________________________________________

Problema 3. En el mismo ejemplo, estimar el ingreso total de todos los residentes de laciudad si M no es conocido. Establecer un lmite para el error de estimacin.

N = $22.061.400tLmite para el error de estimacin: 3.505.920

Los estimadores de y J poseen propiedades especiales cuando todos los tamaos deconglomerados son iguales. Primero, el estimador de la ecuacin, es insesgado de la mediapoblacional . Segundo, V() dado en la ecuacin, es un estimador insesgado de la varianza de. Finalmente, los dos estimadores, M y N del total poblacional, son equivalentes.

Problema 4. Se desea estimar el nmero promedio de ejemplares de un determinadoperidico comprados por familia en determinada ciudad. Los costos de transporte de un hogara otro son sustanciales. Por eso se listan los 4000 hogares de la comunidad en 400 conglomeradosgeogrficos de 10 hogares cada uno, y se selecciona una muestra irrestricta aleatoria de 4conglomerados, con los resultados siguientes:

Conglomerado 1: {1, 2, 1, 3, 3, 2, 1, 4, 1, 1}; total: 19.Conglomerado 2: {1, 3, 2, 2, 3, 1, 4, 1, 1, 2}; total: 20.Conglomerado 3: {2, 1, 1, 1, 1, 3, 2, 1, 3, 1}; total: 26.Conglomerado 4: {1, 1, 3, 2, 1, 5, 1, 2, 3, 1}; total: 20.Estimar el nmero promedio de peridicos por hogar en la comunidad y establecer un

lmite para el error de estimacin. = 1,875.V() = 0,0089.Lmite para el error de estimacin: 0,19.

6.2. Seleccin del tamao de muestra para estimar medias y totales poblacionalesAhora vamos a suponer que el tamao del conglomerado (unidad de muestreo) ha sido

elegido, y vamos a considerar nicamente el problema de seleccionar el nmero deconglomerados n.

sc2'j (yi&ymi)2

n&1sc

2'j (yi&y t)2n&1n'

NFcND%F 2

D'B2M2

z 2D' B

2

N 2z 2

V )(p ))'( N&nNnM2

)j (ai&p )mi)2n&1

z V )(p ))

6. Muestreo por conglomerados.

Pg. 36Pg. 36Pg. 36Pg. 36

Formulario. ___________________________________________________________

Tamao de muestra aproximado con un lmite B para el error de estimacin:

donde F es estimado por , o c2

para estimar , y para estimar J y N. ______________________________________________________________________

Problema 1. En el problema anterior, supngase que los datos ofrecidos representan unamuestra preliminar de ingresos en la ciudad. Qu tan grande debe tomarse la muestra en unaencuesta futura para estimar el ingreso promedio por persona con un lmite de $500 de error?

s = 634.479.260c2M puede ser estimada por m = 6,04.n = 166,58 167 conglomerados que se deben muestrear.Problema 2. De nuevo en el mismo ejemplo, qu tan grande se necesita una muestra para

estimar el ingreso total de todos los residentes, con un lmite de $1.000.000 de error. Supngaseque hay 2.500 residentes en la ciudad (M = 2500).

s = 634.479.260c2n = 212,88 213.Problema 3. En el mismo ejemplo, los datos provienen de un estudio preliminar de ingresos

en la ciudad y no se conoce M. Qu tan grande se debe tomar la muestra para estimar el ingresototal de todos los residentes con un lmite de $1.000.000 para el error de estimacin?

s = 474.556.667c2n = 182,88 183.

6.3. Estimacin de una proporcin poblacionalFormulario. _____________________________________________________________

Estimador de la proporcin poblacional p: p = 3 a / 3 m , a = n elementos del i-simoi i i conglomerado.

Varianza estimada de p:


_________________________________________________________________________

D'B2M2

z 2sc

2'j (ai&p )mi)2n&1

n' NFcND%F 2

ppt'1nj y i

V )() ppt)'1

n(n&1)j (y i&)ppt)2z V )() ppt)


Pg. 37Pg. 37Pg. 37Pg. 37

Problema 1. Adems de la pregunta sobre su ingreso, se interroga a

MUESTREO ALEATORIO

Documents

Transcript of MUESTREO ALEATORIO