Lectura 6.pdf

16
En diversas ocasiones y contextos es necesario distinguir algunas características poblacionales como la media, la varianza y la proporción. Si embargo, cuando las poblaciones son de tamaño muy grande determinar dichos valores se vuelve complejo, costoso e ineficiente en lo temporal. Por ello, es necesario reconocer, comprender y utilizar apropiadamente el muestreo que es un proceso mediante el cual podemos seleccionar la muestra de una población para realizar inferencias acerca de los valores desconocidos de ésta. Dado que de una población pueden tomarse o formarse varias muestras al considerar sus medias, varianzas y proporciones observamos que varían según la muestra elegida; luego éstas son variables aleatorias muestrales con las cuales podríamos realizar conjeturas e inferencias acerca de la media, la varianza y la proporción de la población, que por lo general son valores desconocidos. Como dichos valores son variables aleatorias requeriremos establecer sus funciones o distribuciones de probabilidad para efectuar las inferencias mencionadas. Veamos algunos conceptos generales y comencemos a analizar todo lo anterior. CONCEPTOS GENERALES Población: Es la colección total de elementos comunes con algunas características comunes y sobre las que se desea obtener alguna información o realizar algún análisis Muestra: es un subconjunto parte representativa de una población. Muestreo: es el conjunto de técnicas estadísticas utilizadas para seleccionar la muestra de una población. Parámetro: Medidas que se refieren a los elementos de toda la población Estadística o estadígrafo: Medidas que se refieren a los elementos de la muestra MUESTREO Y DISTRIBUCIONES MUESTRALES

Transcript of Lectura 6.pdf

  • En diversas ocasiones y contextos es necesario distinguir algunas caractersticas poblacionales como la media, la varianza y la proporcin. Si embargo, cuando las poblaciones son de tamao muy grande determinar dichos valores se vuelve complejo, costoso e ineficiente en lo temporal. Por ello, es necesario reconocer, comprender y utilizar apropiadamente el muestreo que es un proceso mediante el cual podemos seleccionar la muestra de una poblacin para realizar inferencias acerca de los valores desconocidos de sta. Dado que de una poblacin pueden tomarse o formarse varias muestras al considerar sus medias, varianzas y proporciones observamos que varan segn la muestra elegida; luego stas son variables aleatorias muestrales con las cuales podramos realizar conjeturas e inferencias acerca de la media, la varianza y la proporcin de la poblacin, que por lo general son valores desconocidos. Como dichos valores son variables aleatorias requeriremos establecer sus funciones o distribuciones de probabilidad para efectuar las inferencias mencionadas. Veamos algunos conceptos generales y comencemos a analizar todo lo anterior. CONCEPTOSGENERALES

    Poblacin: Es la coleccin total de elementos comunes con algunas caractersticas comunes y sobre las que se desea obtener alguna informacin o realizar algn anlisis Muestra: es un subconjunto parte representativa de una poblacin. Muestreo: es el conjunto de tcnicas estadsticas utilizadas para seleccionar la muestra de una poblacin. Parmetro: Medidas que se refieren a los elementos de toda la poblacin Estadstica o estadgrafo: Medidas que se refieren a los elementos de la muestra

    MUESTREO Y DISTRIBUCIONES MUESTRALES

  • Existen dos clases de muestreo el probabilstico y no probabilstico, el muestreo probabilstico es aquel mtodo en el que por medio de una tcnica de muestreo es posible definir el nmero de muestras que se pueden formar con n elementos u observaciones cada una, para luego elegir una de ellas segn una funcin de probabilidad. Por otra parte, el muestreo no probabilstico es aquel cuyas muestras se seleccionan por conveniencia o bajo algn criterio para que los resultados favorezcan a un grupo, persona, empresa o contexto. El muestreo aleatorio puede llevarse a cabo con reemplazamiento y sin reemplazamiento; el primero hace referencia a tomar una observacin para formar una muestra y devolverla a la poblacin de modo que puede ser elegida de nuevo, y la segunda indica que se toma una observacin y no se regresa a la poblacin de tal modo que slo aparecer una vez en la muestra.

    Existen diversas tcnicas para elegir una muestra aleatoria de una poblacin, recordemos que una muestra debe ser lo suficientemente representativa porque con ella se estimarn los parmetros de la poblacin; el mtodo ms utilizado es el muestreo aleatorio simple, pero depende de si el nmero de elementos en la poblacin es finito o infinito.

    Ejemplo 67 Supongamos que tenemos el listado de los 5000 empleados del rea de promocin y mercadeo de cierta empresa y queremos realizar una evaluacin de la capacitacin de estos en cierto producto para decidir si el proceso de capacitacin es adecuado y les permite conocer completamente el producto. Si la empresa tiene sedes en Bogot, Barranquilla, Medelln y Cali, cmo podramos obtener una muestra representativa?

    Una muestra aleatoria simple para una poblacin finita es aquella en la que todas las muestras de tamao tienen la misma probabilidad de ser seleccionadas. Una muestra aleatoria simple para una poblacin infinita es aquella en la que cada elemento seleccionado para conformarla se toma de la misma poblacin y de forma independiente.

    Muestreo

    Muestreo aleatorio simple

  • Como es una muestra finita podemos realizar un muestreo aleatorio simple: Supongamos que numeramos el listado de empleados de 1 a 5000. Luego, con ayuda de un programa generador de nmeros aleatorios (Excel tiene esta opcin) creamos nmeros de cuatro cifras y escogemos grupos de 5 nmeros (muestras de 5 observaciones). Si el nmero es mayor que 5000 no se escoge, si est entre 1 y 5000 se escoge y se busca el nombre del empleado al que le corresponde dicho nmero. As formamos muestras con los nombres de cinco empleados seleccionados al azar. Ejemplo 68 Consideremos el nmero de transacciones realizadas en determinado banco. Como en l todo el tiempo se estn realizando transacciones, esta poblacin se considera infinita. Por otra parte, si se forman grupos de cinco clientes tales que en cada muestra se selecciona el cliente posterior a aquel que realiza una transaccin con cheque, entonces los clientes son seleccionados de forma independiente (la seleccin de un cliente no influye en la seleccin de otro cliente) y el tipo de muestreo que se efecta es probabilstico para una poblacin infinita. Como se mencion anteriormente en esta seccin buscamos estimar puntualmente los parmetros de una poblacin (la media, la varianza y la proporcin). Para darnos una idea de cmo lograr dicho objetivo observemos el siguiente ejemplo que aunque se realiza con una poblacin de tamao pequeo nos sirve como gua u orientacin.

    El propsito del muestreo es indagar algo sobre la poblacin de estudio. Cuando se disea una muestra, es importante considerar la informacin que se va a obtener y el grado de exactitud de lo que se encuentre acerca de la poblacin. Con este propsito es importante que se analice claramente la obtencin de la muestra y los resultados obtenidos a partir de ella, utilizando los conceptos probabilsticos ya vistos. Una distribucin muestral es una distribucin de probabilidad de un estadstico muestral calculado a partir de todas las muestras posibles de tamao n, elegidas al azar en una poblacin determinada. En trminos generales estamos interesados en conocer una o ms de las siguientes caractersticas:

    Su forma funcional Su media

    Distribuciones Muestrales

  • Su desviacin estndar Antes de comprender la inferencia estadstica, tenemos que entender claramente el concepto de distribucin muestral. Con esto se pretende dar a conocer la naturaleza de tales distribuciones y su papel en la inferencia estadstica, sin detenernos mucho en este tema, ya que por regla general en las aplicaciones estadsticas no se construyen distribuciones muestrales. Para emplear los mtodos de la inferencia estadstica, necesitamos conocer solamente las caractersticas de la distribucin muestral del estadstico apropiado al problema que se esta resolviendo.

    A partir de las distribuciones muestrales es importante diferenciar si estamos hablando de elementos de la poblacin o de la muestra y esto lo haremos teniendo en cuenta la siguiente notacin.

    Caracterstica

    Poblacin Muestra

    Total de elementos N n Media o promedio Varianza S2

    Proporcin o probabilidad de xito

    P

    Vamos a construir una distribucin muestral experimental de medias calculadas a partir de todas las muestras posibles que se pueden obtener de una poblacin pequea, con el fin de comprender la naturaleza de la distribucin muestral y esto lo haremos con el siguiente ejemplo. Ejemplo 69 Consideremos una poblacin conformada por 5 personas (N=5). La variable de inters es el gasto mensual en transporte (en miles de pesos). Los datos de la poblacin son: {78, 67, 83, 56} y vamos a responder a cada literal teniendo en cuenta la notacin utilizada. a. Calcular la media y la desviacin estndar de la poblacin

    La media poblacional se obtiene con

    = !"! 78 67 83 56 284 714 4 + + += = =

    Distribucin Muestral para la media

  • Y la desviacin estndar es

    = ( )!

    2 2 2 2(78 71) (67 71) (83 71) (56 71) 10.41634

    + + +

    =

    Tenemos entonces una poblacin con media = 71 y desviacin estndar = 10,4163

    b. De la poblacin vamos a seleccionar todas las muestras posibles de tamao n =2 sin orden y sin repeticin. Cuntas muestras de dos elementos de la poblacin pueden formarse?

    Como hay 4 elementos en la poblacin y queremos formar grupos de dos sin importar su orden tenernos que calcular una combinacin:

    4 4! 62 2!(4 2)!

    = =

    Es decir que podemos formar 6 grupos de dos elementos cada uno. Observmoslos

    1 2 3

    4 5 6

    : (78,67) : (78,83) : (78,56): (67,83) : (67,56) : (83,56)

    X X XX X X

    c. Dichas muestras son de tipo aleatorio simple para poblacin finita o infinita? Como cada una de estas muestras tiene la misma probabilidad de ser elegida entonces la probabilidad de escoger una muestra estara dada por:

    Muestra 1X 2X 3X 4X 5X 6X

    Probabilidad 16

    16

    16

    16

    16

    16

    y por ende estamos en presencia de muestreo aleatorio simple para poblacin finita.

  • Como X es una variable aleatoria, vamos a calcular la media en cada muestra, entonces 1X : el

    promedio de la primera muestra, 2X : el promedio de la segunda muestra, etc. Veamos:

    1 2 3

    4 5 6

    78 67 78 83 78 5672.5 80.5 672 2 2

    67 83 67 56 83 5675 61.5 69.52 2 2

    X X X

    X X X

    + + += = = = = =

    + + += = = = = =

    d. Ahora vamos a calcular la media de estas medias es decir

    1 2 3 4 5 6

    1 2 3 4 5 6

    1 1 1 1 1 1( )6 6 6 6 6 6

    72.5 80.5 67 75 61.5 69.5 426 716 6 6

    XE X X X X X X

    X X X X X X

    = + + + + +

    + + + + + + + + + += = = =

    Ntese que el promedio de las medias muestrales es igual a la media poblacional, entonces podemos decir que es una buen estimacin de . Calculamos ahora la desviacin estndar de para las seis muestras posibles

    2 2 2 2 2 2(72.5 71) (80.5 71) (67 71) (75 71) (61.5 71) (69.5 71)6

    6.013

    X

    + + + + + =

    Observamos que la varianza poblacional es diferente a la varianza de , por lo tanto es necesario trabajar con una varianza corregida, esto se logra de la siguiente forma: !! = ! 1 Podemos decir entonces que si se seleccionan todas las muestras posibles de tamao n de una poblacin dada entonces se tiene ()= Y !! = !!! !!!!!!

    El factor !!!!!! se denomina factor de correccin por finitud y en los casos de poblaciones infinitas este factor se hace igual a 1 es decir que queda como : !! = !!!

  • e. Qu tipo de distribucin de probabilidad podra tener la variable aleatoria media muestral? Si graficamos en un histograma la media muestral junto con su frecuencia podremos observar el comportamiento de la distribucin muestral. Para ello agrupemos los datos en intervalos segn lo aprendido en el mdulo de estadstica I y estudiemos su histograma y polgono de frecuencias.

    Intervalo de la media muestral

    60 66,29 66,3 75,29 72,6 78,29 78,9 85,2

    Frecuencia relativa

    16

    36

    16

    16

    0

    0,2

    0,4

    0,6

    6066,29 66,372,59 72,678,89 78,985,2

    Frecue

    ncia

    Intervalosdemediamuestral

    Historgramadelasmediasmuestralesysufrecuencia

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    6066,29 66,372,59 72,678,89 78,985,2

    Frecue

    ncia

    Intervalosdemediamuestral

    Polgonodefrecuenciasdelasmediasmuestrales

  • En el anterior grfico observamos una forma de campana que se parece a la representacin de la distribucin de una variable aleatoria normal, por ende podemos conjeturar que posiblemente la distribucin de la variable aleatoria media muestral se distribuir normal cuando el nmero de observaciones o tamao muestral sea grande (mayor de 50 datos, por ejemplo). Como vimos es muy importante poder establecer el tipo de distribucin que sigue la variable aleatoria muestral porque con ella podremos decir si es muy probable o no que los valores de sta se encuentren prximos a los parmetros poblacionales, adems en la semana de distribuciones de probabilidad notamos que segn como sea sta podemos calcular el valor esperado y la varianza de la misma, datos que son relevantes para hablar del sesgo de un estimador. El siguiente tema nos presenta o expone algunas pautas para establecer cundo una variable aleatoria muestral se distribuye normal. TEOREMADELLMITECENTRAL

    Con todo lo anterior estamos preparados para estudiar las distribuciones muestrales y las caractersticas de los estimadores puntuales ms usados en la inferencia estadstica. A continuacin

    Al seleccionar muestras simples de tamao de una poblacin, la distribucin muestral de la media muestral se puede aproximar con una distribucin de probabilidad normal, cuando el tamao de la muestra es grande: de tamao mayor que 30. Otra manera de presentar el teorema es la siguiente: Si son un conjunto de variables aleatorias independientes que se

    distribuyen idnticamente con media y varianza , entonces la variable aleatoria

    Para la cual es la suma de dichas variables aleatorias y es el promedio de las

    mismas, se distribuye normal estndar cuando n tiende a aumentar significativamente.

  • expondremos las variables aleatorias (con sus distribuciones de probabilidad) que ms se utilizan para estimar los parmetros poblacionales media, varianza y proporcin y hacer inferencias de los mismos.

    Si X es la media de una muestra aleatoria de tamao n sacada de una poblacin distribuida

    normalmente con media y desviacin X n

    = ; y por lo tanto la estandarizacin ! es:

    != X !!!!

    Ejemplo 70 Se realiz una prueba a un grupo de 80 aspirantes al cargo de administrador de cierta empresa y se obtuvo que las calificaciones siguen una distribucin normal con calificacin promedio de 300 puntos y varianza muestral de 25 cuando se toma una muestra de 16 calificaciones de las pruebas. a. Calcule el error tpico de la media de muestral. b. Determine la probabilidad de que la media muestral sea superior a 280 puntos. c. Para que el error tpico fuera 6, qu tamao de muestra debera seleccionarse? Para responder cada literal utilizaremos la teora dada.

    a. La varianza muestral es 2( )X

    , luego el error tpico de la media muestral es 25 5X = = .

    b. Con base al enunciado debemos calcular ( 280)P X > y esto lo logramos estandarizando la

    variable aleatoria X .

    ( )280 280 280 300 20 45 5

    X X X

    XP P Z P Z P Z P Z

    > = > = > = > = > Veamos la representacin grfica de la probabilidad solicitada

    Distribucin muestral de ! en una poblacin normal

  • Cabe resaltar que como la normal estndar es una distribucin para la cual los valores de la probabilidad de una cantidad negativa es igual al valor de la probabilidad de la cantidad pero positiva, es decir

    ( 4) 1 ( 4) 1 0.9999 0.0001P Z P Z> = < = Con lo cual decimos que la probabilidad de que la media muestral sea superior a 280 en una muestra de tamao 16 es casi nula. En otras palabras no es muy probable que en una muestra de 16 calificaciones la media muestral sea mayor a 280 puntos. c. Para poder determinar el tamao de muestra requerido para que el error tpico sea 6 necesitamos

    el valor de la varianza poblacional que podemos obtener al despejar a de la desviacin tpica o error tpico, veamos:

    Como 5X

    = y el tamao de muestra era 16 tenamos que 516

    = , por lo tanto 20 = .

    Ahora calcularemos el tamao de la muestra cuando 20 = y 6X

    = .

    220 206 3.3 3.3 11.16

    n nn

    = = =

    Esto significa que necesitaremos tomar una muestra de tamao 11 o 12 para que el error tpico sea aproximadamente 6.

    Ejemplo 71

  • En cierta ciudad los gastos semanales en transporte para los habitantes, estn distribuidos normalmente con media de $16500 y una desviacin estndar de $1500. Cul es la probabilidad de que una muestra de 25 personas tengan un gasto promedio semanal superior a $15750 Vamos a identificar los datos que nos dan en el problema y a plantear la probabilidad X: Gastos semanales en transporte =$16500 =$1500 n = 25

    P (>15760) = P !!!!/ ! > !"#$%!!"#$$!"##/ !"

    = P ! > 2.47 = 1- P ! 2.47

    = 1-0.0068 =0.9832

    Cuando la muestra no proviene de una distribucin normal, el tamao de la muestra desempea un papel muy importante. Cuando n es pequea, la forma de la distribucin depende principalmente de la forma de la poblacin. Sin embargo cuando n crece, uno de los teoremas ms importantes de la inferencia estadstica establece que la forma de la distribucin muestral se aproxima a una distribucin normal, independientemente de la distribucin que tenga la poblacin de origen. (Teorema del lmite central). La diferencia entre este enunciado y el anterior est en que no se requiere que la poblacin de origen tenga distribucin normal cuando n es grande (n se considera grande si es mayor o igual que 30). Ejemplo 72 La duracin de cierta marca de bombillas tiene una media de 900 horas y la desviacin estndar de 70 horas. Si se selecciona una muestra de 36 bombillas, determine la probabilidad de que dure entre 870 y 925 horas

    Distribucin muestral de ! cuando se desconoce la distribucin de la poblacin.

  • Observe que no se hace ninguna mencin de la forma funcional de la distribucin, pero como el tamao de muestra es grande (n30), por el teorema del lmite central entonces la distribucin es aproximadamente normal.

    X: tiempo de duracin de las bombillas =900 = 70 n = 36

    P (870 925) = P !"#!!""!"!" !!!!! !"#!!""!"!"

    = P 2.57 ! 2.14 = 0.9838-0.0051=0.9787

    Es muy comn el hecho de que en la prctica de que la varianza de la poblacin ! es desconocida. En estos casos se trabaja con la varianza de la muestra ! como una estimacin de !, dando lugar a una variable T tal que: = / Conocida como la distribucin t Student o simplemente con el nombre de la distribucin t. Esto quiere decir que para hacer inferencias sobre medias poblacionales cuando no se conoce la varianza de la poblacin, se utiliza la distribucin t en lugar de la distribucin normal. La distribucin t, de la misma manera que la distribucin normal estandarizada, tiene forma de campana y tiene media igual a 0, alrededor de la cual es simtrica. La varianza de la distribucin t, en cambio, es mayor que 1, es por esto que la distribucin es ms aguda en el centro y ms alta en las colas, como lo muestra la siguiente figura.

    Distribucin muestral de ! en una poblacin normal con varianza poblacional desconocida

  • El rea total bajo la distribucin t es igual a 1 y esta distribucin se encuentra tabulada para cada valor (n-1) o grados de libertad denominados gl. La tabla de la distribucin t tiene la siguiente tabla:

    La columna de la izquierda de la tabla contiene diversos valores de (n 1) grados de libertad. Cada encabezamiento en las columnas indica la proporcin del rea superior bajo la curva de la distribucin t. Si estamos interesados por ejemplo, en la distribucin t para 10 grados de libertad, para un rea superior de 0,05 el valor es t = 1,8125.

    En la prctica, son muy utilizadas las inferencias sobre proporciones poblacionales. Por lo tanto la distribucin muestral de una proporcin es de gran inters. En un estudio de mercados se puede estar interesado en la proporcin o porcentaje de consumidores que estaran dispuestos a comprar algn producto nuevo que se piensa lanzar al mercado. El jefe de personal puede estar interesado en conocer el porcentaje de empleados que se ausentan en horas de trabajo.

    Distribucin de la proporcin de una muestra

  • Sea A el nmero total de elementos que presentan cierta caracterstica en una poblacin, entonces la proporcin de aquellos que cumplen y no cumplen con dicha caracterstica est dada por la

    expresin APN

    = y 1 N APN

    = respectivamente.

    Obsrvese que cada observacin de este experimento es de tipo Bernoulli xito (cumple con la caracterstica) y fracaso (no cumple con la caracterstica) y como se repite cierto nmero de veces se convierte en una Binomial para la cual el valor esperado de la variable aleatoria proporcin de individuos con la caracterstica es P y la varianza es (1 )P P . i el tamao de muestra es grande Spor el teorema del lmite central esta binomial puede aproximarse a una normal con media P y varianza (1 )P P .

    Para tamao de muestra pequeo es decir que cumpla que 5np < o (1 ) 5n p < se tiene que la

    varianza y desviacin estndar estn definidas de la siguiente manera (1 )( )1

    N n P PVar PN n

    =

    y (1 )( )1

    N n P PVar PN n

    =

    respectivamente a 1

    N nN

    se le conoce como factor de

    correccin de poblaciones finitas. Ejemplo 73 Se sabe que el 60% de los adultos de una zona del pas compran determinado producto. Se obtiene una muestra de 150 adultos de esta rea. Cul es la probabilidad de que la proporcin muestral este entre el 50% y el 70%?

    0.04P P = = ! = = 0,6 ! = (!,!)(!,!)!"# = 0,04

    Si P es la variable aleatoria proporcin de individuos de una poblacin que presentan determinada caracterstica, entonces la proporcin muestral se distribuye de la siguiente manera:

    ~ !,!(1 ) !

    proporcinpoblacionaly!!(!!!)! eselerrorestndardelaproporcin.

  • Recordemos que como P es aproximadamente normal se requiere estandarizar la variable aleatoria para poder utilizar las tablas de probabilidades.

    P(0,5 < P < 0,7) = !!,!"!!,!!,!" < !!!!! < !,!!!,!!,!" ! = !2,5 < ! < 2,5! = 0,9938 0,0062 = 0,9876

    AutoestudioLlego el momento de aplicar los temas tratados anteriormente, para reforzar nuestros conocimientos es necesario practicar; por ello tal y como se indica en la gua de actividades semanal por favor revise el libro sugerido en el mapa conceptual del autoestudio (Muestreo Estadstico) en l se encuentran todos los temas que tratamos en esta seccin y en la siguiente. Luego realice la gua prctica de esta semana. Para acceder al mencionado debe ingresar a la biblioteca virtual en otra pgina de internet distinta a la del mdulo. Las instrucciones para ingresar a la biblioteca aparecen a continuacin; por favor sgalas y realice los ejercicios del libro, slo aquellos que cubran los temas tratados hasta ahora. Para acceder al libro de la biblioteca En la unidad 4, aparece un mapa conceptual; en el espacio en el que se despliega la bibliografa acceda al libro siguiendo los siguientes pasos:

    1. enlapginaprincipaldecampusvirtualdebajodelCAEdicebibliotecavirtual,declickenestelink.

    2. Allseabrelapginadelabibliotecaydebeescribirsuusuarioycontrasea.3. Haganclickenlibroselectrnicoseingreseelusuarioylacontrasea.4. Ahoradeclickenelibro,vuelvaalapginadelmapaconceptualydeclicksobreel libro

    quedeseanconsultar. Si sigui correctamente las instrucciones debe poder visualizar el libro indicado. Adicionalmente puede revisar el libro Estadstica para Administracin y Economa de Anderson que se encuentra en google (libros); busque en el ndice los temas tratados: muestreo y distribuciones en el muestreo o distribuciones muestrales (captulo 7, desde la pgina 241). Luego resuelva los ejercicios all propuestos.