Estadistica Aplicada

138
CAPITULO 8 Métodos de muestreo y teorema del límite central Introducción Este capítulo inicia el estudio del muestreo, herramienta para inferir algo sobre una población. Primero se analizan los métodos para selecciona una muestra de una población. Después se construye una distribución de la media de la muestra para entender la forma como las medias muestrales tienden a acumularse en torno a la media de la población. Por último, se demuestra que, para cualquier población, la forma de esta distribución de muestreo tiende a seguir la distribución de probabilidad normal. Métodos de Muestreo Una muestra es una porción o parte de la población en interés. En muchos casos, el muestreo resulta más accesible que el estudio de toda la población. Razones para muestrear. Cuando se estudian las características de una población, existen diversas razones prácticas para preferir la selección de porciones o muestras de una población para observar y medir. He aquí algunas razones para muestrear: 1. Establecer contacto con toda la población requeriría mucho tiempo. Un candidato a la presidencia del Perú quizá desee determinar las posibilidades que tiene de resultar electo. Una encuesta de muestreo en la que se utiliza la población del país y las encuestas de campo convencionales de una empresa especializada en encuestas tardaría de uno a dos días. Con la misma población y los mismos entrevistadores, y laborando siete días a la semana, se requerirían 200 años para ponerse en contacto con toda la población de edad a votar. Aunque fuera posible reunir a un numeroso equipo de encuestadores, quizá no valdría la pena entrar en contacto con todos los votantes. 2. El costo de estudiar todos los elementos de una población resultaría prohibitivo. Las organizaciones que realizan encuestas de opinión pública y pruebas entre consumidores, normalmente entran en contacto con menos de 2000 de las casi todas las familias en el Perú. Una organización que entrevista a consumidores en panel cobra cerca de s/. 40 000 por enviar muestras por correo y tabular las respuestas con el fin de 1

Transcript of Estadistica Aplicada

Page 1: Estadistica Aplicada

CAPITULO 8

Métodos de muestreo y teorema del límite central

IntroducciónEste capítulo inicia el estudio del muestreo, herramienta para inferir algo sobre una población. Primero se analizan los métodos para selecciona una muestra de una población. Después se construye una distribución de la media de la muestra para entender la forma como las medias muestrales tienden a acumularse en torno a la media de la población. Por último, se demuestra que, para cualquier población, la forma de esta distribución de muestreo tiende a seguir la distribución de probabilidad normal.

Métodos de MuestreoUna muestra es una porción o parte de la población en interés. En muchos casos, el muestreo resulta más accesible que el estudio de toda la población.

Razones para muestrear.Cuando se estudian las características de una población, existen diversas razones prácticas para preferir la selección de porciones o muestras de una población para observar y medir. He aquí algunas razones para muestrear:

1. Establecer contacto con toda la población requeriría mucho tiempo. Un candidato a la presidencia del Perú quizá desee determinar las posibilidades que tiene de resultar electo. Una encuesta de muestreo en la que se utiliza la población del país y las encuestas de campo convencionales de una empresa especializada en encuestas tardaría de uno a dos días. Con la misma población y los mismos entrevistadores, y laborando siete días a la semana, se requerirían 200 años para ponerse en contacto con toda la población de edad a votar. Aunque fuera posible

reunir a un numeroso equipo de encuestadores, quizá no valdría la pena entrar en contacto con todos los votantes.

2. El costo de estudiar todos los elementos de una población resultaría prohibitivo. Las organizaciones que realizan encuestas de opinión pública y pruebas entre consumidores, normalmente entran en contacto con menos de 2000 de las casi todas las familias en el Perú. Una organización que entrevista a consumidores en panel cobra cerca de s/. 40 000 por enviar muestras por correo y tabular las respuestas con el fin de probar un producto (como un cereal para el desayuno, alimento para perro o algún perfume). La misma prueba del producto con toda las familias del país tendría un costo de aproximadamente s/. 1000 000 000.

3. Es imposible verificar de una manera física todos los elementos de la población. Algunas poblaciones son infinitas. Sería imposible verificar toda el agua de la laguna de Quistococha en lo que se refiere a niveles de bacterias, así que se eligen muestras de diversos lugares. Las poblaciones de peces, aves, serpientes o mosquitos son grandes, y se desplazan, nacen y mueren continuamente. En lugar de intentar contar todos los animales existentes en Alpahuayo Mishana, se hacen aproximaciones mediante diversas técnicas: se cuentan los animales capturados al azar en diversos sitios de la reserva, se revisan las trampas o las redes colocadas por los trabajadores encargados del cuidado de la reserva.

4. Algunas pruebas son de naturaleza destructivas. Si los especialistas en pisco del Perú, se bebieran todo el pisco para evaluar la producción, se acabarían con el producto y no quedaría nada para la venta. En el área de producción industrial: las placas de acero, cables y productos similares deben contar con una resistencia mínima de tensión. Para cerciorarse de que el producto satisface la norma mínima, el departamento de control de calidad elige una muestra de la producción actual. Cada pieza se somete a tensión hasta que se rompe y se registra el punto de ruptura. Es obvio que si se sometieran todos los cables o todas las placas a pruebas de

1

Page 2: Estadistica Aplicada

resistencia a la tensión no habría productos disponibles para vender o utilizar.

5. Los resultados de la muestra son adecuados. Aunque se contara con recursos suficientes, es difícil que la precisión de una muestra de 100% - toda la población- resulte esencial en la mayoría de los problemas. Por ejemplo, el estado utiliza una muestra de tiendas de comestibles distribuidas en todo el país para determinar el índice mensual de precios de los alimentos. Los precios del pan, frejol, leche y otros productos de primera necesidad se incluyen en el índice. Resulta poco probable que la inclusión de todas las tiendas existentes en todo el país influya significativamente en el índice, pues los precios de la leche, pan y otros productos de primera necesidad no varían más de unos cuantos céntimos de una cadena de tiendas o otra.

Muestreo Aleatorio Simple.El tipo de muestreo más común es el muestreo aleatorio simple.

Ejemplo:Ana y Roberto Cárdenas administran “La Pascana”, una pensión donde dan alojamiento y desayuno a los turistas, localizada en la ciudad de Iquitos. Se alquilan 8 habitaciones en esta pensión. A continuación aparece el número de estas ocho habitaciones alquiladas diariamente durante junio del 2009. Utilice Excel para seleccionar una muestra de cinco noches de junio.

Juni Habitacione Juni Habitacione Juni Habitacione

os

en alquiler os

en alquiler os

en alquiler1 0 11 3 21 32 2 12 4 22 23 3 13 4 23 34 2 14 4 24 65 3 15 7 25 06 4 16 0 26 47 2 17 5 27 18 3 18 3 28 19 4 19 6 29 310 7 20 2 30 3

Excel seleccionará la muestra aleatoria y arrojará los resultados. En la primera fecha muestreada había cuatro habitaciones alquiladas de las ocho. En la segunda fecha muestreada de junio, se alquilaron siete de las ocho habitaciones. La información aparece en la columna D de la hoja de cálculo de Excel. El sistema Excel lleva a cabo el muestreo con reemplazo. Esto significa que tal vez el mismo día aparezca más de una vez en una muestra.

Autoevaluación 8.1La siguiente lista incluye a los estudiantes que se matricularon en un curso de introducción a la estadística administrativa. Se elige al azar a tres estudiantes q quienes se formulan varias preguntas relacionadas con el contenido del curso y el método de enseñanza.a) Se escriben a mano los números 00 a 45 en papelitos y se colocan en un

recipiente. Los tres números seleccionados son 31, 7 y 25. ¿Qué estudiantes se van a incluir en la muestra?

b) Ahora utilice la tabla de dígitos aleatorios, para seleccionar su propia muestra.

c) ¿Qué haría si localizara el número 59 en la tabla?

2

MUESTREO ALEATORIO SIMPLE. Muestra seleccionada de manera que cada elemento o individuo de la población tenga las mismas posibilidades de que se le incluya.

Page 3: Estadistica Aplicada

N° NOMBRES N° NOMBRES00 ANDERSON, RAYMOND 23 MEDLEY, CHERYL ANN01 ANGER, CHERYL RENNE 24 MITCHEL, GREG R.02 BALL, CLAIRE JEANETTE 25 MOLTER, KRISTI MARIE03 BERRY, CHRISTOPHER G. 26 MULCANY, STEPHEN R.04 BOBAX, JAMES PATRICK 27 NICHOLAS, ROBERT CH.05 BRIGTH, M. STARR 28 NICKENS, VIRGINIA06 CHONTOS, PAUL JOSEPH 29 PENNYWITT, SEAN P.07 DETLEY, BRIAN HANS 30 POTEAU, KRIS E.08 DUDAS, VIOLA 31 PRICE, MARY LYNETTE09 DULBS, RICHARD ZALFA 32 PISTAS, JAMES10 EDINGER, SUSAN KEE 33 SAGER, ANNE MARIE11 FINK, FRANK JAMES 34 SMILLIE, HEATHER M.12 FRANCIS, JAMES P. 35 SNYDER, LEISHA KAY13 GAGHEN, PAMELA LYNN 36 STAHL, MARIA TASHERY14 GOULD, ROBYN KAY 37 ST. JOHN, AMY J.15 GROSENBACHER, SCOOT 38 STURDEVANT, RICHARD K.16 HEETFIELD, DIANE MARIE 39 SWETYE, LYNN MICHELE17 KABAT, JAMES DAVID 40 WALASINSKI, MICHAEL18 KEMP, LISA ADRIANE 41 WALKER, DIANE ELAINE19 KILLION, MICHELLE A. 42 WARNOCK, JENNIFER M.20 KOPERSKI, MARY ELLEN 43 WILLIAMS, WENDY A.21 KOPP, BRIDGETTE ANN 44 YAP, HOCK BAN22 LEHMANN, KRISTINA M. 45 YODER, ARLAN JAY

Solución:

a. Los estudiantes seleccionados según la lista son: Price, Mary Lynette; Detley, Bryan Hans y Molter, Kristi Marie.

b. Utilizando la tabla de números aleatorios procedo lo siguiente:Opto por tomar el segundo grupo de números, de éstos comenzaré con la comuna 6 y fila 5 y me desplazaré hacia la columna siguiente.Entonces los números son: 36306 36 es una posición que existe en la lista de los estudiantes. Continúo con 92598 92 no existe

porque la lista sólo llega a 45. Salto con el siguiente 58710 lo descarto, salto al 63261 lo descarto, 47797 lo descarto, 22498 lo tomo 22 existe en la lista, 49186 lo descarto, 55406 lo descarto, 11173 lo tomo 11 existe en la lista.Los números elegidos son: 36, 22 y 11. Los alumnos son los siguiente: Stahl, María Tashery; Lehmann, Kristina M. y Fink, Frank James.

c. Si sale el número 59 lo descarto porque no existe la posición en la lista y salto al siguiente número aleatorio.

Muestreo Aleatorio Sistemático.Cuando el muestreo aleatorio simple resulta complicado, en caso de que existieran 2000 datos y solo se requiere tomar 100 datos aleatorios, para calcular es necesario ingresar cada uno de los 2000 datos antes de utilizar la tabla de números aleatorios para seleccionar los 100 datos. Dicho proceso puede tardar mucho tiempo. En su lugar, es posible aplicar el muestreo aleatorio sistemático.

Primero se calcula k, que es el resultado de dividir el tamaño de la población entre el tamaño de la muestra; al hacerlo evita el proceso de numeración. Si k no es un número entero, hay que redondearlo. En la selección del primer dato emplee el muestreo aleatorio simple. Por ejemplo, seleccionará un número de la tabla de números aleatorios entre 1 y k, en este caso, 20. Suponga que el número aleatorio resultó ser 18. Entonces, a partir del dato 18, se seleccionará cada vigésimo dato (18, 38, 58, etc.) como muestra.

Antes de aplicar el muestreo aleatorio sistemático, debe observar con cuidado el orden físico de la población. Cuando el orden físico se relaciona con la característica de la población, no debe aplicar el muestreo sistemático. Por ejemplo, si los datos se archivan en orden creciente, el muestreo aleatorio

3

MUESTREO ALEATORIO SISTEMÁTICO. Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k-ésimo miembro de la población.

Page 4: Estadistica Aplicada

sistemático no garantiza una muestra aleatoria. Debe aplicarse otros métodos de muestreo.

Muestreo Aleatorio Estratificado.Cuando una población se divide en grupos a partir de ciertas características, se aplica el muestreo aleatorio estratificado con el fin de garantizar el hecho de que cada grupo se encuentre representado en la muestra. A los grupos también se les denomina estratos. Por ejemplo, los estudiantes se pueden agrupar en estudiantes de tiempo completo o de medio tiempo, por sexo, masculino o femenino, tradicionales o no tradicionales. Una vez definidos los estratos, se aplica el muestreo aleatorio simple en cada grupo o estrato con el fin de formar la muestra.

Por ejemplo, puede estudiar los gastos en publicidad de 352 empresas más grandes del Perú. Suponga que el objetivo del estudio consiste en determinar si las empresas con altos rendimientos sobre el capital (una media de rentabilidad) gastan en publicidad la mayor parte del dinero ganado en ventas que las empresas con un registro de bajo rendimiento o déficit. Para asegurar que la muestra sea una representación imparcial de las 352 empresas, éstas se agrupan de acuerdo con su rendimiento porcentual sobre el capital.

La tabla 8.1 incluye los estratos y las frecuencias relativas. Si aplicara el muestreo aleatorio simple, observe que las empresas del tercer y cuarto estrato tienen una probabilidad alta de que se les seleccione (0.87), mientras que las empresas de los demás estratos tienen pocas probabilidades de que se les seleccione (0.13). Podría no seleccionar ninguna de las empresas que aparecen en los estratos 1 o 5 sencillamente por azar. No obstante, el muestreo aleatorio estratificado garantizará que por lo menos una empresa de los estratos 1 o 5 aparezcan en la muestra.

Considere una selección de 50 compañías para llevar a cabo un minucioso estudio. Entonces se seleccionará de forma aleatoria 1 (0.02 x 50) empresas del estrato 1; 5 (0.10 x 50), del estrato 2, etc. En este caso, el número de empresas en cada estrato es proporcional a la frecuencia relativa del estrato en la población. El muestreo estratificado ofrece la ventaja de que, en algunos casos, refleja con mayor fidelidad las características de la población que el muestreo aleatorio simple o el muestreo aleatorio sistemático.

TABLA 8.1 Número seleccionado para una muestra aleatoria estratificada proporcional

Probabilidad Número de Frecuencia NúmeroEstrato (recuperación capital) empresas relativa muestreado

1 30% y más 8 0.02 1*2 De 20% a 30% 35 0.10 5*3 De 10% a 20% 189 0.54 274 De 0% a 10% 115 0.33 165 Déficit 5 0.01 1

Total 352 1.00 50*0.02 de 50 = 1, 0.10 de 50 0 5, etcétera.

Muestreo Por Conglomerados.Este se emplea a menudo para reducir el costo de muestrear una población dispersa en cierta área geográfica.

Suponga que desea determinar la opinión de los habitantes de algún departamento con referencia a las políticas del estado de protección ambiental. Seleccionar una muestra aleatoria de habitantes y ponerse en contacto con cada persona requeriría mucho tiempo y resultaría muy costoso. Sería mejor aplicar el muestreo por conglomerados y subdividir el departamento en pequeñas unidades: provincias o distritos. Con frecuencia, se les conoce como unidades primarias.

4

MUESTRA ALEATORIA ESTRATIFICADA. Una población se divide en subgrupos, denominados estratos, y se selecciona al azar una muestra de cada estrato.

MUESTREO ACUMULADO. Una población se divide en conglomerados a partir de los límites naturales geográficos o de otra clase. A continuación se seleccionan los conglomerados al azar y se toma una muestra de forma aleatoria con elementos de cada grupo.

Page 5: Estadistica Aplicada

Suponga que dividió el departamento en 12 unidades primarias, seleccionó al azar 4 provincias, 2, 7, 4 y 12, y concentró su atención en estas unidades primarias. Usted puede tomar una muestra aleatoria de los habitantes de cada una de las provincias y entrevistarse con ellos (observe que se trata de una combinación de un muestreo por conglomerados y un muestreo aleatorio simple).

Autoevaluación 8.2Consulte la autoevaluación 8.1, y la lista de alumnos de la página 3. Suponga que en un muestreo aleatorio sistemático se elegiría a cada noveno estudiante de la clase. Al principio se elige al azar al cuarto estudiante de la lista. Dicho estudiante es el número 03. Recuerde que los números aleatorios comienzan con 00, entonces, ¿qué alumnos se elegirán como miembros de la muestra?

Solución:Los números aleatorios son: 03, 12, 21, 30 y 39. Los estudiantes ubicados en las respectivas posiciones son: Berry, Christopher; Francis, James; Kopp, Bridgette; Poteau, Kris y Swetye, Lynn Michelle.

“Error” de MuestreoLas muestras se emplean para determinar características de la población. No obstante, como la muestra forma parte o es una porción representativa de la población, es poco probable que la media de la muestra sea exactamente igual a la media poblacional. Asimismo, es poco probable que la desviación estándar de la muestra sea exactamente igual a la desviación estándar de la población. Por tanto, puede esperar una diferencia entre un estadístico de la muestra y el parámetro de la población correspondiente. Esta diferencia recibe el nombre de error de muestreo.

EjemploRevise el ejemplo anterior en la página 2, en el que se estudió el número de habitaciones alquiladas en La Pascana, en Iquitos, Perú. La población se refiere al número de habitaciones alquiladas cada uno de los 30 días de junio de 2009. Determine la media poblacional. Utilice Excel u otro software de estadística para seleccionar tres muestras aleatorias de cinco días. Calcule la media de cada muestra y compárela con la media poblacional. ¿Cuál es el error de muestreo en cada caso?

Solución:Durante el mes se alquilaron un total de 94 habitaciones. Así, la media de las unidades alquiladas por noche es de 3.13. Ésta es la media poblacional. Este valor se designa con la letra griega µ.

μ=∑ XN

=0+2+3+…+330

=9430

=3.13

La primera muestra aleatoria de cinco noches dio como resultado el siguiente número de habitaciones alquiladas: 4, 7, 4, 3 y 1. La media de esta muestra de cinco noches es de 3.8 habitaciones, que se representa como X1. La barra sobre la X recuerda que se trata de una media muestral, y el subíndice 1 indica que se trata de la media de la primera muestra.

X1=∑ X

n=4+7+4+3+1

5=19

5=3.80

El error de muestreo para la primera muestra es la diferencia entre la media poblacional (3.13) y la media muestral (3.80). De ahí que el error muestral sea (X1 - μ = 3.80 – 3.13 = 0.67). La segunda muestra aleatoria de cinco días de la población de 30 días de junio arrojó el siguiente número de habitaciones alquiladas: 3, 3, 2, 3 y 6. La media de estos cincos valores de 3.4, que se calcula de la siguiente manera:

X2=∑ X

n=3+3+2+3+6

5=17

5=3.4

5

ERROR DE MUESTREO. Diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente.

Page 6: Estadistica Aplicada

El error de muestreo es (X2 - µ = 3.4 – 3.13 = 0.27).

En la tercera muestra aleatoria, la media fue de 1.8, y el error de muestreo fue de -1.33.

Cada una de estas diferencias. 0.67, 0.27 y -1.33, representan el error de muestreo cometido al calcular la media poblacional. A veces estos errores son valores positivos, lo cual indica que la media muestral sobreexcedió la media poblacional; otras veces son valores negativos, lo cual indica que la media muestral resultó inferior a la media poblacional.

Distribución Muestral de la MediaAhora que aparece la posibilidad de que se presente un error de muestreo cuando se emplean los resultados del muestreo para aproximar un parámetro poblacional, ¿cómo hacer un pronóstico preciso sobre la única base de los resultados del muestreo? ¿Cómo puede la oficina de control de calidad, de una compañía de producción en serie, enviar un cargamento de un determinado producto a partir de una muestra de 10 del mismo? ¿Cómo puede Frecuencia Latina o Panamericana hacer pronósticos precisos sobre la elección presidencial con base de 1200 electores registrados de una población de cerca de 20 millones? Para responder estas preguntas, primero se debe precisar el concepto de distribución muestral de la media.

Ejemplo.Honda Selva del Perú S.A. cuenta con siete empleados de producción (a quienes se les considera la población). En la tabla 8.2 se incluyen los ingresos por hora de cada empleado.

Tabla 8.2 Ingresos por hora de empleados de producción de Honda Selva del Perú S.A.

Empleado

Ingreso por hora Empleado Ingreso por hora

Abel 7 Juan 7René 7 Ana 8Oscar 8 Aldo 9Otto 8

1. ¿Cuál es la media de la población?2. ¿Cuál es la distribución muestral de la media para muestras de tamaño

2?3. ¿Cuál es la media de la distribución muestral de la media?4. ¿Qué observaciones es posible hacer sobre la población y la

distribución muestral de la media?

Solución:1. La media de la poblaron es de s/. 7.71, que se determina de la siguiente

manera

μ=∑ XN

=7+7+8+8+7+8+97

=547

=7.71

2. Para obtener la distribución muestral de la media se seleccionó, sin reemplazos de la población, todas las muestras posibles de tamaño 2 y se calcularon las medias de cada muestra. hay 21 posibles muestras, que se calcularon con la fórmula:

NCn=N !

n! (N−n )!= 7 !

2 ! (7−2 )!= 5040

2 (120 )=21

Aquí, N = 7 es el número de elementos de la población, y n = 2, el número de elementos de la muestra.En la tabla 8.3 se ilustran las 21 medias muestrales de todas las muestras posibles de tamaño 2 que pueden tomarse de la población. Estas 21

6

DISTRIBUCION MUESTRAL DE LA MEDIA. Distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestra de la población.

Page 7: Estadistica Aplicada

muestras se utilizan para construir una distribución de probabilidad, que es la distribución muestral de la media, la cual se resume en la tabla 8.4.

TABLA 8.3 Medias muestrales de todas las posibles muestras de 2 empleados.

Ingresos

Muestra

Empleados por hora

Suma Media

1 Abel, René 7, 7 14 7.002 Abel, Oscar 7, 8 15 7.503 Abel, Otto 7, 8 15 7.504 Abel, Juan 7, 7 14 7.005 Abel, Ana 7, 8 15 7.506 Abel, Aldo 7, 9 16 8.007 René, Oscar 7, 8 15 7.508 René, Otto 7, 8 15 7.509 René, Juan 7, 7 14 7.00

10 René, Ana 7, 8 15 7.5011 René, Aldo 7, 9 16 8.0012 Oscar, Otto 8, 8 16 8.0013 Oscar, Juan 8, 7 15 7.5014 Oscar, Ana 8, 8 16 8.0015 Oscar, Aldo 8, 9 17 8.5016 Otto, Juan 8, 7 15 7.5017 Otto, Ana 8, 8 16 8.0018 Otto, Aldo 8, 9 17 8.5019 Juan, Ana 7, 8 15 7.5020 Juan, Aldo 7, 9 16 8.0021 Ana, Aldo 8, 9 17 8.50

Tabla 8.4 Distribución muestral de la media para n = 2Media

muestralNúmero

de medias

Probabilidad

7.00 3 0.14297.50 9 0.42858.00 6 0.28578.50 3 0.1429

21 1.0000

3. La media de la distribución muestral de la media se obtiene al sumar las medias muestrales y dividir la suma entre el número de muestras. La media de todas las medias muestrales se representa mediante μX .La µ recuerde que se trata de un valor poblacional, pues tomó en cuenta todas las muestras posibles. El subíndice X indica que se trata de la distribución muestral de la media.

μX=Sumadelasmediasmuestrales

Totaldemuestras=7+7.5+…+8.5

21=162

21=7.71

4. Consulte la gráfica 8.1, donde aparecen las dos distribuciones poblacionales y la distribución muestral de la media. Caben las siguientes observaciones:

a) La media de la distribución muestral de la media(s/.7.71) es igual a la media de la población: µ = μX .

b) La dispersión de la distribución muestral es menor que la dispersión de los valores de población. La media de las muestras varía de s/.7.00 a s/.8.50, mientras que los valores de población varían de s/.7.00 a s/.9.00. observe que, conforme se incrementa el tamaño de la muestra, se reduce la dispersión de la distribución muestral de las medias.

7

Page 8: Estadistica Aplicada

c) La forma de la distribución muestral de la media y la forma de la distribución de frecuencias de los valores de población son diferentes. La distribución muestral de las medias tiende a adoptar más forma de campana y a aproximarse a la distribución de probabilidad normal.

GRAFICA 8.1 Distribución de los valores de población y distribución muestral de las medias

Autoevaluación 8.3Los tiempos de servicio de los ejecutivos que laboran en Química Suiza son los siguientes:

Nombres AñosSeñor Gómez 20Señora García 22Señor Aguilar 26Señora Rojas 24Señor Ruiz 28

a) De acuerdo con la fórmula de las combinaciones, ¿cuántas muestras de tamaño 2 son posibles?

b) Elabore una lista de todas las muestras posibles de 2 ejecutivos de la población y calcule las medias.

c) Organice las medias en una distribución muestral.

d) Compare la media poblacional y la media de las medias de las muestras.

e) Compare la dispersión en la población con la dispersión de la distribución muestral de la media.

f) A continuación se muestra una gráfica con los valores de la población. ¿Tienen los valores de población una distribución normal (en forma de campana)?

g) ¿Comienza la distribución muestral de la media que se calculó en el inciso c) a indicar una tendencia a adoptar forma de campana?

Solución:a. La fórmula de las combinaciones es la siguiente:

5C2=5 !

2 ! (5−2 )!= 5!

2 ! (3 !)= 120

2 (6 )=10

Son posibles 10 muestras de tamaño 2.

b. La lista es la siguiente:

Tabla B: Medias muestrales de las posibles muestras de 2 ejecutivos

MediaEjecutivos Servicio MuestralGómez, García 20, 22 21Gómez, Aguilar 20, 26 23Gómez, Rojas 20, 24 22Gómez, Ruiz 20, 28 24García, Aguilar 22, 26 24García, Rojas 22, 24 23García, Ruiz 22, 28 25

8

Page 9: Estadistica Aplicada

Aguilar, Rojas 26, 24 25Aguilar, Ruiz 26, 28 27Rojas, Ruiz 24, 28 26

c. La distribución muestral es la siguiente:

Tabla C: Distribución muestral de la mediaMedi

aNúmero Probabilidad

21 1 0.1022 1 0.1023 2 0.2024 2 0.2025 2 0.2026 1 0.1027 1 0.10

10 1.00d. Calculamos la media poblacional con la fórmula:

μ=∑ XN

=20+22+26+24+285

=1205

=24

La media poblacional es 24.

Calculamos la media de las medias con la fórmula:

μX=21+22+23+24+25+26+27

7=168

7=24

La media de las medias de la muestra es 24.

Por lo tanto, al comparar las dos respuestas observamos que son idénticas μ=μX .

e. Se observa que la dispersión de la población tiene un rango que va de 20 a 28. Mientras que la dispersión de la distribución muestral va 21 a 27.

f. Según la gráfica mostrada se observa que los valores de la población no tienen una distribución normal.

g. Sí

Teorema del Límite CentralEn el caso de muestras grandes, la forma de la distribución muestral de la media se aproxima a la distribución de la probabilidad normal. La aproximación es más exacta en muestras grandes. Permite razonar sobre la distribución de las medias muestrales sin ninguna información acerca de la forma de la distribución de población de la que se toma la muestra. El teorema de límite central se cumple en el caso de todas las distribuciones.

Si la población obedece a una distribución normal, entonces, en el caso de cualquier tamaño de muestra, la distribución muestral de las medias también será de naturaleza normal. Si la distribución poblacional es simétrica (pero n o normal), se verá que la forma normal de la distribución muestral de las medias se presenta con muestras tan pequeñas como 10. Por otra parte, si se comienza con una distribución sesgada o con colas gruesas, quizá se requieran muestras de 30 o más para observar la característica de normalidad.

Ejemplo.Alfredo Ponce dio inicio a su negocio de engranes hace 20 años. El negocio creció a lo largo del tiempo y ahora cuenta con 40 empleados. Piñones Ponce´s E.I.R.L, encara algunas decisiones importantes relacionadas con la atención médica de sus empleados. Antes de tomar una decisión definitiva sobre el

9

TEOREMA DEL LÍMITE CENTRAL. Si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal. Esta aproximación mejora con muestras más grandes.

Page 10: Estadistica Aplicada

programa de atención médica que va a comprar, Alfredo decide formar un comité de 5 empleados. Se pedirá al comité que estudie el teme del cuidado de la salud y haga alguna recomendación sobre el plan que mejor convenga a los empleados. Alfredo cree que el punto de vista de los empleados más recientes en relación con el cuidado de la salud difiere de los empleados con más experiencia. Si Alfredo seleccionara al azar este comité, ¿qué puede esperar en términos del promedio de años que llevan con Piñones Ponce´s los miembros del comité? ¿Cuál es la forma de la distribución de años de experiencia de todos los empleados (la población) en comparación con la forma de la distribución muestral de las medias? Los tiempos de servicio (redondeados al año inmediato) de los 40 empleados que actualmente están en nómina en Piñones Ponce´s son los siguientes:

11 4 18 2 1 2 0 2 2 43 4 1 2 2 3 3 19 8 37 1 0 2 7 0 4 5 1 1416 8 9 1 1 2 5 10 2 3

Solución:La gráfica 8.3 muestra la distribución de los años de experiencia de la población de 40 empleados actuales. La distribución de tiempos de servicio tiene un sesgo positivo, pues unos cuantos empleados han laborado en Piñones Ponce`s por un periodo extenso. Seis empleados han laborado en la compañía 10 años o más. Sin embargo, como el negocio creció, el número de empleados se incrementó en los últimos 5 años. De los 40 empleados, 18 han laborado en la compañía 2 años o menos.

GRAFICA 8.3 Tiempo de servicio en Piñones Ponce´s de los empleados.Alfredo Ponce va formar un comité de 5 empleados, ¿Cómo elegiría el comité?, si los selecciona al azar, ¿Qué puede esperar respecto al tiempo medio de servicio de quienes forman parte del comité?Para comenzar, Alfredo anota el tiempo de servicio de cada uno de los 40 empleados en papelitos y los coloca en una gorra. Después los revuelve y selecciona al azar 5 de ellos. Los tiempos de servicio de estos 5 empleados son: 1, 9, 0, 19 y 14 años. Por tanto el tiempo medio de servicio de estos 5 empleados muestreados es de 8.60 años. ¿Cómo se compara este resultado con la media de la población? Alfredo no conoce la media de la población, así que decide calcular la media del tiempo de servicio de todos sus empleados, la cual es de 4.8 años que se determina de la siguiente manera:

μ=∑ XN

=11+4+18+…+2+340

=19240

=4.8

La diferencia entre la media de la muestra (X=8.6) y la media de la población (μ=4.8) es 3.8 y es el error de muestreo. Esto se debe al azar. Si Alfredo selecciona a estos 5 empleados para formar el comité, el tiempo medio de servicio de éstos seria mayor que el de la media de la población.

¿Qué sucedería si Alfredo colocara de nuevo los papelitos en la gorra y tomara otra muestra? ¿Esperaría que la media de esta segunda muestra fuera exactamente la misma que la anterior? Suponga que selecciona otra muestra de 5 empleados y los valores son: 7, 4, 4, 1 y 3. La media ahora seria 3.80 años. El resultado de seleccionar 25 muestras de 5 empleados cada una encontramos en la tabla 8.5 y en la gráfica 8.4. En realidad hay 658 008 posibles muestras de 5 tomas de la población de 40 empleados, los cuales se determinan mediante la fórmula:

40C5=40 !

5 ! ( 40−5 )!= 40 !

5 ! (35 !)=658 008

10

Page 11: Estadistica Aplicada

Observe la diferencia de forma de las distribuciones poblacional y muestral de medias. La población de tiempos de servicio de los empleados (gráfica 8.3) tiene un sesgo positivo. La población varia de 0 a 19 años, mientras que las medias muestrales varían de 1.6 a 8.6 años.

Tabla 8.5 Veinticinco muestras aleatorias de cinco empleadosMuestra de MediaIdentificació

nDatos de la muestra muestral

A 1 9 0 19 14 8.6B 7 4 4 1 3 3.8C 8 19 8 2 1 7.6D 4 18 2 0 11 7.0E 4 2 4 7 18 7.0F 1 2 0 3 2 1.6G 2 3 2 0 2 1.8H 11 2 9 2 4 5.6I 9 0 4 2 7 4.4J 1 1 1 11 1 3.0K 2 0 0 10 2 2.8L 0 2 3 2 16 4.6M 2 3 1 1 1 1.6N 3 7 3 4 3 4.0O 1 2 3 1 4 2.2P 19 0 1 3 8 6.2Q 5 1 7 14 9 7.2R 5 4 2 3 4 3.6S 14 5 2 2 5 5.6T 2 1 1 4 7 3.0U 3 7 1 2 1 2.8V 0 1 5 1 2 1.8W 0 3 19 4 2 5.6X 4 2 3 4 0 2.6

Y 1 1 2 3 2 1.8

GRAFICA 8.4 Histograma de tiempos de servicio medios para 25 muestras de 5 empleados

La tabla 8.6 contiene los resultados de seleccionar 25 muestras de 20 empleados cada una y el cálculo de las medias muestrales. Estas medias muestrales aparecen en la gráfica 8.5. Al comparar la forma de esta distribución con la población (gráfica 8.3) y con la distribución muestral de medias si la muestra es de n = 5 (gráfica 8.4) se observa dos importantes características:

1. La forma de la distribución muestral de las medias es diferente a la de la población. En la gráfica 8.3, la distribución de empleados tiene un sesgo positivo, conforme selecciona muestras aleatorias de la población, cambia la forma de la distribución. A medida que incrementa el tamaño de la muestra, la distribución muestral de las medias se aproxima a la distribución de probabilidad normal.

11

Page 12: Estadistica Aplicada

GRAFICA 8.5 Histograma del tiempo medio de 25 muestras de 20 empleados.

2. Hay menos dispersión en la distribución muestral de las medias que en la distribución de la población. En la población, los periodos de servicio varían de 0 a 19 años. Cuando selecciono muestras de tamaño 5, las medias de las muestras variaron de 1.6 a 8.6 años, y cuando selecciono muestras de 20 las medias variaron de 3.5 a 7.10 años.

También puede comparar la media de las medias de la muestra con la media de la población. La media de las muestras de 25 muestras de los 20

empleados de la tabla 8.6 es de 4.676 años y se calcula de la siguiente manera:

μX=3.95+3.25+…+4.3+5.05

25=116.9

25=4.676

El teorema del límite central no dice nada sobre la dispersión de la distribución muestral de medias ni sobre la comparación entre la media de la distribución muestral y la media de la población.

Sin embargo, en el ejemplo de Piñones Ponce’s hay menor dispersión en la distribución de la media muestral que en la distribución de población, lo que indica la diferencia en el rango de la población y en el rango de las medias muestrales. Observe que la media de las medias de las muestras se encuentra cerca de la media de la población, es decir, que μ=μX , y si la desviación estándar de la población es σ, la desviación estándar de las medias muestrales es σ¿√n, en la que n es le número de observaciones de cada muestra. Entonces, σ¿√n es el error estándar de la media. En realidad, el nombre completo es desviación estándar de la distribución muestral de medias.

1. La media de la distribución muestral de las medias será exactamente igual a la media poblacional si selecciona todas las muestras posibles del mismo tamaño de una población dada. Es decir,

μ=μX

Aunque no seleccione todas las muestras, es de esperar que la media de la distribución muestral de medias se aproxime a la media poblacional.

2. Habrá menos dispersión en la distribución muestral de las medias que en la población. Si la desviación estándar de la población es σ, la desviación estándar de la distribución muestral de medias es σ¿√n. Note que, cuando se incrementa el tamaño de la muestra, disminuye el error estándar de la media.

Autoevaluación 8.4Repase los datos de Piñones Ponce’s de la página 9. Seleccione al azar 10 muestras de 5 empleados cada una. Utilice los métodos descritos en el capítulo y la tabla de números aleatorios para determinar los empleados por incluir en la muestra. Calcule la media de cada muestra y trace una gráfica

12

ERROR ESTANDAR DE LA MEDIA σ X=σ

√n

Page 13: Estadistica Aplicada

de las medias muestrales en una gráfica similar a la gráfica 8.3. ¿Cuál es la media de las 10 medias muestrales?Solución: Utilizando la tabla de números aleatorios se obtuvo los siguientes

posibles resultados, pero pueden variar según la forma de utilizar la tabla:

Número de muestras1 2 3 4 5 6 7 8 9 108 2 2 19 3 4 0 4 1 219 1 14 9 2 5 8 2 14 48 3 4 2 4 4 1 14 4 10 3 2 3 1 2 16 1 2 32 1 7 2 19 18 18 16 3 7

Total

37 10 29 35 29 33 43 37 24 17

X 7.4 2.05.8

7.0 5.8 6.6 8.6 7.4 4.8 3.4

Ahora calculamos la media de las medias con la siguiente fórmula:

μX=7.4+2.0+…+4.8+3.4

10=58.8

10=5.88

Por lo tanto, la media de las 10 medias muestrales es 5.88.

La gráfica es la siguiente:

Uso de la Distribución MuestralEn algunos ejemplos donde una población de la cual existe determinada información. Se toma una muestra de esta población y se quiere saber si el error de muestreo, es decir, la diferencia entre el parámetro de población y la muestra estadística, se debe al azar.

Es posible calcular la probabilidad de que la media de una muestra se encuentre dentro de cierto margen. La distribución de muestreo seguirá la distribución de probabilidad normal con dos condiciones:1. Cuando se sabe que las muestras se toman de poblaciones regidas por la

distribución normal. En este caso, el tamaño de la muestra no constituye un factor.

2. Cuando se desconoce la forma de la distribución de población o se sabe que no es normal, pero la muestra contiene por lo menos 30 observaciones. En este caso, el teorema del límite central garantiza que la distribución muestral de las medias sigue una distribución normal.

Utilizamos la fórmula para determinar un valor de z es, haremos algunos cambios. Para recordar la fórmula es la siguiente:

z= X−μσ

El primer cambio es X por Xporque lo importante es la distribución de X , la media muestral. El segundo cambio es σ por σ¿√n , o sea emplear el error estándar de la media de n observaciones. Por consiguiente, para determinar la probabilidad de una media muestral con rango especificado, primero aplique la fórmula para determinar z correspondiente. Después consulte la tabla de z para localizar la probabilidad.

Ejemplo.El departamento de control de calidad de Cola, Inc., conserva registros sobre la cantidad de bebida de cola en su botella gigante. La cantidad real de bebida en cada botella es de primordial importancia, pero varía en una mínima cantidad de botella en botella. Cola, Inc., no desea llenar botellas con menos líquidos del debido, pues tendría problemas en lo que se refiere a la confiabilidad de la etiqueta. Por otra parte, no puede colocar líquido de más

13

CALCULO DEL VALOR z Z¿X−μσ /√n

Page 14: Estadistica Aplicada

en las botellas porque regalaría bebida, lo cual reduciría sus utilidades. Los registros indican que la cantidad de bebida de cola tiene una distribución de probabilidad normal. La cantidad media por botella es de 31.2 onzas, y la desviación estándar de la población, de 0.4 onzas. Hoy, a las 8 de la mañana, el técnico de calidad seleccionó al azar 16 botellas de la línea de llenado. La cantidad media de bebida en las botellas es de 31.38 onzas. ¿Es un resultado poco probable? ¿Es probable que el proceso permita colocar demasiada bebida en las botellas? En otras palabras ¿es poco común el error de muestreo de 0.18 onzas?

Solución: Se toma los siguientes datos:

Tamaño de la muestra (n) = 16 botellas.La media poblacional (μ) = 31.20 onzas.La desviación estándar poblacional (σ ) = 0.4 onzas.La media muestral (X ) = 31.38

Una manera práctica y didáctica para resolver este ejercicio será a través de la prueba de hipótesis. Recordando los pasos para una prueba de hipótesis:

1) Elaborar la hipótesis nula y la alternativa.

H 0 : μ=31.20 onzasH 1: μ>31.20 onzas

2) Escoger el nivel de significación (error)

∝=0.05

3) Calcular el estadístico.

Z¿X−μσ /√n

→ Z¿31.38−31.20

0.4 /√16 = 1.80

El estadístico es: Z = 1.80

4) Establecer la regla de decisión

Rechazar H 0 cuando Z > 1.65

1.65

0.05

0 1.8

0.450

Rechaza HoAcepta Ho

← z

Ubicación del estadístico en la distribución normal

5) Decisión Se rechaza H 0 y se acepta H 1, es decir el contenido promedio de las botellas de cola es mayor a 31.20 onzas.

Esto concluye que en el proceso se vierte demasiada bebida de cola en la botella. Por lo tanto el técnico de control de calidad debe entrevistarse con el supervisor de producción para sugerir la reducción de la cantidad de bebida en cada botella.

Autoevaluación 8.5Consulte la información relativa a Cola, Inc. Suponga que el técnico de control de calidad seleccionó una muestra de 16 botellas gigantes con un promedio de 31.08 onzas. ¿Qué concluye sobre el proceso de llenado?

Solución: Se toma los siguientes datos:

14

Page 15: Estadistica Aplicada

-1.20

0.1151

0

0.3849 0.500

Tamaño de la muestra (n) = 16 botellas.La media poblacional (μ) = 31.20 onzas.La desviación estándar poblacional (σ ) = 0.4 onzas.La media muestral (X ) = 31.08

Una manera práctica y didáctica para resolver este ejercicio será a través de la prueba de hipótesis. Recordando los pasos para una prueba de hipótesis:

1. Elaborar la hipótesis nula y la alternativa.

H 0 : μ=31.20 onzasH 1: μ<31.20 onzas

2. Escoger el nivel de significación (error)

∝=0.05

3. Calcular el estadístico.

Z¿X−μ

σ /√n → Z¿

31.08−31.20

0.4 /√16 = -1.20

El estadístico es: Z = -1.20

4. Establecer la regla de decisión

Rechazar H 0 cuando Z < -1.65

-1.65

0.05

0

Acepta Ho

Rechaza Ho

-1.20

0.450

Ubicación del estadístico en la distribución normal

5. Decisión

Se acepta H 0 , es decir el contenido promedio de las botellas de cola es de 31.20 onzas. Es decir al 95% de confianza se puede afirmar que el proceso de producción se ajusta a los parámetros establecidos.

Se concluye que la probabilidad de que z sea mayor que -1.20 es:

15

Page 16: Estadistica Aplicada

ρ = 0.500 + 0.3849 = 0.8849

Existe más de 88% de probabilidad de que la operación de llenado produzca botellas con al menos 31.08 onzas.

EJERCICIOS RESUELTOS

1. La lista incluye las tiendas de Marcos’s Pizza. Se indica si es propiedad de alguna corporación (C) o del administrador (A). Se seleccionará e inspeccionará una muestra de cuatro establecimientos en relación con la conveniencia para el cliente, la seguridad, la higiene y otras características.

N° Dirección Tipo N° Dirección Tipo00 2607 Starr Av C 12 2040 Ottawa River Rd C01 309 W Alexis Rd C 13 2116 N Reynolds Rd C

02 2652 W Central Av C 14 3678 Rugby Dr C03 630 Dixie Hwy A 15 1419 South Av C04 3510 Dorr St C 16 1234 W Sylvania Av C05 5055 Glendale Av C 17 4624 Woodville Rd A06 3382 Lagrange St A 18 5155 S Main A07 2525 W Laskey Rd C 19 106 E Airport Hwy C08 303 Louisiana Av C 20 6725 W Central A09 149 Main St C 21 4252 Monroe C10 835 S MacCord Rd A 22 2036 Woodville Rd C11 3501 Monroe St A 23 1316 Michigan Av A

a)Los números aleatorios seleccionados son 08, 18, 11, 02, 41 y 54. ¿Qué

tiendas se eligieron?b) Utilice la tabla de números aleatorios para seleccionar su propia

muestra de establecimientos.c)Una muestra consta de cada séptimo establecimiento. El número 03 es

el punto de partida. ¿Qué establecimientos se incluirán en la muestra?d) Suponga que una muestra consta de tres establecimientos de los cuales

dos son propiedad corporativa y uno del administrador. Seleccione una muestra adecuada.

Solución:a. Con los números seleccionados se obtuvieron de la lista las siguientes

tiendas:08 303 Louisiana Av.11 5155 S Main.18 3501 Monroe St02 2652 W Central Av

Por lo tanto, los nombres de las tiendas que se escogieron para la muestra son: 303 Louisiana Av, 5155 S Main, 3501 Monroe St y 2652 W Central Av. Los dos últimos números no concuerdan con la lista.

b. Utilizando la tabla de números aleatorios se obtuvo los siguientes resultados:

10 835 S MacCord Rd.

16

Page 17: Estadistica Aplicada

16 1234 W Sylvania Av.03 630 Dixie Hwy.18 5155 S Main.

Por lo tanto, la muestra que se obtuvo de la lista de los establecimientos fueron: 835 S MacCord Rd, 1234 W Sylvania Av, 630 Dixie Hwy y 5155 S Main. Las respuestas pueden variar según la conveniencia de quien lo resuelva.

N° Distribuidor N° Distribuidor00 Dave White Acura 17 Doyle Pontiac Buick01 Autofair Nissan 18 Franklin Park Lincoln Mercury02 Autofaur Toyota-Susuki 19 Geona Motors03 George Ball’s Buick GMC 20 Great Lakes Ford Nissan04 Yark Automotive Group 21 Grogan Towne Chrysler05 Bob Schmidt Chevroleet 22 Hatfield Motor Sales06 Bowling Green Lincoln Mercury 23 Kistler Ford, Inc.

Jeep Eagle 24 Lexus of Toledo07 Brondes Ford 25 Mathews Ford Oregon, Inc.08 Brown Honda 26 Northtowne Chevrolet09 Brown Mazda 27 Quality Ford Sales, Inc.10 Charlie`s Dodge 28 Rouen Chrysler Jeep Eagle11 Thayer Chevrolet/Toyota 29 Satrun of Toledo12 Spurgeon Chevrolet Motor 30 Ed Schmidt Pontiac Jeep13 Dunn Chevrolet 31 Southside Lincoln Mercury14 Don Scott Chevrolet-Pontiac 32 Valiton Chrysler15 Dave White Chevrolet Co. 33 Vin Divers16 Dick Wilson Pontiac 34 Whitman Fordc. Escogiendo cada séptimo establecimiento y con el número 03 como

punto de partida se obtuvo lo siguiente: 03 630 Dixie Hwy10 835 S MacCord Rd17 4624 Woodville Rd

d. Se escogió la muestra adecuada de acuerdo con la pregunta y con la tabla de números aleatorios. Se obtuvo lo siguiente:

10 835 S MacCord Rd. (A)16 1234 W Sylvania Av. (C)00 2607 Starr Av. (C)

Por lo tanto, se obtuvo los siguientes establecimientos: 835 S MacCord Rd. (A), 1234 W Sylvania Av. (C) y 2607 Starr Av. (C) con sus respectivos tipos de comercio.

3. A continuación aparece una lista de los 35 miembros de la Metro Toledo Automóvil. Se desea calcular el ingreso medio de los departamentos de servicio de los distribuidoresa) Seleccione una muestra aleatoria de cinco distribuidores. Los números

aleatorios son: 05, 20, 59, 21, 31, 28, 49, 38, 66, 08, 29 y 02. ¿Qué distribuidores se van a incluir en la muestra?

b) Utilice la tabla de números aleatorios para seleccionar su propia muestra de cinco distribuidores.

c) Una muestra constará de cada séptimo distribuidor. El número 04 se selecciona como punto de partida. ¿Qué distribuidores se incluyen en la muestra?

Solución:a. Según los números escogidos de antemano se obtuvo lo siguiente:

05 Bob Schmidt Chevroleet20 Great Lakes Ford Nissan59 NO EXISTE EN LA LISTA21 Grogan Towne Chrysler31 Southside Lincoln Mercury28 Rouen Chrysler Jeep Eagle

Por lo tanto los demás números no importan cuando ya se obtuvo los cinco números para la muestra solicitada. Los distribuidores son los siguientes: Bob Schmidt Chevroleet, Great Lakes Ford Nissan, Grogan Towne Chrysler, Southside Lincoln Mercury y Rouen Chrysler Jeep Eagle.

17

Page 18: Estadistica Aplicada

b. Con la tabla se obtuvo los siguientes números:20 Great Lakes Ford Nissan13 Dunn Chevrolet17 Doyle Pontiac Buick01 Autofair Nissan07 Brondes Ford

Por lo tanto, los distribuidores fueron: Great Lakes Ford Nissan, Dunn Chevrolet, Doyle Pontiac Buick, Autofair Nissan y Brondes Ford.El resultado puede variar, de acuerdo al investigador.

c. Con el número 04 como punto de partida y escogiendo cada séptimo distribuidor se obtuvo la siguiente muestra:

04 Yark Automotive Group11 Thayer Chevrolet/Toyota18 Franklin Park Lincoln Mercury25 Mathews Ford Oregon, Inc32 Valiton Chrysler

5. Una población consta de los siguientes cuatro valores: 12, 12, 14 y 16.a) Enumere todas las muestras de tamaño 2 y calcule la media de cada

muestra.b) Calcule la media de la distribución muestral de la media y la media de

la población. Compare los dos valores.c) Compare la dispersión en la población con la de las medias de las

muestras.Solución:a. Para encontrar la cantidad total de muestras de tamaño se utilizará la

siguiente fórmula:

NCn=N !

n! (N−n )! = 4C2=4 !

2 ! ( 4−2 )!= 4 !

2 ! (2 !)=24

4=6

Muestra Valores Sum Media

a1 12, 12 24 122 12, 14 26 133 12, 16 28 144 12, 14 26 135 12, 16 28 146 14, 16 30 15

Por lo tanto, se obtuvo una muestra de 6 observaciones.

b. Para el cálculo de la media de la distribución muestral de la media se utiliza la fórmula:

μX=12+13+14+13+14+15

6=81

6=13.5

Para la media poblacional se utiliza la fórmula:

μ=∑ XN

=12+12+14+164

=544

=13.5

Por lo tanto se puede observar que tanto la media poblacional como la media de la distribución muestral de la media son iguales:

μ = μX

c. Existe mayor dispersión con los datos de la población en comparación con las medias muestrales. Las medias muestrales varían de 12 a 15, mientras que los valores de la población varían de 12 a 16.

7. Una población consta de los siguientes cinco valores: 12, 12, 14, 15 y 20a) Enumere todas las muestras de tamaño 3 y calcule la media de cada

muestra.b) Calcule la media de la distribución muestral de las medias y la media

de la población. Compare los dos valores.

18

Page 19: Estadistica Aplicada

c) Compare la dispersión en la población con la de las medias de las muestras.

Solución:a. Se calcula la cantidad de muestras de tamaño tres con la siguiente

fórmula:

NCn=N !

n! (N−n )! = 5C3=5!

3! (5−3 ) != 5 !

3 ! (2! )=120

12=10

Por lo tanto hay 10 muestras de tamaño 3. A continuación se enumera estas muestras.

Muestras Valores Suma

Media

1 12, 12, 14 38 12.662 12, 12, 15 39 13.003 12, 12, 20 44 14.664 14, 15, 20 49 16.335 12, 14, 15 41 13.666 12, 14, 15 41 13.667 12, 15, 20 47 15.668 12, 15, 20 47 15.669 12, 14, 20 46 15.3310 12, 14, 20 46 15.33

b. Se calcula la media de las medias por medio de la fórmula:

μX=12.66+13.00+…+15.33

10=145.95

10=14.595=14.6

Para la media poblacional se utiliza la fórmula:

μ=∑ XN =

12+12+14+15+205

=735

=14.6

Por lo tanto se puede observar que tanto la media poblacional como la media de la distribución muestral de la media son iguales:

μ = μX

c. Existe mayor dispersión con los datos de la población en comparación con las medias muestrales. Las medias muestrales varían de 12.66 a 16.33, mientras que los valores de la población varían de 12 a 20.

9. En un despacho de abogados hay seis socios. En la siguiente tabla se incluye el número de casos que en realidad atendió cada socio en los tribunales durante el mes pasado.

Socio Número de casosRuud 3Wu 6Sass 3

Flores 3Wilhelms 0Schueller 1

a) ¿Cuántas muestras de 3 son posibles?b) Enumere todas las posibles muestras de 3 y calcule el número medio

de casos en cada muestra.c) Compare la media de la distribución muestral de las medias con la de

la media poblacional.

Solución:a. Con la siguiente fórmula se calcula la cantidad de muestras de tamaño

3 que son posibles.

NCn=N !

n! (N−n )! = 6C3=6 !

3! (6−3 )!= 6 !

3 ! (3 !)=720

36=20

Por lo tanto hay 20 muestras de tamaño 3.

19

Page 20: Estadistica Aplicada

b. A continuación se enumera las muestras de tamaño 3.

Muestra Casos Suma

Media

Ruud, Wu, Sass 3, 6, 3 12 4.00Ruud, Sass, Flores 3, 3, 3 9 3.00

: : : :: : : :

Sass, Flores, Schueller 3, 3, 1 7 2.33

c. Se calcula la media de las medias por medio de la fórmula:

μX=4.00+3.00+…+2.33

20=53.33

20=2.6665=2.67

Para la media poblacional se utiliza la fórmula:

μ=∑ XN =

3+6+3+3+0+16

=166

=2.67

Por lo tanto se puede observar que tanto la media poblacional como la media de la distribución muestral de la media son iguales:

μ = μX

La población tiene mayor dispersión que las medias muestrales. Las medias de la muestra varían de 1.33 a 4.00. la población varía de 0 a 6.

11. En la tabla de números aleatorios cada dígito de 0 a 9 tenga la misma posibilidad de presentarse. A continuación aparecen los 10 primeros renglones de cinco dígitos de la tabla. Suponga que se trata de 10 muestras aleatorias de cinco variables cada una. Determine la media de cada muestra. Compare la media de la media de la distribución muestral de las medias con la media poblacional.

0 2 7 1 1

9 4 8 7 35 4 9 2 17 7 6 4 06 1 5 4 51 7 1 4 71 3 7 4 88 7 4 5 50 8 9 9 97 8 8 0 4

Solución:Para obtener la media de cada muestra se utilizó la formula de la media. Y se calculó la media de cada una de las medias de la muestras. La siguiente tabla muestra el resultado:

Muestra Suma Media1 11 2.22 32 6.23 21 4.24 24 4.85 21 2.26 20 4.07 23 4.68 29 5.89 35 7.010 27 5.4

15. Una población normal tiene una media de 60 y una desviación estándar de 12. Usted selecciona una muestra aleatoria de 9. Calcule la probabilidad de que la media muestral:a) Sea mayor que 63.b) Sea menor que 56.c) Se encuentre entre 56 y 63.

20

Page 21: Estadistica Aplicada

0,2734

0,75

0,2266

0

0,5000p

0.3413

-1.0

0,1587

0

p 0,5000

X-1,0

0,1587

0,75

0.2266

0

0,27340,3413

Solución: Tenemos los datos:

µ = 60.σ = 12.n = 9.

a. Siendo la media muestral: X=63

Z¿ X−μ

σ /√n =

63−60

12/√9 = 3

4 = 0.75

Por lo tanto Z = 0.2734

La probabilidad es: ρ = 0.5000 – 0.2734 = 0.2266

b. Siendo la media muestral : X=56

Z¿ X−μσ /√n

= 56−6012/√9

= - 44 = -1.0

Por lo tanto Z = 0.3413

La probabilidad es: ρ = 0.5000 – 0.3413 = 0.1587

c. Estando la media entre 56 y 63:

ρ = 0.5000 – 0.3413 = 0.1587 ρ = 0.5000 – 0.2734 = 0.2266

La suma de los dos es: 0.3853

La probabilidad es: ρ = 1 – 0.3853 = 0.6147

17. La renta de un departamento con una recámara tiene una distribución normal con una media de $2 200 mensuales y una desviación de $250 mensuales. La distribución del costo mensual no se rige por la distribución

21

Page 22: Estadistica Aplicada

0.3413

-1.0

0,1587

0

p 0,5000

normal. De hecho, tiene un sesgo positivo. ¿Cuál es la probabilidad se seleccionar una muestra de 50 departamentos de una recámara y hallar que la media es de por lo menos $1 950 mensuales?

Solución:Tenemos los datos:

µ = 2 200.σ = 250.n = 50.

X=1 950

Z¿ X−μσ /√n

= 1950−2 200

250/√50 = −250

35.355 = -7.07

La probabilidad es: ρ = 1 o prácticamente incierta.

CAPITULO 9

Estimación e intervalos de confianza

IntroducciónEn este capítulo se estudian diversos aspectos importantes del muestreo. El primer paso es el estudio del estimador puntual. Un estimador puntual consiste en un solo valor (punto) deducido de un amuestra para estimar el valor de una población. Un enfoque que arroja más información consiste en presentar un intervalo de valores del que se espera que se estime el parámetro poblacional. Dicho intervalos de valores recibe el nombre de intervalo de confianza.

Estimadores puntuales e intervalosde confianza de una mediaEl análisis de los estimadores puntuales y los intervalos de confianza comienza con el estudio del cálculo de la media poblacional. Se debe considerar dos casos: Se conoce la desviación estándar de la población (σ). Se desconoce la desviación estándar de la población (σ). En este caso de

sustituye la desviación estándar de la muestra (s) por la desviación estándar de la población (σ).

Existen importantes distinciones en los supuestos entre estos dos casos. Primero se considera el caso en el que σ se conoce.

Desviación estándar de la población conocida (σ).Existen casos en que la población es grande o resulta difícil identificar a todos los miembros de la población, por lo que es necesario confiar en la información de la muestra. En otras palabras, no se conoce el parámetro poblacional, y, por consiguiente, se desea estimar su valor, a partir del estadístico de la muestra.Un estimador puntual es un estadístico único para calcular un parámetro poblacional.

22

Page 23: Estadistica Aplicada

La media muestral, X , constituye un estimador puntual de la media poblacional, μ; ρ, una proporción muestral, es un estimador puntual de π, la proporción poblacional; y s, la desviación estándar muestral, es un estimador puntual de σ, la desviación estándar poblacional.

Aunque se espera que un estimador puntual se aproxime al parámetro poblacional, sería conveniente medir cuán próximo se encuentra en realidad. Un intervalo de confianza sirve para este propósito.

Por ejemplo, se estima que el ingreso anual medio de los trabajadores de la construcción es de 65 000. Un intervalo para este valor aproximado puede oscilar entre 61 000 y 69 000. Para describir cuánto es posible confiar en que el parámetro poblacional se encuentre en el intervalo se debe generar un enunciado probabilístico. Por ejemplo: se cuenta con 90% se seguridad de que el ingreso anual medio de los trabajadores de la construcción se encuentra entre 61 000 y 69 000.

La información relacionada con la forma de la distribución de medias, es decir, de la distribución muestralX , permite localizar un intervalo que tenga una probabilidad específica de contener la media poblacional, μ. En el caso de muestras razonablemente grandes, los resultados del teorema del límite central permiten afirmar lo siguiente:

1. Noventa y cinco por ciento de las medias muestrales seleccionadas de una población se encontrará a ± 1.96 desviaciones estándares de la media poblacional μ .

2. Noventa y nueve por ciento de las medias muestrales se encontrará a ± 2.58 desviaciones estándares de la media poblacional.

La desviación estándar que se estudió aquí es la desviación estándar de la distribución muestral de las medias, y recibe el nombre de error estándar. Los intervalos calculados de esta manera reciben el nombre de intervalo de confianza de 95% e intervalo de confianza de 99%. ¿Cómo se obtienen los valores de ±1.96 y ±2.58? Los términos 95% y 99% se refieren al porcentaje de intervalos construidos de forma similar que incluirán el parámetro que se está estimando. Por ejemplo, 95% se refiere a 955 de las observaciones ubicadas al centro de la distribución. Por consiguiente, el 5% restante se divide en partes iguales en las dos colas.

Observe el diagrama.

-1.96

0.025

1.96

0.025

0 Escala de Z

Consúltela tabla de la distribución normal para los valores z adecuados. Localice 0.4750 en el cuerpo de la tabla. Lea los valores del renglón y la

23

ESTIMADOR PUNTUAL. Estadístico calculado a partir de información de la muestra para estimar el parámetro poblacional.

INTERVALO DE CONFIANZA. Conjunto de valores formado a partir de una muestra de datos de forma que exista la posibilidad de que el parámetro poblacional ocurra dentro de dicho conjunto con una probabilidad especifica. La probabilidad específica recibe el nombre de nivel de confianza.

Page 24: Estadistica Aplicada

INTERVALO DE CONFIANZA PARA LA MEDIAPOBLACIONAL CON UNA σ CONOCIDA

columna correspondientes. El valor es de 1.96. Por tanto, la probabilidad de hallar un valor z entre 0 y 1.96 es de 0.4750. Asimismo, la probabilidad de encontrar un valor z en el intervalo de -1.96 a 1.96 es de 0.9500. El valor z del nivel de confianza de 90% se determina de forma similar. Éste es de ±1.65. En el caso de un nivel de confianza de 99%, el valor z es de ±2.58.

¿Cómo determinar un intervalo de confianza de 95%? La amplitud del intervalo se determina por medio del nivel de confianza y de la magnitud del error estándar de la media. Ya se ha descrito la forma de encontrar el valor z para un nivel de confianza particular. Se trata, en realidad, de la desviación estándar de la distribución muestral de medias. La fórmula es:

σ X=σ

√ndonde:

σ X es el símbolo del error estándar de la media; se utiliza la letra griega porque se trata de un valor poblacional, y el subíndice X recuerda que se refiere a la distribución muestral de medias.

σ es la desviación estándar poblacional.n es el número de observaciones en la muestra.

La magnitud del error estándar se ve afectada por dos valores. El primero es la desviación estándar de la población. Mientras mayor sea la desviación estándar de la población, σ , mayor será σ /√n. Si la población es homogénea, de modo que genere una desviación estándar poblacional pequeña, el error estándar también será pequeño. Sin embargo, la cantidad de observaciones en la muestra también afecta al error estándar. Una muestra grande generará un error estándar pequeño en el estimado, lo que indicará que hay menos variabilidad en las medias muestrales.

Los siguientes cálculos en el caso de un intervalo de confianza de 95% se resumen en la siguiente fórmula:

X ± 1.96σ

√n

De manera similar, un intervalo de confianza de 99% se calcula de la siguiente manera:

X ± 2.58σ

√n

Como ya se señaló, los valores de ±1.96 y ±2.58 son valores de z correspondientes a 95% medio y 99% de las observaciones, respectivamente. Es posible seleccionar cualquier nivel de confianza entre 0% y 100% y encontrar el valor correspondiente para z. En general, un intervalo de confianza para la media poblacional, cuando se conoce la desviación estándar poblacional, se calcula de la siguiente manera:

X ± zσ

√n

En esta fórmula z depende del nivel de confianza. Por consiguiente, para un nivel de confianza de 92%, el valor de z en la fórmula es de ±1.75. el valor de z proviene de la tabla de distribución normal. Esta tabla se basa en la mitad de la distribución normal, por lo que 92/200 = 0.4600. El valor más próximo en el cuerpo de la tabla es de 0.4599, y el valor de z correspondiente es de 1.75.

Nivel de Probabilidad media Valorconfianza más cercana z

80% 0.3997 1.2894% 0.4699 1.8896% 0.4798 2.05

El siguiente ejemplo muestra los detalles para calcular un intervalo de confianza e interpreta el resultado.

Ejemplo.

24

Page 25: Estadistica Aplicada

La Asociación Americana de Administración desea informar acerca del ingreso medio de los gerentes de la industria del menudeo. Una muestra aleatoria de 256 gerentes revela una media muestral de $45 420. La desviación estándar de esta muestra es de $2 050. A la asociación le gustaría responder las siguientes preguntas:

1. ¿Cuál es la media de la población?2. ¿Cuál es un conjunto de valores razonable para la media poblacional?3. ¿Cómo se deben interpretar estos resultados?

Solución:En este caso, una muestra de 256 gerentes es lo bastante grande para suponer que la distribución muestral tenderá a seguir la distribución normal. A continuación se responden las preguntas planteadas en el ejemplo.

1) ¿Cuál es la media de la población? En este caso se ignora. Si se sabe que la media de la muestra es de $45 420. De ahí que la mejor estimación del valor de la población sea el estadístico de la muestra correspondiente. Por consiguiente, la media de la muestra de $45 420 constituye un estimador puntual de la media poblacional desconocida.

2) ¿Cuál es el conjunto de valores razonable para la media poblacional? La asociación decide utilizar un nivel de confianza de 95%. Para determinar el intervalo de confianza correspondiente se aplica la fórmula:

X ± zσ

√n = 45 420 ±1.96

2050

√256 =45 420 ±251

Es de costumbre redondear estos puntos extremos a $45 169 y $45 671. Estos puntos extremos reciben el nombre de límites de confianza. El grado de confianza o nivel de confianza es de 95%, y el intervalo de confianza abarca de $45 169 a $45 671. Con frecuencia, ±$251 se conoce como margen de error.

3) ¿Cómo se deben interpretar estos resultados? Suponga que selecciona varias muestras de 256 gerentes. Para cada muestra, calcula la media y después construye un intervalo de confianza de 95%, como en la sección anterior. Puede esperar que alrededor de 95% de estos intervalos de confianza contengan la media de la población. Cerca de 5% de los intervalos no contendrían el ingreso anual medio poblacional, μ . No obstante, un intervalo de confianza particular contiene el parámetro poblacional o no lo contiene. El siguiente diagrama muestra los resultados de seleccionar muestras de la población de gerentes, se calcula la media de cada una y, con la fórmula, se determina un intervalo de confianza de 95% para la media poblacional. Observe que no todos los intervalos incluyen la media poblacional. Los dos puntos extremos de la quinta muestra son inferiores a la media poblacional. Esto se debe al error de muestreo, que constituye el riesgo que se asume cuando se selecciona el nivel de confianza.

Autoevaluación 9.1Bund-and-Rund es una franquicia de comida rápida, la cual se especializa en hamburguesas de media onza, y sándwiches de pescado y de pollo. También ofrece refrescos y papas a la francesa. El departamento de planeación informa que la distribución de ventas diarias de los restaurantes tiende a seguir la distribución normal. La desviación estándar de la distribución de ventas diarias es de $3 000. Una muestra de 40 mostró que las ventas medias diarias son de $20 000.

a) ¿Cuál es la media de la población?b) ¿Cuál es la mejor estimación de la media de la población? ¿Qué

nombre recibe este valor?c) Construya un intervalo de confianza de 99% para la media

poblacional.d) Interprete el intervalo de confianza.

25

Page 26: Estadistica Aplicada

Solución:a. La media poblacional μ si no se conoce asume el valor de la media

muestral X .

b. El mejor valor de X es $20 000 y a esto se le conoce como Estimador Puntual.

c. Se construye el intervalo de confianza de 99%:

N.C de 99% 99/200 = 0.495, se busca en la tabla de la distribución normal yZ = 2.58.

Se utiliza la fórmula para construir el intervalo de confianza:

x± z ( σ

√n )→ 20 000−2.58( 3000

√40 ) = 20 000 – 1223.80 = 18 776.2 = 18 776

→ 20 000+2.58( 3000

√40 ) = 20 000 + 1223.80= 21 223.8 = 21 224

18 776 μ 21 224

x−z ( σ

√n ) x+z ( σ

√n )d. Con un nivel de confianza de 99% las ventas de la franquicia Bund-

and-Rund estarán entre $18 776 y $21 224.

Desviación estándar de la población σ desconocida.

En la mayoría de los casos de muestreo no se conoce la desviación de la población (σ). He aquí un ejemplo en el que se pretende se pretende estimar

la media poblacional y es poco probable que se conozca la desviación estándar.

El decano de la facultad de Administración de la UCP desea estimar la cantidad media de horas de estudiantes de tiempo completos con trabajos remunerativos cada semana. Selecciona una muestra de 30 estudiantes; se pone en contacto con cada estudiante y les pregunta cuántas horas laboraron la semana pasada. De acuerdo con la información de la muestra, puede calcular la media muestral, pero no es probable que conozca o pueda determinar la desviación estándar poblacional (σ) que se requiere para aplicar la fórmula. Puede calcular la desviación estándar de la muestra y utilizarla como estimador, pero quizá no conocería la desviación estándar de la población.

Por fortuna se utiliza la desviación estándar de la muestra para estimar la desviación estándar de la población. Es decir, se utiliza s, la desviación estándar de la muestra, para estimar σ, la desviación estándar de la población. No obstante, al hacerlo no es posible utilizar la fórmula para calcular Z. Como se conoce σ, no puede utilizar la distribución z. Sin embargo, hay una solución: utilizar la desviación estándar de la media y sustituir la distribución z con la distribución t .

La distribución t es una distribución de probabilidad continua, con muchas características similares a las de la distribuciónz. William Gosset, experto cervecero, estaba interesado en el comportamiento exacto de la distribución del siguiente estadístico:

t¿X−μs /√n

Aquí, s es un estimador de σ. Le preocupaba la discrepancia entre s y σ cuando s se calculaba a partir de una muestra muy pequeña. La distribución t y la distribución normal estándar se muestra en la gráfica 9.1. Observe en particular que la distribución t es más plana y que se extiende más que la

26

Page 27: Estadistica Aplicada

distribución normal estándar. Esto se debe a que la desviación estándar de la distribución t es mayor que la distribución normal estándar.

Grafica 9.1 Distribución normal estándar y distribuciónt de Student.

Las siguientes características de la distribución t se basan en el supuesto de que la población de interés es una naturaleza normal, o casi normal.

1. Como en el caso de la distribución z, es una distribución continua.2. Como en el caso de la distribución z, tiene forma de campana y es

simétrica.3. No existe una distribución t , sino una familia de distribuciones t .

Todas las distribucionest tiene una media de 0, y sus desviaciones estándares difieren de acuerdo con el tamaño de la muestra, n. Existe una distribución t para un tamaño de muestra de 20, otro para un tamaño de muestra de 22, etc. La desviación estándar para una distribuciónt con 5 observaciones es mayor que para una distribución t con 20 0bservaciones.

4. La distribución t se extiende más y es más plana por el centro que la distribución normal estándar (véase la gráfica 9.1). Sin embargo, conforme se incrementa el tamaño de la muestra, la distribución t se aproxima a la distribución normal estándar, pues los errores que se cometen al utilizar s para estimar σ disminuyen con muestras más grandes.

Como la distribución t posee mayor dispersión que ladistribuciónz, el valor de t para un nivel de confianza dado tiene una magnitud mayor que el valor zcorrespondiente La gráfica 9.2 muestra los valores de z para un nivel de confianza de 95% y de t para el mismo nivel de confianza cuando el tamaño de la muestra es de n = 5.

Gráfica 9.2 Valores de z y t para el nivel de confianza de 95%

Para crear un intervalo de confianza para la media poblacional con la distribución t , se ajusta la fórmula para calcular el estadístico dela siguiente manera.

27

INTERVALO DE CONFIANZA PARA LA MEDIA

POBLACIONAL CON UNA σ CONOCIDA X ± ts

√n

Page 28: Estadistica Aplicada

Se supone que la población es normal

¿Se conoce la desviación estándar

de la población?

Se utiliza la distribución t

Se utiliza la distribuciónz

Para crear un intervalo de confianza para la media poblacional con una desviación estándar desconocida:

1. Suponga que la población muestreada es normal o aproximadamente normal.

2. Estime la desviación de la población estándar σ con la desviación estándar de la muestra (s¿.

3. Utilice la distribución t en lugar de la distribución z.La decisión de utilizar t o zse basa en el hecho de que se conoce σ, la desviación estándar poblacional. Si se conoce la desviación estándar poblacional, entonces se utilizaz. Si no se conoce la desviación estándar poblacional, se debe utilizar t . La gráfica 9.3 resume el proceso de toma de decisión.

Ejemplo.Un fabricante de llantas desea investigar la durabilidad de sus productos. Una muestra de 10 llantas para recorrer 50 000 millas reveló una media muestral de 0.32 pulgadas de cuerda restante con una desviación estándar de 0.09

pulgadas. Construya un intervalo de confianza de 95% para la media poblacional. ¿Sería razonable que el fabricante concluyera que después de 50 000 millas la cantidad media poblacional de cuerda restante es de 0.30 pulgadas?

Solución:Para comenzar, se supone que la distribución de la población es normal. En este caso no hay muchas evidencias, pero tal vez la suposición sea razonable. No se conoce la desviación estándar de la población, pero si se conoce la desviación estándar de la muestra, que es de 0.09 pulgadas. Se aplica la fórmula:

X ± ts

√nDe acuerdo con la información dada, X = 0.32, s = 0.09 y n = 10. Para hallar el valor de t , utilice la tabla de Distribución t de Student. Se desea el nivel de confianza de 95%, se identifica los grados de libertad (gl=n−1¿, en este caso sería igual a gl=10−1=9, identificados estos números se hallará que el valor de t=2.262.

Para determinar el intervalo de confianza se sustituyen los valores en la fórmula:

X ± ts

√n = 0.32 ± 2.262

0.09

√210 =0.32 ± 0.064

→ 0.32−0.064= 0.2556 = 0.256

→ 0.32+0.064 = 0.3843 = 0.384

0.256 μ 0.384

x−t ( s

√n ) x+t( s

√n )

28

Page 29: Estadistica Aplicada

Los puntos extremos del intervalo de confianza son 0.256 y 0.384. ¿Cómo interpretar este resultado? Resulta razonable concluir que la media poblacional se encuentra en este intervalo. El fabricante puede estar seguro (95% seguro) de que la profundidad media de las cuerdas oscila entre 0.256 y 0.384 pulgadas. Como el valor de 0.30 se encuentra en este intervalo, es posible que la media de la población sea de 0.30 pulgadas.

Autoevaluación 9.2Dottie Kleman es la Cookie Lady. Hornea y vende galletas en 50 lugares. La señora Kleman está interesada en el ausentismo entre sus trabajadores. La siguiente información se refiere al número de días de ausencia de una muestra de 10 trabajadores durante el último periodo de pago de dos semanas.

4 1 2 2 1 2 2 1 0 3

a) Determine la media y la desviación estándar de la muestra.b) ¿Cuál es la media poblacional? ¿Cuál es la mejor estimación de

dicho valor?c) Construya un intervalo de confianza de 95% para la media

poblacional.d) Explique la razón por la que se utiliza la distribución t como parte del

intervalo de confianza.e) ¿Es razonable concluir que la trabajadora común no falta ningún día

durante un periodo de pago?

Solución:a. Se calcula la media mediante la fórmula:

X=∑ Xn

= 4+1+2+2+1+2+2+1+0+3

10=18

10=1.8

Se calcula la desviación estándar con la fórmula:

S=√ ∑ ( X−X )2

n−1 = √ (1.8−4 )2+(1.8−1 )2+…+ (1.8−3 )2

10−1=√ 11.6

9=1.1353

b. La media poblacional no se conoce. El mejor estimador es la media de la muestra igual a 1.8 días.

c. Se construye el intervalo de confianza de 95%:

N.C de 95%, se busca en la tabla de la distribución t de Student, congl= 10 – 1 = 9, y se encuentra que t=2.262

Se utiliza la fórmula para construir el intervalo de confianza:

x± t ( s

√n )→ 1.8−2.262( 1.1353

√10 ) = 1.8 – 0.812 = 0.9879= 0.99

→ 1.8+2.262( 1.1353

√10 ) = 1.8 + 0.812 = 2.6121= 2.61

0.99 μ 2.61

x−t ( s

√n ) x+t( s

√n )Los puntos extremos del intervalo de confianza están entre 0.99 y 2.61.

d. Se utiliza t porque no se conoce la desviación estándar.

e. El valor de 0 no se encuentra en el intervalo. Por lo tanto no es razonable concluir que la cantidad media de días de ausencias laborales sea de 0 por empleado.

Intervalo de confianza de una proporción

29

Page 30: Estadistica Aplicada

INTERVALO DE CONFIANZA DE LA PROPORCION DE UNA POBLACION

El material hasta ahora expuesto en este capítulo utiliza la escala nominal de medición de razón. Es decir, se emplean variables como ingresos, pesos, distancias y edades.

Ejemplo:Una encuesta reciente indicó que 92 de cada 100 entrevistados estaban de acuerdo con el horario de verano para ahorrar energía. La proporción de la muestra es de 92/100, ó 0.92, ó 92%. Si ρ representa la proporción de la muestra, X el número de éxitos, y n el número de elementos de la muestra, se determina una proporción muestral de la siguiente manera:

La proporción de la población se define por medio de π. Por consiguiente, π se refiere al porcentaje de éxitos en la población.

Para crear un intervalo de confianza para una proporción, es necesario cumplir con los siguientes supuestos:

1. Las condiciones binomiales, han quedado satisfechas. En resumen, estas condiciones son:a) Los datos de la muestra son resultados de conteos.b) Sólo hay dos posibles resultados (lo normal es referirse a uno de

los resultados como éxito y al otro fracaso)c) La probabilidad de un éxito permanece igual de una prueba a la

siguiente.d) Las pruebas son independientes. Esto significa que el resultado de

la prueba no influye en el resultado de otra.

2. Los valores nπy n(1−π) deben ser mayores o iguales que 5. Esta condición permite recurrir al teorema del límite central y emplear la distribución normal estándar, es decir, z, para completar un intervalo de confianza..

Para crear un intervalo de confianza para una proporción de población se aplica la fórmula:

ρ ± z√ ρ(1−ρ)n

Ejemplo.El sindicato que representa a BBA considera la propuesta de fusión con Teamsters Union. De acuerdo con el reglamento del sindicato de BBA, por lo menos tres cuartas partes de los miembros del sindicato deben aprobar cualquier fusión. Una muestra aleatoria de 2 000 miembros actuales de BBA revela que 1 600 planean votar por la propuesta. ¿Qué es el estimador de la proporción poblacional? Determine un intervalo de confianza de 95% para la proporción poblacional. Fundamente su decisión en esta información de la muestra: ¿puede concluir que la proporción necesaria de miembros del BBA favorece la fusión? ¿Por qué?

Solución:Tenemos los siguientes datos: n = 2 000; x = 1 600; z→ 95% →z= 0,475

Se calcula la proporción: ρ = Xn → ρ =

16002000 = 0.80.

Entonces el 80% de los miembros de BBA favorecen la propuesta de fusión.

Se construye el intervalo de confianza con la fórmula:

ρ ± z√ ρ(1−ρ)n

= 0.80 ± 1.96√ 0.80(0.20)2000

=0.80 ± 0.018

30

PROPORCION. Fracción, razón o porcentaje que indica la parte de la muestra de la población que posee un rasgo de interés particular.

PROPORCION MUESTRAL ρ= Xn

Page 31: Estadistica Aplicada

→ 0.80−0.018 = 0.782 ~¿ 0.78

→ 0.80+0.018 = 0.818 ~¿ 0.82

78% ρ 82%

ρ−z√ ρ(1−ρ)n

ρ+z √ ρ(1−ρ)n

Los puntos extremos del intervalo de confianza son 0.78 y 0.82. El punto más bajo es mayor que 75%. Así, es probable que se apruebe la propuesta de fusión, pues el estimador del intervalo incluye valores superiores a 75% de los miembros del sindicato.

Autoevaluación 9.3Se llevó a cabo una encuesta de mercado para calcular la proporción de amas de casa que reconocen el nombre de la marca de un limpiador a partir de la forma y color del envase. De las 1 400 amas de casa de la muestra, 420 identificaron la marca por su nombre.

a) Calcule el valor de la proporción de la población.b) Construya un intervalo de confianza de 995 para la proporción

poblacional.c) Interprete sus conclusiones.

Solución:Tenemos los siguientes datos: n = 1 400; x = 420; z→ 99% → z= 0,495

a. Se calcula la proporción: ρ = Xn → ρ =

4201 400 = 0.30.

Entonces el 30% de amas de casa identificaron la marca por su nombre.

b. Se construye el intervalo de confianza con la fórmula:

ρ ± z√ ρ(1−ρ)n

= 0.30± 2.58√ 0.30(0.70)1400

=0.30 ± 0.032

→ 0.30−0.032= 0.268~¿ 0.27

→ 0.30+0.032= 0.332~¿ 0.33

27% ρ 33%

ρ−z√ ρ(1−ρ)n

ρ+z √ ρ(1−ρ)n

c. Los puntos extremos del intervalo de confianza son 0.27 y 0.33. Alrededor del 99% de los intervalos construidos de forma similar incluirán la media poblacional.

Factor de corrección de una población finita

En el caso de una población finita, en la que el número total de objetos o individuos es N y el número de objetos o individuos en la muestra es n, es necesario ajustar los errores muestrales en las fórmulas de los intervalos de confianza. En otras palabras, para determinar el intervalo de confianza para la media, se ajusta el error estándar de la media en la fórmula. Si está determinado el intervalo de confianza para una proporción, necesita ajustar el error estándar de la proporción en la fórmula.

Este ajuste recibe el nombre de factor de corrección de una población finita (FCP), el cual es:

FPC=√ N−nN−1

La tabla 9.2 muestra los efectos de diversos tamaños de muestras. Note que, cuando la muestra es menor que 5% de la población, el efecto del factor de corrección es muy pequeño. La regla usual consiste en que si la razón n /Nes menor que 0.05, se ignora el factor de corrección.

31

Page 32: Estadistica Aplicada

TABLA 9.2 Factor de corrección de una población finita de muestras seleccionadas cuando la población es de 1000

Tamaño de Fracción de Factor dela muestra la población corrección

10 0.010 0.995525 0.025 0.987950 0.050 0.9752100 0.100 0.9492200 0.200 0.8949500 0.500 0.7075

Así, si quisiera construir un intervalo de confianza para la media a partir de una población finita sin conocer la desviación estándar de la población, la formula se ajusta de la siguiente manera:

X ± ts

√n (√ N−nN−1 )

Ejemplo.Hay 250 familias en Punchana. Una muestra aleatoria de 40 de estas familia revela que la contribución anual media a la iglesia fue de $450, y la desviación estándar, de $75. ¿La media poblacional puede ser de $445 ó $425?

1) ¿Cuál es la media de la población? ¿Cuál es el mejor estimador de la media poblacional?

2) Analice la razón por la que se debe emplear el factor de corrección para una población finita.

3) Construya un intervalo de confianza de 90% para la media de la población. ¿Cuáles son los puntos extremos del intervalo de confianza?

4) Interprete el intervalo de confianza.

Solución:

1. No se conoce la media poblacional. El mejor estimador de la media poblacional es la media muestralX= 450.

2.nN

>5 %→40

250>5 %→16 %>5%

Por lo tanto se usa el FCP

3. Construimos el intervalo de confianza con la fórmula:

Como no se conoce la desviación estándar de la población se usará la distribución t.

gl=n−1=40−1=39; t→90 %→t=1.685.

X ± ts

√n (√ N−nN−1 ) =450 ± 1.685

75√40 (√ 250−40

250−1 )=450 ± 18.35

→ 450−18.35 = 431.65

→ 450+18.35= 468.35

431.65 µ 468.35

X−ts

√n (√ N−nN−1 ) X+t

s√n (√ N−n

N−1 ) Los puntos extremos del intervalo de confianza son $431.65 y

$468.35.

4. Es probable que la media poblacional sea más de 431 y menos de 468. La media puede ser $445 pero no es probable que sea $425 porque este valor no pertenece al intervalo de confianza; en cambio, $445 se encuentra dentro del intervalo.

Autoevaluación 9.4

32

Page 33: Estadistica Aplicada

TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA D ELA POBLACION

El mismo estudio relacionado con las contribuciones para la iglesia de Punchana reveló que 15 de las 40 familias tomadas de la muestra asisten continuamente a la iglesia. Construya un intervalo de confianza de 95% para la población de familias que asisten a la iglesia continuamente. ¿Se debe emplear el factor de corrección para una población finita? ¿Por qué?

Solución: Calculamos la proporción de la muestra

ρ = Xn → ρ =

1540 = 0.375.

Se utiliza la fórmula de la proporción porque se trata de una parte de la población y ajustamos en ella la fórmula del FCP:

ρ ± z√ ρ(1−ρ)n (√ N−n

N−1 )=0.375 ± 1.96√ 0.375(0.625)40 (√ 250−40

250−1 )→ 0.375−0.1376= 0.237~¿ 0.24

→ 0.375+0.1376= 0.513~¿ 0.51

24% µ 51%

ρ−z√ ρ(1−ρ)n (√ N−n

N−1 ) ρ+z √ ρ(1−ρ)n (√ N−n

N−1 )La proporción de fieles que asisten continuamente a la iglesia se encontrarán entre 24% y 51%.

nN

>5 %→40

250>5 %→ 16 %>5%

Por lo tanto se usa el FCP

Elección del tamaño adecuando de una muestra

El tamaño adecuado de una muestra depende de tres factores:

1) El nivel de confianza deseado.2) El margen de error que tolerará el investigador3) La variabilidad de la población que se estudia.

La interacción entre estos tres factores y el tamaño de la muestra se expresa con la siguiente fórmula:

E=z ( σ

√n )Al despejar nen esta ecuación se obtiene el siguiente resultado:

n=( zσE )

2

donde:nes el tamaño de la muestra.zes el valor normal estándar correspondiente al nivel de confianza deseado.σes la desviación estándar de la población.Ees el error máximo admisible.

Ejemplo.Un estudiante de administración desea determinar la cantidad media que ganan al mes los miembros del os consejos ciudadanos de las grandes ciudades. El error al calcular la media debe ser inferior a $100, con un nivel de confianza de 95%. El estudiante encontró un informe del Departamento del Trabajo en el que la desviación estándar es de $1 000. ¿Cuál es el tamaño de la muestra que se requiere?

Solución: Tenemos los siguientes datos:

E= $10033

Page 34: Estadistica Aplicada

TAMAÑO DE LA MUESTRA PARA LAPROPORCION DE LA POBLACION

zcon N.C 95% z = 1.96σ= $1 000

Al sustituir los valores en la siguiente fórmula se obtiene lo siguiente:

n=( zσE )

2

n=( (1.96 )(1 000)100 )

2

= (19.6 )2 = 384.16

Redondeamos el valor de nal entero superior, por lo tanto n= 385. Se requiere una muestra de 385 miembros los consejos para satisfacer las especificaciones.

El procedimiento descrito puede adaptarse para determinar el tamaño de la muestra en el caso de una proporción. De nuevo, es necesario especificar:

1) El nivel de confianza deseado.2) El margen de error en la proporción de la población.3) Una aproximación de la proporción de la población.

La fórmula para determinar el tamaño de la muestra para una proporción es:

n=ρ(1− ρ)( zE )

2

Si se cuenta con un estimador disponible de ρa partir de un estudio piloto, se puede utilizar. Por otra parte, se utiliza 0.50 porque el término ρ(1−ρ) jamás puede ser mayor cuando ρ=0.50 . Por ejemplo, si ρ=0.30, entonces ρ (1−ρ )=0.30 (1−0.30 )=0.21; pero cuando ρ=0.50 , ρ (1−ρ )=0.50 (1−0.50 )=0.25.

Ejemplo.En el estudio del ejemplo anterior también se calcula la proporción de ciudades que cuentan con recolectores de basura privados. El estudiante desea

que el margen de error se encuentre a 0.10 de la proporción de la población; el nivel de confianza deseado es de 90%, y no se encuentra disponible ningún estimador para la proporción de la población. ¿Cuál es el tamaño de la muestra que se requiere?

Solución: Tenemos los siguientes datos:

E= 0.10zcon N.C 90% z= 1.65ρ= 0.50

Se aplica la fórmula para calcular el tamaño de la muestra para la proporción de la población:

n=ρ (1−ρ )( zE )

2

n=0.50(0.50)( 1.650.10 )

2

= 68.062

Redondeamos el valor de nal entero superior, por lo tanto n= 69. El estudiante necesita una muestra aleatoria de 69 ciudades.

Redondeamos el valor de nal entero superior, por lo tanto n= 385. Se requiere unamuestra de 385 miembros los consejos para satisfacer las especificaciones.

Autoevaluación 9.5¿Ayudaría al secretario académico de la universidad a determinar cuántas boletas tiene que estudiar? El secretario desea calcular el promedio aritmético de las calificaciones de los estudiantes que se graduaron los pasados 10 años. Los promedios oscilan entre 2.0 y 0.4. el promedio se va calcular a 0.05 más o menos de la media poblacional. La desviación estándar se calcula es de 0.279. Utilice el nivel de confianza de 99%.

Solución:

34

Page 35: Estadistica Aplicada

Tenemos los siguientes datos:E= 0.05zcon N.C 99% z= 2.58σ= 0.279

Al sustituir los valores en la siguiente fórmula se obtiene lo siguiente:

n=( zσE )

2

n=( (2.58 )(0.279)0.05 )

2

= (14.396 )2 = 207.245

Redondeamos el valor de nal entero superior, por lo tanto n= 208. El secretario académico tendrá que estudiar 208 boletas

EJERCICIOS RESUELTOS

1) Se toma una muestra de 49 observaciones de una población normal con una desviación estándar de 10. La media de la muestra es de 55. Determine el intervalo de confianza de 99% para la media poblacional.

SoluciónEl nivel de confianza al 99% tenemos

z→ 99% z=0.495 → z= 2.58

Se utiliza la fórmula para construir el intervalo de confianza:

x± z ( σ

√n )→ 55−2.58( 10

√49 ) = 55 – 3.69 = 51.31= 51

→ 55+2.58( 10

√49 ) = 55 +3.69 = 58.69 = 59

51% μ 59%

x−z ( σ

√n ) x+z ( σ

√n )Por lo tanto hay la seguridad razonable de que la media de la población se encontrará entre 51% y 59% con un nivel de confianza de 99%.

3) Se selecciona una muestra de 10 observaciones de una población normal para la cual la desviación estándar poblacional se sabe que es de 5. La media de la muestra es de 20.a) Determine el error estándar de la media.b) Explique por qué se debe utilizar (9.1) para determinar el intervalo de

confianza de 95%, aunque la muestra sea inferior a 30.c) Determine el intervalo de confianza de 95% para la media de la

población.

Solución:a. El error estándar se calcula mediante

σ X=σ

√n =

5

√10 = 1.58

35

Page 36: Estadistica Aplicada

b. Se utiliza la fórmula cuando n de 30 si se conoce la desviación estándar o, cuando se sabe que la distribución es normal.

c. Se construye el intervalo de confianza de 95%:

N.C de 95% 95/200 = 0.475, se busca en la tabla de la distribución normal yz = 1.96.

Se utiliza la fórmula para construir el intervalo de confianza:

x± z ( σ

√n )→ 20 – 1.96 (1.58 ) = 20 – 3.0968 = 19.90 = 16.9→ 20 +1.96 (1.58 ) = 20 + 3.0968 = 23.09 = 23.1

17% μ 23%

x−z ( σ

√n ) x+z ( σ

√n )Con un nivel de confianza de 95% la media poblacional se encontraría en un intervalo de confianza entre 17% y 23% aproximadamente.

5) Una empresa de investigación llevó a cabo una encuesta para determinar la cantidad media que los fumadores gastan en cigarrillos durante una semana. La empresa encontró que la distribución de cantidades gastadas por semana tendía a seguir la distribución normal con una desviación estándar de $5. Una muestra de 49 fumadores reveló que la media es 20.a) ¿Cuál es el estimador puntual de la media poblacional? Explique.b) Con un nivel de confianza de 95% determine el intervalo de confianza

para la media poblacional. Explique lo que significa.

Solución:a. El mejor estimador puntual vendría a ser la media muestral (x) que es

igual a 20.

b. Con los siguientes datos:σ = 5.n = 49

x = 20Se construye el intervalo de confianza de 95%:

N.C de 95% 95/200 = 0.475, se busca en la tabla de la distribución normal yz = 1.96.

Se utiliza la fórmula para construir el intervalo de confianza:

x± z ( σ

√n )→ 20 – 1.96 ( 5

√49 ) = 20 – 1.40 = 18.6

→ 20 +1.96 ( 5

√49 ) = 20 + 1.40 = 21.4

18.6% μ 21.4%

x−z ( σ

√n ) x+z ( σ

√n )Con un nivel de confianza de 95% la media poblacional de la cantidad de cigarrillos gastados en una semana se encontraría en un intervalo de confianza entre 18.6% y 21.4% aproximadamente.

7) A Bob le gustaría estimar la cantidad de galones de gasolina vendidos a sus clientes. Suponga que la cantidad de galones vendidos tiende a seguir una distribución normal, con una desviación estándar de 2.30 galones. De acuerdo con sus registros, selecciona una muestra aleatoria de 60 ventas y descubre que la cantidad de galones vendidos es de 8.60.a) ¿Cuál es el estimador puntual de la media poblacional?

36

Page 37: Estadistica Aplicada

b) Establezca un intervalo de confianza de 99% para la media poblacional. Interprete el significado.

Solución:a. El mejor estimador puntual vendría a ser la media muestral (x) que es

igual a 8.60.

b. Con los siguientes datos:σ = 2.30.n = 60

x = 8.60 Se construye el intervalo de confianza de 95%:

N.C de 99% 99/200 = 0.495, se busca en la tabla de la distribución normal yz = 2.58.

Se utiliza la fórmula para construir el intervalo de confianza:

x± z ( σ

√n )→ 8.60 – 2.58( 2.30

√60 ) = 8.6 – 0.766 = 9.37

→ 8.60 +2.58( 2.30

√60 ) = 8.6 + 0.766 = 7.83

7.83% μ 9.37%

x−z ( σ

√n ) x+z ( σ

√n )Con un nivel de confianza de 99% la media poblacional de los galones vendidos se encontraría en un intervalo de confianza entre 7.83% y 9.37% aproximadamente.

9) Utilice la tabla de los valores de t para localizarlo en las siguientes condiciones.a) El tamaño de la muestra es de 12, y el nivel de confianza, de 95%.b) El tamaño de la muestra es de 20, y el nivel de confianza, de 90%.c) El tamaño de la muestra es de 8, y el nivel de confianza, de 99%.

Solución:a. N.C al 95% t = 2.201, con grados de libertad gl = 12 – 1 = 11.b. N.C al 90% t = 1.729, con grados de libertad gl = 20 – 1 = 19.c. N.C al 99% t = 3.499, con grados de libertad gl = 8 – 1 = 7.

11) El propietario de una granja desea calcular la cantidad media de huevos que pone cada gallina. Una muestra de 20 gallinas indica que ponen un promedio de 20 huevos al mes, con una desviación estándar de 2 huevos al mes.a) ¿Cuál es el valor de la media de la población? ¿Cuál es el mejor

estimador de este valor?b) Explique por qué necesita utilizar una distribución t. ¿Qué

suposiciones necesita hacer?c) ¿Cuál es el valor de t para un intervalo de confianza de 95%? d) Construya un intervalo de confianza de 95% para la media de la

población.e) ¿Es razonable concluir que la media poblacional es de 21 huevos? ¿Y

de 25 huevos?

Solución:a. Se desconoce la media poblacional, pero la mejor estimación es de 20

que vendría a ser la media muestral (x).

b. Utilice la distribución t, ya que no se conoce la desviación estándar. Sin embargo, suponga que la distribución tiene una distribución normal.

c. N.C al 95% t = 2.093, con grados de libertad gl = 20 – 1 = 19.

37

Page 38: Estadistica Aplicada

d. Se utiliza la fórmula para construir el intervalo de confianza:

x± t ( s

√n )→ 20– 2.093( 2

√20 ) = 20 – 0.936 = 19.06

→ 20+2.093( 2

√20 ) = 20 + 0.936 = 20.94

19.1 μ 20.9

x−t ( s

√n ) x+t( s

√n )Los puntos extremos del intervalo de confianza están entre 19.1 y 20.9.

e. Tanto 21 huevos, como 25 huevos no son razonables porque no se encuentran dentro del intervalo de confianza construido.

13) Dos grandes empresas contemplan ofrecer de forma conjunta servicio de guardería para sus empleados. Como parte del estudio de viabilidad del proyecto, desean calcular el costo medio semanal por el cuidado de niños de los empleados. Una muestra de 10 empleados que recurren al servicio de guardería revela las siguientes cantidades gastadas la semana pasada.

$107 $92 $97 $95 $105 $101 $91 $99

$95 $104

Construya un intervalo de confianza de 90% para la media poblacional. Interprete el resultado.

Solución:

Calculamos la media y la desviación estándar de la muestra con la calculadora y se obtiene: x = 98.6

S = 5.54

Construimos el intervalo de confianza.N.C al 90% t = 1.833, con grados de libertad gl = 10 – 1 = 9.

Se utiliza la fórmula:

x± t ( s

√n )→ 98.6– 1.833 (5.54

√10 ) = 98.6 – 3.21 = 95.4

→ 98.6+1.833( 5.54

√10 ) = 98.6 + 3.21 = 101.8

95.4 μ 101.8

x−t ( s

√n ) x+t( s

√n )Los puntos extremos del intervalo de confianza están entre 95.4 y 101.8. es decir que la media poblacional de la cantidad de huevos que pone cada gallina al mes se encuentra entre 95.4 y 101.8.

15) Un propietario de una estación de gasolina desea determinar la proporción de clientes que utilizan tarjeta de crédito o débito para pagar la gasolina en el aérea de las bombas. Entrevistó a 100 clientes y descubre que 80 pagaron en el área de las bombas.a) Calcule el valor de la proporción de la población.b) Construya un intervalo de confianza de 95% para la proporción

poblacional.c) Interprete sus conclusiones.

38

Page 39: Estadistica Aplicada

Solución:a. Tenemos los siguientes datos:

n = 100; x = 80; z→ 95% →z= 0,475

Se calcula la proporción: ρ = Xn → ρ =

80100 = 0.80.

Entonces el 80% de los clientes pagaron con tarjeta.

Se construye el intervalo de confianza con la fórmula:

ρ ± z√ ρ(1−ρ)n

= 0.80± 1.96√ 0.80(0.20)100

=0.80 ± 0.04

→ 0.80−0.04= 0.76

→ 0.80+0.04= 0.84

76% ρ 84%

ρ−z√ ρ(1−ρ)n

ρ+z √ ρ(1−ρ)n

Los puntos extremos del intervalo de confianza son 0.76 y 0.84. Hay seguridad razonable de que la proporción de los clientes que pagaron con tarjeta se encuentre entre 76% y 80%.

17) La red Fox Tv considera reemplazar uno de sus programas de investigación de crímenes que se transmite durante las horas de mayor audiencia, con una nueva comedia orientada a la familia. Antes de tomar una decisión definitiva, los ejecutivos estudian una muestra de 400 telespectadores. Después de ver la comedia, 250 afirmaron que la verían y sugirieron reemplazar el programa de investigación de crímenes.a) Calcule el valor de la proporción de la población.b) Construya un intervalo de confianza de 99% para la proporción

poblacional.

c) Interprete los resultados que obtuvo.Solución:a. Tenemos los siguientes datos:

n = 400; x = 250; z→ 99% →z= 2.58

Se calcula la proporción: ρ = Xn → ρ =

250400 = 0.625

Entonces el 80% de los clientes pagaron con tarjeta.

Se construye el intervalo de confianza con la fórmula:

ρ ± z√ ρ(1−ρ)n

= 0.625 ± 2.58√ 0.625(0.375)400

=0.625 ± 0.062

→ 0.625−0.062= 0.563 = 0.56

→ 0.625+0.062= 0.689 = 0.69

56% ρ 69%

ρ−z√ ρ(1−ρ)n

ρ+z √ ρ(1−ρ)n

Los puntos extremos del intervalo de confianza son 0.56 y 0.69. Hay seguridad razonable de que la proporción de los telespectadores que verían el programa de comedia se encuentre entre 56% y 69%.

19) Se seleccionan al azar 36 artículos de una población de 300. La media de la muestra es de 35, y la desviación estándar, de 5. Construya un intervalo de 95% para la media poblacional.

Solución:

39

Page 40: Estadistica Aplicada

Tenemos los siguientes datos:n = 36N = 300x = 35S = 5

Como no se conoce la desviación estándar de la población se usará la distribución t.

gl=n−1=36−1=35; t→90 %→t=2.030.

X ± ts

√n (√ N−nN−1 ) =35 ± 2.030

5√36 (√ 300−36

300−1 )=35 ± 1.59

→ 35−1.59 = 33.41

→ 35+1.59= 36.59

33.41 μ 36.59

X−ts

√n (√ N−nN−1 ) X+t

s√n (√ N−n

N−1 ) Los puntos extremos del intervalo de confianza son 33.41 y 36.59.

21) La asistencia al juego de béisbol de la liga menor de la noche anterior fue de 400. Una muestra aleatoria de 50 asistentes reveló que la cantidad media de refrescos consumidos por personas fue de 1.86, con una desviación estándar de 0.50. Construya un intervalo de confianza de 99% para la cantidad media de refrescos consumidos por persona.

Solución:

Tenemos los siguientes datos:n = 50N = 400x = 1.86S = 0.50

Como no se conoce la desviación estándar de la población se usará la distribución t.

gl=n−1=50−1=49; t→99 %→t=2.680.

X ± ts

√n (√ N−nN−1 ) =1.86 ± 2.680

0.50√50 (√ 400−50

400−1 )=1.86 ± 0.1775

→ 1.86−0.1775 = 1.683= 1.68

→ 1.86+0.1775= 2.038 = 2.04

1.68 µ 2.04

X−ts

√n (√ N−nN−1 ) X+t

s√n (√ N−n

N−1 ) Los puntos extremos del intervalo de confianza son 1.68 y 2.04.

23) Se calcula que una población tiene una desviación estándar de 10. Desea estimar la media de la población a menos de 2 unidades del error máximo admisible, con un nivel de confianza de 95%. ¿De qué tamaño debe ser la muestra?

Solución: Tenemos los datos:

σ = 10

40

Page 41: Estadistica Aplicada

E = 2z→95 %→z=1.96.

Reemplazamos los valores en la fórmula para hallar el tamaño de la muestra.

n=( zσE )

2

=( (1.96 )(10)2 )

2

= 96.04

Se redondea al entero superior y se obtiene que el tamaño de la muestra debe ser: n=97

25) El estimador de la proporción poblacional debe estar más o menos 0.05, con un nivel de confianza de 95%. El mejor estimador de la proporción poblacional es 0.15. ¿De qué tamaño debe ser la muestra que se requiere?

Solución: Tenemos los siguientes datos:

ρ = 0.15E = 0.05z→95 %→z=1.96.

Se reemplaza los valores dados en la siguiente fórmula:

n=ρ (1−ρ )( zE )

2

n=0.15(0.85)( 1.960.05 )

2

= 195.92

Se redondea el resultado al entero superior y se obtiene que el tamaño de la muestra es: n=97

27) Se planea llevar a cabo una encuesta para determinar el tiempo medio que ven televisión los ejecutivos corporativos. Una encuesta piloto indicó que el tiempo medio por semana es de 12 horas, con una desviación estándar de 3 horas. Se desea calcular el tiempo medio que se ve televisión a menos

de un cuarto de hora. Se utilizará el nivel de confianza de 95%. ¿A cuántos ejecutivos debe entrevistar?

Solución: Tenemos los siguientes datos del problema:

σ = 3 horasE = 0.25 horasz→95 %→z=1.96.

Reemplazamos los valores en la fórmula para hallar el tamaño de la muestra.

n=( zσE )

2

=( (1.96 )(3)0.25 )

2

= 553.10

Se redondea al entero superior y se obtiene que el tamaño de la muestra debe ser: n=554.Es decir que se debería entrevistar a 554 ejecutivos.

29) Suponga que el presidente del país desea un cálculo de la proporción de la población que apoya su actual política relacionada con las revisiones del sistema de seguridad social. El presidente quiere que el cálculo encuentre a menos de 0.04 de la proporción real. Suponga un nivel de confianza de 95%. Los asesores políticos del presidente calculan que la proporción que apoya su política es de 0.60.a) ¿De qué tamaño debe ser la muestra que se requiere?b) ¿De qué tamaño debe ser la muestra si no hubiera disponible ningún

estimador de la proporción que apoya la política actual?

Solución:a. Tenemos los siguientes datos del problema:

ρ = 0.60E = 0.04z→95 %→z=1.96.Se reemplaza los valores dados en la siguiente fórmula:

41

Page 42: Estadistica Aplicada

n=ρ (1−ρ )( zE )

2

n=0.60(0.40)( 1.960.04 )

2

= 576.24

Se redondea el resultado al entero superior y se obtiene que el tamaño de la muestra es: n=577

b. Ahora no se tiene disponible el estimador y el resultado es:

n=ρ (1−ρ )( zE )

2

n=0.50(0.50)( 1.960.04 )

2

= 600.25

Se redondea el resultado al entero superior y se obtiene que el tamaño de la muestra es: n=601

CAPITULO 10

Pruebas de Hipótesis de una muestra

IntroducciónEste capítulo tiene que ver con pruebas de hipótesis estadísticas. Primero hay que definir los términos de hipótesis estadística y prueba de hipótesis estadística. Después se muestran los pasos para llevar a cabo una prueba de hipótesis estadística. A continuación se aplican pruebas de hipótesis para medias y proporciones. En la última parte se describen los posibles errores que se deben al muestreo en las pruebas de hipótesis.

¿Qué es una hipótesis?Una hipótesis es una declaración relativa de una población. Se utilizan datos para verificar lo razonable del enunciado. A continuación se define la hipótesis.

¿Qué es la prueba de hipótesis? Es un método que comienza con una afirmación, o suposición, sobre un parámetro de la población, como la media poblacional.

Procedimiento de cinco pasospara probar una hipótesis.

42

HIPOTESIS. Afirmación relativa a un parámetro de la población sujeta a verificación.

PRUEBA DE HIPOTESIS. Procedimiento basado en evidencia de la muestra y la teoría de la hipótesis para determinar si la hipótesis es una afirmación razonable.

Page 43: Estadistica Aplicada

PRUEBA DE LA MEDIA CUANDO SE CONOCE σ. Z ¿X−μ

σ /√n

Existe un procedimiento de cinco pasos que sistematiza la prueba de una hipótesis; al llegar al paso 5, se está en posibilidad de rechazar o no la hipótesis. Sin embargo, la prueba de hipótesis, no prueba que algo es verdadero. Más bien, proporciona un tipo de prueba más allá de toda duda razonable.

No se rechazaH0

Se rechazaH0

YSe aceptaH1

Paso 1: Se establece la hipótesis nula (H0) y la hipótesis alternativa (H1)El primer paso consiste en establecer la hipótesis por probar, llamada hipótesis nula, que se designa H0.

La hipótesis alternativa describe lo que se concluirá si se rechaza la hipótesis nula. Se representa (H1), también se conoce como hipótesis de investigación.

Paso 2: Se selecciona un nivel de significanciaDespués de establecer la hipótesis nula y alternativa, el siguiente paso consiste en determinar el nivel de significancia.

El nivel de significancia se expresa con la letra griega α. En ocasiones se le conoce como nivel de riesgo.

Al rechazar la hipótesis nula se incurre en un error tipo I. la probabilidad de cometer este tipo de error es .α

La probabilidad de cometer otro tipo de error, conocido como error tipo II, se expresa con la letra griega β.

Paso 3: Se selecciona el estadístico de prueba.Hay muchos estadísticos de prueba

La prueba de hipótesis para la media (µ), cuando se conoce σ o el tamaño de la muestra es grande, es el estadístico de prueba z que se calcula de la siguiente manera:

Paso 4: Se formula la regla de decisión.

43

Se establece las hipótesis

nula y alternativa

Se selecciona un nivel de

significancia

Se identifica el estadístico de la prueba

Se formula una regla

de decisiones

Se toma una muestra; se llega a una

decisión

HIPOTESIS NULA. Enunciado relativo al valor de un parámetro poblacional formulado con el fin de probar evidencia numérica.

HIPOTESIS ALTERNATIVA. Afirmación que se acepta si los datos de la muestra ofrecen suficiente evidencia para rechazar la hipótesis nula.

NIVEL DE SIGNIFICANCIA. Probabilidad de rechazar la hipótesis nula cuando es verdadera.

ERROR TIPO I. Rechazar la hipótesis nula,H0, cuando es verdadera.

ERROR TIPO II. Aceptar la hipótesis nula,H0, cuando es falsa.

ESTADÍSTICO DE PRUEBA. Valor, determinado a partir de la información de la muestra, para determinar si se rechaza la hipótesis nula.

Page 44: Estadistica Aplicada

Una regla de decisión es una afirmación sobre las condiciones específicas en que rechaza la hipótesis nula y aquellas en las que no se rechaza. La región o área de rechazo define la ubicación de todos esos valores que son tan grandes o tan pequeños que la probabilidad de que ocurran en una hipótesis nula verdadera es muy remota.

En la grafica 10.1. se presenta la región de rechazo de una prueba de significancia.

GRAFICA 10.1. Distribución muestral del estadístico z; prueba de una cola a la derecha; nivel de significancia de 0.05.

Paso 5: Se toma una decisión Este último paso consiste en calcular el estadístico de la prueba, comparándolo con el valor crítico, y tomar la decisión de rechazar o no la hipótesis nula.Es necesario subrayar de nuevo que existe la posibilidad de que la hipótesis nula se rechace cuando en realidad no se debe rechazar (error tipo I).

Asimismo, existe una posibilidad definible de que la hipótesis nula se acepte cuando debiera rechazarse (error tipo II).

Antes de llevar a cabo una prueba de hipótesis, es importante diferenciar entre una prueba significancia de una cola y una prueba de dos colas.

Prueba de significanciade una y dos colasConsulte la gráfica 10.1. Ésta describe una prueba de una cola. La región de rechazo se localiza en la cola derecha (superior) de la curva. La gráfica 10.2 representa un caso en el que la región de rechazo se encuentra en la cola izquierda (superior) de la distribución normal.

GRAFICA 10.2 Distribución muestral para el estadístico z, prueba de cola izquierda, nivel de significancia 0.05.

44

VALOR CRÍTICO. Punto de división entre la región en que se recha la hipótesis nula y aquella en la que se acepta.

RESUMEN DE LOS PASOS DE LA PRUEBA DE HIPOTESIS.1. Se establece la hipótesis nula (H0) y la hipótesis alternativa (H1).2. Se selecciona el nivel de significancia, es decir, α3. Se selecciona un estadístico de prueba adecuado.4. Se formula una regla de decisión con base en los pasos 1, 2 y 3

anteriores.5. Se toma una decisión en lo que se refiere a la hipótesis nula con base en

la información de la muestra. Se interpreta los resultados de la prueba.

Page 45: Estadistica Aplicada

2,330

0,01

Zona de

rechazoH0

Zona de acepatacíon

H0

1,55

Una manera para determinar la ubicación de la región de rechazo consiste en mirar la dirección en la que señala el signo de desigualdad en la hipótesis alternativa (< o >).

En resumen, una prueba es de una cola cuando la hipótesis alternativa, H1, indica una dirección, como:

H1: µ >k ó H1: µ <k

Si no se especifica dirección alguna en la hipótesis alternativa, utilice una prueba de dos colas:

H1: µ ≠k

dónde: k es un valor determinado.

Pruebas para la mediade una población: Se conocela desviación estándar poblacional

Prueba de dos colas.Un ejemplo mostrará los detalles del procedimiento para probar una hipótesis en cinco pasos. También se desea usar una prueba de dos colas.

Ejemplo.En una fábrica de muebles para oficina la producción semanal del escritorio modelo A325 tiene una distribución normal, con una media de 200 y una desviación estándar de 16. Por motivo de expansión en el mercado se introdujeron nuevos métodos de producción y se contrato a más empleados. Se ha mejorado el proceso de fabricación y se desea conocer si este ha mejorado. Se tomó una muestra de 50 semanas y se encontró que el promedio muestral de producción es de 203.5 muebles semanal. ¿La cantidad media de escritorios producidos en la planta es mayor de 200 escritorios semanales con un nivel de significancia de 0.01?

Solución:Se elabora la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µ = k El promedio semanal de muebles es de 200.H1: µ > k El promedio semanal de muebles es mayor que 200.

2) El nivel de significanciaα= 0.01

3) Se selecciona el estadístico.

z¿X−μ

σ /√n z¿203.5−200

16/√50 = 3.5

2.2527 = 1.5537 ~¿ 1.55

4) Se formula la regla de decisión.Se rechaza H0 cuando z > 2.33

5) Decisión.Se acepta H0, es decir el promedio semanal de población de muebles de la fábrica no es diferente a 200 escritorios.

45

Page 46: Estadistica Aplicada

1,55

p = 0.06

0

0,43940,5000

Cálculo de ρ

ρ = 0.500 – 0.4394 = 0.0606 ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ > α 6% 1%

Conclusión:Se acepta H0, es decir la cantidad promedio de escritorios producidos es de 200 lo que indica que no hubo incremento en la cantidad de escritorios producidos.

Autoevaluación 10.1Heinz, un fabricante de cátsup, utiliza una máquina para vaciar 16 onzas de su salsa en botellas. A partir de su experiencia de varios años con la máquina despachadora, sabe que la cantidad de producto en cada botella tiene una distribución normal con una media de 16 onzas y una desviación estándar de 0.15 onzas. Una muestra de 15 botellas llenadas durante la hora pasada reveló que la cantidad media por botella es de 16.017 onzas. ¿La evidencia sugiere que la cantidad media despachada es diferente de 16 onzas? Utilice un nivel de significancia de 0.05.

a) Establezca la hipótesis nula y la hipótesis alternativa.b) ¿Cuál es la posibilidad de cometer un error tipo I?c) Proporcione la fórmula para el estadístico de la prueba.d) Enuncie la regla de decisión.e) Determine el valor del estadístico de prueba.

f) ¿Cuál es su decisión respecto de la hipótesis nula?g) Interprete en un enunciado el resultado de la prueba estadística.

Solución: Se toma los siguientes datos:

Tamaño de la muestra (n) = 15 botellas.La media poblacional (μ) = 16.00 onzas.La desviación estándar poblacional (σ ) = 0.15 onzas.La media muestral (X ) = 16.017 onzas.

PRUEBA DE HIPOTESISa)

1) Elaborar la hipótesis nula y la alternativa.

H 0 : μ=16 onzas. El promedio de la cantidad de salsa en cada botella es igual a 16 onzas

H 1: μ ≠ 16 onzas. El promedio de la cantidad de salsa en cada botella es diferente a 16 onzas.

b)

2) El nivel de significación

∝=0.05c)

3) Se selecciona el estadístico.

Z¿X−μσ /√n

→ Z¿16.017−16.00

0.15/√15= 0.017

0.0387= 0.439

e) El estadístico es: Z = 0.44

d)4) Establecer la regla de decisión

Rechazar H 0 cuando Z < -1.96 ó Z > 1.96

46

Page 47: Estadistica Aplicada

-1,96

0,025

1,96

0,025

0

Zona de aceptaciónZona de rechazoZona de rechazo 0

00

HH

H

0,44

f)5) Decisión

Se acepta H 0

g) El contenido promedio de salsa cátsup vaciadas en las botellas es de 16 onzas.

Prueba de una cola.Con el mismo ejemplo de la prueba de dos colas, ahora suponga que se desea saber si hubo incremento en la cantidad de unidades armadas. ¿Puede concluir, debido al mejoramiento de los métodos de producción, que la cantidad media de escritorios armados en las pasadas 50 semanas fue superior a 200? Observe la diferencia al formular el problema:

Prueba de dos colas Prueba de una colaH 0 : μ=200 H 0 : μ≤200H 1: μ ≠ 200 H 1: μ>200

El valor crítico para la prueba de una cola:

i. Al restar 0.01 – 0.5000 = 0.4900

ii. Y con el valor, ubicar en la tabla el valor de z correspondiente.

Gráfica 10.3 Regiones de rechazo para las pruebas de una y dos colas; α = 0.01

Valor de ρ en la prueba de hipótesis. Al probar una hipótesis, se compara el estadístico de la prueba con un valor crítico.

Si el valor de ρ < que α entonces se rechaza H 0.Si el valor de ρ > que α entonces se acepta H 0.

Si el valor de ρ es muy grande, es probable que H 0sea verdadera.Si el valor de ρ es muy pequeño, es probable que H 0no sea verdadera.

47

VALOR ρ. Probabilidad de observar un valor muestral tan extremo o más que el valor observado, si la hipótesis nula es verdadera.

INTERPRETACIÓN DE LA IMPORTANCIA DE LA EVIDENCIA EN CONTRA DE Si el valor dea.b.c.d.

Page 48: Estadistica Aplicada

1,65

0,05

0

Se rechaza H0

Se acepta H0

1,89

Autoevaluación 10.2Consulte la autoevaluación 10.1.

a) Suponga que se modifica el penúltimo enunciado para que diga: ¿La evidencia sugiere que la cantidad media despachada es mayor que 16 onzas? Establezca la hipótesis nula y la hipótesis alternativa en estas condiciones.

b) ¿Cuál es la regla de decisión en las nuevas condiciones definidas en el inciso a)?

c) Un segunda muestra de 50 contenedores llenos reveló que la media es de 16.040 onzas. ¿Cuál es el valor del estadístico de la prueba para esta muestra?

d) ¿cuál es la regla de decisión respecto de la hipótesis nula?e) Interprete, en un solo enunciado, el resultado de la prueba estadística.f) ¿Cuál es el valor de ρ? ¿Cuál es su decisión respecto de la hipótesis

nula con base en el valor de ρ? ¿Es la misma conclusión a la que se llegó en el inciso d)?

Solución: Se toma los siguientes datos:

Tamaño de la muestra (n) = 50 botellas.La media poblacional (μ) = 16.00 onzas.La desviación estándar poblacional (σ ) = 0.15 onzas.La media muestral (X ) = 16.040 onzas.

PRUEBA DE HIPOTESIS

a.1) Elaborar la hipótesis nula y la alternativa.

H 0 : μ=16 onzas. El promedio de la cantidad de salsa en cada botella es igual a 16 onzas

H 1: μ>16 onzas. El promedio de la cantidad de salsa en cada botella es mayor a 16 onzas.

2) El nivel de significación

∝=0.05

3) Se selecciona el estadístico.

Z¿X−μσ /√n

→ Z¿16.040−16.00

0.15/√50= 0.04

0.02121=1.886

c. El estadístico es: Z = 1.89b.

4) Establecer la regla de decisión

Rechazar H 0 cuando Z > 1.65

d.5) Decisión

Se rechazaH 0 y se acepta H 1

e. El contenido promedio de salsa cátsup despachadas en las botellas es superior a 16 onzas.

48

Page 49: Estadistica Aplicada

PRUEBA DE LA MEDIA; σ DESCONOCIDA. t¿X−μ

S /√n

0 1,89

p = 0,03

0,47060,5000

f. Cálculo de ρ

ρ = 0.500 – 0.4394 = 0.0606 ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ < α 3% 5%

Se rechaza H 0, entonces es la misma conclusión establecida en el inciso d).

Prueba de la media poblacional:Desviación estándarde la población desconocidaEn la mayoría de los casos, la desviación estándar de la población es desconocida. Por consiguiente, σ debe basarse en estudios previos o calcularse por medio de la desviación estándar de la muestra s.

Para determinar el valor del estadístico de la prueba utilice la distribución t con la fórmula anterior modificada de la siguiente manera:

Con n – 1 grados de libertad (gl).

En estas condiciones, el procedimiento estadístico correcto consiste en sustituir la distribución normal estándar con la distribución t.

Ejemplo.El departamento de quejas de una compañía informa que el costo medio para tramitar una queja es de $60. Una comparación industrial mostró que esta cantidad es mayor que en las demás compañías de seguros, así que la compañía tomó medidas para reducir gastos. Para evaluar el efecto de las medidas de reducción de gastos, el supervisor del departamento de queja seleccionó una muestra aleatoria de 26 quejas atendidas el mes pasado. La información de la muestra aparece a continuación.

45 49 62 40 43 6148 53 67 63 78 6448 54 51 56 63 6958 51 58 59 56 5738 76

¿Es razonable concluir que el costo medio de atención de una queja ahora es menor que $60 con un nivel de significancia de 0.01?

Solución: Calculamos la media muestral con la fórmula:

X=∑ Xn

=45+49+…+7626

=1 46726

=56.42

Calculamos la desviación estándar de la muestra con la fórmula:

S=√ ( X−X )2

n−1 = √ ( 45−56.42 )2+…+ (76−56.42 )2

26−1 =√ 100.81385

25 = 10.04

49

Page 50: Estadistica Aplicada

-2,49

0,01

0

Se rechaza Se aceptaH H00

1,82

Se elabora la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µ = $60 El costo medio de atención de una queja es de $60.H1: µ < $60 El costo medio de atención de una queja es menor de

$60.

2) El nivel de significanciaα = 0.01

3) Se selecciona el estadístico.

t¿X−μS /√n t¿

56.42−6010.04/√26=

−3.581.9690 = -1.818~¿ -1.82

4) Se formula la regla de decisión.Se rechaza H0 cuando t > 2.33

5) Decisión.Se acepta H0, es decir el costo medio de atención de quejas es igual a $60.

Se concluye que no se demostró que las medidas de reducción de costos hayan bajado el costo medio por queja a menos de $60.

Autoevaluación 10.3La vida media de una batería de un reloj digital es de 305 días. Las vidas medias de las baterías se rigen por la distribución normal. Hace poco se modificó la batería para que tuviera mayor duración. Una muestra de 20 baterías modificadas exhibió una vida media de 311 días con una desviación estándar de 12 días. ¿La modificación incrementó la vida media de la batería?

a) Formule la hipótesis nula y la hipótesis alternativa.b) Muestre la gráfica de la regla de decisión. Utilice el nivel de

significancia 0.05.c) Calcule el valor de t. ¿Cuál es su decisión respecto de la hipótesis

nula? Resuma sus resultados.

Solución: Se toma los siguientes datos:

Tamaño de la muestra (n) = 20 baterías.La media poblacional (μ) = 305 días.La desviación estándar muestral (S) = 12 días.La media muestral (X ) = 311 días.

PRUEBA DE HIPOTESIS

1) Elaborar la hipótesis nula y la alternativa.

H 0 : μ=305 días. La vida media de una batería de reloj es de 305 días.

H 1: μ>305días. La vida media de una batería de reloj es mayor de 305 días.

2) El nivel de significación

∝=0.05

50

Page 51: Estadistica Aplicada

1,73

0,05

0

Se rechaza

Se acepta

H

H

0

0

2,24

3) Se selecciona el estadístico.

t¿X−μ

S /√n → t¿

311−305

12/√20= 6

2.6833 = 2.236

El estadístico es: t= 2.24

4) Establecer la regla de decisión

Rechazar H 0 cuando t >1.73

5) DecisiónSe rechazaH 0 y se acepta H 1, es decir que la modificación en la no incrementó la vida mediabatería de un reloj a mas de 305 días.

Autoevaluación 10.4Se programa una máquina para llenar un frasco pequeño con 9.0 gramos de medicamento. Una muestra de ocho frascos arrojó las siguientes cantidades (en gramos) por botella.

9.2 8.7 8.9 8.6 8.8 8.5 8.7 9.0

¿Puede concluir que el peso medio es inferior a 9.0 gramos si el nivel de significancia es de 0.01?

a) Formule la hipótesis nula y la hipótesis alternativa.b) ¿cuántos grados de libertad existen?

c) Establezca la regla de decisión.d) Calcule el valor de t. ¿Qué decide respecto de la hipótesis nula?e) Aproxime el valor de ρ.

Solución: Se toma los siguientes datos:

Tamaño de la muestra (n) = 8 frascos.La media poblacional (μ) = 9.0 gramos.

Calculamos la media muestral con la fórmula:

X=∑ Xn

=9.2+8.7+8.9+8.6+8.8+8.5+8.7+9.08

=1 4678

=8.8

Calculamos la desviación estándar de la muestra con la fórmula:

S=√ ( X−X )2

n−1 = √ ( 9.2−8.8 )2+…+ (9.0−8.8 )2

8−1 =√ 0.36

7 = 0.227

Se elabora la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1) Elaborar la hipótesis nula y la alternativa.

H 0 : μ=9.0 gramos. La cantidad media para llenar con medicamento los frascos pequeños es de 9.0 gramos

H 1: μ=9.0 gramos. La cantidad media para llenar con medicamento los frascos pequeños es menor de 9.0 gramos

2) El nivel de significación

∝=0.01

3) Se selecciona el estadístico.

51

Page 52: Estadistica Aplicada

PRUEBA DE HIPÓTESIS DE UNA PROPORCIÓN. z¿ ρ−π

√ π (1−π )n

-3,00

0,01

0

Se rechazaSe aceptaH

H0

0

-2,5

t¿X−μS /√n → t¿

8.8−9.00.227/√8

= −0.20.08019 = -2.494

El estadístico es: t= -2.5

4) Establecer la regla de decisión

Rechazar H 0 cuando t < - 3.00

5) DecisiónSe aceptaH 0 , es decir que la cantidad promedio para llenar con medicamento los frascos pequeños es de 9.0 gramos.

Cálculo de ρEl valor de ρ se aproxima, en este caso se encontrará entre 0.025 y 0.010.

Pruebas relacionadas con proporciones.Se deben hacer algunas suposiciones antes de probar una proporción se población. Para probar una hipótesis en cuanto a una proporción poblacional, se elige una muestra aleatoria de lapoblacion.se supone que se satisfacen los supuestos binomiales: 1) los datos de la muestra que se recogen son resultado de conteos; 2) el resultado de un experimento se clasifica en una de dos

categorías mutuamente excluyentes – “éxito” o “fracaso” -; 3) la probabilidad de un éxito es la misma para cada prueba; 4) las pruebas son independientes, lo cual significa que el resultado de una prueba no influye en el resultado de las demás. La prueba que realizará en breve es adecuada cuando nπ y n(1 – π) son de al menos 5. El tamaño de la muestra es n, yp, la proporción poblacional.

Ejemplo.Suponga que a partir de las elecciones anteriores de un estado, para que sea electo un candidato a alcalde, es necesario que gane por lo menso 80% de los votos. El alcalde vigente está interesado en evaluar sus posibilidades de volver al cargo y hace planes para llevar a cabo una encuesta de 2 000 votantes registrados. Un sondeo reveló que de éstos, 1 550 votarían por él. Aplique el procedimiento para probar hipótesis y evalúe las posibilidades de que el alcalde sea reelegido con un 0.05 de nivel de significancia.

Solución:Se aplica la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1) Elaborar la hipótesis nula y la alternativa.

H 0 :π=0.80 La proporción para que sea electo el alcalde es de 80% de votos.

H 1: π<0.80 La proporción para que sea electo el alcalde es menor de 80% de votos.

2) El nivel de significación ∝=0.05

52

Page 53: Estadistica Aplicada

-1,65

0,05

0

Se rechaza Se aceptaH H00

-2.80

p = 0,0026

0-2.80

0.4974

3) Se selecciona el estadístico.

ρ= xn

→ ρ=15502000 → ρ=0.775 .

z¿ ρ−π

√ π (1−π )n

→ z¿ 0.775−0.80

√ 0.80(0.20)2000

= −0.025

√0.00008 = -2.80

El estadístico es: z¿-2.80.

4) Establecer la regla de decisión

Rechazar H 0 cuando Z < - 1.65

5) DecisiónSe rechaza H 0 y se aceptaH 1 , es decir que la proporción de votos es menor de 80%.

Cálculo de ρ

ρ = 0.500 – 0.4394 = 0.0606 ρ > α, se aceptaH0

ρ < α, se rechazaH0

ρ > α 6% 5%

Autoevaluación 10.5Un informe reciente de la Industria de Seguros indicó que 40% de las personas implicadas en accidentes de tránsito menores había tenido por lo menos un accidente los pasados 5 años. Un grupo de asesoría decidió investigar dicha afirmación, pues creía que la cantidad era muy grande. Una muestra de 200 accidentes de tránsito de este años mostró que 74 personas también estuvieron involucradas en otro accidente los pasados cinco años. Utilice el nivel de significancia de 0.01.

a) ¿Se puede emplear z como estadístico de la prueba? Interprete.b) Formule la hipótesis nula y la hipótesis alternativa.c) Calcule el valor de z. y plantee su decisión respecto de la hipótesis

nula.d) Determine e interprete el valor de ρ.

Solución:

PRUEBA DE HIPOTESIS

1) Elaborar la hipótesis nula y la alternativa.

H 0 :π=0.40 La proporción de personas implicadas en accidentes de tránsito es de 40%

H 1: π<0.40 La proporción de personas implicadas en accidentes de tránsito es menor que 40%

2) El nivel de significación

∝=0.01

3) Se selecciona el estadístico.

nπ > 5 → 200 (0.40) = 80 → 80 > 5n (1 – π) > 5 → 200 (0.60) = 120 → 120 > 5

53

Page 54: Estadistica Aplicada

p = 0,0026

0-2.80

0.4974

-2,33

0,01

0

Se rechazaSe acepta

HH

00

-0,87

0

p = 0,19220,3078

-0,87

ρ= xn→ ρ= 74

200 → ρ=0.37

z¿ ρ−π

√ π (1−π )n

→ z¿ 0.37−0.40

√ 0.40(0.60)200

= −0.030.0346= -0.866

El estadístico es: z¿-0.87

4) Establecer la regla de decisión

Rechazar H 0 cuando Z < - 2.33

5) DecisiónSe acepta H 0 ,es decir que la proporción de personas implicadas en accidentes de tránsito es de 40%.

Cálculo de ρ

ρ = 0.500 – 0.3078 = 0.1922 ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ > α 19% 1%

Se acepta H 0 ,es decir que la proporción de personas que han tenido por lo menos un accidente de tránsito en los pasados 5 años es de 40%.

EJERCICOS RESUELTOS

Responda las siguientes preguntas para los ejercicios 1 y 3: a) ¿Es una prueba de una o de dos colas?; b) ¿Cuál es la regla de decisión?; ¿Cuál es el valor del estadístico de la prueba?; d)¿Cuál es su decisión respecto de H0?; e) ¿Cuál es el valor de p? Interprete este valor.

1) Se cuenta con la siguiente información:H0: µ = 50H1: µ ≠ 50

La media muestral es de 49, y el tamaño de la muestra, de 36. La deviación estándar de la población es de 5. Utilice el nivel de significancia de 0.05

Solución:PRUEBA DE HIPÓTESIS

1. Elaboración de la Hipótesis Nula y Alternativa:

H0: µ = 50 El promedio de las observaciones es de 50 H1: µ ≠ 50 El promedio de las observaciones es diferente de 50

2. Nivel de significancia:

α = 0.05

3. Estadístico:

z= X−μσ /√n

¿ 49−505/√36

= −1

0.833333 = -1.2

54

Page 55: Estadistica Aplicada

HSe rechaza

-1,96

0,025

1,96

0,025

0

Se acepta Se rechazaH H0

00

-1,20

HH

1,65

0,05

0

Se aceptaSe rechaza

00

1,20

p =

0

0.1151

0.38490.5000

1,20

p =0.3849

-1,20 1,20

0.1151

0

0.1151 0.3849p =

Por lo tanto z = -1.2

4. Regla de decisión:Se rechaza H0 cuandoz> 1.96 ó cuandoz< -1.96

5. Decisión:Se acepta H0, es decir el promedio de la población es µ = 50

Cálculo de ρ

ρ = 2(0.5000 – 0.3849) = 0.230

Con el MINITAB se calcula ρ = 0.23Sí ρ > α , se acepta H0

Sí ρ < α , se rechaza H0

ρ > α23% 5%

Interpretación: Una probabilidad de 23% de encontrar un valor z de este tamaño con H0 es verdadera.

3) Una muestra de 36 observaciones se selecciona de una población normal. La media de la muestra es 21, y la desviación estándar de la población, 5. Lleve a cabo la prueba de hipótesis con el nivel de significancia de 0.05.

Solución:PRUEBA DE HIPÓTESIS

1. Elaboración de la Hipótesis Nula y Alternativa:H0: µ = 36 El promedio de las observaciones es igual 36H1: µ > 36 El promedio de las observaciones es mayor a 36.

2. Nivel de significancia:α = 0.05

3. Estadístico:

z= X−μσ /√n

=21−205 /√36

= 1

0.833333 = 1.20

Por lo tanto, z = 1.20

4. Regla de decisión:Se rechaza H0 cuandoz < -1.65

5. Decisión:Se acepta H0, es decir el promedio de la población es µ = 20

Cálculo de ρ

55

Page 56: Estadistica Aplicada

HSe rechaza

-1,96

0,025

1,96

0,025

0

Se acepta Se rechazaH H0

00

-0.69

p =0.2549

-1,20 1,20

0.2451

0

0.2451 0.2549p =

ρ = 0.5000 – 0.3849 = 0.115

Con el MINITAB se calcula ρ = 0.11Sí ρ > α , se acepta H0

Sí ρ < α , se rechaza H0

ρ > α11% 5%

Interpretación: Una probabilidad de 11% de encontrar un valor Z de ese tamaño con H0 es verdadera.

5) El fabricante de llantas radiales con cinturón de acero X-15 para camiones señala que el millaje medio que la llanta recorre antes de que se desgaste las cuerdas es de 60 000 millas. La desviación estándar del millaje es de 5000 millas. Una empresa de camiones compró 48 llantas y encontró que el millaje medio para sus camiones es de 59 000 millas. ¿La experiencia de esta empresa es diferente de lo que afirma el fabricante en el nivel de significancia de 0.05?

Solución:

PRUEBA DE HIPÓTESIS

1. Elaboración de la Hipótesis Nula y Alternativa:H0: µ = 60 000 millas El promedio del millaje que recorren las llantas

es igual a 60 000.H1: µ ≠ 60 000 millas El promedio del millaje que recorren las llantas

es diferente a 60 000.

2. Nivel de significancia:α = 0.05

3. Estadístico:

z= X−μσ /√n

=59 500−60 0005000 /√48

= - 500

721.6878 = - 0.69

Por lo tanto, z = -0.69

4. Regla de decisión:Se rechaza H0 cuandoz> 1.96 ó cuandoz< -1.96

5. Decisión:Se acepta H0, es decir el promedio del millaje que recorren las llantas es igual a 60 000.

Cálculo de ρ

ρ = 2(0.5000 – 0.2549) = 0.490

Con el MINITAB se calcula ρ = 0.49Sí ρ > α, se acepta H0

Sí ρ < α, se rechaza H0

ρ > α9% 5%

56

Page 57: Estadistica Aplicada

HH

-1,65

0,05

0

Se rechazaSe acepta

0

0

-7,20

Interpretación: La experiencia de la empresa de camiones no es diferente de la del fabricante. La probabilidad de encontrar un valor z extremo de éste es de 49%.

7) Una encuesta nacional reciente determinó que los estudiantes de secundaria veían en promedio (media) 6.8 películas en DVD al mes, con una desviación estándar poblacional de 0.5 horas. Una muestra aleatoria de 36 estudiantes universitarios reveló que la cantidad media de película en DVD que vieron el mes pasado fue de 6.2. Con un nivel de significancia de 0.05, ¿puede concluir que los estudiantes universitarios ven menos películas en DVD que los estudiantes de secundaria?

Solución:

PRUEBA DE HIPÓTESIS

1. Elaboración de la Hipótesis Nula y Alternativa:H0: µ = 6.8 El promedio de películas que ven los estudiantes

universitarios es de 6.8 al mes.H1: µ < 6.8 El promedio de películas que ven los estudiantes

universitarios es menor de 6.8 al mes.

2. Nivel de significancia:α = 0.05

3. Estadístico:

z= X−μσ /√n

=6.2−6.80.5/√36

= - 0.6

0.0833333 = -7.2

Por lo tanto, z = -7.20

4. Regla de decisión:

Se rechaza H0 cuandoz > 1.64

5. Decisión:Se rechaza H0, es decir el promedio de películas que ven los estudiantes universitarios es menor de 6.8 al mes.

Cálculo de ρ

Con el MINITAB se calcula ρ = 0.00Sí ρ > α, se acepta H0

Sí ρ < α, se rechaza H0

ρ < α 0% 5%

Interpretación: Se rechaza H0 es decir el número medio de DVD que se observó es menor a 6.8 al mes. Si H0 es verdadera, hay poca probabilidad de obtener una estadística así de pequeña.

9) Sean las siguientes hipótesis:H0: µ = 10

57

Page 58: Estadistica Aplicada

HH

1,83

0,05

0

Se aceptaSe rechaza

00

2,11

H1: µ > 10Para una muestra aleatoria de 10 observaciones, la media muestral fue de 12, y la desviación estándar de la muestra, de 3. Utilice el nivel de significancia de 0.05.a) Formule la regla de decisión.b) Calcule el valor del estadístico de prueba.c) ¿Cuál es su decisión respecto de la hipótesis nula?

Solución:

PRUEBA DE HIPÓTESIS

1. Elaboración de la Hipótesis Nula y Alternativa: H0: µ = 10 El promedio de las observaciones es igual 10 H1: µ > 10 El promedio de las observaciones es mayor a 10.

2. Nivel de significancia:α = 0.05

3. Estadístico:

t= X−μ

s/√n=12−10

3 /√10 =

20.94868

= 2.108

Por lo tanto, t = 2.11

4. Regla de decisión:Se rechaza H0 cuandot > 1.833

5. Decisión:Se rechaza H0, es decir el promedio de las observaciones es mayor a 10.

Cálculo de ρ

Con el MINITAB se calcula ρ = 0.032Sí ρ < α, se rechaza H0

Sí ρ < α, se rechaza H0 ρ < α

3,2% 5%

Conclusión: Se rechaza H0, es decir el promedio de las observaciones es mayor a 10.

11) Un gerente de ventas de una editorial de textos universitarios afirma que los representantes de ventas realizan en promedio 40 llamadas de ventas a la semana a profesores. Varios representantes señalan que el cálculo es muy bajo. Una muestra aleatoria de 28 representantes de ventas revela que la cantidad media de llamadas realizadas la semana pasada fue de 42. La desviación estándar de la muestra es de 2.1 llamadas. Con el nivel de significancia de 0.05, ¿puede concluir que la cantidad media de llamadas semanales por vendedor es más de 40?

Solución:

PRUEBA DE HIPÓTESIS

1. Elaboración de la Hipótesis Nula y Alternativa: H0: µ = 40 El promedio de llamadas por semana realizadas por los

vendedores es igual a 40. H1: µ > 40 El promedio de llamadas por semana realizadas por los

vendedores es más de 40.

2. Nivel de significancia:

58

Page 59: Estadistica Aplicada

HH

1,70

0,05

0

Se aceptaSe rechaza

00

5,04

HH

1,74

0,05

0

Se aceptaSe rechaza

00

3,68

α = 0.05

3. Estadístico:

t= X−μs/√n

= 42−402.1/√28

= 2

0.3969 = 5.039

Por lo tanto, t = 5.040

4. Regla de decisión:Se rechaza H0 cuandot > 1.703

5. Decisión:Se rechaza H0, es decir el promedio de llamadas por semana realizadas por los vendedores es más de 40.

Cálculo de ρ

Con el MINITAB se calcula ρ = 0.00

Sí ρ > α, se acepta H0

Sí ρ < α, se rechaza H0

ρ < α 0% 5%

Se rechaza H0. Se llega a la conclusión que la cantidad de llamadas es superior a 40 por semana.

13) Un fabricante de bujías afirma que sus productos tienen una duración media superior a 22 100 millas. Suponga que la duración de las bujías se rige por una distribución normal. El dueño de una flotilla compró una buena cantidad de juegos de bujías. Una muestra de 18 juegos reveló que la duración media de las bujías era de 23 400 millas, y la desviación estándar, de 1 500 millas. ¿Existe evidencias que apoyen la afirmación del fabricante en el nivel de significancia 0.05?

Solución:PRUEBA DE HIPÓTESIS

1. Elaboración de la Hipótesis Nula y Alternativa: H0: µ = 22 100 millas El promedio de duración de una bujía es igual

a 22 100 millas.H1: µ > 22 100 millas El promedio de duración de una bujía es

mayor a 22 100 millas.

2. Nivel de significancia:α = 0.05

3. Estadístico:

t= X−μs/√n

=23 400−22 1001500 /√18

= 1300

353.553 = 3.677

Por lo tanto, t = 3.68

4. Regla de decisión:Se rechaza H0 cuandot > 1.740

59

Page 60: Estadistica Aplicada

HH

1,74

0,05

0

Se aceptaSe rechaza

00

3,68

HH

-3,75

0,01

0

Se rechazaSe acepta

0

0

-1,90

5. Decisión:Se rechaza H0, es decir el promedio de duración de una bujía es mayor a 22 100 millas.

Cálculo de ρ

Con el MINITAB se calcula ρ = 0.001

Sí ρ > α, se acepta H0

Sí ρ < α, se rechaza H0

ρ < α 0,1% 5%

Se rechaza H0 y se acepta H1. Se llega a la conclusión que la duración o vida media de las bujías es mayor a 22 100 millas.

15) Sean las siguientes hipótesis.H0: µ = 20 H1: µ < 20

Una muestra aleatoria de cinco elementos dio como resultado los siguientes valores: 18, 15, 12, 19 y 21. ¿Puede concluir que la media poblacional es menor que 20 con un nivel de significancia de 0.01?a) Establezca la regla de decisión.b) Calcule el valor del estadístico de prueba.c) Calcule el valor de ρ.

Solución: Se toma los siguientes datos:Tamaño de la muestra (n) = 5 elementos.La media poblacional (μ) = 20 elementos.

Calculamos la media muestral con la fórmula:

X=∑ Xn

=18+15+12+19+215

=855

=17

Calculamos la desviación estándar de la muestra con la fórmula:

S=√ ( X−X )2

n−1 = √ (18−17 )2+…+ (21−17 )2

5−1 =√ 50

4 = 3.536

Se elabora la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1. Elaborar la hipótesis nula y la alternativa.

H 0 : μ=20. El promedio de la población es igual a 20.H 1: μ<20. El promedio de la población es menor a 20.

2. El nivel de significación α = 0.01

3. Se selecciona el estadístico.

t¿X−μ

S /√n =

17−20

3.536/√5= −3

1.5811 = -1.897

El estadístico es: t = -1.90

4. Establecer la regla de decisiónSe rechaza H 0 cuando t < - 3.747

60

Page 61: Estadistica Aplicada

HSe rechaza

0,05

0 1,80

Se acepta

H0

0

0,65

5. DecisiónSe acepta H0, es decir que el promedio de la población es igual a 20.

Cálculo de ρCon el MINITAB se calcula ρ = 0.065

Sí ρ > α, se acepta H0

Sí ρ < α, se rechaza H0

ρ > α 6.5% 1%

Se rechaza H1. No es posible llegar a la conclusión de que la media de la población es menor que 20.

19) Unas pescaderías sostienen que la cantidad media de trucha que se obtiene en un día completo de pesca en los ríos y arroyos es de 4.0. Para su actualización anual, el personal de la pescadería pidió a una muestra de los pescadores que llevaran la cuenta de los pescados que obtenían durante el día. Los números son: 4, 4, 3, 2, 6, 8, 7, 1, 9, 3, 1 y 6. Con el nivel de 0.05, ¿puede concluir que la cantidad media de pescados atrapados es mayor que 4.0? Calcule el valor de p.

Solución: Se toma los siguientes datos:

Tamaño de la muestra (n) = 12 truchas.La media poblacional (μ) = 4.0 truchas.

Calculamos la media muestral con la fórmula:

X=∑ Xn

=4+4+…+612

=5412

=4.5

Calculamos la desviación estándar de la muestra con la fórmula:

S=√ ( X−X )2

n−1 = √ ( 4−4.5 )2+…+(6 – 4.5 )2

12−1 =√ 79

11 = 2.68

Se elabora la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1. Elaborar la hipótesis nula y la alternativa.

H 0 : μ=4.0. La cantidad promedio de pescados atrapados durante un día es igual a 4.0.

H 1: μ>4.0. La cantidad promedio de pescados atrapados durante un día es mayor a 4.0.

2. El nivel de significación α = 0.05

3. Se selecciona el estadístico.

t¿X−μ

S /√n =

4.5−4.0

2.68/√12= 0.5

0.7736 = 0.646

El estadístico es: t = 0.65

4. Establecer la regla de decisiónSe rechaza H 0 cuando t > 1.796

5. DecisiónSe acepta H0, es decir que la cantidad promedio de pescados atrapados durante un día es igual a 4.0.

Cálculo de ρCon el MINITAB se calcula ρ = 0.266

61

Page 62: Estadistica Aplicada

HSe rechaza

1,65

0,05

0

Se acepta

H0

0

1,09

0.50000.1379

0

0.3621 p =

1,09

Sí ρ > α, se acepta H0

Sí ρ < α, se rechaza H0 ρ > α 26.6% 5%

Se acepta H0. La cantidad media de pescados capturados no se ha mostrado muy superior a 4.0. el valor de p es mayor que 0.10.

21) Sean las siguientes hipótesis: H 0 :π=0.70 H 1: π>0.70Una muestra de 100 observaciones reveló que p = 0.75 ¿Puede rechazar la hipótesis nula en el nivel de significancia de 0.05?a) Formule la regla de decisión.b) Calcule el valor del estadístico de prueba.c) ¿Cuál es su decisión respecto a la hipótesis nula?

Solución:Se aplica la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1. Elaborar la hipótesis nula y la alternativa.

H 0 :π=0.70 La proporción de las observaciones es de 70%. H 1: π<0.70 La proporción de las observaciones es menor de 70%.

2. El nivel de significación α = 0.05

3. Se selecciona el estadístico.

z¿ ρ−π

√ π (1−π )n

¿ 0.75−0.70

√ 0.70(0.30)100

= 0.050.04583= 1.091

El estadístico es: z¿1.09

4. Establecer la regla de decisión

Rechazar H 0 cuando z > 1.65

5. DecisiónSe acepta H 0 , es decir que la proporción de las observaciones es de 70%.

Cálculo de ρ

ρ = 0.5000 – 0.3621 = 0.1379ρ > α, se acepta H0 ρ > αρ < α, se rechaza H0 13.8% 5%

Conclusión.Se rechaza H1 y se acepta H0. En conclusión la proporción de las observaciones es de 70%.

62

Page 63: Estadistica Aplicada

HSe rechaza

2,33

0,01

0

Se acepta

H0

0

1,62

p = 0.0526

0

0.50000.4474

1,62

23) El Ministerio de Transporte y comunicaciones informó que 52% de los conductores que viajan por autopista de cuota es de género masculino. Una muestra de 300 automóviles que viajaron el día de ayer por la autopista reveló que a 170 los manejaban hombres. Con un nivel de significancia de 0.01, ¿puede concluir que por la autopista de cuota manejaba una proporción mayor de hombres que lo indicado por las estadísticas nacionales?

Solución:Se aplica la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1. Elaborar la hipótesis nula y la alternativa.H 0 :π=0.52 La proporción de conductores varones que viajan por la

autopista de cuotas es de 52%.H 1: π>0.52 La proporción de conductores varones que viajan por la

autopista de cuotas es mayor que 52%.

2. El nivel de significación ∝=0.01

3. Se selecciona el estadístico.

ρ= xn

→ ρ=170300 → ρ=0.5667 .

z¿ ρ−π

√ π (1−π )n

¿ 0.5667−0.52

√ 0.52(0.48)300

= 0.04670.02884 = 1.619

El estadístico es: z¿1.62.

4. Establecer la regla de decisión

Rechazar H 0 cuando Z > 2.33

5. DecisiónSe rechaza H 1 y se acepta H0, es decir la proporción de conductores varones que viajan por la autopista de cuotas es de 52%.

Cálculo de ρ

ρ = 0.5000 – 0.4474 = 0.0526ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ > α 5% 1%

Conclusión.Se acepta H0. En conclusión la proporción de los varones que manejan por la autopista de cuotas es no mayor de 52%

63

Page 64: Estadistica Aplicada

H

Se acepta

-1,28

0,10

0

Se rechazaH

00

-2,67

p = 0.4962

0

0.50000.0038

-2,67

25) Una pollería reconocida de la ciudad afirma que 90% de sus pedidos se entregan en 10 minutos desde que se hace el pedido. Una muestra de 100 pedidos mostró que 82 se entregaron en el tiempo prometido. Con un nivel de significancia de 0.10, ¿puede concluir que menos de 90% de los pedidos se entregó en menos de 10 minutos?

Solución:Se aplica la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1. Elaborar la hipótesis nula y la alternativa.H 0 :π=0.90 La proporción de los pedidos que se entregaron en

10 minutos es de 90%.H 1: π<0.90 La proporción de los pedidos que se entregaron en 10

minutos es menos del 90%.

2. El nivel de significación ∝=0.10

3. Se selecciona el estadístico.

ρ= xn

→ ρ= 82100 → ρ=0.82 .

z¿ ρ−π

√ π (1−π )n

¿ 0.82−0.90

√ 0.90(0.10)100

=−0.080.03 = -2.667

El estadístico es: z¿-2.667.

4. Establecer la regla de decisión

Rechazar H 0 cuando z < -1.28

5. DecisiónSe rechaza H0 y se acepta H 1, es decir la proporción de los pedidos que se entregaron en 10 minutos es menos del 90%.

Cálculo de ρ

ρ = 0.5000 – 0.4962 = 0.0038 ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ > α 0% 1%

Conclusión.Se acepta H1. En conclusión menos del 90% de los pedidos fueron entregados en menos de 10 minutos.

CAPITULO 11

Pruebas de Hipótesis de dos muestras

64

Page 65: Estadistica Aplicada

VARIANZA DE LA DISTRIBUCIONDE LAS DIFERENCIAS EN MEDIAS

PRUEBA DE DOS MEDIAS

DE MUESTRAS σ CONOCIDA

H

Se acepta

-1,28

0,10

0

Se rechazaH

00

-2,67IntroducciónEn este capítulo se amplía la idea de pruebas de hipótesis para dos muestras. Se seleccionan muestras aleatorias de dos poblaciones distintas para determinar si son iguales las medias o las proporciones de la población.

Pruebas de hipótesis para dosmuestras: Muestras independientesSuponga que se selecciona una muestra aleatoria de 40 plomeros y otra de 35 electricistas, y que calcula la media de cada muestra. Después determina la diferencia entre las medias muestrales. Esta diferencia entre las medias muestrales es la que llama la atención. Si las poblaciones tienen la misma media, es de esperar que la diferencia entre las dos medias muestrales sea cero. Si hay alguna diferencia entre las medias poblacionales, esperaría determinar una diferencia entre las medias muestrales.

El obstáculo final es que se necesita saber acerca de la variabilidad de la distribución de las diferencias. O sea, ¿cuál es la desviación estándar de esta distribución de las diferencias? En la teoría estadística se demuestra que cuando se tiene poblaciones independientes, como en este caso, la distribución de las diferencias tiene una varianza (desviación estándar elevada al cuadrado) igual a la suma de dos varianzas individuales. En otras palabras, la varianza de la diferencia en medias muestrales (X1- X2) es igual a la suma de la varianza para los plomeros y de la varianza para los electricistas.

σ X 1−X2

2 =σ1

2

n1

+σ2

2

n2

El término σ X 1−X2

2 parece complejo, pero no es difícil interpretarlo. La parte σ2

indica que es una varianza, y el subíndice, X1−X2, que es una distribución de las diferencias de las medias muestrales.

Es posible representar esta ecuación en forma más práctica con la raíz cuadrada, de modo que se obtenga la desviación estándar de la distribución o

“error estándar” de las diferencias. Por último, se estandariza la distribución de las diferencias. El resultado es la ecuación siguiente:

z=X1−X2

√ σ 12

n1

+σ2

2

n2

Antes de presentar un ejemplo repase las suposiciones necesarias para emplear esta fórmula.

1. Las dos muestras no deben estar relacionadas, es decir, deben ser independientes.

2. Debe conocerse la desviación estándar para las dos poblaciones.

Ejemplo.Los clientes de un supermercado tienen una opción al pagar por sus compras. Pueden pagar en una caja registradora normal operada por un cajero, o emplea el nuevo procedimiento: U-Scan. En el procedimiento tradicional, un empleado registra cada artículo, lo pone en una banda transportadora de donde otro empleado lo toma y lo pone en una bolsa, y después en el carrito de víveres. En el procedimiento U-Scan, el cliente registra cada artículo, lo pone en una bolsa y coloca las bolsas en el carrito. Este procedimiento está diseñado para reducir el tiempo que un cliente pasa en la fila de la caja.. el gerente de la tienda desea saber si el tiempo medio de pago con el método tradicional es mayor que con U-Scan, para lo cual reunió la información siguiente sobre la muestra. El tiempo se mide desde el momento en que el cliente ingresa a la fila hasta que sus bolsas están en el carrito. De aquí que el tiempo incluye tanto la espera en la fila como el registro. ¿Cuál es el valor de ρ?

Desviación estándar Tamaño deTipo de cliente Media muestral de la población la muestraTradicional 5.50 minutos 0.40 minutos 50U-Scan 5.30 minutos 0.30 minutos 100

65

Page 66: Estadistica Aplicada

2,33

0,01

0

Se rechazaSe aceptaH H00

3,13

p = 0,0010

0

0,4990

3,13

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µ1 = µ2 No hay diferencia entre los tiempos medios de pago para los dos grupos.

H1: µ1 ≠ µ2 Hay diferencia entre los tiempos medios de pago para los dos grupos.

2) El nivel de significanciaα = 0.01

3) Se selecciona el estadístico.

z=X1−X2

√ σ 12

n1

+σ2

2

n2

z= 5.5−5.3

√ (0.40 )2

50+(0.30)2

100

= 0.20.064

= 3.13

4) Se formula la regla de decisión.Se rechaza H0 cuando z > 2.33

5) Decisión.Se rechaza H0, es decir hay diferencia entre los tiempos medios de

pago para los dos grupos.

Cálculo de ρ

ρ = 0.500 – 0.4990 = 0.0010 ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ < α0% 1%

Conclusión:Se rechaza H0, es decir la diferencia de 0.20 minutos entre el tiempo medio de pago con el método tradicional es demasiado grande para deberse a la casualidad. La conclusión es que el método U-Scan es más rápido.

Autoevaluación 11.1Un propietario de una empresa observó una diferencia en el total en dólares de las ventas entre los hombres y las mujeres que emplea como agentes de ventas. Una muestra de 40 días reveló que los hombres venden una media de $1 400 por concepto de venta de aparatos por día. Para una muestra de 50 días, las mujeres vendieron una media de $1 500 por concepto de venta de aparatos por día. Suponga que la desviación estándar para los hombres de $200 y para las mujeres $250. Con un nivel de significancia de 0.05, ¿puede el empresario concluir que la cantidad media vendida por día es mayor para las mujeres?

a) Formule la hipótesis nula y la hipótesis alternativa.b) ¿Cuál es la regla de decisión?c) ¿Cuál es el valor del estadístico de prueba?

66

Page 67: Estadistica Aplicada

1.65

0.05

0

Se rechaza Se aceptaH H00

2.11

H

2.11

0,05

0

Se rechazaSe acepta

H0

0

d) ¿Cuál es su decisión respecto de la hipótesis nula?e) ¿Cuál es el valor de ρ?f) Interprete el resultado.

Solución:PRUEBA DE HIPOTESIS

a.1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µM = µH No hay diferencia entre la cantidad media vendida por los hombres y mujeres.

H1: µM > µH La cantidad media vendidas por las mujeres es mayor que el de los hombres.

2) El nivel de significanciaα = 0.05

c.3) Se selecciona el estadístico.

z=X1−X2

√ σ 12

n1

+σ2

2

n2

z= 1 500−1400

√ (250 )2

50+

(200)2

40

= 47.434 =2.11

b.4) Se formula la regla de decisión.

Se rechaza H0 cuando z > 1.65

d.5) Decisión.

Se rechaza H0, es decir El total de ventas realizadas por las mujeres es mayor que el de los hombres.

Cálculo de ρρ = 0.500 – 0.4826 = 0.0174 ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ < α 1,7% 5%

Conclusión:Se rechaza H0 es decir, la cantidad media vendida por día es mayor para las mujeres.

Prueba de proporciones de dos muestrasEn este estudio no se obtiene ninguna medida, sólo se clasifican los individuos u objetos. Después se toma la escala nominal de medición.Para realizar la prueba, suponga que la muestra es lo bastante grande para que la distribución normal sirva como una buena aproximación a la distribución

67

Page 68: Estadistica Aplicada

PRUEBA DE PROPORCIONESDE DOS MUESTRAS

PROPORCION CONJUNTA

1.65

0.05

0

Se rechaza Se aceptaH H00

2.11

H

-1,96

0,025

1,96

0,025

0

Se rechazaSe acepta 0Se rechaza

H0H0

-2,21

binomial. El estadístico de prueba sigue la distribución normal estándar. El valor de z se calcula a partir de la siguiente fórmula:

z¿

ρ1−ρ2

√ ρc (1− ρc)n1

+ρ c(1−ρc)

n2

Esta fórmula es la misma que la anterior con las proporciones muestrales respectivas en lugar de las medias muestrales, y con ρc (1−ρc) en lugar de las dos varianzas. Además:

n1 es el número de observaciones en la primera muestra.n2 es el número de observaciones en la segunda muestra.ρ1 es la proporción en la primera muestra que posee la característica.ρ1 es la proporción en la segunda muestra que posee la característica.ρc es la proporción conjunta que posee la característica en las muestras

combinadas. Se denomina estimado conjunto de la proporción poblacional y se calcula a partir de la fórmula siguiente:

ρc=X1+ X2

n1+n2

Donde:X1 es el número que posee la característica en la primera muestra.X2 es el número que posee la característica en la segunda muestra.

Ejemplo.Una compañía de perfumes desarrolló una fragancia nueva que planea comercializarla con el nombre de Heavenly. Varios estudios de mercado indican que Heavenly tiene buen potencial en el mercado. El departamento de ventas tiene interés en saber si hay alguna diferencia en las proporciones de mujeres jóvenes y mayores que comprarían el perfume si saliera al mercado. Hay dos poblaciones independientes, una de mujeres jóvenes y la otra de

mujeres mayores. A cada una de las mujeres muestreadas se le pedirá que huela el perfume e indique si le gusta lo suficiente para comprar un frasco.

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: π1 = π2 No hay diferencia en la proporción de mujeres jóvenes y mayores que comprarían Heavenly.

H1: π1 ≠ π2 Hay diferencia en la proporción de mujeres jóvenes y mayores que comprarían Heavenly.

2) El nivel de significanciaα = 0.05

3) Se selecciona el estadístico. Se hallan primero las proporciones de cada grupo:

MJ = 19; MM = 62; nJ = 100; nM = 200

ρ1 = ρJ = 19

100=0.19

ρ1 = ρJ = 62

200=0.31

Se combina ahora las dos proporciones:

ρc = X1+X2

n1+n2

= 19+62100+200

= 81300

=0.27

z¿

ρ1−ρ2

√ ρc (1− ρc)n1

+ρ c(1−ρc)

n2

= 0.19−0.31

√ 0.27(0.73)100

+0.27(0.73)

200

= −0.120.05437

=−2.21

4) Se formula la regla de decisión.

68

Page 69: Estadistica Aplicada

H

-1,96

0,025

1,96

0,025

0

Se rechazaSe acepta 0Se rechaza

H0H0

-2,21

Se rechaza H0 cuando z >1.96 ó z < -1.96

5) Decisión.Se rechaza H0. En conclusión, se dice que hay diferencia en la proporción de mujeres jóvenes y mayores que comprarían Heavenly.

Autoevaluación 11.2De 150 adultos que probaron un nuevo pastel sabor a durazno, 87 lo calificaron como excelente. De 200 niños muestreados, 123 lo calificaron como excelente. Con un nivel de significancia de 0.10, ¿puede concluir que existe una diferencia significativa en la proporción de adultos y la proporción de niños que calificaron al nuevo sabor como excelente?

a) Formule la hipótesis nula y la hipótesis alternativa.b) ¿Cuál es la probabilidad de un error tipo I?c) ¿Se trata de una prueba de una o dos colas?d) ¿Cuál es su regla de decisión?e) ¿Cuál es el valor del estadístico de prueba?f) ¿Cuál es su decisión respecto de la hipótesis nula?g) ¿Cuál es el valor de ρ? Explique lo que significa en términos de este

problema

Solución:

PRUEBA DE HIPOTESISa.

1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: π1 = π2 No hay diferencia en la proporción de adultos y niños que calificaron al pastel como excelente.

H1: π1 ≠ π2 Hay diferencia en la proporción de adultos y niños que calificaron al pastel como excelente.

b.

2. El nivel de significanciaα = 0.10

c.3. Se selecciona el estadístico.

Se hallan primero las proporciones de cada grupo:

MA= 87; MN = 123; nA = 150; nN = 200

ρ1 = ρA = 87

100=0.580

ρ1 = ρN= 123200

=0.615

Se combina ahora las dos proporciones:

ρc = X1+X2

n1+n2

= 87+123150+200

=210350

=0.60

e.

z¿

ρ1−ρ2

√ ρc (1− ρc)n1

+ρ c(1−ρc)

n2

= 0.580−0.615

√ 0.60(0.40)150

+0.60(0.40)

200

=−0.0350.05292

=−0.66

d.

69

Page 70: Estadistica Aplicada

VARIANZA CONJUNTA

PRUEBA DE MEDIAS DE DOS

MUESTRAS σ DESCONOCIDAS

H

-1,65

0,05

1,65

0,05

0

Se rechazaSe acepta 0Se rechaza

H0H0

-0.66

0.66

p

0

p0.24540.2454

-0.66

4. Se formula la regla de decisión.Se rechaza H0 cuando z > 1.65 ó z < -1.65

f.5. Decisión.

Se acepta H0. En conclusión, se dice que no hay diferencia en la proporción de adultos y niños que calificaron al pastel como excelente.

g. Cálculo del valor de ρ

ρ = 1 – 2(0.2454) = 1 – 0.4908 = 0.5092

Comparación de medias con desviacionesestándares de la población desconocida(la prueba t conjunta) En esta sección se describe otro método para comparar medias muestrales de dos poblaciones independientes y determinar si las poblaciones muestreadas pueden tener, de forma razonable, la misma media. La fórmula para calcular el valor del estadístico de prueba t es similar a la fórmula de la prueba de dos medias de muestras σ conocida., pero es necesario un cálculo adicional. Las dos desviaciones estándares de las muestras se agrupan para formar una sola estimación de la desviación estándar desconocida de la población. Se calcula una media ponderada de las dos desviaciones estándares de las dos muestras y se emplea este valor como un estimado de la desviación estándar desconocida de la población.

La siguiente fórmula se emplea para agrupar desviaciones estándares de las muestras. Observe que participan dos factores: el número de observaciones en cada muestra y las propias desviaciones estándares de las muestras.

Sρ2=

(n1−1 ) S12+(n2−1)S2

2

n1+n2−2

donde:

S12 = es la varianza (desviación estándar elevada al cuadrado) de la primera

muestra.S1

2 = es la varianza de la segunda muestra.

El valor de t se calcula a partir de la ecuación siguiente:

70

Page 71: Estadistica Aplicada

t=X1−X2

√Sρ2( 1

n1

+ 1n2 )

Donde:X1es la media de la primera muestra.X2es la media de la segunda muestra.n1 es el número de observaciones en la primera muestra.n2 es el número de observaciones en la primera muestra.Sρ

2 es el estimado conjunto de la varianza de la población.

El número de grados de libertad de la prueba es el número total de elementos muestreados menos el número de muestras. Como hay dos muestras, hay n1+n2−2 grados de libertad.

Ejemplo.Owen Lawn Care, Inc., fabrica y ensambla podadoras de césped. Se han propuesto dos procedimientos distintos para el montaje del motor al chasis de la podadora. La pregunta es: ¿existe una diferencia en el tiempo medio para montar los motores al chasis de las podadoras? El primer procedimiento lo desarrolló Herb Welles, un empleado desde hace mucho tiempo de Owens (designado como procedimiento 1), y el otro lo desarrolló William Atkins (designado como procedimiento 2). Para evaluar los dos métodos, se decidió realizar un estudio de tiempos y movimientos. Se midió el tiempo de montaje en una muestra de 5 empleados según el método Welles y 6 con el método de Atkins. Los resultados, en minutos, aparecen a continuación. ¿Hay alguna diferencia en los tiempos medios de montaje? Utilice un nivel de confianza de 0.10.

Welles Atkins(minutos) (minutos)

2 3

4 79 53 82 4

3

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µW = µA No hay diferencia entre los tiempos medios de montaje entre Welles y Atkins.

H1: µW ≠ µA Hay diferencia entre los tiempos medios de montaje entre Welles y Atkins.

2) El nivel de significanciaα = 0.10

3) Se selecciona el estadístico. Primero calculamos las medias de las dos muestras.

XW=2+4+9+3+25

= 205

= 4.00

X A=3+7+5+8+4+3

6 =

306

= 5.00

Calculamos ahora las desviaciones estándares de las dos muestras.

SW=√ (2−4 )2+…+(2−4 )2

5−1 = √ 34

4 = 2.9155 S1

2 = 8.5

SA=√ (3−5 )2+…+(3−5 )2

6−1 = √ 22

5 = 2.0976 S2

2 = 4.4

Se calcula la varianza conjunta con la fórmula:

71

Page 72: Estadistica Aplicada

H

-1,83

0,05

1,83

0,05

0

Se acepta Se rechazaH00

-0.66

Se rechaza H0

Sρ2=

(n1−1 ) S12+(n2−1)S2

2

n1+n2−2 =

(5−1 ) 8.5+(6−1 ) 4.411−2

= 6.222

Se calcula el estadístico de la prueba

t=XW−X A

√Sρ2( 1

n1

+ 1n2 )

= 4.00−5.00

√6.222( 15+ 1

6 ) = - 0.662

4) Se formula la regla de decisión.Se rechaza H0 cuando t > 1.833 ó t < -1.833

5) Decisión.Se acepta H0. En conclusión, los tiempos de montaje de cada procedimiento son similares.

Cálculo de ρ

glNivel de significancia para una prueba de dos colas, α

+0.20 0.200 0.10 0.05 0.02 0.01 0.0019 -0.66 1.383 1.833 2.262 2.821 3.250 4.781

Por lo tanto el valor de ρ es más del 20%

ρ > α + 20% 5%

Autoevaluación 11.3El gerente de producción de una compañía fabricante de sillas de ruedas desea comparar el número de sillas de ruedas defectuosas producidas en el turno matutino con el turno vespertino. Una muestra de la producción de 6 turnos matutinos y 8 vespertino reveló el número de defectos siguientes.

Matutino 5 8 7 6 9 7Vespertino

8 10 7 11 9 12 14 9

Con un nivel de significancia de 0.05, ¿hay alguna diferencia en el número medio de defectos por turno?

a) Formule la hipótesis nula y la hipótesis alternativa.b) ¿Cuál es su regla de decisión?c) ¿Cuál es el valor del estadístico de prueba?d) ¿Cuál es su decisión respecto de la hipótesis nula?e) ¿Cuál es el valor de ρ?f) Interprete el resultado.g) ¿Cuáles son las suposiciones necesarias para esta prueba?

Solución:PRUEBA DE HIPOTESIS

a.1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: µM = µV No hay diferencia en el número de sillas defectuosas en los dos turnos.

H1: µM ≠ µV Hay diferencia en el número de sillas defectuosas en los dos turnos.

2. El nivel de significanciaα = 0.05

c.

72

Page 73: Estadistica Aplicada

H

-2.18

0,025

2.18

0,025

0

Se acepta Se rechazaH00

-2.84

Se rechaza H0

3. Se selecciona el estadístico.

Primero calculamos las medias de las dos muestras.

X M=5+8+7+6+9+76

= 426

= 7.00

XV =8+10+7+11+9+12+14+98

= 808

= 10.00

Calculamos ahora las desviaciones estándares de las dos muestras.

SW=√ (5−7 )2+…+(7−7 )2

6−1 = √ 10

5 = 1.4142 S1

2 = 2

SA=√ (8−10 )2+…+ (9−10 )2

8−1 = √ 36

7 = 2.2678 S2

2 = 5.143

Se calcula la varianza conjunta con la fórmula:

Sρ2=

(n1−1 ) S12+(n2−1)S2

2

n1+n2−2 =

(6−1 )2+(8−1 )5.14314−2

= 3.8333

Se calcula el estadístico de la prueba

t=X1−X2

√Sρ2( 1

n1

+ 1n2 )

= 7.00−10.00

√3.833 ( 16+ 1

8 ) = - 3.001.05737

= - 2.837

b.4. Se formula la regla de decisión.

Se rechaza H0 cuando t > 2.18 ó t < -2.18

d.5. Decisión.

Se rechaza H0, es decir que hay diferencia en el número de sillas defectuosas en los dos turnos.

g. Cálculo de ρ

glNivel de significancia para una prueba de dos colas, α

0.200 0.10 0.05 0.02 0.01 0.00112 1.383 1.833 2.262 2.821 - 2.84 3.250 4.781

Por lo tanto el valor de ρ se encontrará entre 0.02 y 0.01

ρ > α 1% - 2% 5%

73

Page 74: Estadistica Aplicada

H

-2.18

0,025

2.18

0,025

0

Se acepta Se rechazaH00

-2.84

Se rechaza H0

HSe rechaza

-2,05

0,02

2,05

0,02

0

Se rechazaSe acepta

00

0

H H

2,59

0.4952= 0.0048

-2,59 0

= 0.00480.4952p

p

2,59

EJERCICIOS RESUELTOS

1. Considere una muestra de 40 observaciones de una población con una desviación estándar de la población de 5. La media muestral es 102. Otra muestra de 50 observaciones de una segunda población tiene una desviación estándar de la población de 6. La media muestral es 99. Realice la prueba de hipótesis siguiente con el nivel de significancia de 0.04.

H0: µ1 = µ2

H1: µ1 ≠ µ2

a) ¿Se trata de una prueba de una o de dos colas?b) Formule la regla de decisión.c) Calcule el valor del estadístico de prueba.d) ¿Cuál es su decisión respecto de H0?e) ¿Cuál es el valor de p?

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µ1 = µ2 No hay diferencia entre las medias de las dos poblaciones.H1: µ1 ≠ µ2 Hay diferencia entre las medias de las dos poblaciones.

2) El nivel de significanciaα = 0.04

3) Se selecciona el estadístico.

z=X1−X2

√ σ 12

n1

+σ2

2

n2

z= 102−99

√ (5 )2

40+

(6)2

50

= 31.1597

= 2.59

4) Se formula la regla de decisión.Se rechaza H0 cuando z < -2.05 o z > 2.05

5) Decisión.Se rechaza H0, es decir hay diferencia entre las medias de las dos poblaciones

Cálculo de ρρ = 2(0.5000 – 0.4952) = 0.0096

ρ > α, se acepta H0

74

Page 75: Estadistica Aplicada

0.4952= 0.0048

-2,59 0

= 0.00480.4952p

p

2,59

H0

-1,65

0,05

0

Se rechazaSe acepta

0

H

-0,94

p

0

= 0.1736 0.3264

-0,94

0.5000

ρ < α, se rechaza H0

ρ < α0% 4%

3. Una compañía desea comparar el aumento de peso en bebés que consumen su producto en comparación con el producto de su competidor. Una muestra de 40 bebés que consumen los productos de esta compañía reveló un aumento de peso medio de 7.6 libras en los primeros tres meses después de nacidos. Para la marca de esta compañía, la desviación estándar de la población de la muestra es 2.3 libras. Una muestra de 55 bebés que consumen la marca del competidor reveló un aumento medio en peso de 8.1 libras. La desviación estándar de la población es 2.9 libras. Con un nivel de significancia de 0.05, ¿es posible concluir que los bebés que consumieron la marca de la compañía ganaron más peso? Calcule el valor de p.

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µ1 = µ2 Los pesos medios de los bebés que consumieron los productos de la compañía y de su competidor son igual.

H1: µ1 < µ2 El peso medios de los bebés que consumieron la marca de la compañía es menor que el de los que consumieron de la otra.

2) El nivel de significanciaα = 0.05

3) Se selecciona el estadístico.

z=X1−X2

√ σ 12

n1

+σ2

2

n2

= 7.6−8.1

√ (2.3 )2

40+(2.9)2

55

= −0.50.5340

= - 0.94

4) Se formula la regla de decisión.Se rechaza H0 cuando z < -1.65

5) Decisión.Se acepta H0, es decir los pesos medios de los bebés que consumieron los productos de la compañía y de su competidor son igual.

Cálculo de ρρ = 0.5000 – 0.3264 = 0.1736

ρ > α, se acepta H0

ρ < α, se rechaza H0

75

Page 76: Estadistica Aplicada

p

0

= 0.1736 0.3264

-0,94

0.5000

HSe rechaza

0,005

2,58

0,005

0-2,58

Se rechazaSe acepta

00

0

H H

-2,66

0.4961 = 0.0039p

2,66

p

0

= 0.00390.4961

-2,66

ρ < α 17% 5%

Se rechaza H1. Se concluye que los bebés que consumieron la marca de la compañía no ganaron más peso.

5. Una analista financiero quiere comparar las tasas de recuperación, en porcentaje, para acciones relacionadas con el petróleo con otro tipo de acciones. Ella seleccionó 32 acciones relacionadas con el petróleo y 49 de otro tipo. La tasa de recuperación media de acciones relacionadas con el petróleo es 31.4%, y la desviación estándar de la población, 5.1%. Para las demás acciones, la tasa media que se calculó en 34.9%, y la desviación estándar de la población, en 6.7%. ¿Hay alguna diferencia relevante en las tasas de recuperación de los dos tipos de acciones? Utilice un nivel de significancia de 0.01.

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µ1 = µ2 No hay diferencia entre las tasa de recuperación media de los dos tipos de acciones.

H1: µ1 ≠ µ2 Hay diferencia entre las tasa de recuperación media de los dos tipos de acciones.

2) El nivel de significanciaα = 0.01

3) Se selecciona el estadístico.

z=X1−X2

√ σ 12

n1

+σ2

2

n2

= 31.4−34.9

√ (5.1 )2

32+(6.7)2

49

= −3.51.3149

= - 2.662

4) Se formula la regla de decisión.Se rechaza H0 cuando z < -2.58 o z > 2.58

5) Decisión.Se rechaza H0, es decir hay una diferencia entre las tasa de recuperación media de los dos tipos de acciones.

Cálculo de ρρ = 2(0.5000 – 0.4961) = 0.0078

ρ > α, se acepta H0

76

Page 77: Estadistica Aplicada

0.4961 = 0.0039p

2,66

p

0

= 0.00390.4961

-2,66

H

Se rechaza

1,65

0,05

0

Se aceptaH0

0

1,61

ρ < α, se rechaza H0

ρ < α0% 1%

7. Las hipótesis nula y alternativa son:H0: π1 = π2 H1: π1 > π2

Una muestra de 100 observaciones de la primera población indicó que X1

es 70. Una muestra de 150 observaciones de la segunda población reveló que X2 es 90. Utilice un nivel de significancia de 0.05 para probar la hipótesis.a) Formule la regla de decisión.b) Calcule la proporción conjunta.c) Calcule el valor del estadístico de prueba.d) ¿Cuál es su decisión respecto de la hipótesis nula?

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: π1 = π2 No hay diferencia entre la proporción de la primera población y la segunda población.

H1: π1 > π2 La proporción de la primera población es mayor que la de la segunda población.

2) El nivel de significanciaα = 0.05

3) Se selecciona el estadístico. Se hallan primero las proporciones de cada grupo:

X1 = 70; X2 = 90; n1 = 100; n2 = 150

ρ1 = 70

100=0.70

ρ1 = 90

150=0.60

Se combina ahora las dos proporciones:

ρc = X1+X2

n1+n2

= 70+90100+150

=160250

=0.64

z¿

ρ1−ρ2

√ ρc (1− ρc)n1

+ρ c(1−ρc)

n2

= 0.70−0.60

√ 0.64 (0.36)100

+0.64 (0.36)

150

= 0.100.061978

=1.61

4) Se formula la regla de decisión.Se rechaza H0 cuando z >1.65

5) Decisión.

77

Page 78: Estadistica Aplicada

HSe rechaza

0,025

1,96

0,025

0

Se rechazaSe acepta

00

0

H H

-1,96-2,09

Se acepta H0. En conclusión, se dice que no hay diferencia entre la proporción de la primera población y la segunda población.

Cálculo de ρρ = 0.5000 – 0.4463 = 0.0537ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ < α 5.3% 5%

9. La familia Damon posee un viñedo grande. Los viñedos deben fumigarse al inicio de temporada de cultivo para protegerlos contra diversos insectos y enfermedades. Dos nuevos insecticidas acaban de salir al mercado: Pernod 5 y Action. Para probar su efectividad, se seleccionaron 3 hileras y se fumigaron con Pernod 5, y otras 3 se fumigaron con Action. Cuando las uvas maduraron, se revisaron 400 vides tratados con Pernod 5 para saber si no estaban infectadas. De igual forma, se reviso una muestra de 400 vides fumigadas con Action.

Número de vides Número de videsInsecticida revisados infectados

Pernod 5 400 24Action 400 40

Con un nivel de significancia de 0.05, ¿se puede concluir que existe una diferencia de proporción de vides infectados empleando Pernod 5 en comparación con los fumigados con Action?

Solución:

PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: π1 = π2 No hay diferencia entre la proporción de vides infectados empleando Pernod 5 en comparación con los fumigados con Action.

H1: π1 ≠ π2 Hay diferencia entre la proporción de vides infectados empleando Pernod 5 en comparación con los fumigados con Action.

2) El nivel de significanciaα = 0.05

3) Se selecciona el estadístico. Se hallan primero las proporciones de cada grupo:

ρP = 24

400=0.06

ρA = 40

400=0.10

Se combina ahora las dos proporciones:

ρc = X1+X2

n1+n2

= 24+40400+400

= 64800

=0.08

z=ρ1−ρ2

√ ρ c(1−ρc)n1

+ρc (1−ρc )

n2

= 0.06−0.10

√ 0.08(0.92)400

+0.08(0.92)

150

= −0.040.01918

=−2.09

4) Se formula la regla de decisión.Se rechaza H0 cuando z < -1.96 ó z >1.96

78

Page 79: Estadistica Aplicada

HSe rechaza

0,025

1,96

0,025

0

Se rechazaSe acepta

00

0

H H

-1,96-2,09

5) Decisión.Se rechaza H0. Es decir, hay diferencia entre la proporción de vides infectados empleando Pernod 5 en comparación con los fumigados con Action.

Cálculo de ρρ = 2(0.5000 – 0.4817) = 0.0366ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ < α 3.7% 5%

Conclusión: Se rechaza H1 y se acepta H0. Se concluye que la proporción infestada no es la misma entre los dos campos de vides.

11. A una muestra de republicanos y demócratas influyentes se les preguntó, como parte de una encuesta, si estaban a favor de disminuir las normas ambientales para que se pudiera quemar carbón con lato contenido de azufre en las plantas eléctricas a base de carbón. Los resultados fueron:

Republicanos DemócratasNúmero en la muestra 1 000 800Número a favor 200 168

Con un nivel de significancia 0.02, ¿puede concluir que hay una proporción mayor de demócratas a favor de disminuir las normas? Determine el valor de p.

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: πD = πR No hay diferencia entre la proporción de demócratas y republicanos a favor de disminuir las normas.

H1: πD > πR La proporción de demócratas es mayor que la de republicanos a favor de disminuir las normas

2) El nivel de significanciaα = 0.02

3) Se selecciona el estadístico.

ρD = 168800

=0.21

ρR = 200

1000=0.20

Se combina ahora las dos proporciones:

ρc = X D+X R

nD+nR

= 168+200800+1000

= 3681800

=0.2044

z¿

ρ1−ρ2

√ ρc (1− ρc)n1

+ρ c(1−ρc)

n2

= 0.21−0.20

√ 0.2044 (0.7956)800

+0.2044 (0.7956)

150

=0.52

79

Page 80: Estadistica Aplicada

H

Se rechaza

2.050

0,02

Se aceptaH0

0

0,52

4) Se formula la regla de decisión.Se rechaza H0 cuando z > 2.05

5) Decisión.Se acepta H0. En conclusión, se dice que no hay diferencia entre la proporción de demócratas y republicanos a favor de disminuir las normas ambientales

Cálculo de ρρ = 0.5000 – 0.1985 = 0.3015ρ > α, se acepta H0

ρ < α, se rechaza H0

ρ > α 30% 2%

Conclusión: Se rechaza H1 y se acepta H0. Se concluye que no hay diferencia en la proporción de demócratas y republicanos que favorecen los estándares.

13. Las hipótesis nula y alternativa:H0: µ1 = µ2 H1: µ1 ≠ µ2

Una muestra aleatoria de 10 observaciones de una población reveló una media muestral de 23 y una desviación estándar de 4. Una muestra aleatoria de 8 observaciones de otra población reveló una media muestral de 26 y una desviación estándar de la muestra de 5. Con un nivel de significancia de 0.05, ¿hay alguna diferencia entre las medias poblacionales?a) Formule la regla de decisión.b) Calcule el estimado agrupado de la varianza de la población.c) Calcule el estadístico de prueba.d) Tome una decisión de la hipótesis nula.e) Calcule el valor de p.

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: µW = µA No hay diferencia entre la media de la primera población y la segunda población.

H1: µW ≠ µA Hay diferencia entre la media de la primera población y la segunda población.

2) El nivel de significanciaα = 0.05

3) Se selecciona el estadístico. Se calcula la varianza conjunta con la fórmula:

Sρ2=

(n1−1 ) S12+(n2−1)S2

2

n1+n2−2 =

(10−1 ) 16+(8−1 ) 2518−2

= 19.938

Se calcula el estadístico de la prueba

80

Page 81: Estadistica Aplicada

HSe rechaza

0,025

2.12

0,025

0

Se rechazaSe acepta

00

0

H H

-2.12 -1.42

t=X1−X2

√Sρ2( 1

n1

+ 1n2 )

= 23−26

√19.938 ( 110

+ 18 ) = - 1.416

4) Se formula la regla de decisión.Se rechaza H0 cuando t > 2.12 ó t < -2.12

5) Decisión.Se acepta H0. En conclusión, no hay diferencia entre las medias poblacionales

Cálculo de ρ

glNivel de significancia para una prueba de dos colas, α

0.200 0.10 0.05 0.02 0.01 0.0019 1.383 1.416 1.833 2.262 2.821 3.250 4.781

Por lo tanto el valor de ρ se encuentra entre 0.20 y 0.10, o sea que ρ está entre el 20% y el 10%

ρ > α 20-10% 5%

CAPITULO 12

Análisis de la varianza

IntroducciónEn este capítulo se continúa el análisis de las pruebas de hipótesis y se amplía la idea de pruebas de hipótesis. Se describe una prueba para varianzas y, después, una prueba que compara en forma simultánea varias medias para determinar si provienen de poblaciones iguales.

La distribución F Esta distribución de probabilidad sirve como la distribución del estadístico de prueba para varias situaciones. Con ella se pone a prueba si dos muestras provienen de poblaciones que tiene varianzas iguales, y también se aplica cuando se desean comparar medias poblacionales en forma simultánea. La

81

Page 82: Estadistica Aplicada

ESTADÍSTICO DE PRUEBA PARACOMPARAR DOS VARIANZAS

comparación simultánea de varias medias poblacionales se denomina análisis de la varianza (ANOVA).

¿Cuáles son las características de la distribución F?1. Existe una familia de distribuciones F. Un miembro particular de la

familia se determina mediante dos parámetros: los grados de libertad en el denominador y los grados de libertad en el denominador. La forma de distribución se ilustra en la siguiente gráfica.

2. La distribución F es continua. Esto significa que se supone un número infinito de valores entre cero y el infinito positivo.

3. La distribución F no puede ser negativa. El valor menor que F puede tomar es 0.

4. tiene sesgo positivo. La cola larga de la distribución es hacia el lado derecho. Cuando el número de grados de libertad aumenta, tanto en el numerador como en el denominador, la distribución se aproxima a ser normal.

5. Es asintótica. Cuando los valores de X aumentan, la curva F se aproxima al eje X pero nunca lo toca.

Comparación de dos varianzaspoblacionalesCon la distribución F se pone a prueba la hipótesis de quela varianza de una población normal es igual a la varianza de otra población normal.

La distribución F también sirve para probar suposiciones de algunas pruebas estadísticas. Proporciona un medio para realizar una prueba considerando las varianzas de dos poblaciones normales.Las hipótesis nula y alternativa serían de la siguiente manera:

H0: σ 12 = σ 2

2

H1:σ 12 ≠ σ 2

2

Para realizar la prueba, se selecciona una muestra aleatoria de n1

observaciones de una población y una muestra aleatoria de n2 observaciones de la segunda población. El estadístico de prueba se define como sigue:

F=S1

2

S22

Los términos S12 y S2

2 son las varianzas muestrales respectivas. Si la hipótesis nula es verdadera, el estadístico de prueba sigue la distribución F con n1 – 1 y n2 – 1 grados de libertad.

Ejemplo.Lammers Limos ofrece servicio de transporte en limusina al aeropuerto metropolitano. El presidente de la compañía considera dos rutas. Una por la carretera 25 y la otra por la autopista I-75. Desea estudiar el tiempo que tardaría en conducir al aeropuerto por cada ruta y luego comparar los resultados. Recopiló los siguientes datos muestrales, reportados en minutos. Mediante el nivel de significancia 0.10, ¿hay alguna diferencia en la variación en los tiempos de manejo para las dos rutas?

Carretera 25 Autopista I-7525 5967 6056 6145 5170 56

82

Page 83: Estadistica Aplicada

4,23

H

3,87

0,05

0

Se rechaza

Se acepta

0

H0

54 6364 57

65Solución:

PRUEBA DE HIPOTESIS

1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: σ 12 = σ 2

2 No hay diferencia en la variación de los tiempos de manejo por las dos rutas.

H1: σ 12 ≠ σ 2

2 Hay diferencia en la variación de los tiempos de manejo por las dos rutas.

2. El nivel de significanciaα = 0.10

3. Se selecciona el estadístico.Se calcula las varianzas por medio de una calculadora para hacerlo más rápido y se obtiene el siguiente resultado:

F=S1

2

S22 = (8.9947 )2

(4.3753 )2 = 4.23

4. Se formula la regla de decisión.Se rechaza H0 cuando F > 3.87

5. Decisión.Se rechaza H0. En conclusión, hay diferencia en la variación de los

tiempos de manejo por las dos rutas.

Autoevaluación 12.1Steele Electric Products, Inc., ensambla componentes para teléfonos celulares. Durante los últimos 10 días Mark Nagy ha promediado 9 productos rechazados con una desviación estándar de 2 rechazados por día. Debbie promedió 8.5 productos rechazados con una desviación estándar de 1.5 rechazados durante el mismo periodo. Con un nivel de significancia de 0.05 ¿podría concluir que hay más variación en el número de productos rechazados por día de Mark?

Solución:PRUEBA DE HIPOTESIS

1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: σ M2 = σ D

2 No hay diferencia en la variación en el número de productos rechazados por día entre los dos empleados.

H1: σ M2 > σ D

2 Hay más variación en el número de productos rechazados por día de Mark

2. El nivel de significanciaα = 0.10

3. Se selecciona el estadístico.Se calcula las varianzas por medio de una calculadora para hacerlo más rápido y se obtiene el siguiente resultado:

83

Page 84: Estadistica Aplicada

VARIACION TOTAL. Suma de las diferencias elevadas al cuadrado entre cada observación y la media global.

VARIACION DE TRATAMIENTO. Suma de las diferencias elevadas al cuadrado entre la media de cada tratamiento y la media total o global.

VARIACION ALEATORIA. Suma de las diferencias elevadas al cuadrado entre cada observación y su media de tratamiento.

1,78

H

3,18

0,05

0

Se rechaza

Se acepta

0

H0

F=SM

2

SD2 = (2 )2

(1.5 )2 = 1.78

4. Se formula la regla de decisión.Se rechaza H0 cuando F > 3.18

5. Decisión.Se acepta H0, es decir no hay diferencia en la variación en el número de productos rechazados por día entre los dos empleados.

Suposiciones en elanálisis de la varianza (ANOVA)Otro uso de la distribución F es el análisis de la técnica de la varianza (ANOVA), en la cual se comparan tres o más medias poblacionales para determinar si pueden ser iguales. Para emplear ANOVA, se supone lo siguiente:1. Las poblaciones siguen la distribución normal.2. Las poblaciones tienen desviaciones estándar iguales (σ ¿3. Las poblaciones son independientes.

Cuando se cumplen estas condiciones, F se emplea como la distribución del estadístico de prueba.

La prueba ANOVA¿Cómo funciona la prueba ANOVA? Para explicar, recuerde una de las suposiciones descritas recientemente, fue que las desviaciones estándar de las diversas poblaciones normales tenían que ser las mismas. Se aprovecha este requisito en la prueba ANOVA. La estrategia es estimar la varianza de la población (desviación estándar al cuadrado) de dos formas y después determina la razón de dichos estimados. Si esta razón es aproximadamente 1, entonces por lógica los dos estimados son iguales, y se concluye que las medias poblacionales no son iguales. La distribución F sirve como un árbitro al indicar en qué instancia la razón de las varianzas muestrales es mucho mayor que 1 para haber ocurrido por casualidad.

Ejemplo.

84

Page 85: Estadistica Aplicada

EJERCICIOS RESUELTOS

1) ¿Cuál es el valor de F para una muestra de seis observaciones en el numerador y cuatro en el denominador? Utilice una prueba de dos colas y el nivel de significancia 0.10.

Solución:Para realizar este ejercicio necesitamos la tabla de los valores para la distribución F y ubicamos los siguientes resultados.

Para el numerador:n1 = 6 gl = 6 – 1 = 5

Para el denominador:

n2 = 4 gl = 4 – 1 = 3

En la tabla de distribución F: 5

3

El valor de F es 9.01.

3) Se dan las siguientes hipótesis:H0: σ 1

2 = σ 22

H1: σ 12 ≠ σ 2

2 Es una muestra aleatoria de ocho observaciones de la primera población resultó una desviación estándar de 10. En una muestra aleatoria de seis observaciones de la segunda población resultó una desviación estándar de 7. Con un nivel de significancia de 0.02, ¿hay alguna diferencia en la variación de las dos poblaciones?

Solución:PRUEBA DE HIPOTESIS

1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: σ 12 = σ 2

2 No hay diferencia en las variaciones de las dos poblaciones

H1: σ 12 ≠ σ 2

2 Hay diferencia en las variaciones de las dos poblaciones.

2. El nivel de significanciaα = 0.02

3. Se selecciona el estadístico.Se calcula las varianzas por medio de una calculadora para hacerlo más rápido y se obtiene el siguiente resultado:

85

9.01

Page 86: Estadistica Aplicada

H

1,44

0,05

3,10

0,05

0

Se rechazaSe acepta

0

H0

H

2,0410,5

0,01

0

0,01Se rechaza

Se acepta

0

H0

F=S1

2

S22 = (10 )2

(7 )2 = 2.04

4. Se formula la regla de decisión.Se rechaza H0 cuando F > 10.5

5. Decisión.Se acepta H0. En conclusión, no hay diferencia en las variaciones de las dos poblaciones.

5) Una empresa realiza un estudio sobre los hábitos de escuchar iPod de hombres y mujeres. Un aparte del estudio incluyó el tiempo de escucha medio. Se descubrió que el tiempo de escucha medio de los hombres era de 35 minutos por día. La desviación estándar de la muestra de los 10 hombres estudiados fue de 10 minutos por día. El tiempo de escucha medio de las 12 mujeres estudiadas fue de 35 minutos, pero la desviación estándar muestral fue de 12 minutos. Con un nivel de significancia de 0.10, ¿puede concluir que hay una diferencia en la variación en los tiempos de escucha para los hombres y mujeres?

Solución:PRUEBA DE HIPOTESIS

1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: σ 12 = σ 2

2No hay diferencia en las variaciones de las dos poblaciones

H1: σ 12 ≠ σ 2

2 Hay diferencia en las variaciones de las dos poblaciones.

2. El nivel de significanciaα = 0.10

3. Se selecciona el estadístico.Se calcula las varianzas por medio de una calculadora para hacerlo más rápido y se obtiene el siguiente resultado:

F=S1

2

S22 = (12 )2

(10 )2 = 1.44

4. Se formula la regla de decisión.Se rechaza H0 cuando F > 3.10

86

Page 87: Estadistica Aplicada

5. Decisión.Se acepta H0. En conclusión, no hay diferencia en las variaciones de las dos poblaciones.

7) La siguiente es información muestral. Verifique la hipótesis de que las medias de tratamiento son iguales. Utilice el nivel de significancia 0.05

Tratamiento 1 Tratamiento 2 Tratamiento 38 3 36 2 410 4 59 3 4

a) Formule la hipótesis nula y alternativa.b) ¿Cuál es la regla de decisión?c) Calcule los valores SST, SSE, y SS total.d) Elabore una tabla ANOVA.e) Declare su decisión respecto de la hipótesis nula.

Solución:PRUEBA DE HIPOTESIS

1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: µ1 = µ2 = µ3 H1: µ1 ≠ µ2 ≠ µ3

2. El nivel de significanciaα = 0.05

3. Se selecciona el estadístico.

Tto 1 Tto 2 Tto 3 Total8 3 3

6 2 410 4 59 3 4

Total de la columna 33 12 16 61

N 4 4 4 12Media 8.25 3 4 5.083

Por lo tanto XG = 5.083

Tto 1 Tto 2 Tto 3 Total(X - XG ¿2 8.50889 4.33889 4.33889

0.840889 9.50489 1.1728924.17689 1.17289 0.0068915.34289 4.33889 1.17289

Total48.86955

9 19.35556 6.69156 74.91668 (SS)

Por lo tanto SS = 74.917

Tto 1 Tto 2 Tto 3 Total(X - X c¿2 0.0625 0 1

5.0625 1 03.0625 1 10.5625 0 0

Total 8.75 2 2 12.75(SSE)

Por lo tanto SSE = 12.75

SST = SS – SSE = 74.917 – 12.75 = 62.167

Fuente Variación Suma cuadrados GL Media Cuadrática FTratamientos 62.167 2 31.0835 21.94

87

Page 88: Estadistica Aplicada

ESTADÍSTICO DE PRUEBA JI CUADRADA

Error 12.75 9 1.41667Total

4. Se formula la regla de decisión.Se rechaza H0 cuando F > 4.26

5. Decisión.Se rechaza H0. En conclusión, hay diferencia en las variaciones de las poblaciones, no todas las medias de tratamientos son iguales

CAPITULO 17

Métodos no paramétricos

IntroducciónHay pruebas disponibles en las cuales no es necesaria una suposición respecto de la forma de la población. A estas pruebas se les conoce como no paramétricas. Esto significa que no es necesario suponer una población normal. En este capítulo aparece un nuevo estadístico de prueba, el estadístico ji cuadrada, útil para datos medidos con una escala nominal.

Prueba de bondad de ajuste:

frecuencias esperadas igualesLa prueba de bondad de ajuste es una de las pruebas estadísticas de uso más común. La primera ilustración de esta prueba supone el caso en que las frecuencias esperadas de las celdas son iguales.

Como su nombre lo indica, el propósito de la prueba de bondad de ajuste es comparar una distribución observada con una distribución esperada.

x2=∑ [ ( f o−f e )2

f e ]Ejemplo.Una gerente de marketing de un fabricante de tarjetas deportivas planea iniciar la venta de una serie de tarjetas con fotografías y estadísticas de juego de ex jugadores de las Ligas Mayores de Béisbol. Uno de los problemas es la selección de ex jugadores. En una exhibición de tarjetas de béisbol el pasado fin de semana, instaló un puesto y ofreció tarjetas de los siguientes seis jugadores miembros del Salón de la Fama: Tom Seaver, Nolan Ryan, Ty Cobb, George Brett, Hank Aaron y Johnny Bench. Al final del día vendió un total de 120 tarjetas. El número de tarjetas vendidas de cada jugador aparece en la tabla 17.1. ¿La gerente puede concluir que las ventas no son iguales por cada jugador?

Tabla 17.1 Número de tarjetas vendidas de cada jugador

Jugador Tarjetas vendidasTom Seaver 13Nolan Ryan 33Ty Cobb 14George Brett 7Hank Aaron 36Johnny Bench 17

Total 120

88

Page 89: Estadistica Aplicada

11.07

0.05

0

Se rechazaSe acepta HH 0

0

34.40

Si no hay diferencia significativa en la popularidad de los jugadores, se esperaría que las frecuencias observadas (fo) fueran iguales, o casi iguales. Es decir se esperaría vender igual número de tarjetas. Por lo tanto, cualquier discrepancia en las frecuencias observada y esperada puede atribuirse al muestreo (casualidad).

Como hay 120 tarjetas en la muestra, se espera que (fe) sea 20 tarjetas, es decir, la frecuencia esperada, fe, aparecerá en cada una de las seis categorías (tabla 17.2). Estas categorías se denominan celdas.

Tabla 17.2 Frecuencias observadas y esperadas de las 120 tarjetas vendidas.

JugadorTarjetas vendidas

fo

Número vendidoesperado fe

Ton Seaver 13 20Nolan Ryan 33 20Ty Cobb 14 20George Brett 7 20Hank Aaron 36 20Johnny Bench 17 20

Total 120 120

Solución: Se aplica la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativa

H0: No hay diferencia significativa entre los conjuntos de frecuencias observadas y frecuencias esperadas.

H1: Hay diferencia significativa entre los conjuntos de frecuencias observadas y frecuencias esperadas.

2) El nivel de significanciaα= 0.05

3) Se selecciona el estadístico.

x2=∑ [ ( f o−f e )2

f e ]Jugador fo fe (fo– fe)2 (fo– fe)2/ fe

Ton Seaver 13 20 49 2.45Nolan Ryan 33 20 169 8.45Ty Cobb 14 20 36 1.80George Brett 7 20 169 8.45Hank Aaron 36 20 256 12.80Johnny Bench 17 20 9 0.45

Total 120 120 - 34.40

x2=34.40

Se ubica en la tabla el valor de la ji cuadrada con un nivel de significancia de 0.05 y con gl = 6 – 1 = 5.

4) Se formula la regla de decisión.Se rechaza H0 cuandox2> 11.04

89

Page 90: Estadistica Aplicada

5) Decisión.Se rechaza H0, es decir hay diferencia entre los conjuntos de frecuencias observadas y frecuencias esperadas.Se concluye que es improbable que las ventas sean las mismas entre los seis jugadores.

La distribución ji cuadrada, utilizada como el estadístico de prueba tiene las características siguientes:

Los valores de ji cuadrada nunca son negativos- esto se debe a que la diferencia entre fo y fe se eleva al cuadrado, es decir, (fo– fe)2.

Existe una familia de distribuciones de ji cuadrada. Hay una distribución de ji cuadrada para 1 grado de libertad, otra para 2 grados de libertad, otra para 3 grados de libertad, etc. Los grados de libertad se determinan mediante k – 1, donde k es el número de categorías. Por tanto, la forma de distribución ji cuadrada no depende del tamaño de la muestra, sino del número de categorías.

La distribución ji cuadrada tiene sesgo positivo. Sin embargo, a medida que aumenta el número de grados de libertad, la distribución comienza a aproximarse a la distribución normal. La gráfica 17.2 muestra las distribuciones para grados de libertad seleccionados. Observe que, para los 10 grados de libertad, la curva se aproxima a una distribución normal.

Gráfica 17.2. Distribuciones ji cuadrada para grados de libertad seleccionados

Autoevaluación 17.1La directora de recursos humanos de una compañía, está preocupada por el ausentismo entre los trabajadores por hora, por lo que decide tomar una muestra de los registros de la compañía y determinar si el ausentismo está distribuido de manera uniforme en toda la semana de seis días. Las hipótesis son:

H0: El ausentismo está distribuido de manera uniforme en toda la semana de trabajo.

H1: El ausentismo NO está distribuido de manera uniforme en toda la semana de trabajo.

Los resultados de la muestra son:

Número de ausencias Número de ausenciasLunes 12 Jueves 10Martes 9 Vierne

s9

Miércoles 11 Sábado 9

a) ¿Cómo se denominan los números 12, 9, 11, 10, 9 y 9?b) ¿Cuántas categorías (celdas) hay?

90

Page 91: Estadistica Aplicada

15.086

0.01

0 0.80

Se rechaza

Se acepta

H

H

0

0

c) ¿Cuál es la frecuencia esperada para cada día?d) ¿Cuántos grados de libertas hay?e) ¿Cuál es valor crítico de ji cuadrada con un nivel de significancia de

1%?f) Calcule el estadístico de prueba x2.g) ¿Cuál es su regla de decisión respecto de la hipótesis nula?h) Específicamente, ¿qué le indica lo anterior a la directora de recursos

humanos?

Solución:b. Los números 12, 9, 11, 10, 9 y 9 me representan las frecuencias

observadas (fo).

c. Existen 6 categorías o celdas que viene a ser los seis días de la semana.

d. Las frecuencias esperadas son 10, calculadas al sumar el total de frecuencias observadas y dividida entre la cantidad de categorías, se decir: 60/6 = 10.

e. Hay 5 grados de libertad, calculados como k-1, es decir 6 – 1 = 5.

f. Se realiza la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: No hay diferencia significativa entre los conjuntos de frecuencias observadas y frecuencias esperadas.

H1: Hay diferencia significativa entre los conjuntos de frecuencias observadas y frecuencias esperadas.

2) El nivel de significanciaα= 0.01

3) Se selecciona el estadístico.

x2=∑ [ ( f o−f e )2

f e ]

Días fo fe (fo– fe)2 (fo– fe)2 / fe

Lunes 12 10 4 0.40Martes 9 10 1 0.10Miércoles 11 10 1 0.10Jueves 10 10 0 0.00Viernes 9 10 1 0.10Sábado 9 10 1 0.10

Total 60 60 - 0.80g.

x2=0.80

Se ubica en la tabla el valor de la ji cuadrada con un nivel de significancia de 0.01 y con gl = 6 – 1 = 5.

4) Se formula la regla de decisión.Se rechaza H0 cuandox2>15.086

h.5) Decisión.

Se aceptaH0, es decir, el ausentismo se distribuye de manera uniforme durante los seis días de la semana. Las diferencias observadas se deben a la variación en el muestreo.

91

Page 92: Estadistica Aplicada

1.37 7.815

0.05

0

Se aceptaSe rechaza

HH0

0

Prueba de bondad de ajuste:frecuencias esperadas desigualesLas prueba ji cuadrada también es útil si las frecuencias esperadas no son iguales. El siguiente ejemplo ilustra el caso de frecuencias desiguales.

Ejemplo.La Asociación Americana de Administradores de Hospitales (AHAA) reporta la siguiente información respecto del número de veces que los adultos mayores son admitidos en un hospital durante un periodo de un año. Cuarenta por ciento no es admitido; 30% es admitido una vez; 20% son admitidos dos veces y el 10% restante es admitido tres o más veces.Una encuesta de 150 residentes de una comunidad dónde la población predominante son los adultos mayores, reveló que 55 residentes no fueron admitidos durante el año pasado, 50 fueron admitidos en un hospital una vez, 32 fueron admitidos dos veces, y el resto fueron admitidos tres o más veces. ¿Es posible concluir que la encuesta es consistente con la información sugerida por la AHAA? Utilice el nivel de significancia 0.05.

Solución: Se aplica la prueba de hipótesis:

PRUEBA DE HIPOTESIS

1. Se elabora la hipótesis nula y la hipótesis alternativa

H0: No hay una diferencia entre la experiencia local y la nacional respecto de las admisiones en un hospital.

H1: Hay una diferencia entre la experiencia local y la nacional respecto de las admisiones en un hospital.

2. El nivel de significanciaα= 0.05

3. Se selecciona el estadístico.

x2=∑ [ ( f o−f e )2

f e ]

Para calcular el estadístico de una manera muy fácil se organiza toda la información en una tabla. Se convertirá los porcentajes en frecuencias esperadas, fe. Esto se obtiene con la multiplicación del total de las frecuencias observadas (150) con el porcentaje de cada observación (40%, 30%, 20% y 10%).

Número de Porcentaje de Número de Número esperadoadmisiones AHAA del total residentes (fo) de residentes (fe)

0 40 55 60 1 30 50 45 2 20 32 30 3 o más 10 13 15

Total 100 150 150

A través de otra tabla organizamos los resultados para el cálculo del estadístico:

Admisiones fo fe (fo– fe)2 (fo– fe)2 / fe

0 55 60 25 0.41671 50 45 25 0.55562 32 30 4 0.13333 o más 13 15 4 0.2667

Total 150 150 - 1.3723

x2=1.3723

4. Se formula la regla de decisión.Se rechaza H0 cuandox2> 7.815

92

Page 93: Estadistica Aplicada

1.37 7.815

0.05

0

Se aceptaSe rechaza

HH0

0

5. Decisión.Se aceptaH0, es decir, no hay evidencia de una diferencia entre la experiencia local y la nacional respecto de las admisiones en un hospital.

Limitaciones de ji cuadrada Si en una celda existe una frecuencia esperada pequeña inusual, ji cuadrada (si se aplica) puede generar una conclusión errónea. Esto sucede debido a que fe aparece en el denominador y. al dividirlo entre un número muy pequeño, hace el cociente muy grande. En general, dos directrices aceptadas respecto de las frecuencias de celdas pequeñas son:

1) Si sólo hay dos celdas, la frecuencia esperada en cada una deberá ser al menos 5. El cálculo de ji cuadrada sería permisible en el siguiente problema para el mínimo.

Persona fo fe

Alfabetizada 643 342Analfabeta 7 6

2) Para más de dos celdas, no se deberá utilizar ji cuadrada si más de 20% de las celdas fe tiene frecuencias esperadas menores que 5. De

acuerdo con esta directriz, lo adecuado es utilizar la prueba de bondad de ajuste en los siguientes datos. Tres de siete celdas, ó 43%, tienen frecuencias esperadas (fe) menores que 5.

Nivel de administración fo fe

Capataz 30 32Supervisor 110 113Gerente 86 87Gerencia de nivel medio 23 24

Asistente del vicepresidente 5 2Vicepresidente 5 4Vicepresidente ejecutivo 4 1

Total 263 263

Autoevaluación 17.2La Asociación Americana de Contabilidad clasifica las cuentas por cobrar como ¨actuales¨, ¨atrasadas¨ e ¨irrecuperables¨. Las cifras de la industria muestran que 60% de las cuentas por cobrar es actual, 30% está atrasado y 10% es irrecuperable. Un despacho de abogados tiene 500 cuentas por cobrar: 300 son actuales, 120 están atrasadas y 60 son irrecuperables. ¿Concuerda estas cifras con la distribución de la industria? Utilice el nivel de significancia de 0.05.

Solución:PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativaH0: La distribución de las observaciones es: 60% son cuentas por

cobrar actuales, 30% son, atrasadas y 10% son, irrecuperables.H1:La distribución de las observaciones no es como describe H0.

2) El nivel de significanciaα= 0.05

3) Se selecciona el estadístico.93

Page 94: Estadistica Aplicada

5.99

0.05

0

Se rechaza

Se acepta

H

H0

0

9.33

x2=∑ [ ( f o−f e )2

f e ]Cuentas Porcentaje fo fe (fo– fe)2 (fo– fe)2 / fe

Actuales 60 320 300 400 1.33Atrasadas 30 120 150 900 6.00Irrecuperables 10 60 50 100 2.00

Total 100 500 500 - 9.33

x2=0.80

Se ubica en la tabla el valor de la ji cuadrada con un nivel de significancia de 0.05 y con gol = 3 – 1 = 2.

4) Se formula la regla de decisión.Se rechaza H0 cuandox2>5.99

5) Decisión.Se rechazaH0, es decir, los datos de las cuentas por cobrar no reflejan el promedio nacional.

Análisis de tablas de contingencia

El estadístico de ji cuadrada sirve para probar de manera formal si hay una relación entre dos variables con escala nominal. En otras palabras, ¿es independiente una variables de la otra?

Ejemplo.La Federal Correction Agency investiga: ¿un hombre liberado de una prisión federal tiene una adaptación diferente a la vida civil si regresa a su ciudad natal o si va a vivir a otra parte? En otras palabras, ¿hay una relación entre la adaptación a la vida civil y el lugar de residencia después de salir de prisión? Utilice el nivel se significancia 0.01.

Solución:Realizamos la prueba de hipótesis.

PRUEBA DE HIPOTESIS

1) Se elabora la hipótesis nula y la hipótesis alternativaH0: No hay una relación entre la adaptación a la vida civil y el lugar

donde vive el individuo después de salir de la prisión.H1: Hay una relación entre la adaptación a la vida civil y el lugar donde

vive el individuo después de salir de la prisión.

2) El nivel de significanciaα= 0.01

3) Se selecciona el estadístico.

Residencia alsalir de prisión

Adaptación a la vida civilSobresaliente Buena Regular Insatisfactori

aTotal

Ciudad natal 27 35 33 25 120

94

FRECUENCIA ESPERADA. fe¿(Total de filas)(Total decolumnas )

Grantotal

Page 95: Estadistica Aplicada

11.345

0.01

0

Se rechaza

Se aceptaH

H 00

5.729

No en la ciudadnatal 13 15 27 25 80

Total 40 50 60 50 200

Las frecuencias esperadas se encuentran a través de la fórmula. Se obtiene los siguientes resultados:

Residencia al salir de prisión

AdaptaciónSobresaliente Buena Regular Insatisfactoria Total

fo fe fo fe fo fe fo fe fo feCiudad natal 27 24 35 30 33 36 25 30 120 120No natal 13 16 15 20 27 24 25 20 80 80Total 40 40 50 50 60 60 50 50 200 200

Se aplica la fórmula de la ji cuadrada:

x2=∑ [ ( f o−f e )2

f e ]x2=

(27−24 )2

24+

(35−33 )2

24+…+

(27−24 )2

24+

(25−20 )2

20=5.729

Se ubica en la tabla el valor de la ji cuadrada con un nivel de significancia de 0.01 y con gol = 4 – 1 = 3.

4) Se formula la regla de decisión.Se rechaza H0 cuandox2>11.345

5) Decisión.Se aceptaH0, es decir, no hay evidencia de una relación entre la adaptación a la vida civil y el lugar de residencia del individuo al salir de prisión. Para el programa de recomendaciones de la Federal Correction Agency, la adaptación a la vida civil no se relaciona con el lugar donde viva el ex prisionero.

95

Page 96: Estadistica Aplicada

11.345

0.01

0

Se rechaza

Se aceptaH

H 00

5.729

COMPENDIO DE ESTADÍSTICA INFERENCIAL

APLICADA

A LOS NEGOCIOS Y LA ECONOMÌA

LIC. VALDEMAR RODRÌGUEZ SALVADOR

DEDICATORIA

96

Page 97: Estadistica Aplicada

EL trabajo va dedicado a la memoria de mis padres, familiares estudiantes y amigos que nos apoyaron en la culminación de la presente obra

INTRODUCCION

El tema que se aborda es de mucha importancia para todo profesional o estudiante ya que le permitirá saber y conocer los aspectos más representativos de la estadística Inferencial que por cierto ayudará a tener

conocimiento sobre la teoría de la estadística Inferencial, para posteriormente ser aplicado en la especialidad o carrera en la cual se desempeña.

En esta obra se trata de resaltar los aspectos teóricos más relevantes, con sus respectivos ejemplos, autoevaluaciones y ejercicios con sus respectivas respuestas.

El curso de Estadística Inferencial es fundamental para el buen desempeño profesional ya que permite tomar decisiones acertadas en las diferentes actividades que desempeña permanentemente.

CAPITULO 7

DISTRIBUCIONES DE PROBABILIDAD

Introducción

97

Page 98: Estadistica Aplicada

98