Memoria Estadistica Inferencial Unidad 1

78
Factor de continuidad de corrección 2 UNIDAD 1: DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO Conceptos básicos: Estadística descriptiva: recopila, ordena, agrupa, analiza y representa datos. Estadística Inferencial: infiere en muestras en base a N para la toma de decisiones. Parámetro: medida para describir cualquier característica con respecto a la población. Estadístico: medida para describir cualquier característica con respecto a la muestra. Parámetro Estadístico μ =media poblacional x =media muestral σ =Desviación poblacional s =desviación muestral σ 2 =Varianza poblacional s 2 =varianza muestral DIFERENCIAS ENTRE PROPORCIONES POBLACIONALES VS PROPORCIONES MUESTRALES Formulas: P= x N σ= Pq n ( P 1 P ) 2 = P 1 q 1 n 1 + P 2 q 2 n 2 Nn N1 p= x n (Proporción muestral) Cota de error de la proporción: Problemas: n= Ζ ¿ 2 Pq E 2 E=Ζ ¿ 2 σP E=Ζ ¿ 2 Pq n

Transcript of Memoria Estadistica Inferencial Unidad 1

Page 1: Memoria Estadistica Inferencial Unidad 1

Factor de continuidad de corrección

2

UNIDAD 1: DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO

Conceptos básicos:

Estadística descriptiva: recopila, ordena, agrupa, analiza y representa datos.

Estadística Inferencial: infiere en muestras en base a N para la toma de decisiones.

Parámetro: medida para describir cualquier característica con respecto a la población.

Estadístico: medida para describir cualquier característica con respecto a la muestra.

Parámetro Estadísticoμ =media poblacional x =media muestralσ =Desviación poblacional s=desviación muestralσ 2=Varianza poblacional s2 =varianza muestral

DIFERENCIAS ENTRE PROPORCIONES POBLACIONALES VS PROPORCIONES MUESTRALES

Formulas: P= x

N σ=√ Pq

n (P1−P )2=√ P1q1

n1+P2 q2n2 √ N−n

N−1

p= xn (Proporción muestral) Cota de error de la proporción:

Problemas:

1. Estudios realizados demuestran que el uso de gasolina para autos compactos vendidos en estados unidos esta normalmente distribuidos con una

¿Qué porcentaje de autos compactos recorre 30 millas por galón o más? P=?

Z= x−Mσ

Z=30−25 .54 .5

=1

0.50.5

3068%

n=Ζ¿2Pq

E2E=Ζ¿

2σP E=Ζ¿

2√ Pqn

Page 2: Memoria Estadistica Inferencial Unidad 1

3

Área de Z:

2. Se toma como muestra aleatoria de n=36 de una distribución de con una M=75 y con una σ =12.

a) La distribución muestral de la media x será aproximadamente _80__ con una M=_75__ y σ = __2___

b) Para hallar la probabilidad de que la media muestral x exceda de 80, anote el evento de interés__0.62%___

USO DE LA t DE STUDENT

Conσ2

conocida con σ conocida

n≥30

Z= x−μσ

√n σ=√∑ ( x−μ)2

N

Conσ2

desconocida con σ desconocida

n<30

t= x−μ

σ x=s

√n s=√∑( x−μ )2

n−1 n−1=grados de libertad (gl,D,v, df)

DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN MUESTRAL

Formulas:

Z= x−μ

σ x=σ√n

√ N−nN−1

λ=μ=np σ=√npq σ2=npq

Z= p−P

σ p=√ pqn

√ N−nN−1

0.3410.341M=25 .5 Z=1

Z=−1 Z=1A(Z )−A (1)⇒0 .5−0 .3413=0 .158

Page 3: Memoria Estadistica Inferencial Unidad 1

4

Problemas:

1. Muestras aleatorias de tamaño n se seleccionaron en poblaciones binomiales con parámetros P poblacionales dados aquí. Encuentre la media y la desviación estándar

de la distribución muestral p en cada caso para n=100 y P=0.3; n=400 y P=0.1

μ=? σ=?

λ=μ=np⇒100(0 .3)=30 μ=(400 )(0 .1 )=40

σ=√npq⇒√(100 )(0 .3 )(0 .7)=4 .56 σ=√(400 )(0 .1)(0 .9)=6

DEFINICIÓN DE LA DISTRIBUCIÓN DE LA MEDIA MUESTRAL

Supongamos que cada una de nuestras muestras consta de 10 ingenieros industriales de 25 años de edad que viven en una cuidad de 100 mil habitantes (una población infinita, de acuerdo con nuestro tratamiento). Al calcular la altura media y la desviación estándar de esa altura, para que cada uno de estos ingenieros, rápidamente observaran que la media y la desviación estándar de la muestra serian diferentes. Una distribución de probabilidad de todas las medias posibles de las muestras, es una distribución de las medias de las muestras. Los estadísticos la conocen como distribución de muestreo de la media.

Sugerencia

El conocimiento de la distribución de muestreo permite a los estadísticos planear muestras de tal forma que los resultados sean significativos. Como sabemos que resulta caro recabar y analizar muestras grandes, por eso nosotros como ingenieros siempre procuramos obtener las muestras más pequeñas que proporcionen un resultado confiable.

Problemas:

1. La hall corporation fabrica grandes sistemas de computo y siempre se ocupado con la confiabilidad de sus unidades de procesamiento centros de sistemas 666. De hecho la experiencia pasada ha mostrado que el tiempo improductivo mensual de los CPU

Page 4: Memoria Estadistica Inferencial Unidad 1

5

666 promedio 41min. Con la desviación estándar de 8 min. El centro de cómputo de una gran universidad estatal mantiene una instalación formada por 6 CPU del sistema 666 James Kitchen, el director del centro siente que se proporciona un nivel satisfactorio de servicio a la comunidad universitaria si el tiempo improductivo promedio de las 6 CPU es menor de 50 min. Al mes. ¿Dado cualquier mes cual es la probabilidad se sienta satisfecho con la red de servicio?

μ=41m σ=8min n=6 p( x<50 )

Z= x−μσ

√n

⇒50−418

√6

=2.755⇒area⇒0.497+0 .5=0 .997=99.7%

2. El costo de las prescripciones de patentes se fija para dar apoyo a investigaciones y n desarrollo de estos medicamentos, que se pueden tardar hasta 20 años. Sin embargo una mayoría de personas de cierto país dice que los costos de medicamento de patentes (66%), los costos de hospital (64%) y las visitas de médicos (55%) son irracionalmente altos. Suponga que se toma una muestra aleatoria de 1000 adultos. Se

la p (proporción muestral) la proporción de adultos que dicen que los precios de medicinas con recetas son irracionalmente altos.

a) ¿Cuál es la probabilidad de que p exceda de 68%? p( p>0 .68)

Datos:

n=1000 p =660 (66%) P=680

Z= p−P

√ pqn

=660−680

√(680 )(320)1000

=1.335

3. Utilizar las tablas de áreas bajo la curva normal entre los valores dados:

a) Z=0 .3 y Z=1.56 =0.1179 =0.4406----------0.4406-0.1179=0.3227= 32.27%

b) Z=1.3 y Z=1.74

=0.4032 =0.4591-----------0.4032+0.4591=0.8623=86.23%

c) Encuentre la probabilidad de que P (Z>−0 .75 ) :Para z=0.75=> área=0.2734-------0.2734+0.5=0.7734=77.34%

Page 5: Memoria Estadistica Inferencial Unidad 1

6

4. Se diseño un nuevo sistema para el control de inventario de un pequeño fabricante, con el propósito de reducir el mismo para un motor eléctrico en particular, a menos de 3 000 motores por día. Se llevo a cabo un muestreo de inventario en reserva al final de cada uno de 8 días, seleccionados aleatoriamente; los resultados son los que se muestran en la siguiente tabla.

Numero de motores

2905 2895

2725 3005

2835 2835

3065 2605

Utilizando la distribución de muestreo respectivo señale o indique mediante una grafica si hay evidencia que señale el promedio del numero de motores en el inventario es menor que 3 000 utilizando un coeficiente de confianza de 95% y un nivel de significancia de 5%

Datos:

n=8 ¿=0 .05

¿2=0 .025

μ=3000 gl=n−1=7

Condición: p( x<3000 ) x=2858 .75=2859⇒ s=146 .76

t= x−μs

√n

=2859−3000146 .76

√8

=2 .7172

Aumento la confianza y disminuyo la significancia, si hay suficiente evidencia a la pregunta.

¿=0 .05

Page 6: Memoria Estadistica Inferencial Unidad 1

7

5. Los costos variables, principalmente de la mano de obra, hacen que los precios de la construcción varíen de una con respecto a otra.Un constructor necesita tener una ganancia media arriba de 8500 DLL para alcanzar una ganancia mensual establecida como meta. Las ganancias por cada una de las 5 construcciones más recientes del constructor, son de 8760 DLL, 6370 DLL, 9620 DLL, 8200DLL y 10350DLL, respectivamente.¿Proporcionan los datos evidencia que indique que el constructor estaba trabajando al

nivel de ganancia deseado con un nivel de significancia de α=0 .05?

Datos:

n=5 ¿=0 .05 μ=8500 gl=n−1=5−1=4

Condición: p( x>8500 ) x=8660⇒ s=1520 .148

t= x−μs

√n

=8660−85001520 .148

√5

=0.2353

El nivel de significancia

Se encuentra entre 40% y 45%

DISTRIBUCIÓN DE MUESTREO DE LA DIFERENCIA DE MEDIAS:

Z=x1−x2

√ σ12n1 −σ22

n2

=( x1−x2)

√ S12

n1−S22

n2

t ¿=−1 .9t ¿=−2.7172

0 .95

t ¿=2 .13

t ¿=0.2353

Page 7: Memoria Estadistica Inferencial Unidad 1

8

Para muestras pequeñas:

t=x1−x2

√ σ 2n1+ σ 2

n2

=x1−x2

√ 1n1+ 1n2=

x1−x2

δ √ 1n1+ 1n2δ = Estimador ponderativo de la desviación

δ=√ (n1−1)s12+(n2−1)s2

2

n1+n2−2 δ=√∑ ¿

i=1

n(x i−x1)

2+∑ ¿

i=1

n( x i−x2 )

2

n1+n2−2¿¿

δ 1=√∑ ¿i=1

n( x i−x1)

2

n1−1¿

δ 2=√∑ ¿i=1

n(x i−x2)

2

n2−1¿

Problemas:

1. Se seleccionaron dos muestras aleatorias independientes de las poblaciones:n1=80 n2=80

Los parámetros de las poblaciones y las medias muestrales así como las variables de

σ 2 muestrales se indican en la tabla:

Parámetros y estadísticos Población

1 2Media poblacional μ1 μ2

Varianza poblacional σ 1 σ 2Tamaño de la muestra 80 80

Media muestral 11.6 9.7Varianza muestral 27.9 38.4

Observe los datos y por intuición diga si los datos proporcionan Suficiente

evidencia para que M 1>M 2 y realice la prueba utilizando un nivel de significación de 0.10 y sacar conclusiones:

Condición:

μ1>μ2

Page 8: Memoria Estadistica Inferencial Unidad 1

9

Conclusión: si existe suficiente evidencia de que si hay un incremento de la madia poblacional 1 con respecto a la 2. Con nivel de significancia de 0.10

DISTRIBUCIÓN DE MUESTREO CON RESPECTO A 2 PROPORCIONES POBLACIONALES

Z=p1−p2

√ p1q1n1

+p2q2n2

p1=x1n1

p2=x2n2

P¿

=x1+x2n1+n2

Z=p1−p2

√ p¿ q¿ ( 1n1+ 1n2 )Problemas:

1. El administrador de un hospital conjetura que el porcentaje de cuentas hospitalarias no pagadas, aumento durante el año anterior; los registros del hospital muestran que las cuentas de 48 de 1284 personas admitidas en el mes de abril no habían liquidado después de 90 días; este número es similar a las 34 cuentas de 1002 pacientes admitidas durante el mismo mes del año anterior ¿con estos datos hay suficiente evidencia que indique un incremento en el porcentaje de cuentas liquidadas después de más de 90 días? Utilice nivel de significancia de 0.10

Datos:

n1=1284 n2=1002

x1=48 x2=48

p1=x1n1

=481284

=0.037

p2=x2n2

=341002

=0 .034 q=1−p

¿

=0 .965

P¿

=x1+x2n1+n2

=48+341284+1002

=0 .035

z¿=2.08z¿=1.29

0 .90Z=

( x1−x2)

√ S12n1 −S22

n2

=(11.6−9 .7 )

√27 .980−38 .480

=2.087

0 .90

Page 9: Memoria Estadistica Inferencial Unidad 1

10

Z= 0 .037−0 .034

√(0.035 )(0 .965)( 11284

+ 11002 )

=0 .387

Z= 0.037−0 .034

√(0 .037 )(0 .965 )1284

+(0 .034 )(0 .966 )1002

=0 .385

La significancia aumento, por lo tanto los datos no son suficientes para indicar que la proporción de cuentas excede al % correspondiente al año anterior.

2. Un fabricante modifico una línea de producción para reducir el promedio de la fracción de defectuosos. Para determinar si la modificación fue efectiva, el fabricante saco una muerta aleatoria de 400 artículos antes de la modificación de la línea de producción, y otra muestra aleatoria de 400 artículos después de tal cambio. Los porcentajes de defectuosos en las muestras eran: antes 5.25%, después 3.5%, lleve a cabo la prueba y saque sus conclusiones, si la modificación no pudiera incrementar la fracción de defectuosos, utilice un nivel de significancia de 0.05:

Datos:

n1=400 n2=400

x1=21 x2=14

p1=0 .0525 p2=0 .035

P¿

=x1+x2n1+n2

=21+14400+400

=0 .04375⇒q=0 .95625

Z= 0 .0525−0 .035

√(0 .0525)( 0.9475 )400

+(0 .035 )(0.965 )400

=1 .2

Nuestra significancia aumentó.

DISTRIBUCIÓN DE MUESTREO PARA LA PROPORCIÓN POBLACIONAL:

Z¿=1 .29

Z¿=0 .385

0 .90

Z¿=−1 .65

Z¿=−1 .2

Page 10: Memoria Estadistica Inferencial Unidad 1

11

Parte de

Z= x−μσ

√n

Z= p−p

√ pqn

Problemas:

1. Aproximadamente uno de cada 10 favorece el refresco de cola de marca A. Después

de una campaña de promoción en una región de ventas dadas, se seleccionaron

aleatoriamente 200 bebedores de ese producto, de los consumidores en el área del

mercado, y se les entrevisto para determinar la efectividad de la campaña. El resultado

de la encuesta mostro que un total de 26 personas expresaron su preferencia a la

bebida de la marca A.

¿Son los datos suficientes para indicar un aumento en la aceptación de la marca en la

región? Nivel de significancia de 0.10:

Datos:

n1=200

p=26200

=0 .13

p1=110

=0.10

Z= p−p

√ pqn

= 0 .13−0 .10

√(0 .10)(0 .10)200

1 .4121

Conclusión:

Significancia disminuyo:

Hay suficiente evidencia.

DISTRIBUCIÓN DE MUESTRA PARA UNA VARIANZA PROPORCIONAL

(CHI-CUADRADA) X 2

Problemas:

Z¿=1 .29

Z¿=1 .4142

Page 11: Memoria Estadistica Inferencial Unidad 1

12

1. Un fabricante de cemento afirmo que el concreto preparado con su producto

tendría una resistencia a la compresión relativamente estable y que, medida en KNC2

se ubicaría en una amplitud de 40. Una muestra de 10 mediciones arrojo una media

x=312 y una varianza σ2=195 .

¿Son suficientes los datos para rechazar la afirmación del fabricante?

Datos:

n1=10 gl=n−1=9 σ2=10

Χ c2=

(10−1)(95 )100

=17 .55

Regla de decisión:

Χ c2>Χ¿

2⇒17 .55>16 .91 si, aumento confiabilidad y disminuyo significancia.

PRUEBAS DE LA RAZÓN DE VARIANZA:

DISTRIBUCIÓN DE MUESTREO (ENTRE DOS VARIANZAS) f DE FISHER:

Problemas:

1. La variabilidad en la cantidad de impurezas presentes en un lote de productos

químicos, utilizado para un proceso particular, depende del tiempo que tarda el

proceso.

Un fabricante que emplea 2 líneas de producción 1 y 2 hizo un pequeño ajuste al

proceso 2 con la esperanza de reducir la variabilidad, así como la cantidad media de

impurezas en los productos químicos. Muestras de n1=25 y n2=25 , mediciones de 2

lotes produjeron los siguientes medias y varianzas.

x1=3.2 y S12=1 .04 x2=3.0 y S2

2=0 .51

¿Presentan los datos evidencia suficiente para indicar que las variaciones de proceso

son menores para el 2? Nivel de significación α=0 .10

Formulas: Fc=

s12

s22

(razón de varianzas) (numerador)s12>s2

2

(numerador)s22>s1

2

¿=16 .91

Page 12: Memoria Estadistica Inferencial Unidad 1

13

gl=25gl=24 1 .70 (Teórica)

Fc=1 .040.05

=2 .03

Se redujo el nivel de significancia

UNIDAD 2: INTERVALOS

FORMULAS A UTILIZAR:

Intervalo de confianza para μ cuando σ y σ2 conocido n≥30

x−Z α2

σ

√n<μ<x+Z α

2

σ

√nx−Z α

2

S

√n<μ<x+Z α

2

S

√n

Intervalo de confianza para μ cuando σ y σ2 desconocidos

x−t α2

S

√n<μ< x+t α

2

S

√n

Intervalo de confianza para proporción poblacional

p−Z α2√ pq

n<P< p−Z α

2√ pq

np−tα

2√ p q

n<P< p−t α

2√ p q

n

Diferencias de μ1−μ2 (Muestras) poblacionales

v1=gl=n1−1v2=gl=n2−1

fc=2 .03f ∝¿1 .70

Page 13: Memoria Estadistica Inferencial Unidad 1

14

x1−x2−Z α2 √ σ 1

2

n1+σ22

n2<μ1−μ2<x1−x2+Z α

2 √ σ 12

n1+σ 22

n2

x1−x2−t α

2 √ S12

n1+S22

n2<μ1−μ2< x1−x2+t α

2 √ S12

n1+S22

n2 Varianza diferente

x1−x2−t α2

Sp√( 1n1+1n2 )<μ1−μ2<x1−x2+ tα

2

Sp√( 1n1+1n2 ) Varianza igual

Estimador ponderativo------Sp=√(n1−1) s1

2+(n2−1) s22

n1+n2−2

Diferencias entre proporciones poblacionales

p1−p2−t α2

Sp√( p1−q1n1

+p2−q2n2 )<P1−P2< p1−p2−t α

2

Sp√( p1−q1n1

+p2−q2n2 )

(n−1 )S2

X2αhsuperior

<σ2<(n−1 )S2

X21−αh inf erior

Para la varianza

√ (n−1 )S2

X2αh

<σ<√ (n−1 )S2

X21−αhi

Para la desviación

S12

S22

1f V 1V 2

<σ12

σ22¿S12

S22f V 1V 2

Para la razón de varianza

Cota del Error máximo permisible

E=Z α2

σ

√nE=Z α

2√ Pq

n

Determinación del tamaño de la muestra

n=

Z¿22σ2

E2

Determinación del tamaño de la muestra para proporciones

n=Z2αh PqE2

Page 14: Memoria Estadistica Inferencial Unidad 1

15

INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL

Problemas:

1. Encuentre un intervalo de confianza (1−¿)100% para una media poblacional en los siguientes casos:

a) Cuando ¿=0 .01

n=38 x=34

s2=12

s=3.42

Al 99% con área de 0.4950

z¿2=2 .58

x−Z α2

σ

√n<μ<x+Z α

2

σ

√n

34−(2 .58) 3 .46√38

<μ<34+(2 .58) 3 .46√38

⇒32 .55<μ<35 .44

b) ¿=0 .10

n=65 x=1049

s2=51

Al 90% con área de 0.45

z¿2=1 .65

1049−(1.65 ) 7 .1414√61

< μ<1049+(1 .65) 7 .1414√61

⇒1047 .49<μ<1050 .5

c) ¿=0 .05

n=89 x=63 .3

s2=2 .48

Al 95% con área de 0.475

z¿2=1 .96

63 .3−(1 .96 ) 1.548√89

<μ<63 .3+(1 .96) 1 .548√89

⇒62 .97<μ<63.627

2. Una muestra aleatoria de n=6 observaciones de una población normal generó los siguientes datos: 3.7, 6.4, 8.1, 8.8, 4.9, 5.0

¿=0 .10

n=6 x=6 .15

s2=3 .95

s=1.98

gl=n−1⇒6−1=5

Page 15: Memoria Estadistica Inferencial Unidad 1

16

a. Encontrar un intervalo de confianza al 90% paraμ

x−t α2

S

√n<μ< x+t α

2

S

√n

6 .15−(2.02) 1.98√6

<μ<6 .15+(2 .02) 1 .98√6

4 .5<μ<7 .78

3. Se encuentra que la concentración promedio de Zinc que se saca del agua a partir de

una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6g/ml, encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el sitio.

Su póngase que σ=0 .3

a. σ=0 .3

b. ¿Qué tan grande se requiere una muestra si queremos tener 95% de confianza de que nuestra estimación de μ difiera al menos de 0.05

Datos:

n=36

x=2 .6g /ml

σ 2=0 .09

σ=0 .3

x−Z α2

σ

√n<μ<x+Z α

2

σ

√n

Al 95% con área de 0.475

z¿2=1 .96

2 .6−(1 .96 ) 0 .3√36

<μ<2.6+(1.96 ) 0 .3√36

⇒2.50<μ<2.69

Al 99% z¿2=2 .58

2 .6−(2.58) 0 .3√36

<μ<2 .6+(2.58) 0 .3√36

⇒2 .47<μ<2.73

Para determinar la muestra:

t ¿2=−2 .02 t ¿

2=2 .02

0 .90

0 .95

z¿2=−1 .96 z¿

2=1 .96

z¿2=−2 .58 z¿

2=2 .58

0 .99

Page 16: Memoria Estadistica Inferencial Unidad 1

17

Calcular: E=Z α

2

σ

√n⇒1.96 0 .3

√36=0 .098

pero al ser intervalo--

0 .0982

≃0.5

De:

E=Z α2

σ

√n

despejar

n=( Z α2

σ

E )2

=(1 .96(0 .3)0.098 )2

=36

Para obtener muestra máxima al 95%:

n=

Z¿22S2

E2=

(1 .96)2 (0 .3 )2

(0 .5)2=138

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS

Problemas:

1. Los siguientes datos representan el número de artículos producidos por el método 1 y método 2.

Método 1103 94 110 87 98

Método 297 82 123 92 175 88 118

Calcule un intervalo de confianza del 90% para la diferencia entre los tiempos de proporción de duración promedio de los 2 métodos.

Metodo1n1=5x=98 .4S1=8 .73

S1

2

=76 .21

Metodo2n2=7x=110.7S2=32 .18

212

=103 .5

gl=7+5=12gl=12−2=10

x1−x2−t α2 √ S1

2

n1+S22

n2<μ1−μ2< x1−x2+t α

2 √ S12

n1+S22

n2

Page 17: Memoria Estadistica Inferencial Unidad 1

18

(98 .4−110.7 )−1.81√ (76 .21 )5

+(1035.55 )

7<μ1−μ2<(98.4−110 .7 )+1.81√ (76 .21 )

5+

(1035.55 )7

−12 .3−23 .13<μ1−μ2<−12 .3+23 .12−35 .42<μ1−μ2<10 .8

2. Encontrar un intervalo de confianza para la diferencia para la diferencia entre dos medias poblaciones con un coeficiente de confianza de 0.95

x=12 .25

S1=2 .36

S2

2

=5 .5

x=9 .5

S2=1 .29

S2

2

=1 .66

x1−x2−t α2 √ S1

2

n1+S22

n2<μ1−μ2< x1−x2+t α

2 √ S12

n1+S22

n2

12 .25−9 .5−2 .45√ 5 .584 + 1.664

<μ1−μ2<12 .25−9 .5+2 .45√ 5 .584 +1 .664

2 .75−3 .29<μ1−μ2<2 .75+3 .29.54<μ1−μ2<6 .04

9.5 12.256.040.5

Page 18: Memoria Estadistica Inferencial Unidad 1

19

INTERVALO DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL

Problemas:

1. En una muestra aleatoria de 500 familias que se tienen televisiones en una ciudad “x” se encuentran que 340 están suscritas en mega cable, se encuentra un intervalo de confianza de 99% para la proporción real en familias que están suscritas a mega cable.

n=500x=300

p=xn

=340500

=0 .68

¿=99%

p−Z ¿2√ p−q

n< p<0 .68+2.58√ (0 .68 ) (0.32 )

500

0 .626< p<0 .7338

¿Qué tan grande se sugiere que sea una muestra si queremos tener un 99% de confianza de

que muestra estimación “P” este entre 0.02?

n=Z2¿

2p q

E2=

(2.58 )2 (0 .68 ) (0 .32 )(0 .02 )2

=3621

E=Z ¿2√ pq

n(2.58 ) √ (0 .68 ) (0.32 )

500=0 .05

E=0 .05

2=0 .2

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES

Problemas:

1. Encontrar el intervalo de confianza para la diferencia entre dos proporciones poblacionales con un coeficiente de confianza de 0.95.

Page 19: Memoria Estadistica Inferencial Unidad 1

20

p=0.73

n1=0.73

x 1=620 .5

p=0.67

n1=850

x 1=569 .5

p1−p2−t α2

Sp√( p1−q1n1

+p2−q2n2 )<P1−P2< p1−p2−t α

2

Sp√( p1−q1n1

+p2−q2n2 )

( . 73−. 67 )−1.96√( 0 .73−0 .27850+ 0 .67−0 .33850 )<P1−P2<( . 73−. 67 )+1 .96√( 0 .73−0 .27850

+ 0 .67−0 .33850 )

0 .016< p1−p2<0.104

INTERVALOS DE CONFIANZA PARA LA RAZÓN DE VARIANZAS

Dados los siguientes datos obtener un intervalo de confianza para la razón de varianzas:

n1=10

n2=8¿=90%

S1

2

=1 .04

S2

2

=0 .51

v 1=n−1=10−1=9

v 2=n2−1=8−1=7

S12

S22

1f V 1V 2

<σ12

σ22¿S12

S22f V 1V 2

0.67 0.730.16 0.104

0.95

0.05

Page 20: Memoria Estadistica Inferencial Unidad 1

21

( 1.040 .51 )( 13 .68 )< σ1

2

σ22<( 1 .040.51 )3 .29

=0.5541

INTERVALOS DE CONFIANZA PARA LA VARIANZA

Dados los siguientes datos, obtener un intervalo de confianza para la varianza con la

distribución de Chi2

n=10

gl=9

s2=195

¿=0 .05

Al 95% X ¿

2

2 =19

(n−1 )S2

X2αhsuperior

<σ2<(n−1 )S2

X21−αh inf erior

(10−1 )19519

<σ2<(10−1 )1952 .7

=92.3<σ2<650

6.70

0 .99

X2(1−¿

2)=2 .7

X2¿

2=19

Page 21: Memoria Estadistica Inferencial Unidad 1

22

UNIDAD 3 PRUEBAS DE HIPOTESIS

Ho: Hipotesis nula

Ha: Hipotesis alternativa

No existe

No hay riesgoNo hay verificación

I (B)

Si hay evidencia

Si hay significación

Si hay riesgo

Error de tipo I (∞) Rechazar (Ho)

Error de tipo II (B) Aceptación (Ho)

Prueba unilateral o de una cola pero superior

Prueba unilateral o de una cola pero superior

0.95

Región

aceptada

-1.96 ≠ +1.96

(-) Región de rechazo (+)

0.95

0.5000 0.4500

0.95

0.4500 0.5000

1ra 2do

I (∞) ∞=0.05

1.65 -1.65

(+) I (-)

Page 22: Memoria Estadistica Inferencial Unidad 1

23

Una hipótesis estadística

Una hipótesis estadística: es una aseveración o conjetura con respecto a una o más poblaciones.

La verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta incertidumbre a menos que examinemos toda la población. Esto, por supuesto, sería poco práctico en l mayoría de las situaciones. En su lugar, tomamos una muestra aleatoria de la población de interés y utilizamos los datos contenidos en esta muestra para proporcionar evidencia que apoye o no la hipótesis. La evidencia de la muestra que es inconsistente con la hipótesis que se establece conduce al rechazo de esta, mientras que la evidencia que la apoya conduce a su aceptación.

Debe quedar claro que el diseño de un procedimiento que decisión se debe hacer con la idea en mente de la probabilidad de una conclusión errónea.

Debemos acostumbrarnos a comprender “Que la aceptación de una hipótesis simplemente implica que los datos no dan suficiente evidencia para rechazarla”. Por otro lado, el rechazo implica que la evidencia muestra la recluta. Dicho de otra forma el rechazo significa que hay una pequeña probabilidad de obtener la información muestra observada cuando, la hipótesis es verdadera.

Hipótesis Nula: Esta se refiere a cualquier hipótesis que deseamos probar y se denota (Ho). El rechazo de la hipótesis nula conduce a la aceptación de una hipótesis alternativa, que se denota (HA). Una hipótesis nula con respecto a un parámetro poblacional siempre se establecerá de modo que especifique un valor exacto del parámetro mientras que la hipótesis alternativa permite la probabilidad de varios valores.

PRUEBA DE HIPOTESIS PARA LA MEDIA CUANDO σ2

ES CONOCIDA. n ≥ 30= Ƶ

Ho: M=Mo Desconocidas 0 ó 02 Analiza si es una prueba t= estudent

Dos extremos Un extremo

Ho: M=Mo Ho: M≤Mo

HA: M≠Mo HA: M>Mo , HA: M<Mo

Establecer tu nivel de significancia

(3) (2) (1)

HA: M<Mo HA: M>Mo

Page 23: Memoria Estadistica Inferencial Unidad 1

24

Estadístico de prueba.

ParaƵ Ƶc= Ƶ=

X−MO

√n =

X−MS

√n

Regla de decisión / Región de Rechazo

Dos extremos Un extremo

Ƶc>Ƶ∞/2 Ƶc>Ƶ∞/2

tc>t∞/2 tc>t∞/2

Ƶc<Ƶ∞/2 gl= n-1 Ƶc<Ƶ∞/2

tc<t∞/2 tc<t∞/2

Problemas:

1. Una empresa eléctrica fabrica focos que tienen una duración que se distribuyen de forma aproximadamente con una media de 800 hrs, 0=40 hrs. Pruebe la hipótesis de que la Mo= 800 contra la M≠800 si una muestra aleatoria de 30 focos tiene una duración promedio de 788 hrs. Utilice un nivel de significancia de ∞=.04

Datos

M: 800 hrs media poblacional

O: 40 hrs

Ho: M=800

HA: M≠800

n: 30

X : 788 media muestral

∞= 0.04

Ƶ∞/2 +Ƶ∞/2-Ƶ∞/2-Ƶ∞/2

Para=t t=

Page 24: Memoria Estadistica Inferencial Unidad 1

25

Ho: M=800 HA= M≠800

Un Extremo Dos Extremo

Zc=

X−MO

√n =

788−80040

√30 = -1.64

Regla de decisión

Zc > Z ¿2

1.64 >2.06 NO

Zc < Z ¿2

-1.64<-2.06 NO Se acepta Ho

2. Pruebe la hipótesis de que el contenido promedio de los envases de un lubricante particular es de 10 Lts, si los contenidos de una muestra aleatoria de 10 envases son 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3 y 9.8 Lts. Utilice un nivel de significancia de ∞=0.01 y suponga que la distribución contenido es normal.

N ≤ 30

∞2 =

0 .042 =0.02

0.96

0.4800

∞2 =

0 .042 =-0.02

0.4800

Ƶc=-1.642.06

Ζ∞2

1.64

∞2 =

0 .042 =0.02

−127 .302967

Page 25: Memoria Estadistica Inferencial Unidad 1

26

H=10 1- Ho: M=10n= 10 2- HA: M≠10

X =10.06

S=0.24

∞=0.01

∞2 =

0 .012 = 0.005

tc=

X−MS

√n =

10 .06−100 .24

√10 = 0.79

0 .060 .075894 =0.79

4- Tc > t ¿2 0.79>3.25

tc> t ¿2 -0.79<-3.25 SE ACEPTA : Ho

Se lleva a cabo el desgaste por abrasibo de 2 diferentes materiales arribados se prueban 12 piezas del material 1 mediante la exposición de cada pieza a una máquina para medir el desgaste 10 piezas de prueba 2 se de manera similar. En cada caso se mide la profundidad del desgaste las muestras del material 1 da un desgaste promedio codificado de 85 unidades con una S=4, mientras que las muestras de material 2 dan un promedio de 81 y una desviación estándar de 5 ¿podemos concluir con un nivel de significancia ∞=0.05 que el desgaste abrasivo del material 1 excede el del material 2 en más de 2 unidades. Suponga las poblaciones son aproximadamente normales con varianzas iguales.

Datos Datos

n=12 n=10

X = 85 unidades X = 81 unidades

S=4 S=5

∞2 =0.005

0.99

t∞2 -3.25 3.25

t∞2

Page 26: Memoria Estadistica Inferencial Unidad 1

27

∞=0.05

n1=12 n2=10

X 1=85 X 2=81

S1=4 S2=5

RESOLVER

1.- Ho: M1-M2=2 gl=10+12-2

2.- HA: M1-M2>2 gl=20

3.- ∞=0.05 t∞=1.72

gl= n1+n2-2

gl=

(S12n1+ S2 2

n2 )2

(S1 2n1n1−1

+ S 22n2

n2−1 )2

4.- t=

(X 1−X 2 )−do

Sp√ 1n1 + 1n2 Sp=√ (12−1 ) (4 )+(10−1 ) (5 )2

12+10 = 4.478

t=

(85−81 )−2

4 .478√ 112 + 110 = 1.04

- Regla de decisión, región critica lado derecho

Tc>t∞

1.04>1.725 NO Se acepto Ho

Como son las predicciones en el incremento del producto nacional bruto en estados unidos para el próximo año hechas por ejecutivos de corporaciones y analistas del mercado accionario. Se muestran las predicciones en porcentajes de 5 ejecutivos de corporaciones y de 5 analistas de mercados, seleccionados aleatoriamente.

0.95

Para sacar gl REAL

1.04 1.72

Page 27: Memoria Estadistica Inferencial Unidad 1

28

Ejecutivos de empresas3.4 2.8 3.9 3.7 3.4Analista de mercado3.3 3.9 3.4 3.8 4.0

Ejecutivos Analistas

n1=5 n2=5

X =3.44 X =3.68

S= 0.41 0.31

S2= 0.1681 ∞0.10 S2=0.0961

3. Proporciona los datos evidencias suficiente que señale una diferencia en el incremento medio diagnostico para PNB, hechas por ejecutivos de corporaciones y analistas del mercado accionario realice la prueba con ∞=0.10 obtenga el valor de P aproximado para la prueba interprete. Encuentre un intervalo de confianza de 90% para la diferencia entre las predicciones del producto nacional Bruto (PNB) promedio de los ejecutivos de corporaciones y analistas de mercado accionario.

n1=5

X =3.44

S=0.41

S2= 0.1681 ∞=0.10

gl= n1+n2-2

gl= 5+5-2

gl= 8

- Ho: M1-M2 =Do

HA: HA M1-M2<Do

Sp√ (n−1 )S1 2+ (n2−1 )S1 2n1+n2−2

Sp√ (5−1 ) 0.1681+(5−1 )0 .09615+5−2

n1=5

X =3.44

S=0.41

S2= 0.1681

t∞=1.40

Porque nada más es una cola

∞= 0.10

Page 28: Memoria Estadistica Inferencial Unidad 1

29

Sp= 0.36

t=

(X 1−X 2 )−Do

Sp√ 1n1 + 1n2 =

(3. 44−3 .68 )−0

0 .36 √ 15+ 15 = 1.05

Regla de decisión región de rechazo

tc<t∞-1.05<-1.40 NOSe acepta Ho ó No se rechaza

gl=8 0.20

1.40 .889

P= 0.889

B) 0.10<P<0.20

C) X 1−X2−t ∞

2Sp√ 1n1+ 1

n2¿M 1−M 2<X1−X 2+t ∞

2 √ 1n1 + 1n2

3.44-3.68-(1.86)(0.36) √ 15 + 15 <M1-M2<3.44-3.68+(1.86) (0.36) √ 15 + 1

5

-0.66<M1-M2<0.18

4. Se dan las 2 siguientes muestras aleatorias independientes, la muestra 1 y la muestra 2

Muestra 1 12 3 8 5

Muestra 2 14 7 7 9 6

Pruebe la Ho vs HA

Muestra 1

X=7 X=8.6

Page 29: Memoria Estadistica Inferencial Unidad 1

30

S=3.91=S2=15.28 S=3.20 S2=10.24

n=4 n=5

Pruebe Ho:M1-M2=0 contra la alternativa HA: (M1-M2)>0 para ∞=0.05.

Encuentre un intervalo de confianza de 90% (M1-M2).

1.- Ho: (M1-M2)=0

2.- HA: (M1-M2)>0

3.-

X 1−X2−t∞√ S12

n1+S22

n2 <M1-M2<X 1−X2+ t ∞

2 √ S12

n1+S22

n2

7−8 .6−1 .90√15 .284 +10 .245 <M1-M2<

7−8 .6+1.90√15 .284 +10.245

-6.20<M1-M2<3

gl=7

∞2

=0.102

=0 .05

gl= n1+n2-2

gl= 4+5-2

gl= 7 1.90

∞=0.05

∞=0.05

t∞=-1.90

Tc=-0.06

4.-

t 1=(X 1−X 2)−0

√ S 12n1+ S 22

n2

=(7−8 .6)−0−1 .6

√(15 .28)4

+10 .245

=−0 .66

5.-Regla de decisión

-tc<-t∞

-0.66<1.90 No Se Acepta Ho

L.C.I -6.20 3.0 L.C.S

Page 30: Memoria Estadistica Inferencial Unidad 1

31

PRUEBA DE HIPOTESIS PARA UN PROPORCIÓN POBLACIONAL.

1.- establece tu hipotesis o Ho: P=Po

1. Ho: P=Po

Un extremo 2 colas

Unilateral Bilateral

2.- HA: P>Po ó HA: P≠Po

HA: P<Po

3.-

ESTADISTICO DE PRUEBA

4.- Ƶ=

P−Po

√ Poqon

tc=

P−Po

√ Poqon

5.- REGIÓN DE RECHAZO O REGLA DE DECISIÓN

Un extremo Dos colas

+ Ƶ∞ Ƶ ∞/2Ƶ ∞/2

Ƶ ∞ -

Zc > Z ¿

Tc > t ¿

Zc < -Z ¿

Zc=>Z ¿2

Zc=<−Z¿2

Page 31: Memoria Estadistica Inferencial Unidad 1

32

Problemas:

1. Aproximadamente uno de cada 10 consumidores favorecen el refresco de colo marca A. Después de una campaña de promoción en una región de ventas dada, se seleccionaron aleatoriamente bebedores de ese producto de los consumidores en el área del mercado, y se les entrevisto para determinar la efectividad de la campaña. El resultado de la encuesta mostro que un total de 26 personas expreso su preferencia para la bebida marca “A”. ¿Son los datos suficientes para indicar un aumento en la aceptación de la marca A en la región.

Datos

n= 200

P=

110

=0 .10

P=

26200

=0 .13

∞= 0.05

Ho: P=0.10 un extremo HA: P>.10

Ƶ

P−Po

√ Po−qon

= 0.13−0.10

√ (0 .10 )(0 .90)200

=1.41

REGLA DE DECISION

Zc > Z∞

1.41 > 1.65 No

Se Acepta Ho

0.95

0.5000 0.4500∞=0.05

1.65

0.5000 0.4200

0.92

∞= 0.08

Page 32: Memoria Estadistica Inferencial Unidad 1

33

2. Una muestra aleatoria de n=1400 observaciones de una población binomial produjo 529.

a) Que escogerá como Ho (hipótesis nula) y como HA (hipótesis alternativa). Si la hipótesis de investigación es que “P” difiere de 0.4

P≠0.4b) Implica la hipótesis alternativa del inciso anterior una prueba de un extremo o

2 extremos. c) Es esta evidencia suficiente para indicar que “P” difiere de 0.4. realice la prueba

con

p=5291400

=0 .37

p2=0 .4¿=0 .10

Zc= p−p

√ p0q0n

0 .37−0.4

√ (0 .4 ) (0 .62 )1400

=2 .3≃¿ ¿

Zc>Z¿2

2 .3>1.65 −Zc<−1 .65 Se rechaza hipótesis nula

Z= 1.41

Datos

N= 1400

X= 529

Ho :P=0 .4Ha :P≠0 .4

0.90

-1.65 1.65

0.050.05

Page 33: Memoria Estadistica Inferencial Unidad 1

34

PRUEBA DE UNA HIPÓTESIS PARA UNA DIFERENCIA DE PROPORCIONES POBLACIONALES.

Ho : (P1 – P2) = DoHA : (P1 – P2) > DoHA : (P1 – P2) < Do

Zc=(P1 – P2)– Do

√ p1q1+ p2q2n1+n2

P=x1+x2

n1+n2−2

Zc=(P1 – P2)

√ P q( 1n1+ 1n2 )Se seleccionaron muestras aleatorias independientes n1 = 140 observaciones de 2 poblaciones binomiales, respectivamente. El numero de éxitos en las muestras y los parámetros poblacionales se muestran en la tabla siguiente y parámetros.

Estadístico y parámetro 1 2Tamaño de la muestra 140 140No exitosos 74 81Parámetro Binomial P1 P2

a) Supóngase que no tiene una medida preconcedida acerca de cuál de los parámetros P1

o bien P2 es el mayor, y que solamente quiere detectar una diferencia entre los dos parámetros si existe.

¿Qué tendría que escoger como HA para una prueba estadística?

¿Qué para la Ho?

b) Implica su HA en el inciso a) una prueba de 1 o de 2 colas

c) Lleve a cabo la prueba y saque conclusiones α 0.05

n1 = 140 n2 = 140

X1 = 74 X2 = 81

p1=x1n1

=0.52 p2=x2n2

=0.57 Zc=

(P1 – P2)– Do

√ p1q1+ p2q2n1+n2

Page 34: Memoria Estadistica Inferencial Unidad 1

35

(0.52−0.57 )−0

√ (0 .52 ) (0 .48 )140

+(0.57 ) (0 .43 )140

=0 .84

PRUEBA DE HIPOTESIS CON CHI- CUADRADA

Prueba de hipótesis acerca una varianza poblacional (chi- cuadrada)

Ho : σ2=σ2

Un extremo Dos extremos

Ha : σ2>σ2 σ2≠σ2

σ 2<σ 2

Un extremo Dos extremos

Estadístico de prueba

χ2 c=(n−1 )S2

σ2

Regla de decisión

-1.96 1.96

0.025

-0.84 0.84

Regla de decisión

Zc>Z¿2

0 .84>1 .96−0 .84<−1.96 Se acepto hipótesis nula

x (1−¿ ) x2¿2x2(1−¿

2)

Región de Rechazo

Un extremo

x2> x∝2 o bien x2< x¿¿ Cuando la

HA: σ 2<σ 02 donde x∝

2 y x¿¿son los

valores de la cola superior e inferior respectivamente de x2,

Dos extremos

x2> x∝2 o bien x2< x¿¿

Donde x ∝2

2

y x¿¿son los valores de

la cola superior e inferior, respectivamente de σ 2 que ponen

Page 35: Memoria Estadistica Inferencial Unidad 1

36

Problemas:

Una muestra aleatoria de n= 25 observadores de una población normal produjo una varianza muestral de =21.4

¿Proporciona los datos evidencia suficiente que indiquen que la σ2>15 lleve

acabo la prueba con un nivel de significancia de 0.05?

Ho : σ2=15Ha : σ2>15

χ2 c=(n−1 )S2

σ2

(25−1 )21. 415

=34 .24

Se acepta la hipótesis nula

χ2> χ2∝¿ ¿34 .24>36 .41NO

Gl= n-1

Gl = 25 – 1= 24

= 36.41

0.950.05

Región de Rechazo

Un extremo

x2> x∝2 o bien x2< x¿¿ Cuando la

HA: σ 2<σ 02 donde x∝

2 y x¿¿son los

valores de la cola superior e inferior respectivamente de x2,

Dos extremos

x2> x∝2 o bien x2< x¿¿

Donde x ∝2

2

y x¿¿son los valores de

la cola superior e inferior, respectivamente de σ 2 que ponen

Page 36: Memoria Estadistica Inferencial Unidad 1

37

UNIDAD 4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS

PRUEBA DE X2 PARA BONDAD DE AJUSTE

La hipótesis más sencilla acerca de las probabilidades multinomiales de las celdas es la que especifica los valores numéricos para cada una de ellas.

Por ejemplo: Si en el experimento multinomial intervienen K= 4 celdas, podríamos querer probar la hipótesis nula como:

Ho:P1=0.2 Ho:P2=0.4 Ho:P3=0.1 Ho:P4=0.3

Contra la hipótesis alternativa de que por lo menos 2 de las probabilidades de las celdas difieren de los valores especificados de la hipótesis nula.

Teorema Una prueba de bondad de ajuste entre las frecuencias observadas y esperadas se basa en la cantidad de las 5 frecuencias observadas menos las observadas al cuadrado.

xc2=∑

i=1

K (O−E)2

Exc2=∑

i=1

n (FO−FE)2

FE

Donde x2 es un valor de una variable aleatoria, cuya distribución muestral se aproxima muy de cerca con la distribución x2 v=k−1. La prueba se basa en que tan buen ajuste tenemos entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribución hipotética.

Page 37: Memoria Estadistica Inferencial Unidad 1

38

Ejemplo: supóngase que los clientes pueden escoger entre 3 marcas de leche en un supermercado. En un estudio para determinar si hay preferencia para una marca, se registran los resultados de una muestra de n=300 compras de leche. Se muestran los datos en la tabla siguiente:

Marca 1 Marca 2 Marca 3 Fo Fe

78 100 Fo Fe

117 100 Fo Fe

105 100

¿Con los datos hay evidencia suficiente que indique preferencia por una a más marcas?

Ho:P1= P2 = P3 HA:P1≠ P2

FE=np = (300 )( 13 )=100µ=np

P=13

xc2=

(78−100 )2

100+

(117−100 )2

100+(105−100)2

100=7.98

xc2> xα

2

7.98>5.99

Se acepta Ho

*Si existe suficiente evidencia que indique a un nivel de significancia de 0.95. Concluimos que las 3 marcas de leche no tienen la misma preferencia.

Ejercicio: Los funcionarios de una comunidad en particular, buscan un programa federal con el cual esperan que aumenten los niveles de ingresos locales. Como justificación, los pobladores de la ciudad afirman que la distribución de los ingresos locales difiere sustancialmente de la distribución nacional y que los ingresos tienden a ser menores de lo esperado. Se clasificaron y se compararon los ingresos de una

0.95

0.05

5.99

Page 38: Memoria Estadistica Inferencial Unidad 1

39

muestra aleatoria de 2000 familias, con los porcentajes nacionales que se muestran en la tabla siguiente:

Datos de los IngresosIngreso Porcentajes Nacionales Salario en la ciudadMás de $50,000 2 27$25,000 hasta $50,000 16 193$20,000 hasta $25,000 13 234$15,000 hasta $20,000 19 322$10,000 hasta $15,000 20 568$5,000 hasta $10,000 19 482Menos de $5,000 11 174Total 100 2000

Es esta suficiente evidencia para indicar que la distribución de los ingresos por familia de la ciudad difieren e la distribución nacional. α=0.05

Ho:P1= P2 = P3 =P4 = P5= P6 = P7 HA:P1≠ P3

xc2=

(27−40 )2

40+

(193−320 )2

320+(234−260)2

260+

(322−380 )2

380+

(482−380 )2

380

+(174−220)2

220+(568−400)2

400=173.636

xc2> xα

2

173.636>12.6

Se rechaza Ho

Si existe suficiente evidencia a α=0.05 que los ingresos difieren de los de la ciudad.

PRUEBA DE INDEPENDENCIA (TABAS DE CONTINGENCIA)

A= 0.5

12.6

Page 39: Memoria Estadistica Inferencial Unidad 1

40

Un problema que se encuentra frecuentemente en el análisis de datos de cuentas o en numerativos trata de la independencia de dos métodos de clasificación de los eventos observados. Por ejemplo, si queremos clasificar los defectos encontrados en muebles producidos en una planta manufacturera, primero, según el turno de producción. Aparentemente queremos investigar una contingencia es decir, una dependencia entre las dos clasificaciones.

Análisis de x2deuna tabladecontingencia .

HO: Pij=PiPj para todos los i y j.

Donde

Pij =probablidad de que una observación este en el renglón i y columna j.

Pi=Probabilidad de que una observación caiga en el renglón i.

Pj=Probabilidad de que una observación caiga en la columna j.

HA: Pij≠PiPj Para por lo menos una celda de la tabla.

Estadistica de prueba x2=∑i=1

c

∑i=1

r [nij−E(nij) ]E (nij)

2

x2=∑i=1

c

∑i=1

rd2 ijE(nij)

Donde: nij= Es la frecuencia para la celda del renglón i y columnas j.Ri= Total para renglón i.Cj: Total para columna j.N= Total de todas las observaciones.

E=(nij) ricjn

Page 40: Memoria Estadistica Inferencial Unidad 1

41

Ejemplo: Una compañía de alfombras se interesó en comparar en tres aéreas de una Ciudad la fracción de constructores de casas que prefieren alfombras sobre otras cubiertas para pisos. El objetivo fue decidir cómo distribuir los esfuerzos de ventas sobre las áreas. Se realizó una encuesta y los datos se muestran en la tabla siguiente:

Áreas

Cubierta para piso. 1 2 3 totales

Alfombra 69 74.73 126 114.40 16 21.86 211

Otros Materiales 78 72.26 99 110.60 27 21.14 204

147 147 225 225 43 43 415

¿Proporciona los datos evidencia suficiente para indicar que existe una diferencia entre las áreas en las fracciones de constructores de casas que prefieren alfombras? α=0.05.

HO: Pij=PiPj

HA: Pij≠PiPj

GL:(r-1)(c-1)Gl=2∝2=0.05

2=0.025 x∝

2

2 =7.38

x2=∑i=1

c

∑i=1

r [nij−E(nij) ]E (nij)

2

=¿ d2 ijE(nij)

¿

E=(nij) ricjn

E (n11 )=(211)(147)415

=74.73

E (n21)=(204 )(147)415

=72.26

E (n12 )=(211 ) (225 )415

=114.40

E (n22)=(204 )(225)415

=110.60

E (n23)=(204 )(43)415

=21.14

Estadístico de Prueba:

xc2=

(69−74.73)2

74.73+(78−72.26)2

72.26+(126−114.40)2

114.40+(99−110.60)2

110.60+¿

(16−21.86)2

21.86+(27−21.14)2

21.14

0.025

7.38

Page 41: Memoria Estadistica Inferencial Unidad 1

42

xc2=6.48

Región de Rechazo/ Regla de decisión.

xc2> x∝

2

2

6.48¿7.38No Se acepta Ho.

Ejercicio: Suponga que se desee determinar si existe diferencia entre tres diferentes mercados de productos respecto de sus actitudes acerca de una manera particular de la publicidad de los productos. Supongamos que tuviéramos que muestrear aleatoriamente a 600 personas como se muestra en la tabla siguiente.

Opinión: FO FE FO FE FO FE Total

A favor 124 124 111 124 137 124 372

No a favor 55 45.6 44 45.6 38 45.6 137

Sin opinión 21 30.4 45 30.4 25 30.4 91

Total 200 200 200 200 200 200 600

Ofrece los datos de la tabla evidencia suficiente para indicar que las proporciones de las respuestas en las categorías “a favor”, “en contra” y “sin opinión”, ¿difieren entre los tres mercados de productos? α=0.05.

Ho:Pij=PiPj

HA:Pij≠PiPj

α=0.05

xc2=

(124−124)2

124+

(55−45.6)2

45.6+(21−30.4)2

30.4+(111−124 )2

124+(44−45.6)2

45.6+¿

(45−30.4)2

30.4+(137−124)2

124+(38−45.6)2

45.6+(25−30.4 )2

30.4

xc2=16.859

Page 42: Memoria Estadistica Inferencial Unidad 1

43

Regla de decisión.

xc2> x∝

2

2

16.8¿11.1 Si

Se rechaza Ho.

*Hay suficiente evidencia para indicar que las respuestas de los consumidores difieren en los 3 mercados a un α=0.05

MÉTODOS ESTADÍSTICOS CONTRA NO PARAMÉTRICOS.

Estadística Paramétrica.

La mayoría de las pruebas de hipótesis analizadas hasta ahora han hecho inferencia respecto a los parámetros de la población, como la media y la proporción. Estas pruebas paramétricas han utilizado la estadística paramétrica de muestras que han venido de la población que se estaba probando. Para formular estas pruebas hicimos suposiciones restrictivas sobre las poblaciones de las que extraíamos nuestras muestras. Como vimos en cada caso en los temas anteriores en la que supusimos que nuestras muestras eran grandes o provenían de poblaciones “normalmente distribuidas”. Pero las poblaciones no son siempre normales, e incluso si una prueba de bondad de ajuste vista anteriormente indica que una población es aproximadamente normal no siempre podemos estar seguros que tenemos razón, porque la prueba no es 100% confiable. Claramente, existen ciertas situaciones en las que el uso de la curva normal no es apropiado. Para estos casos, requerimos alternativas a la estadística alternativa y a las pruebas de hipótesis que hemos estado utilizando hasta ahora.

Estadística No paramétrica.

Por fortuna, los estadísticos recientemente han desarrollado técnicas útiles que no hacen suposiciones restrictivas respecto a la forma de las distribuciones de las poblaciones. Estas se conocen como pruebas sin distribución o más comúnmente, pruebas no paramétricas.

Page 43: Memoria Estadistica Inferencial Unidad 1

44

Es decir, las hipótesis de una probabilidad no paramétrica se refieren a algo distinto del valor de un parámetro de población. Existe un gran número de esas pruebas, para nuestro estudio examinaremos solo unas cuentas de las mejor conocidas y más ampliamente utilizadas.

1.- La prueba de signos: para datos apareados, en la que los signos positivos o negativos se sustituyen por valores cuantitativos.

2.- Una prueba de sumas de rango, a menudo llamada la prueba de U. Mann Whitney que puede usarse para determinar si dos muestras independientes han sido extraídas de la misma población. Emplea más información que la prueba de signos.

3.- Otra prueba de suma de rangos es la prueba de Kruskal Wallis que generaliza el análisis de varianza discutido en temas anteriores, para permitirnos prescindir de la suposición de que las poblaciones están normalmente distribuidas.

4.- La prueba de corridas de una sola muestra; un método para determinar la aleatoriedad con la que se han seleccionado los elementos muestreados.

5.- Correlación de Rangos; es un método para hacer el análisis de correlación cuando no se dispone de los datos para usarlos de manera numérica, pero cuando la información es suficiente para clasificar los datos como 1ro, 2do, 3ro etc..

6.- Otro método para la bondad de ajuste entre una muestra observada y una distribución de probabilidad teórica (Kolmogorov-Smirnov).

Ventajas de los métodos no paramétricos.

Los métodos no paramétricos tienen un número de ventajas claras sobre los métodos paramétricos:

1.- no requieren que hagamos la suposición de que una población está distribuida de forma de curva normal u otra forma específica.

2.-Generalmente son más fáciles de efectuar y comprender.

3.- Algunas veces ni siquiera se requiere del ordenamiento o clasificación normal.

Desventajas de los métodos paramétricos:

Dos desventajas que acompañan el uso de pruebas no paramétricas.

Page 44: Memoria Estadistica Inferencial Unidad 1

45

1.- Ignoran una cierta cantidad de información. Ej. Conversión de valores paramétricos a rangos no paramétricos.

2.- a menudo no son tan eficientes o “agudos” como las pruebas paramétricas. La estimación de un intervalo de confianza al 95%usando una prueba no paramétrica puede ser el doble del tamaño de la estimación al utilizar una prueba paramétrica vista anteriormente. Cuando usamos pruebas no paramétricas, efectuamos un trueque. Perdemos agudeza al estimar intervalos, pero ganamos la habilidad de usar menos información y calcular más rápidamente.

PRUEBA DE SIGNOS

Use la prueba de signos para ver si hay una diferencia entre el número de días requeridos para saldar una cuenta por cobrar antes y después de una nueva política de cobro. α= 0.05.

Antes 33 36 41 32 39 47 34 29 32 34 40 42 33 36 29Después 35 29 38 34 37 47 36 32 30 34 41 38 37 35 28

- + + - + 0 - - + 0 - + - + +

PHO=0.5PHO=0.5

N= tamaño de la nuestra.P= proporción de éxitos en la muestra.Q= proporción de fracasos en la muestra.

Error estándar= σ p=√ pqn

Límites de la región de aceptación:PHO± Z∝

2

σ p

HO: PHO=0.5 HA: PHA≠0.5

PHO=0.5 qHO=0.5

Número de signos + : 7Número de signos -: 6Número de ceros: 2Tamaño total de : 15La muestra

P=0.53Q=0.47

Page 45: Memoria Estadistica Inferencial Unidad 1

46

σ p=√ (o .5 )(0.5)13

=0.138

Límites:

0.5+1.96 (0.138 )=0.77

0.5−1.96 (0.138 )=0.23

*Se acepta HO

Nota: las pruebas no paramétricas son muy convenientes cuando el mundo real presenta datos sin distribución a partir de los cuales se deben tomar una decisión. Pero observe la prueba de signos es solo otra aplicación de la familiar aproximación normal a la binomial, usando un signo positivo y un signo negativo, en vez de éxito o fracaso.

Ejemplo: Los siguientes datos muestran las índices de trabajos defectuosos de los empleados antes y después de un cambio de en el plan de un incentivo de sueldos. Compare los siguientes dos conjunto de datos para ver si el cambio disminuyó las unidades defectuosas producidas. . α=0.10.

Antes 8 7 6 9 7 10 8 6 5 8 10 8

Después 6 5 8 6 9 8 10 7 5 6 9 5

+ + - + - + - - 0 + + +

HO: PHO=0.5 PHO=0.5

HA: PHA<0.5 qHO=0.5

Número de signos + : 7 N=11

Número de signos -: 4 P=

Número de ceros: 1 Q= 0.36

-1.96 1.96

.95

0.5 0.770.23

Page 46: Memoria Estadistica Inferencial Unidad 1

47

Tamaño total 12

σ p=√ (o .5 )(0.5)11

=0.150

Límites:

0.5+1.65 (0.150 )=0.747

0.5−1.65 (0.150 )=0.252

*Se acepta Ho.

Prueba de sumas de Rango.

PRUEBAS DE SUMAS DE RANGOS

Anteriormente vimos como usar el análisis de variación n para probar la hipótesis de que varias medias de población son iguales. Asimismo en tales pruebas que las poblaciones estaban normalmente distribuidas con varianzas iguales, muchas veces estas suposiciones no se pueden satisfacer, y en tales casos, podemos utilizar dos pruebas no paramétricas, ninguna de las cuales depende de las suposiciones de la normalidad. Estas dos pruebas son llamadas pruebas de suma de rangos porque la prueba depende de los rangos de las observaciones de las muestras.

Las pruebas de suma de rangos son una familia completa de pruebas. Solo nos concentraremos en dos miembros de estas familias, la prueba de U. Mann Whitney y la prueba de Kruskal Wallis. Usaremos la prueba de U. Mann Whitney cuando solo estén involucradas dos poblaciones y la prueba de Kruskal Wallis cuando se trate de más de dos poblaciones.

-1.65 1.65

0.50.25 0.74

Page 47: Memoria Estadistica Inferencial Unidad 1

48

El uso de estas pruebas nos permitirá determinar si las muestras independientes han sido extraídas de la misma población (o de distintas poblaciones con la misma distribución).

Prueba de U. Mann Whitney.

⊔=n1n2+n1(n1+1)2

−R1

Media de la Estadística ⊔

µ⊔=n1n22

Error Estándar de la Estadística ⊔

σ⊔=√ n1n2(n1+n2+1)12

Pruebas de las hipótesis

Ho: µ1= µ2

HA: µ1≠µ2

Límites

µ⊔± Z ∝2

σ⊔

Ejercicio: Supongamos que la junta de regentes de una institución estatal desea probar la hipótesis de que las calificaciones medias en dos planteles de la universidad son iguales. La junta mantiene estadísticas de todos los estudiantes en todos los planteles del sistema. Una muestra aleatoria de 15 estudiantes de cada plantel ha producido los datos que se muestran a continuación:

Calificaciones (SAT) de estudiantes en dos planteles de la universidad estatal.Plantel A 1000, 1100, 800, 750, 1300, 950, 1050, 1250, 1400, 850, 1150, 1200, 1500, 600, 775.Plantel B 920, 1120, 830, 1360, 650, 725, 890, 1600, 900, 1140, 1550, 550, 1240, 925, 500.

1.- Ordenar todas las calificaciones en orden ascendente indicando en cada uno el símbolo del plantel. n1= numero de elementos de la muestra 1, numero de estudiantes del plantel A n2= numero de elementos de la muestra 2, numero de estudiantes del plantel S R1= Suma de los rangos de los elementos de la muestra 1, suma de todas las calificaciones del plantel A.

Page 48: Memoria Estadistica Inferencial Unidad 1

49

R2= Suma de los rangos de los elementos de la muestra 2, suma de todas las calificaciones del plantel B.

Rango Calificación Plantel

1 500 B

2 550 B

3 600 A

4 650 B

5 725 B

6 750 A

7 775 A

8 800 A

9 830 B

10 850 A

11 890 B

12 900 B

13 920 B

14 925 B

15 950 A

16 1000 A

17 1050 A

18 1100 A

19 1120 B

20 1140 B

21 1150 A

22 1200 A

23 1240 B

24 1250 A

25 1300 A

26 1360 B

27 1400 A

28 1500 A

29 1550 B

30 1600 B

Plantel A: ∑R1

Rango

247

Plantel B: ∑R2

Rango

218

⊔=(15 ) (15 )+15 (15+1)2

−247=98

σ⊔=√ (15 ) (15 )(15+15+1)12

=24.109

Page 49: Memoria Estadistica Inferencial Unidad 1

50

Límites:

112.5+1.44(24.10)=147.2

112.5-1.44(24.10)=77.8

Como podemos observar que la estadística ⊔ demuestra si cae dentro de la región de aceptación. En consecuencia, aceptaríamos la H0 de ninguna diferencia y concluir que las distribuciones, y por lo tanto, las calificaciones medias en las dos escuelas son iguales.

Kruskal Wallis

K= 12n (n+1)∑

R2 jnj

−3n+1

Símbolos utilizados para una prueba de Kruskal-Wallis nj= Nos indica el número de elementos en la muestra j. Rj= Suma de los rangos de todos los elementos en la muestra. Kj= El numero de muestras. n= n1 + n2 + … + nk : Número total de observaciones en todas las muestras

Formulación de la Hipótesis H0 : μ1 = μ2 = μ3

HA : μ1, μ2, μ3

Sugerencia: A menudo ocurren empates al clasificar los datos para realizar una prueba de U. Mann Whitney o una prueba de Kruskal Wallis. Siempre que se encuentre tales empates recuerde que cada valor empatado obtiene un rango promedio, por lo tanto, si los elementos octavo y noveno etan empatados cada uno obtienen un rango de 8.5 y si esto sucede con el cuarto, quinto y sexto, cada uno obtiene un rango de 5.

Ejercicio: En la tabla siguiente se muestran las calificaciones de 20 pilotos estudiantes en su examen escrito de la Agencia Federal de Aviación, dispuestas según por el método que se empleo en su entrenamiento.

Video casete 74, 88, 82, 93, 55, 70. R1=61 n1=6Audio casete 78, 80, 65, 57, 89. R2=42 n2=5

Page 50: Memoria Estadistica Inferencial Unidad 1

51

Salón 68, 83, 50, 91, 84, 77, 94, 81, 92 R3=107 n3=9

H0 : μ1 = μ2 = μ3 HA : μ1, μ2, μ3 α = 0.10N=20

K= 1220(20+1) ( 61

2

6+ 42

2

5+ 107

2

9 )−3(20+1)K=1.145

Rango

calificación Prueba

1 50 S2 55 V3 57 A4 65 A5 68 S6 70 V7 74 V8 77 S9 78 A10 80 A11 81 S12 82 V13 83 S14 84 S15 88 V16 89 A17 91 S18 92 S19 93 V20 94 S

Se acepta La Ho. *no hay diferencia en el resultado de las 3 pruebas en sus medias.

Prueba de las Hipótesis

La distribución de muestreo de la estadística K puede aproximarse por una distribución Chi-Cuadrada. Cuando los tamaños de todas las muestras son al menos 5. Como nuestro problema satisface esta condición podemos utilizar la distribución Chi-Cuadrada.

Pruebe la hipótesis de no diferencia entre las edades de los empleados dentro de una empresa, masculinos y femeninos, utilizando la prueba de U. Mann Whitney para los datos de la muestra se utiliza α=0.10.

Page 51: Memoria Estadistica Inferencial Unidad 1

52

Hombres

31, 25, 38, 33, 42, 40, 44, 26, 43, 35.

mujeres 44, 30, 34, 47, 35, 32, 35, 47, 48, 34.

Rango

Edad

1 25 H2 26 H3 30 M4 31 H5 32 M6 33 H7.5 34 M7.5 34 M10 35 H10 35 M10 35 M12 38 H13 40 H14 42 H15 43 H16.5 44 H16.5 44 M18.5 47 M18.5 47 M20 48 M

R1=93.5

R2=116.5

H0 : μ1 = μ2 HA : μ1≠μ2

⊔R1=100+10(11)2

−93.5=116.5

⊔R2=100+10(11)2

−116.5=32.5

σ⊔=√ 100 (21)12=13.22

µ⊔=71.8+28.222

=50.01

Limites:Límite superior: 50+(1.65)(13.22)=71.8Límite inferior: 50-(1.65)(13.22)=28.22

Ejercicio: Una compañía de artículos que atiende sus pedidos por internet tiene los siguientes datos de muestras de ventas en dólares, separados de acuerdo con la forma de pago del pedido. Pruebe la hipótesis de que no existe diferencia en la cantidad de dólares recibidos por pagos en efectivo, cheque o tarjeta de crédito. Use la prueba de Kruskal Wallis. α=0.05.

Pedidos con tarjeta de crédito 78, 64, 75, 45, 82, 69, 60 n1=7Pedidos con cheque. 110, 70, 58, 51, 61, 68 n2=6

0.90

50-1.73 1.73

0.05

Page 52: Memoria Estadistica Inferencial Unidad 1

53

Pedidos en efectivo 90, 68, 70, 54, 74, 65, 59 n3=7

rango

Cantidad

1 45 T2 51 C3 53 C4 54 E5 59 E6 60 T7 61 C8 64 T9 65 E10 68 E11 68 C12 69 T13 70 E14 70 C15 74 E16 75 T17 78 T18 82 T19 90 E20 110 C

RT=78

RE=76

RC=56

H0 : n1 = n2 = n3 HA : n1, n2, n3

K= 12n (n+1)∑

R2 jnj

−3n+1

K= 1220(20+1) ( 78

2

7+ 56

2

6+ 76

2

7 )−3 (20+1 )=0.3414

k-1gL:3-1=2

*Se rechaza HA.

*Se Acepta Ho.

PRUEBA DE CORRIDAS DE UNA SOLA MUESTRA.

Una corrida es una secuencia de ocurrencias idénticas precedidas y seguidas de distintas ocurrencias o por ninguna en absoluto.

0.05

0.3415 5.99

Page 53: Memoria Estadistica Inferencial Unidad 1

54

La distribución de muestreo de la estadística R. El número de corridas r, es una estadística con su propia distribución de muestreo especial y su propia prueba, obviamente, las corridas pueden ser de diferentes longitudes y en una muestra pueden ocurrir diversos números de corridas. Las estadísticas pueden probar que demasiadas corridas o muy pocas en una muestra indican que intervino algo más que el azar cuando se seleccionaran los elementos. Una prueba de corridas de una sola muestra, entonces, está basada en la idea de que muy pocas o demasiadas corridas muestran que los elementos no fueron escogidos aleatoriamente.

Media y Error estándar de la estadística

Media de La estadística r. μr=2n1n2n1+n2

+1

Error estándar de la estadística r. σ r=√2n1n2¿¿¿

Ho: En una prueba de corridas de una sola muestra, no es conveniente una HA: formulación simbólica de la hipótesis.

Ho: número de artículos están mezclados aleatoriamente.HA: Número de artículos no están mezclados aleatoriamente

Ejemplo: Pruebe la aleatoriedad de la siguiente muestra usando el nivel de significancia de α=0.05

A B A A A B B A B B A A B A B A A B B B B A B BA A A B A B A A B B A B B A A A B B A A B A A A

Sugerencia: La prueba de corridas a menudo pueden ser útiles en situaciones de administración de calidad donde intentamos separar la variación sistemática de la variación aleatoria. La variación sistemática puede ocasionar los tipos de patrones que las pruebas de corrida detectan.

Page 54: Memoria Estadistica Inferencial Unidad 1

55

Ho: Los artículos son escogidos aleatoriamente.HA: Los artículos no son escogidos aleatoriamente.

N1= 26(A)N2= 22(b)

Número de corridas:27

μr=2 (26 )(22)26+22

+1=24.83

σ r=√ 2 (26 )(22)[2 (26 ) (22 )−26−22 ](26+22 )2(22+26−1)

=3.40

Lim inf: 24.83-1.96(3.40)=18.166Lim sup: 24.83+1.96(3.40)= 31.49

Se acepta Ho.

Ejercicio: Una secuencia de productos o artículos de vidrio fue inspeccionada para detectar daños ocasionados en el envío. La secuencia de estos artículos aceptables y dañados fue la siguiente:

D A A A D D D D D A A D D A A A A D A A D D D D D

Pruebe la aleatoriedad de los daños ocasionados en el envío usando el α=0.05.

Ho: Los artículos son escogidos aleatoriamente. HA: Los artículos no son escogidos aleatoriamente.

N1= 11N2= 14

Número de corridas:9

μr=2 (11 )(14)11+14

+1=13.32

σ r=√ 2 (11 )(14) [2 (11 ) (14 )−11−14 ](11+14 )2(11+14−1)

=2.41

0.95

-1.96 18.16 31.49 1.9624.83

Page 55: Memoria Estadistica Inferencial Unidad 1

56

Lim inf: 13.32-1.96(2.41)=8.59Lim sup: 13.32+1.96(2.41)=18.04

Se acepta Ho.

CORRELACIÓN DE RANGOS

La función del coeficiente de rangos es una medida de la cercanía de la asociación entre dos variables.

Esta es una medida de la correlación que existe entre los dos conjuntos de rangos, una medida del grado de asociación entre las variables que no podríamos calcular de otra manera.

Una ventaja del uso de la correlación de rangos es la razón para aprender el método de la correlación de rango es la posibilidad de simplificar el proceso de cálculo de un coeficiente de correlación a partir de un conjunto de datos muy grande para cada una de las dos variables.

Spearman.

Para calcular el coeficiente de rangos utilizaremos la siguiente fórmula:

Coeficiente de correlación de rangos: rs=1−6∑ d2

n (n2−1 )

Rs: es el coeficiente de rangos. N: número de observaciones apareadas.

0.95

13.32-1.96 8.59 18.09 1.96

0.0250.025

Page 56: Memoria Estadistica Inferencial Unidad 1

57

∑= Sigma (suma) D: Diferencia entre los rangos para cada pareja de observaciones.

Nota: Si el coeficiente de correlación de rangos es igual a 1 muestra que existe una asociación perfecta o correlación perfecta entre las 2 variables. Y si tenemos un coeficiente de relación de -1 representa una correlación inversa perfecta.

Ejercicio:

ciudad

Rango de la calidad de aire.

Rango de enfermedad pulmonar.

Diferencia entre los Rangos.

Diferencia cuadrada.

A 4 5 -1 1

B 7 4 3 9

C 9 7 2 4

D 1 3 -2 4

E 2 1 1 1

F 10 11 -1 1

G 3 2 1 1

H 5 10 -5 25

I 6 8 -2 4

J 8 6 2 4

K 11 9 2 4

∑ d2=58

rs=1−6∑ d2

n (n2−1 ) = 1−

(6 )(58)(11)(121−1)

=0.736

Conclusión: La calidad del aire es positiva en relación al rango.

Un coeficiente de correlación de rango de 0.736 sugiere una asociación positiva sustancial entre cantidad de aire promedio y la ocurrencia de enfermedades pulmonares, al menos en las once ciudades muestreadas. Esto es, altos niveles de contaminación van acompañados de enfermedades pulmonares.

Page 57: Memoria Estadistica Inferencial Unidad 1

58

Prueba de hipótesis: acerca de la correlación de rangos para pequeños valores de la distribución de rs no es normal, y a diferencia de otras estadísticas de muestras pequeñas que hemos encontrado, no es apropiado usar la distribución para probar hipótesis, acerca del coeficiente de correlación de rangos. La cual utilizaremos la tabla #7 que son los valores para la correlación de rangos de Spearman para áreas combinadas en los dos extremos. Para el caso de nuestro ejercicio utilizaremos un nivel de significancia de 0.05. Por lo que estableceremos nuestra formulación de las hipótesis.

Ho:Ps=0 No existe correlación en los datos clasificados de la población.

HA:Ps≠0 Existe correlación en los datos clasificados de la población.

*Se rechaza HO. * Se acepta HA.

Por consiguiente, rechazaríamos la Ho de no correlación y concluiríamos que existe asociación entre los niveles de calidad del aire y la incidencia de enfermedades pulmonares en las ciudades.

La distribución apropiada de n≥30.

Si el tamaño de la muestra es mayor de 30, ya no podemos utilizar la tabla 7 del apéndice. Sin embargo, cuandon≥30, la distribución de muestreo de rs es aproximadamente normal, con

una μ de 0 y una σ= 1

√n−1por lo tanto para calcular el error estándar del coeficiente de

correlación de rangos:

Error rs=σ rs=1

√n−1

Sugerencia: La correlación de rango es útil cuando los datos están distribuidos anormalmente.

0.6091 0.6091 0.736

Page 58: Memoria Estadistica Inferencial Unidad 1

59

Ejercicio: Un supervisor de planta clasifica una muestra de 8 trabajadores según el número de horas extras trabajadas y la antigüedad del empleo. ¿La correlación de rango entre las 2 mediciones es significativa al nivel de 0.01?

Cantidad de horas5.0 8.0 2.0 4.0 3.0 7.0 1.0 6.0

Años de empleo1.0 6.0 4.5 2.0 7.0 8.0 4.5 3.0

Cantidad Horas Rango5.0 58.0 82.0 24.0 43.0 37.0 71.0 16.0 6

Cantidad de Horas Rango Diferencia de Rangos Elevado al cuadrado5 1 4 168 6 2 42 4.5 -2.5 6.254 2 2 43 7 -4 167 8 -1 11 4.5 -3.5 12.256 3 3 9

∑ d2=68 .5

Rs=1−6 (68 .5 )8 (64−1 )

=0.815

Años Empleo Rango1.0 16.0 64.5 4.52.0 27.0 78.0 84.5 4.53.5 3

Page 59: Memoria Estadistica Inferencial Unidad 1

60

La prueba por consiguiente otra medida de ajuste de una distribución teórica como lo es la prueba de CHI- CUADRADA. Sin embargo, la prueba de K-S tiene varias ventajas sobre la prueba de chi- cuadrada es una prueba mas poderosa y mas fácil de utilizar, pues que no quiere que los datos se agrupan de alguna manera.

Una ventaja especial de la estadística K-S Dn es particularmente útil para juzgar que tan cerca esta la distribución de frecuencia observada de la distribución de frecuencia esperada, por que la distribución de probabilidad “Dn” depende del tamaño de muestra “n” pero es independiente de la distribución de frecuencia esperada (Dn es una estadística de distribución libre)

Ejemplo: La central telefónica de “x” estado ha estado llevando un registro del número de transmisores, usados en un instante dado. Las observaciones se hicieron en 3754 ocasiones distintas. Para propósitos de planeación de inversión de capital, el funcionario de presupuestos de esta compañía piensa que el patrón de uso sigue una distribución de poisson con una media de 8.5. Si desea aprobar esta hipótesis con un nivel de significancia de 0.01 pueden emplear la prueba K-S

λ=μ8 .5

Ho: Una distribución de poisson, es una buena descripción del patrón de uso.

λ=μ=8.5No es una buena descripción del patrón de uso.α=0 .01

P (O )= (8 .5 )0e−8,5

0 !=

χ2=

(Fo−Fe )2

Fe

P ( x )= λx−ex

x !=M x e−M

x !

0.99

-0.8571 -0.815 0.815 0.8571

Se acepto la hipótesis nula, no existe correlación en los datos clasificados.

Page 60: Memoria Estadistica Inferencial Unidad 1

61

Numero ocupado Frecuencia

Observada

Frecuencia

Acumulada

Observada

Frecuencia

Acumulada

Observada Relativa

Frecuencia

Acumulada Esperada

Desviación Absoluta

0 0 0 0.0002 0.002 0.0002

1 5 5 0.0013 0.0019 0.0006

2 14 19 0.0051 0.0093 0.0092

3 24 43 0.0114 0.0301 0.0186

4 57 100 0.0266 0.0741 0.0478

5 111 211 0.0562 0.1499 0.0934

6 197 408 0.1086 0.2562 0.1475

7 278 686 0.1827 0.3856 0.2029

8 378 1064 0.2834 0.5231 0.2397

9 418 1482 0.3948 0.6530 0.2582

10 461 1943 0.5176 0.7634 0.2458

11 433 2376 0.6329 0.8487 0.2158

12 413 2789 0.7429 0.9091 0.1672

13 358 3147 0.8383 0.9486 0.1103

14 219 3366 0.8966 0.9726 0.0760

15 145 3511 0.9353 0.9862 0.0509

16 108 3620 0.9646 0.9939 0.0291

17 57 3677 0.9795 0.9975 0.0175

18 43 3720 0.9909 0.9987 0.0078

19 16 3736 0.9952 0.9995 0.0043

20 7 3743 0.9971 0.9998 0.0027

21 8 3751 0.9992 0.9999 0.0007

22 3 3754 1 1 0

CALCULO DE LA ESTADITICA DE K-S

Dn = MAX l Fe – Fo l =

Page 61: Memoria Estadistica Inferencial Unidad 1

62

Calcular el valor de una prueba de K-S siempre debe ser una prueba de un extremo. Los valores críticos para “Dn” serán tabulados y pueden encontrarse en la tabla 8 de la pendiente que dice valores críticos de “D” para la prueba de bondad de ajuste de K-S.

Para nuestro ejercicio si buscamos en la fila de n= 3754 (tamaño de la muestra) y tomando el nivel de significancia de 0.01 encontramos que el valor critico de “Dn” debe calcularse usando la formula.

Mas de 35, un nivel de significancia de 0.01

Formula

1.63

√n= 1 .63

√3754=0 .026

Nuestra conclusión: El siguiente paso es comparar el valor calculado de “Dn” con el valor crítico de “Dn” que se encuentra en la tabla. Si el valor de la tabla para el nivel de significancia elegido es mayor que el valor calculado de “Dn” entonces aceptamos la hipótesis nula

Recuerde que a menudo buscamos las no paramétricas cuando no sabemos o no podemos suponer, que la distribución de población subyacente es normal. La prueba de K- S nos proporciona una forma de verificar nuestros datos de muestra para ver si una suposición de normalidad es razonable.

Al nivel de significancia de 0.05 ¿Podemos concluir que los siguientes datos provienen de una

distribución de poisson con λ=3

Numero de llegadas por

dia

Numero de días

Frecuencia Acumulada Observada

Frecuencia Acu. Obs.Relativa

Frec. Acu.Observada Esperada

DesviacionAbasoluta

0 6 6 0.06 0.0498 0.01021 18 24 0.24 0.1991 0.04092 30 54 0.54 0.4232 0.11683 24 78 0.78 0.6472 0.13284 11 89 0.89 0.8153 0.07475 2 91 0.91 0.9161 0.00616 9 100 1 0.9665 0

0.163 > 0.1328 Se acepta hipótesis alternativa

Se rechaza hipótesis nula

O.026 < 0.2586 Se acepta Ha Se rechaza Ho

Page 62: Memoria Estadistica Inferencial Unidad 1

63

Ejercicio: En una empresa se tiene un registro del sexo de las personas que llamaban a la oficina de circulación para quejarse de los problemas de entrega en el boletín de dicha información de la empresa y si estos datos fueran los siguientes:

M,FFF,MM,F,M,FFFF,MMM,F,M,F,M,FFFF,MMMMM

Con un nivel de significancia de 0.05, pruebe esta secuencia para aleatoriedad. ¿Hay algo respecto a la naturaleza de este problema que lo indujera a creer que una secuencia semejante no fuera aleatoria?

μr=2n1n2n1+n2

+1

μr=

2 (14 ) (14 )14+14

+1=15

σr=√ 2 (14 ) (14 ) (2 (14 ) (14 )−14−14 )(14+14 )2 (14+14−1 )

=2.59

15+ (1.96) (2.59) = 20.07 SE ACEPTA HIPOTESIS NULA

15- (1.96) (2.59) = 9.92

Ejercicio: Una gran empresa en el área de Ingeniería Industrial contrata a la mayoría de sus empleados de 2 importantes instituciones. Durante el año pasado, han estado haciendo un examen a los empleados recién graduados que entran a la empresa para determinar que escuela, si a caso, parece preparar mejor a sus empleados basándose en las siguientes calificaciones (de 100 puntos posibles) ayude a la oficina del personal del hospital a determinar si las escuelas difieren en calidad. Use la prueba de Mann Whitney, con un nivel de significancia de 0.6 %

Calificaciones de Exámenes

N1 =14

N2= 14

Corridas = 13

1520.07 1.96-1.96 9.9

Page 63: Memoria Estadistica Inferencial Unidad 1

64

Escuela A Escuela B97 2.5 88 169 5 99 2.573 6 65 484 8 69 876 8 97 1092 11.5 84 11.590 13.5 85 13.588 16.5 89 1584 20 91 16.587 21 90 18.593 22.5 87 18.5

91 22.572 24.5

∑ 134 .5 ∑ 165 .5

U R2=n1n2+[n1+1 ]2

−R

U R1= ( (11) (13 ) )+(11 [11+1 ])2

−134 .5=74 .5

U R2=( (11) (13 ) )+(11 [11+1 ])2

−165 .5=43 .5

σu=√ n1n2 [n1+n2+1 ]12

σu=√ ( (11 ) (13 ) ) [11+13+1 ]12

=17 .26

MU=( (11) (13 ) )2

=71 .5

Limites

71 .5+ [1 .89 ] (17 .26 )=104 .1271 .5−[1 .89 ] (17 .26 )=38 .87

-1.89 1.8971.5

38.87

Se acepta la hipótesis nula, por que cae en el rango de aceptación

104.12

0.6/2= 0.3

0.3

94%

Page 64: Memoria Estadistica Inferencial Unidad 1

65