Download - Prueba Del Signo w k

1

Capítulo 16Métodos no paramétricos: análisis de datos ordenados por rango

Objetivos: Al terminar este capítulo podrá:

1. Realizar la prueba del signo para muestras dependientes empleando las distribuciones binomial y normal como estadísticos de prueba.

2. Realizar una prueba de hipótesis para muestras dependientes empleando la prueba de rangos con signo de Wilcoxon.

3. Realizar e interpretar la prueba de suma de rangos de Wilcoxon para muestras independientes.

4. Realizar e interpretar la prueba de Kruskal-Wallis para varias muestras independientes.

2

5. Calcular e interpretar el coeficiente de correlación de rangos de Spearman.

6. Realizar una prueba de hipótesis para determinar si la correlación entre los rangos en la población es diferente de cero.

Capítulo 16 (Continuación)

3

La prueba del signo

La prueba del signo se basa en el signo de una diferencia entre dos observaciones correspondientes.

No es necesario alguna suposición con respecto a la forma de la población de diferencias.

La distribución binomial es el estadístico de prueba para las muestras pequeñas, y la normal estándar (z) para las muestras grandes.

La prueba requiere muestras (relacionadas) dependientes.

4

La prueba del signo (Continuación)

Procedimiento para conducir la prueba:

• Determine el signo de la diferencia entre pares relacionados.

• Determine el número de pares utilizados.• Compare el número de diferencias positivas (o

negativas) al valor crítico.• n es el número de pares utilizados (sin los lazos), X

es el número de positivos o negativos, y la probabilidad binomial =.5.

5

Aproximación normal Si ambos y son mayores que 5, la

distribución z es apropiada. Si el número de signos más o de signos menos es

mayor que n/2, entonces

n n( )1

n

nXz

5.0

5.0)5.0(

n

nXz

5.0

5.0)5.0(

Si el número de signos más o de signos menos es menor que n/2, entonces

6

Ejemplo 1El instituto de investigación d’Gagliano para los estudios del negocio está comparando el costo de investigación y desarrollo (R&D) como porcentaje del ingreso para una muestra de las empresas del vidrio para 2010 y 2011.

¿En un nivel de significancia del 0.05 se puede aceptar que el costo de R&D ha declinado? Utilice la prueba del signo.

Compañía 2010 2011

Savoth Glass 20 16

Ruisi Glass 14 13

Rubin Inc. 23 20

Vaught 24 17

Lambert Glass 31 22

Pimental 22 20

Olson Glass 14 20

Flynn Glass 18 11

7

8

Ejemplo 1 (Continuación)

Compañía 2010 2011 Diferencias Muestra

Savoth Glass 20 16 4 +

Ruisi Glass 14 13 1 +

Rubin Inc. 23 20 3 +

Vaught 24 17 7 +

Lambert Glass 31 22 9 +

Pimental 22 20 2 +

Olson Glass 14 20 -6 -

Flynn Glass 18 11 7 +

9

Paso 1: H0: =.5 H1: <.5

Paso 2: H0: se rechaza si el número de muestras negativas es 0 o 1.

Paso 3: Hay una diferencia negativa. Esto es, hubo un incremento en el porcentaje para una compañía.

Paso 4: H0: se rechaza. Concluimos que el gasto en R&D como un porcentaje del ingreso declinó del 2010 al 2011.


10

Prueba de hipótesis acercade la mediana

Cuando probamos el valor de la mediana, utilizamos la aproximación normal a la distribución binomial.

La distribución z se utiliza como el estadístico de prueba.

11

La agencia de viajes Gordon sostiene que su tarifa mediana para todos sus clientes a todos los destinos es $450. Esta afirmación está siendo desafiada por una agencia de la competencia, que cree que la mediana es diferente de $450. Una muestra escogida al azar de 300 boletos reveló que 170 boletos estaban por debajo de $450. Utilice el 0.05 de nivel de significancia.

Ejemplo 2

12

450.$ mediana :H $450 = mediana : 10 H

H0 es rechazada si z es menor que –1.96 o mayor que 1.96.

El valor de z es 2.252.

252.23005.

)300(50.)5.170(5.

50.)5.(

n

nXz

H0 es rechazada. Concluimos que la mediana no es $450.


Ejemplos La Genetics and IVF Institute realizó un ensayo

clínico de sus métodos de selección de género. En un tiempo determinado los resultados incluían 325 bebés recién nacidos de´padres que utilizaron el método XSORT para aumentar la probabilidad de concebir una niña, y 295 de esos bebés fueron niñas. Utilice la prueba del signo con un nivel de significancia de 0.05 y pruebe la aseveración de que este método de selección del género no tiene ningún efecto.

13

Se tiene una serie de datos que incluyen temperaturas corporales medidas en adultos. Utilice 106 temperaturas tomadas a las 12:00 a.m. del día con la prueba del signo para probar la aseveración de que la mediana es menor que 98.6°F. El conjunto de datos tiene 106 sujetos, 68 con temperaturas por debajo de 98.6°F, 23 sujetos con temperaturas por arriba de 98.6°F y 15 sujetos con temperaturas iguales a 98.6°F

14

15

Prueba de Rangosde Wilcoxon

Si la suposición de normalidad se viola para la prueba apareada-t, utilice la prueba de rangos con signo de Wilcoxon.

La prueba requiere la escala ordinal de la medida. Las observaciones deben ser relacionadas o

dependientes.

PRUEBA DE RANGOS CON SIGNOS DE WILCOXON

Utiliza rangos ordenados de datos muestrales consistentes en datos apareados

Se usa para probar las diferencias en las distribuciones poblacionales y para probar la aseveración de que una muestra proviene de una población con una mediana específica.

Planteamiento de hipótesis

H0: Los datos apareados .tienen diferencias que provienen de una población con una mediana igual a cero

H1: Los datos apareados .tienen diferencias que provienen de una población con una mediana diferente a cero.

Procedimiento:

1. Calcule d (restando el segundo valor menos el primero), descarte d=0

2. Ignore los signos de las diferencias y ordene las diferencias de la más baja a la más alta y reemplace por el valor del rango correspondiente.

3. Adjunte a cada rango el signo de la diferencia de la que provino.

Procedimiento:

4. Calcule la suma de los valores absolutos de los rangos negativos. También de los rangos positivos.

5. Utilice T que sea la más pequeña de las dos sumas que se calcularon en el paso 4

6. Utilice n que sea el número de pares de datos para los que la diferencia d no es cero

Procedimiento:

7. Determine el estadístico de prueba y los valores críticos

8. Tome su decisión y conclusión apropiada

ESTADÍSTICO DE PRUEBASi n≤30 el Estadístico de prueba es TDonde T es el más pequeño de las siguientes sumas:1.La suma de los valores absolutos de los rangos negativos de las diferencias d que no sean ceros.2.La suma de los rangos positivos de las diferencias d que no sean ceros.

ESTADÍSTICO DE PRUEBA

Si n>30 usar el siguiente estadístico de prueba

24)12)(1(

4)1(

nnn

nnT

z

Los valores críticos de z se encuentran en la tabla A-8

23

Utilice la prueba de suma de rangos de Wilcoxon para determinar si los costos de R&D como porcentaje del ingreso (Ejemplo 1) ha declinado. Utilice el nivel de significancia del .05.

Paso 1: H0: Los porcentajes permanecen igual.

H1: Los porcentajes declinaron.

Paso 2: Se rechaza H0 si el más pequeño de las sumas de rango es menor o igual al valor crítico del Apéndice 8.

Ejemplo 3

24

Compañía 2000 2001 Diferencia ABS-Dif. Rango R+ R-

Savoth Glass 20 16 4 4 4 4 * Ruisi Glass 14 13 1 1 1 1 * Rubin Inc. 23 20 3 3 3 3 * Vaught 17 7 10 10 8 8 * Lambert Glass 31 22 9 9 7 7 * Pimental 22 20 2 2 2 2 * Olson Glass 14 20 -6 6 5 * 5 Flynn Glass 18 11 7 7 6 6 *


25

La suma de rango más pequeña es 5, que es igual al valor crítico de T. Se rechaza H0. El porcentaje ha declinado a partir de un año al siguiente.


Ejemplo: En una empresa de comidas instantáneas se

hizo la siguiente prueba acerca del sabor de su producto, a cada miembro de la muestra aleatoria de 15 clientes se le dio una porción de producto y se le pidió su calificación en una escala del 1 al 20. A continuación se les dio un nuevo producto y se les pidió que lo califiquen del mismo modo. Los resultados se muestran a continuación. Es razonable pensar al nivel del 0.05 que la gente prefiere el nuevo producto?

26

PARTICIPANTE CALIF NUEVO SABOR CALIF SABOR ACTUAL

ARQUETTE 14 12

JONES 8 16

FISH 6 2

WAGNER 18 4

BADENHOP 20 12

HALL 16 16

FOWLER 14 5

VIROST 6 16

GARCIA 19 10

SUNDAR 18 10

MILLER 16 13

PETERSON 18 2

BOGGART 4 13

HEIN 7 14

WHITTEN 16 427

EJEMPLO: Se seleccionó una muestra aleatoria de

siete parejas de jóvenes profesionales urbanos que eran propietarios de sus casas. La superficie de sus casas se comparó con el área de la casa de sus padres. Al nivel de significancia del 0.05, ¿se puede concluir que los jóvenes tienen casas más grandes?

28

NOMBRE DE LA PAREJA

CASA DE LA PAREJA CASA DE SUS PADRES

GORDON 1725 1175

SHARKEY 1310 1120

USELDING 1670 1420

BELL 1520 1640

KUHLMAN 1290 1360

WELCH 1880 1750

ANDERSON 1530 1440

29

30

Prueba de suma de rangosde Wilcoxon

• No se requiere ninguna suposición sobre la forma de la población.

• Los datos deben ser por lo menos escala ordinal.• Cada muestra debe contener por lo menos ocho

observaciones.

La prueba de suma de rangos de Wilcoxon se utiliza para determinar si dos muestras independientes provienen de la misma o igual población.

Planteamiento de hipótesis

H0: Las dos muestras provienen de poblaciones con medianas iguales

H1: Las dos muestras provienen de poblaciones con medianas diferentes

32

Para determinar el valor del estadístico W, todos los valores de los datos se ordenan de menor a mayor como si fueran de una sola población.

La suma de rangos para cada dos muestras es determinada.


33

Para determinar el valor del estadístico W, todos los valores de los datos se ordenan de menor a mayor como si fueran de una sola población.

La suma de rangos para cada muestra es determinada, W es la primera suma.



R

RWz

2

)1( 211

nnnR 12

)1( 2121

nnnnR

Valores CríticosLos valores críticos se encuentran en la tabla A-2

35

El valor de la suma de RANGOS de la muestra uno (W) se utiliza para calcular el estadístico de prueba de:

12)1(

2)1(

2121

211

nnnn

nnnW

z


36

La Universidad compró dos vehículos, un Ford y un Chevy, para el uso de la administración al viajar. Los costos de reparación para los dos autos durante los tres años pasados se muestran en la diapositiva siguiente. ¿En el nivel de significancia del .05 hay una diferencia en las dos distribuciones?

Ejemplo 4

37


Ford ($) Rango Chevy($) Rango

25.31 3.0 14.89 1.0

33.68 5.5 20.31 2.0

46.89 7.0 25.97 4.0

51.83 8.0 33.68 5.5

87.65 13.0 68.98 9.0

87.90 14.0 78.23 10.0

90.89 15.0 80.31 11.0

120.67 16.0 81.75 12.0

157.90 17.0

81.5 71.5

38

Paso 1: H0: Las poblaciones son iguales.

H1: Las poblaciones no son iguales.

Paso 2: H0: se rechaza si z >1.96 o z es menor

que –1.96


39

Paso 3: El valor del estadístico de prueba es 0.914.

914.0

12

)198)(9(8

2

)198(85.81

12

)1(

2

)1(

2121

211

nnnn

nnnW

z


40

Paso 4: No rechazamos la hipótesis nula. No podemos concluir que hay una diferencia en las distribuciones de los costos de la reparación de los dos vehículos.


Ejemplo: Remítase al conjunto de datos 1 del

apéndice B y use los primeros 13 valores del IMC para varones y los 12 primeros valores muestrales para las mujeres. Utilice un nivel de significancia del 0.05 para probar la aseveración de que la mediana del IMC de los hombres es igual al de las mujeres.

41

IMC HOMBRES IMC MUJERES

23.8 19.6

23.2 23.8

24.6 19.6

26.2 29.1

23.5 25.2

24.5 21.4

21.5 22

31.4 27.5

26.4 33.5

22.7 20.6

27.8 29.9

28.1 17.7

25.2

42

EJEMPLO: Prueba de hipótesis de la diferencia de la

antigüedad de automóviles y taxis:

Utilice el nivel del 0.05 para probar la aseveración de que existe una diferencia entre la mediana de la antigüedad de un auto y un taxi.

43

Automóviles Taxis

0 8 11 14 3 4 4 3 5 8 3 3 7 4 6 6 1 8 2 15 11 4 1 6 1 8 4

8 8 0 3 8 4 3 3 6 11 7 7 6 9 5 10 8 4 3 4

44

Prueba de Kruskal-Wallis:análisis de varianza por rangos

La escala ordinal de la medida es requerida. Es un alternativa del ANOVA unidireccional. La distribución de ji-cuadrada es el estadístico de

prueba. Cada muestra debe tener por lo menos cinco

observaciones. Los datos de la muestra se ordenan de menor a mayor

como si fuera un solo grupo.

Esto se utiliza para comparar tres o más muestras para determinar si provienen de poblaciones iguales.

45

Prueba de Kruskal-Wallis:análisis de varianza por rangos (Continuación)

El estadístico de prueba está dado por:

Hn n

R

n

R

n

R

nnk

k

12

13 11

2

1

22

2

2

( )

( ) ( )...

( )( )

46

Keely Ambrose, director de recursos humanos para las industrias de Molinero, desea estudiar los Porcentajes de incremento en el sueldo para losgerentes medios. Ella recopila una muestra de gerentes ydetermina los porcentajes de incremento de sueldo a partirdel año pasado a este año.

¿Al nivel de significancia del 5% puede Kelly concluir que hay una diferencia en los porcentajes de incremento para las diferentes plantas?

Ejemplo 5

47

Millville Rango Camden Rango Eaton Rango Vineland Rango 2.2 2.0 1.9 1 3.7 6.0 5.7 9.0 3.6 5.0 2.7 3 4.5 7.0 6.8 10.5 4.9 8.0 3.1 4 7.1 13.5 8.9 16.0 6.8 10.5 6.9 12 9.3 17.0 11.6 18.5 7.1 13.5 8.3 15 11.6 18.5 13.9 20.0

39.0 35 62.0 74.0


48

Paso 1: H0: Las poblaciones son iguales.

H1: Las poblaciones no son iguales

Paso 2: H0: es rechazada si H es mayor que 7.185. Hay 3 grados de libertad en el nivel de significancia del .05.


49

La hipótesis nula no se rechaza. No hay diferencia

en los porcentajes de incremento de sueldo en las cuatro

plantas.

949.5

)120(35

745

625

355

39)120(20

12

)1(3)()()()(

)1(12

2222

24

2

23

2

22

1

21

n

nR

nR

nR

nR

nnH

k


50

Correlación rango-orden

El coeficiente de correlación de rangos de Spearman muestra la relación entre grupos de datos ordenados por rangos. Las características son:

Puede asumir cualquier valor entre -1.00 hasta 1.00.

Es similar al coeficiente de Pearson de correlación, pero se basa en datos ordenados por rangos.

LAS HIPÓTESIS

H0 : = 0 ; No existe correlación entre las dos

variables

H1 : 0 ; Si existe correlación entre las dos

variables

COEFICIENTE DE CORRELACIÓN DE SPEARMAN

)1(

61 2

2

nn

dr is

Donde :di : es la diferencia entre los puntajes de cada

observación, de cada par.n : Tamaño de la muestraAdemás se debe cumplir que -1 rs 1

Sin empates

COEFICIENTE DE CORRELACIÓN DE SPEARMAN

Con empates:

2222

yynxxn

yxxynrs

VALORES CRÍTICOS

Para muestras pequeñas (n≤30), se hace uso de la tabla A-9.Si rs se encuentra en el intervalo de los valores críticos de la tabla A-9 entonces se acepta H0

VALORES CRÍTICOS Para muestras grandes (n>30) la distribución de rs se aproxima a la normal, donde el estadístico

de prueba es:

1 nrz s

Si el valor del estadístico de prueba es mayor que el valor crítico de z al nivel de /2 rechazar H0

-z z

RA

RRRR

rs = n – 1 z

56

La diapositiva siguiente contiene las

estadísticas del fútbol de pretemporada

para la conferencia de la costa atlántica para

los técnicos y reporteros de deportes.

Determine el coeficiente de correlación

de rangos entre los dos grupos.

Ejemplo 6

57

Escuela Técnicos Reporteros

Maryland 2 3NC State 3 4NC 6 6Virginia 5 5Clemson 4 2Wake Forest 7 8Duke 8 7Florida State 1 1


58


Escuela Técnicos Reporteros d d 2

Maryland 2 3 -1 1

NC State 3 4 -1 1

NC 6 6 0 0

Virginia 5 5 0 0

Clemson 4 2 2 4

Wake Forest 7 8 -1 1

Duke 8 7 1 1

Florida State 1 1 0 0

Total 8

59

905.0)18(8

)8(61

)1(

61

2

2

2

nn

drs

Hay una correlación fuerte entre los rangos de los técnicos y los reporteros de deportes.


PRUEBA DE RACHAS

PRUEBA DE RACHAS

Utilizada para comprobar la aleatoriedad de las muestras.

RACHA (G) : Una serie continua de uno o más símbolos

LAS HIPÓTESIS

Ho : Existe aleatoriedad en la muestra.

H1 : No existe aleatoriedad en la muestra.

REGLA DE DECISIÓN

Cuando n1 como n2 son menores o iguales a 20

Usar la Tabla A-10

Si el valor de G no se encuentra entre los valores críticos de las tablas entonces se rechaza H0

PRUEBA DE RACHAS

Cuando n1 como n2 son mayores que 20

La distribución de la muestra se aproxima a la normalidad. Entonces se puede decir que tiene:

12

21

21

nnnn

G )1(

)2(2

212

21

212121

nnnn

nnnnnnG

Media Desviación estándar


G

GGZ

Sigue una Distribución Normal estandarizada

REGLA DE DECISIÓN

Si el valor del estadístico cae fuera de la región de aceptación, H0 se rechaza