1
Capítulo 16Métodos no paramétricos: análisis de datos ordenados por rango
Objetivos: Al terminar este capítulo podrá:
1. Realizar la prueba del signo para muestras dependientes empleando las distribuciones binomial y normal como estadísticos de prueba.
2. Realizar una prueba de hipótesis para muestras dependientes empleando la prueba de rangos con signo de Wilcoxon.
3. Realizar e interpretar la prueba de suma de rangos de Wilcoxon para muestras independientes.
4. Realizar e interpretar la prueba de Kruskal-Wallis para varias muestras independientes.
2
5. Calcular e interpretar el coeficiente de correlación de rangos de Spearman.
6. Realizar una prueba de hipótesis para determinar si la correlación entre los rangos en la población es diferente de cero.
Capítulo 16 (Continuación)
3
La prueba del signo
La prueba del signo se basa en el signo de una diferencia entre dos observaciones correspondientes.
No es necesario alguna suposición con respecto a la forma de la población de diferencias.
La distribución binomial es el estadístico de prueba para las muestras pequeñas, y la normal estándar (z) para las muestras grandes.
La prueba requiere muestras (relacionadas) dependientes.
4
La prueba del signo (Continuación)
Procedimiento para conducir la prueba:
• Determine el signo de la diferencia entre pares relacionados.
• Determine el número de pares utilizados.• Compare el número de diferencias positivas (o
negativas) al valor crítico.• n es el número de pares utilizados (sin los lazos), X
es el número de positivos o negativos, y la probabilidad binomial =.5.
5
Aproximación normal Si ambos y son mayores que 5, la
distribución z es apropiada. Si el número de signos más o de signos menos es
mayor que n/2, entonces
n n( )1
n
nXz
5.0
5.0)5.0(
n
nXz
5.0
5.0)5.0(
Si el número de signos más o de signos menos es menor que n/2, entonces
6
Ejemplo 1El instituto de investigación d’Gagliano para los estudios del negocio está comparando el costo de investigación y desarrollo (R&D) como porcentaje del ingreso para una muestra de las empresas del vidrio para 2010 y 2011.
¿En un nivel de significancia del 0.05 se puede aceptar que el costo de R&D ha declinado? Utilice la prueba del signo.
Compañía 2010 2011
Savoth Glass 20 16
Ruisi Glass 14 13
Rubin Inc. 23 20
Vaught 24 17
Lambert Glass 31 22
Pimental 22 20
Olson Glass 14 20
Flynn Glass 18 11
7
8
Ejemplo 1 (Continuación)
Compañía 2010 2011 Diferencias Muestra
Savoth Glass 20 16 4 +
Ruisi Glass 14 13 1 +
Rubin Inc. 23 20 3 +
Vaught 24 17 7 +
Lambert Glass 31 22 9 +
Pimental 22 20 2 +
Olson Glass 14 20 -6 -
Flynn Glass 18 11 7 +
9
Paso 1: H0: =.5 H1: <.5
Paso 2: H0: se rechaza si el número de muestras negativas es 0 o 1.
Paso 3: Hay una diferencia negativa. Esto es, hubo un incremento en el porcentaje para una compañía.
Paso 4: H0: se rechaza. Concluimos que el gasto en R&D como un porcentaje del ingreso declinó del 2010 al 2011.
Ejemplo 1 (Continuación)
10
Prueba de hipótesis acercade la mediana
Cuando probamos el valor de la mediana, utilizamos la aproximación normal a la distribución binomial.
La distribución z se utiliza como el estadístico de prueba.
11
La agencia de viajes Gordon sostiene que su tarifa mediana para todos sus clientes a todos los destinos es $450. Esta afirmación está siendo desafiada por una agencia de la competencia, que cree que la mediana es diferente de $450. Una muestra escogida al azar de 300 boletos reveló que 170 boletos estaban por debajo de $450. Utilice el 0.05 de nivel de significancia.
Ejemplo 2
12
450.$ mediana :H $450 = mediana : 10 H
H0 es rechazada si z es menor que –1.96 o mayor que 1.96.
El valor de z es 2.252.
252.23005.
)300(50.)5.170(5.
50.)5.(
n
nXz
H0 es rechazada. Concluimos que la mediana no es $450.
Ejemplo 2 (Continuación)
Ejemplos La Genetics and IVF Institute realizó un ensayo
clínico de sus métodos de selección de género. En un tiempo determinado los resultados incluían 325 bebés recién nacidos de´padres que utilizaron el método XSORT para aumentar la probabilidad de concebir una niña, y 295 de esos bebés fueron niñas. Utilice la prueba del signo con un nivel de significancia de 0.05 y pruebe la aseveración de que este método de selección del género no tiene ningún efecto.
13
Se tiene una serie de datos que incluyen temperaturas corporales medidas en adultos. Utilice 106 temperaturas tomadas a las 12:00 a.m. del día con la prueba del signo para probar la aseveración de que la mediana es menor que 98.6°F. El conjunto de datos tiene 106 sujetos, 68 con temperaturas por debajo de 98.6°F, 23 sujetos con temperaturas por arriba de 98.6°F y 15 sujetos con temperaturas iguales a 98.6°F
14
15
Prueba de Rangosde Wilcoxon
Si la suposición de normalidad se viola para la prueba apareada-t, utilice la prueba de rangos con signo de Wilcoxon.
La prueba requiere la escala ordinal de la medida. Las observaciones deben ser relacionadas o
dependientes.
PRUEBA DE RANGOS CON SIGNOS DE WILCOXON
Utiliza rangos ordenados de datos muestrales consistentes en datos apareados
Se usa para probar las diferencias en las distribuciones poblacionales y para probar la aseveración de que una muestra proviene de una población con una mediana específica.
Planteamiento de hipótesis
H0: Los datos apareados .tienen diferencias que provienen de una población con una mediana igual a cero
H1: Los datos apareados .tienen diferencias que provienen de una población con una mediana diferente a cero.
Procedimiento:
1. Calcule d (restando el segundo valor menos el primero), descarte d=0
2. Ignore los signos de las diferencias y ordene las diferencias de la más baja a la más alta y reemplace por el valor del rango correspondiente.
3. Adjunte a cada rango el signo de la diferencia de la que provino.
Procedimiento:
4. Calcule la suma de los valores absolutos de los rangos negativos. También de los rangos positivos.
5. Utilice T que sea la más pequeña de las dos sumas que se calcularon en el paso 4
6. Utilice n que sea el número de pares de datos para los que la diferencia d no es cero
Procedimiento:
7. Determine el estadístico de prueba y los valores críticos
8. Tome su decisión y conclusión apropiada
ESTADÍSTICO DE PRUEBASi n≤30 el Estadístico de prueba es TDonde T es el más pequeño de las siguientes sumas:1.La suma de los valores absolutos de los rangos negativos de las diferencias d que no sean ceros.2.La suma de los rangos positivos de las diferencias d que no sean ceros.
ESTADÍSTICO DE PRUEBA
Si n>30 usar el siguiente estadístico de prueba
24)12)(1(
4)1(
nnn
nnT
z
Los valores críticos de z se encuentran en la tabla A-8
23
Utilice la prueba de suma de rangos de Wilcoxon para determinar si los costos de R&D como porcentaje del ingreso (Ejemplo 1) ha declinado. Utilice el nivel de significancia del .05.
Paso 1: H0: Los porcentajes permanecen igual.
H1: Los porcentajes declinaron.
Paso 2: Se rechaza H0 si el más pequeño de las sumas de rango es menor o igual al valor crítico del Apéndice 8.
Ejemplo 3
24
Compañía 2000 2001 Diferencia ABS-Dif. Rango R+ R-
Savoth Glass 20 16 4 4 4 4 * Ruisi Glass 14 13 1 1 1 1 * Rubin Inc. 23 20 3 3 3 3 * Vaught 17 7 10 10 8 8 * Lambert Glass 31 22 9 9 7 7 * Pimental 22 20 2 2 2 2 * Olson Glass 14 20 -6 6 5 * 5 Flynn Glass 18 11 7 7 6 6 *
Ejemplo 3 (Continuación)
25
La suma de rango más pequeña es 5, que es igual al valor crítico de T. Se rechaza H0. El porcentaje ha declinado a partir de un año al siguiente.
Ejemplo 3 (Continuación)
Ejemplo: En una empresa de comidas instantáneas se
hizo la siguiente prueba acerca del sabor de su producto, a cada miembro de la muestra aleatoria de 15 clientes se le dio una porción de producto y se le pidió su calificación en una escala del 1 al 20. A continuación se les dio un nuevo producto y se les pidió que lo califiquen del mismo modo. Los resultados se muestran a continuación. Es razonable pensar al nivel del 0.05 que la gente prefiere el nuevo producto?
26
PARTICIPANTE CALIF NUEVO SABOR CALIF SABOR ACTUAL
ARQUETTE 14 12
JONES 8 16
FISH 6 2
WAGNER 18 4
BADENHOP 20 12
HALL 16 16
FOWLER 14 5
VIROST 6 16
GARCIA 19 10
SUNDAR 18 10
MILLER 16 13
PETERSON 18 2
BOGGART 4 13
HEIN 7 14
WHITTEN 16 427
EJEMPLO: Se seleccionó una muestra aleatoria de
siete parejas de jóvenes profesionales urbanos que eran propietarios de sus casas. La superficie de sus casas se comparó con el área de la casa de sus padres. Al nivel de significancia del 0.05, ¿se puede concluir que los jóvenes tienen casas más grandes?
28
NOMBRE DE LA PAREJA
CASA DE LA PAREJA CASA DE SUS PADRES
GORDON 1725 1175
SHARKEY 1310 1120
USELDING 1670 1420
BELL 1520 1640
KUHLMAN 1290 1360
WELCH 1880 1750
ANDERSON 1530 1440
29
30
Prueba de suma de rangosde Wilcoxon
• No se requiere ninguna suposición sobre la forma de la población.
• Los datos deben ser por lo menos escala ordinal.• Cada muestra debe contener por lo menos ocho
observaciones.
La prueba de suma de rangos de Wilcoxon se utiliza para determinar si dos muestras independientes provienen de la misma o igual población.
Planteamiento de hipótesis
H0: Las dos muestras provienen de poblaciones con medianas iguales
H1: Las dos muestras provienen de poblaciones con medianas diferentes
32
Para determinar el valor del estadístico W, todos los valores de los datos se ordenan de menor a mayor como si fueran de una sola población.
La suma de rangos para cada dos muestras es determinada.
Prueba de suma de rangosde Wilcoxon
33
Para determinar el valor del estadístico W, todos los valores de los datos se ordenan de menor a mayor como si fueran de una sola población.
La suma de rangos para cada muestra es determinada, W es la primera suma.
Prueba de suma de rangosde Wilcoxon
ESTADÍSTICO DE PRUEBA
R
RWz
2
)1( 211
nnnR 12
)1( 2121
nnnnR
Valores CríticosLos valores críticos se encuentran en la tabla A-2
35
El valor de la suma de RANGOS de la muestra uno (W) se utiliza para calcular el estadístico de prueba de:
12)1(
2)1(
2121
211
nnnn
nnnW
z
Prueba de suma de rangosde Wilcoxon
36
La Universidad compró dos vehículos, un Ford y un Chevy, para el uso de la administración al viajar. Los costos de reparación para los dos autos durante los tres años pasados se muestran en la diapositiva siguiente. ¿En el nivel de significancia del .05 hay una diferencia en las dos distribuciones?
Ejemplo 4
37
Ejemplo 4 (Continuación)
Ford ($) Rango Chevy($) Rango
25.31 3.0 14.89 1.0
33.68 5.5 20.31 2.0
46.89 7.0 25.97 4.0
51.83 8.0 33.68 5.5
87.65 13.0 68.98 9.0
87.90 14.0 78.23 10.0
90.89 15.0 80.31 11.0
120.67 16.0 81.75 12.0
157.90 17.0
81.5 71.5
38
Paso 1: H0: Las poblaciones son iguales.
H1: Las poblaciones no son iguales.
Paso 2: H0: se rechaza si z >1.96 o z es menor
que –1.96
Ejemplo 4 (Continuación)
39
Paso 3: El valor del estadístico de prueba es 0.914.
914.0
12
)198)(9(8
2
)198(85.81
12
)1(
2
)1(
2121
211
nnnn
nnnW
z
Ejemplo 4 (Continuación)
40
Paso 4: No rechazamos la hipótesis nula. No podemos concluir que hay una diferencia en las distribuciones de los costos de la reparación de los dos vehículos.
Ejemplo 4 (Continuación)
Ejemplo: Remítase al conjunto de datos 1 del
apéndice B y use los primeros 13 valores del IMC para varones y los 12 primeros valores muestrales para las mujeres. Utilice un nivel de significancia del 0.05 para probar la aseveración de que la mediana del IMC de los hombres es igual al de las mujeres.
41
IMC HOMBRES IMC MUJERES
23.8 19.6
23.2 23.8
24.6 19.6
26.2 29.1
23.5 25.2
24.5 21.4
21.5 22
31.4 27.5
26.4 33.5
22.7 20.6
27.8 29.9
28.1 17.7
25.2
42
EJEMPLO: Prueba de hipótesis de la diferencia de la
antigüedad de automóviles y taxis:
Utilice el nivel del 0.05 para probar la aseveración de que existe una diferencia entre la mediana de la antigüedad de un auto y un taxi.
43
Automóviles Taxis
0 8 11 14 3 4 4 3 5 8 3 3 7 4 6 6 1 8 2 15 11 4 1 6 1 8 4
8 8 0 3 8 4 3 3 6 11 7 7 6 9 5 10 8 4 3 4
44
Prueba de Kruskal-Wallis:análisis de varianza por rangos
La escala ordinal de la medida es requerida. Es un alternativa del ANOVA unidireccional. La distribución de ji-cuadrada es el estadístico de
prueba. Cada muestra debe tener por lo menos cinco
observaciones. Los datos de la muestra se ordenan de menor a mayor
como si fuera un solo grupo.
Esto se utiliza para comparar tres o más muestras para determinar si provienen de poblaciones iguales.
45
Prueba de Kruskal-Wallis:análisis de varianza por rangos (Continuación)
El estadístico de prueba está dado por:
Hn n
R
n
R
n
R
nnk
k
12
13 11
2
1
22
2
2
( )
( ) ( )...
( )( )
46
Keely Ambrose, director de recursos humanos para las industrias de Molinero, desea estudiar los Porcentajes de incremento en el sueldo para losgerentes medios. Ella recopila una muestra de gerentes ydetermina los porcentajes de incremento de sueldo a partirdel año pasado a este año.
¿Al nivel de significancia del 5% puede Kelly concluir que hay una diferencia en los porcentajes de incremento para las diferentes plantas?
Ejemplo 5
47
Millville Rango Camden Rango Eaton Rango Vineland Rango 2.2 2.0 1.9 1 3.7 6.0 5.7 9.0 3.6 5.0 2.7 3 4.5 7.0 6.8 10.5 4.9 8.0 3.1 4 7.1 13.5 8.9 16.0 6.8 10.5 6.9 12 9.3 17.0 11.6 18.5 7.1 13.5 8.3 15 11.6 18.5 13.9 20.0
39.0 35 62.0 74.0
Ejemplo 5 (Continuación)
48
Paso 1: H0: Las poblaciones son iguales.
H1: Las poblaciones no son iguales
Paso 2: H0: es rechazada si H es mayor que 7.185. Hay 3 grados de libertad en el nivel de significancia del .05.
Ejemplo 5 (Continuación)
49
La hipótesis nula no se rechaza. No hay diferencia
en los porcentajes de incremento de sueldo en las cuatro
plantas.
949.5
)120(35
745
625
355
39)120(20
12
)1(3)()()()(
)1(12
2222
24
2
23
2
22
1
21
n
nR
nR
nR
nR
nnH
k
Ejemplo 5 (Continuación)
50
Correlación rango-orden
El coeficiente de correlación de rangos de Spearman muestra la relación entre grupos de datos ordenados por rangos. Las características son:
Puede asumir cualquier valor entre -1.00 hasta 1.00.
Es similar al coeficiente de Pearson de correlación, pero se basa en datos ordenados por rangos.
LAS HIPÓTESIS
H0 : = 0 ; No existe correlación entre las dos
variables
H1 : 0 ; Si existe correlación entre las dos
variables
COEFICIENTE DE CORRELACIÓN DE SPEARMAN
)1(
61 2
2
nn
dr is
Donde :di : es la diferencia entre los puntajes de cada
observación, de cada par.n : Tamaño de la muestraAdemás se debe cumplir que -1 rs 1
Sin empates
COEFICIENTE DE CORRELACIÓN DE SPEARMAN
Con empates:
2222
yynxxn
yxxynrs
VALORES CRÍTICOS
Para muestras pequeñas (n≤30), se hace uso de la tabla A-9.Si rs se encuentra en el intervalo de los valores críticos de la tabla A-9 entonces se acepta H0
VALORES CRÍTICOS Para muestras grandes (n>30) la distribución de rs se aproxima a la normal, donde el estadístico
de prueba es:
1 nrz s
Si el valor del estadístico de prueba es mayor que el valor crítico de z al nivel de /2 rechazar H0
-z z
RA
RRRR
rs = n – 1 z
56
La diapositiva siguiente contiene las
estadísticas del fútbol de pretemporada
para la conferencia de la costa atlántica para
los técnicos y reporteros de deportes.
Determine el coeficiente de correlación
de rangos entre los dos grupos.
Ejemplo 6
57
Escuela Técnicos Reporteros
Maryland 2 3NC State 3 4NC 6 6Virginia 5 5Clemson 4 2Wake Forest 7 8Duke 8 7Florida State 1 1
Ejemplo 6 (Continuación)
58
Ejemplo 6 (Continuación)
Escuela Técnicos Reporteros d d 2
Maryland 2 3 -1 1
NC State 3 4 -1 1
NC 6 6 0 0
Virginia 5 5 0 0
Clemson 4 2 2 4
Wake Forest 7 8 -1 1
Duke 8 7 1 1
Florida State 1 1 0 0
Total 8
59
905.0)18(8
)8(61
)1(
61
2
2
2
nn
drs
Hay una correlación fuerte entre los rangos de los técnicos y los reporteros de deportes.
Ejemplo 6 (Continuación)
PRUEBA DE RACHAS
PRUEBA DE RACHAS
Utilizada para comprobar la aleatoriedad de las muestras.
RACHA (G) : Una serie continua de uno o más símbolos
LAS HIPÓTESIS
Ho : Existe aleatoriedad en la muestra.
H1 : No existe aleatoriedad en la muestra.
REGLA DE DECISIÓN
Cuando n1 como n2 son menores o iguales a 20
Usar la Tabla A-10
Si el valor de G no se encuentra entre los valores críticos de las tablas entonces se rechaza H0
PRUEBA DE RACHAS
Cuando n1 como n2 son mayores que 20
La distribución de la muestra se aproxima a la normalidad. Entonces se puede decir que tiene:
12
21
21
nnnn
G )1(
)2(2
212
21
212121
nnnn
nnnnnnG
Media Desviación estándar
ESTADÍSTICO DE PRUEBA
G
GGZ
Sigue una Distribución Normal estandarizada
REGLA DE DECISIÓN
Si el valor del estadístico cae fuera de la región de aceptación, H0 se rechaza
Top Related