Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las...

15
1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica: - Asunciones del modelo (depende de cada test): . Muestreo aleatorio . Distribución Normal del estadístico en la población (matizable): . Transformación de datos . Robustez de los métodos . Varianzas iguales, etc. . Se tiene que conocer la distribución muestral (difícil en nuevos estadísticos) Población Transformación de datos UNIVERSIDAD DE VIGO

Transcript of Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las...

Page 1: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

1

Tema III. Las alternativas no paramétricas

3.1. Características de la estrategia paramétrica:- Asunciones del modelo (depende de cada test):

. Muestreo aleatorio

. Distribución Normal del estadístico en la población (matizable):. Transformación de datos. Robustez de los métodos

. Varianzas iguales, etc.

. Se tiene que conocer la distribución muestral (difícil en nuevos estadísticos)

Población

Transformación de datos

UNIVERSIDAD DE VIGO

Page 2: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

2

Tema III. Las alternativas no paramétricas

3.1. Características de la estrategia paramétrica:- Ventajas:

. Máxima potencia (eficacia) estadística si se cumplen las asunciones

. Rapidez y facilidad de aplicación del test

. Disponibilidad en software- Necesidad de alternativas estadísticas

UNIVERSIDAD DE VIGO

Page 3: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

3

Tema III. Las alternativas no paramétricas

3.2. Alternativas No paramétricas:- Ausencia de distribución Normal:

. Conversión a rangos y estadística paramétrica

. Uso de test de rangos:. Wilcoxon-Mann-Whitney (U). Para test t. Test de signos, Wilcoxon signed. Otros

- Desconocimiento de distribución muestral:. Métodos Jack-Knife y Monte-Carlo

- Ausencia de muestreo aleatorio:. Aleatorización

UNIVERSIDAD DE VIGO

Page 4: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:
Page 5: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

5

Tema III. Las alternativas no paramétricas

3.4. Los Test de Rangos:- Wilcoxon-Mann-Whitney (U):

. Dos muestras independientes

. Parecido al anterior, pero tablas generadas por aleatorización

. El problema de las repeticiones

. Para tamaños de muestra pequeños

Porcentage de HDL en sangre

Muestra 1: 107 110 111 112 113 114(2) 116 117 120Muestra 2: 105 106 107(2) 108 110(2), 111(3)RANGO: 1 2 3-5 6 7-9 10-13 14 15 16-17 18 19 20Rango: 1 2 4 6 8 11.5 14 15 16.5 18 19 20

Porcentage de HDL en sangre

Muestra1: SUMA1 = 142,5 Muestra2: SUMA2 = 67,5U = Suma1 –Suma2 = 75 (Mann-Whitney)O bien uso de Sumas (Wilcoxon)

N = 20 (10, 10)

p asociada a H0 = 0.0019 (de una cola)p asociada a H0 = 0.0038 (de dos colas)

UNIVERSIDAD DE VIGO

Page 6: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

6

Tema III. Las alternativas no paramétricas

3.4. Los Test de Rangos:- Test del signo:

. Muestras emparejadas

. Comparación por pareja (+ si es >; - si es igual o menor)

. Los ceros se excluyen del análisis

Porcentage de HDL en sangre

Muestra 1 (10 enfermos): 120, 107, 110, 116, 114, 111, 113, 117, 114, 112Muestra 2 (los mismos sanos): 110, 111, 107, 108, 110, 105, 107, 106, 111, 111Diferencia: +, -, +, +, +, +, +, +, +, +1 (-) de 10 posibles, evaluar las probabilidad de (0 + 1)

p(1) = 0.011

p(una cola) = 0.011p(dos colas) = 0.022

se rechaza H0

se puede calcular teóricamente:

10 10p(una cola) = 1 + 0 x (½)10 = 0.011

UNIVERSIDAD DE VIGO

Page 7: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

7

Tema III. Las alternativas no paramétricas

3.4. Los Test de Rangos:- Test Wilcoxon-signed:

. Muestras emparejadas

. Comparación por pareja (se evalúan los rangos de las diferencias)

. Los ceros también se excluyen del análisis- Otros:

- Kendal Tau (cuando veamos correlación)- Kruskas-Wallis (cuando veamos ANOVA)

Porcentage de HDL en sangre

Muestra 1: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112Muestra 2: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111Diferencia: 10, -4, 3, 8, 4, 6, 6, 11, 3, 1Rango(signo): 9, -4,5, 2,5, 8, 4,5, 6,5, 6,6, 10, 2,5, 1T-

(suma -) = 4,5Total = N x (N+1) / 2 = 55; T+

(suma+) = Total – T- = 50,5

p(T+) = p(una cola) = 0,0098

p(dos colas) = 0,0196

se rechaza H0

UNIVERSIDAD DE VIGO

Page 8: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

8

Tema III. Las alternativas no paramétricas

Navaja multiusos

3.5. El método Jacknife:- Cuando no se conoce distribución muestral (poco utilizado)- Es un método mixto entre el remuestreo empírico y el paramétrico- Puede hacerse a mano (con N bajo)- Procedimiento:

. Se estima el estadístico retirando cada vez un dato (Xi)

. Se estiman los valores jacknife X*i = nX – (n-1)Xi

. Se usan los X*i para estimar la varianza muestral

. Se aplica la inferencia paramétrica (test t)

Porcentage de HDL en sangre

Muestra1: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112

X = 113,4 s2 = 13,82

X1(120) = 112,67X2(107) = 114,11X3(110) = 113,78X4(116) = 113,11X5(114) = 113,33X6(111) = 113,67X7(113) = 113,44X8(117) = 113,00X9(114) = 113,33X10(112) = 113,56

Obtención de Xi

X*1(120) = (10 x 113,4) – (9 x 112,67) = 120X*2(107) = 107,1X*3(110) = 110X*4(116) = 116X*5(114) = 114X*6(111) = 111X*7(113) = 113X*8(117) = 117X*9(114) = 114X*10(112) = 112

Obtención de X*i

IC 95%

Media ± tgl x SD/√10

113,4 ± 2,66

X* = 113,4s2* = 13,82sd* = 3,72

Estimadores jacknife

UNIVERSIDAD DE VIGO

Page 9: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

9

Tema III. Las alternativas no paramétricas

3.6. El método Monte Carlo:- La llegada de los ordenadores en estadística (70-80):

. Uso de software sofisticado

. Utilización de simulaciones complejas

. Desarrollo de nuevos métodos estadísticos- La necesidad del remuestreo en los juegos de azar:

. Métodos Monte-Carlo (no lo veremos)

. Bootstrapping

UNIVERSIDAD DE VIGO

Page 10: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

10

Tema III. Las alternativas no paramétricas

3.6. El método Monte Carlo:- La estimación por Bootstrap:

. Clave para nuevos estimadores (ejemplo sala de hospital):. Hay que obtener las fórmulas para s2 muestral (si es posible). Utilizar métodos bootstrap para obtener s2*

Jefa de planta: se plantea un índice para evaluar el grado de apiñamiento en un servicio

Usa la información: Evalúa uso de planta. Nº de enfermos benignos (B) 1. Nº de enfermos graves (G) 2. Nº crónicos/reincidentes (C) 3. Nº de plazas totales disponibles (T)

(B + 2G + 3C)Índice =

T

UNIVERSIDAD DE VIGO

Page 11: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

11

Tema III. Las alternativas no paramétricas

3.6. El método Monte Carlo:- La estimación por Bootstrap:

. Utilizaremos el ejemplo de la muestra 1 de HDL

. El método:. Se asume que la muestra = población. Se remuestrea la población (se obtiene cada vez el estimador). Se usa la distribución muestral bootstrap en inferencia

Porcentage de HDL en sangre

Muestra 2: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111

Distribución de la población:

VALOR Freq. Acum. Interv.

105 1 0,1 0 - 0,099106 1 0,2 0,1 - 0,199107 2 0,4 0,2 - 0,399108 1 0,5 0,4 - 0,499 110 2 0,7 0,5 - 0,699111 3 1 0,7 - 1

En el ordenador:

1.- Se obtiene un nº aleatorio (0-1)2.- Se adjudica a una clase de interv.3.- Se extrae una muestra de ese valor4.- Se repite el proceso hasta completar muestra5.- Se calcula el estimador en la muestra

se repite 1000-100.000 para obtener distribución

X* = 108,61p (<= 0) = 0,0002

s2* = 5,22

UNIVERSIDAD DE VIGO

Page 12: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

12

Tema III. Las alternativas no paramétricas

3.6. El método Monte Carlo:- La estimación por Bootstrap:

. La distribución bootstrap se puede utilizar como la t o z:. Pero hace falta calcular los IC ó las probabilidades

. Inconvenientes:. Hace falta programar para obtenerla. Puede requerir cierto tiempo de computación (raro). Tiene menos potencia estadística que el método paramétrico

Muestra = Población Distribución bootstrap del estimador (mediana)

UNIVERSIDAD DE VIGO

Page 13: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

13

Tema III. Las alternativas no paramétricas

3.7. El método de aleatorización:- Se utiliza para hacer test estadísticos (nunca para estimación)- En casos en los que otras alternativas no son posibles:

. Ausencia de muestreo aleatorio

. Ausencia de independencia de dos variables (test de mantel)- El método:

. Se plantea H0 (la media de dos grupos es idéntica; D = 0)

. Se aleatorizan los datos para cumplir H0. El proceso se repite miles de veces

. Se obtiene el estadístico de interés y su distribución bajo H0

. Se evalúa la probabilidad del valor observado

Se plantea H0

Diferencia entre grupos

se repite 1000-100.000 veces

UNIVERSIDAD DE VIGO

Page 14: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

14

Tema III. Las alternativas no paramétricas

3.7. El método de aleatorización:- Ejemplo de las diferencias en HDl sanos/enfermos:

. Imaginemos datos sucios (mal muestreados)

Porcentage de HDL en sangre

Muestra 1: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112Muestra 2: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111Diferencia: 10, -4, 3, 8, 4, 6, 6, 11, 3, 1

Media (μ) 4,8Varianza (σ2) 19,73Desviación típica (σ) 4,44

M1

M2

4,8

Se obtiene la distribución de la Dbajo H0, de forma que es posible estimarp del valor observado (4,8) = 0.0018

Se rechaza H0

UNIVERSIDAD DE VIGO

Page 15: Transformación de datos Poblaciónrolan.webs.uvigo.es/statistics_course/Tema3.pdf1 Tema III. Las alternativas no paramétricas 3.1. Características de la estrategia paramétrica:

15

Referencias Bibliográficas

Sokal,R.R., Rohlf, F.J. 1995. Biometry. Freeman and co., New York

LIBROS:

PÁGINAS WEB:

http://www.resample.com/content/text/index.shtml(un curso sobre los métodos Monte Carlo)

http://www.randomizer.org/form.htm(Programna para aleatorizar series de números on line)

http://www-users.york.ac.uk/~mb55/guide/randsery.htm(Página que informa de software disponible para aleatorizar datos)

Noreen, E.W. 1989. Computer Intensive methods for testinghypothesis: an introduction. Wiley & Sons, Canada.

Siegel, S., Castellan, N.J.1988. Nonparametric Statistics. McGrawHill, New York

UNIVERSIDAD DE VIGO