Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos:...

28
Tema 5: Contrastes de Hipótesis no-paramétricos

Transcript of Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos:...

Page 1: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Tema 5: Contrastes de Hipótesis no-paramétricos

Page 2: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

PRELIMINARES:

Test de hipótesis

Paramétricos: hipótesis sobre los parámetros que definen la pobla-ción (por ej., pobl. Normales, y tests sobre la media o la desv. típica).

No paramétricos: no se refieren a parámetros de la población; se aplican típicamente cuando no conocemos la distribución de la población, o cuando sudistribución es no normal.

Primer cuatrimestre

Page 3: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

PRELIMINARES:

Media versus Mediana

¿Diferencias/Semejanzas?

Page 4: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

• Ambas sirven para estimar el valor o tamaño medio de una variable, que debe entenderse como el “valor esperable” o “normal”.• Si la distribución es normal, media y mediana coinciden.• Si hay discrepancia entre ambas, es preferible la mediana. • La razón es que la mediana es robusta, es decir, poco sensible a datos atípicos. La media, en cambio, es muy sensible.

PRELIMINARES:

Media versus Mediana

En particular, en ausencia de normalidad son relevanteslos contrastes no sobre la media, sino sobre la mediana

Page 5: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Ejemplo: La biblioteca de un museo recibe en un día 9 peticiones dedistintas instituciones para consultar volúmenes de la biblioteca; cada uno de los peticionarios solicita consultar el siguiente número de volúmenes:

6, 3, 10, 3, 3, 120, 3, 11, 2

Media: 17’89

Mediana: 3

Page 6: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

PRELIMINARES:

Simetría

Media Media

- Normalidad implica simetría; sin embargo, simetría no implica necesariamente normalidad.- Se mide con el coeficiente de asimetría (debe estar entre -2 y 2).- Si hay simetría, media y mediana coinciden.

Page 7: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

1. Tests sobre la mediana.

Ho: M = Mo

H1: M ≠ Mo; M>Mo; M<Mo

(A)t-test (t de Student): requiere normalidad

(B) Test de los signos: requiere var. continua.

(C) Test de los rangos signados o test de Wilcoxon: requiere simetría.

Pizarra + Statgraphics

(IMPORTANTE: los tests no-param. Son intrínsecamente robustos,i.e. funcionan relativamente bien incluso si no se cumplen sus requisitos)

Page 8: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

2. Tests de bondad de ajuste.

Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

(A) Test chi-cuadrado: general (todas las variables, todas las distribuciones.

(B) Test de Kolmogorov-Smirnov : requiere var. continua.

(C) Tests de normalidad: sólo para contrastar normalidad

Page 9: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

(A) Test Chi-cuadrado:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

Por ejemplo, Ho: X=N(10,2.85)

1.- Tomamos muestra de tamaño n (por ej., n=32)

2.- Establecemos regiones en el intervalo donde puede tomar valores la variable:

10 12’857’15

1 2 3 4

Page 10: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

10 12’857’15

1 2 3 4

(A) Test Chi-cuadrado:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

Por ejemplo, Ho: X=N(10,2.85)

3.- Establecemos los valores esperados: (n=32)

0,34 34%

0,16 16%

E1: 16% de 32 = 5 (aprox.)E2: 34% de 32 = 11 (aprox.)

Page 11: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

10 12’857’15

1 2 3 4

(A) Test Chi-cuadrado:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

Por ejemplo, Ho: X=N(10,2.85)

4.- Contabilizamos los valores observados, en la muestra, en cada intervalo:

E1: 5; E2: 11; E3: 11; E4: 5O1: 4; O2: 9; O3: 13; O4: 6

Page 12: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

(A) Test Chi-cuadrado:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

Por ejemplo, Ho: X=N(10,2.85)

5.- La idea es RECHAZAR la hipótesis, si los valores observados difieren demasiado de los observados. Concretamente, se utiliza el estadístico:

k

i i

ii

E

EOD

1

2

Requisitos: n suficientemente grande; Ei mayores o iguales de 5

Page 13: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

(B) Test de Kolmogorov-Smirnov:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

%

El test anterior, en realidad, compara las frecuencias “obtenidas”, con las esperadas; es decir, compara el polígono de frecuencias (muestra), con la curva correspondiente a la distribución que conjeturamos:

muestra población

Page 14: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

(B) Test de Kolmogorov-Smirnov:Ho: X sigue cierta distribuciónH1: X no sigue cierta distribución

El test de Kolmogorov-Smirnov, que requiere variable continua, compara el polígono de frecuencias acumuladas, con la función de distribución.

%

muestra población

Page 15: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

(C) Test de normalidad:Ho: X es normalH1: X no es normal

Sólo sirven para contrastar la normalidad, y no otro tipo de distribuciones.

Page 16: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

3. Tests de comparación de poblaciones.

Ho: M1 = M2

H1: M1 ≠ M2; M1 >M2; M1<M2

(I) Datos no pareados:

Si las poblaciones que queremos comparar son normales,podemos comparamos las medias (mediante el t-test, o test de la t de Student)

Ho: µ1 = µ2

H1: µ1 ≠ µ2; µ1 > µ2; µ1< µ2

Si alguna de las poblaciones es no normal, entonces comparamos medianas:

Para comparar medianas, se utiliza el test de Mann-Whitney

(A) Comparación de medianas:

Page 17: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Test de Mann-Whitney : La idea es similar a la del test de los rangos signados:

1. tomamos muestras en ambas poblaciones (x1…xn, y1… ym)

2. mezclamos los datos, y los ordenamos: x6<y4<x1<x5<y1< … 3. Asignamos rangos (1 a x6, 2 a y4, etc.) 4. Si la mediana es similar, la media de los rangos de las x’s y de las y’s será parecida; rechazamos si esas medias son muy diferentes.

Page 18: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Ho: MD = 0H1: MD ≠ 0; MD >0; MD<0

(II) Datos pareados: trabajamos con la diferencia (D) de las variables.

Si D es normal comprobamos si la media de D es 0, o no.

Ho: µD = 0H1: µD ≠ 0; µD > 0; µD< 0

Si D no es normal, entonces comprobamos si la mediana de D es 0, o no, utilizando el test de los signos y, si D es simétrica, el de los rangos signados.

IMPORTANTE: como la media (resp. la mediana) de D es igual a la diferencia de las medias (resp. de las medianas), aceptar la hipótesisnula equivale a aceptar que ambas medias (resp. medianas ) son iguales.

Page 19: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

¿Mis datos son pareados?

NO SI

¿La diferencia D es normal?

SI NO

H0: µD=0(t-test)

H0: MD=0(test signos,etc.)

¿Las variables son normales?

SI

H0: µ1=µ2

(t-test)(Ojo, primerohay que comprobarsi las desviaciones típicasson iguales, o no…)

NO

H0: M1=M2

(test de Mann-Whitney)

Page 20: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Ho: X e Y tienen la misma distribuciónH1: X e Y no tienen la misma distribución

Test de Kolmogorov-Smirnov (comparación de distribuciones): idea similar a la del test de bondad de ajuste (comparamos funciones de distribución deX e Y). Requiere variable continua.

(B) Comparación de distribuciones:

Statgraphics

Page 21: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

4. Tests de aleatoriedad.

Una secuencia de datos es aleatoria si no exhibe ninguna tendenciaconcreta, es decir, si se entiende que las fluctuaciones en los datosse deben al AZAR.

Page 22: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Gráfico de Series Temporales para Empresa B

Em

pres

a B

0 2 4 6 8 10 125,9

6,3

6,7

7,1

7,5

7,9

8,3

ALEATORIEDAD/NO ALEATORIEDAD

Gráfico de Series Temporales para Empresa A

0 2 4 6 8 10 127,5

8,5

9,5

10,5

11,5

12,5

Em

pres

a A

Gráfico de Series Temporales para Empresa C

0 2 4 6 8 10 126,1

7,1

8,1

9,1

10,1

11,1

Em

pres

a C

Gráfico de Series Temporales para Empresa D

0 2 4 6 8 10 127,1

8,1

9,1

10,1

11,1

Em

pres

a D

Page 23: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Tests de aleatoriedad: tests de RACHAS

-Test 1: ejecuciones por encima y debajo de la mediana.

- Test 2: ejecuciones “arriba” y “abajo”.

- Test 3: test de Box-Pierce (autocorrelaciones). Busca “ciclos”.

Ho: Los datos son aleatoriosH1: Los datos no son aleatorios

Page 24: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

5. Test de independencia chi-cuadrado.

Se trata de contrastar si dos variables CUALITATIVAS son independien-tes (es decir, si existe relación entre ellas), o no. Por ejemplo:

- ¿Ser hombre o mujer predispone, de algún modo, a fumar o no fumar?- ¿Los hábitos de lectura de los padres influyen en los hábitos de lectura de los hijos?- ¿Los gustos literarios son los mismos en las distintas comunidades españolas?- ¿La proporción de textos de ficción/no ficción es la misma en todas las bibliotecas de Alcalá?

Ho: X e Y son independientesH1: X e Y no son independientes

X e Y están relacionadas, una de ellas influye en la otra, hay diferencias significativas, determinadas proporciones cambian…

Page 25: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

EJEMPLO: Hemos preguntado a un grupo de 20 hombres y 20 mujeressi fumaban o no. ¿Crees que hay diferencias significativas entre ambossexos?

Hombres Mujeres TOTAL:

Fuma 5 7 12

No fuma 15 13 28

TOTAL: 20 20 40

X: sexo; Y: Fumador (S/N) Ho: X e Y son independientesH1: X e Y no son independientes

Page 26: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Hombres Mujeres TOTAL:

Fuma 12

No fuma 28

TOTAL: 20 20 40

¿Qué debería salir, si fueran “perfectamente” independientes?

Page 27: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Hombres Mujeres TOTAL:

Fuma 6 6 12

No fuma 14 14 28

TOTAL: 20 20 40

50% 50%

¿Qué debería salir, si fueran “perfectamente” independientes?

Page 28: Tema 5: Contrastes de Hipótesis no-paramétricos. PRELIMINARES: Test de hipótesis Paramétricos: hipótesis sobre los parámetros que definen la pobla- ción.

Comparamos frecuencias observadas (Oi) y esperadas (Ei)

La idea es RECHAZAR la hipótesis, si los valores observados difieren demasiado de los observados. Concretamente, se utilizael estadístico:

k

i i

ii

E

EOD

1

2

(Igual que en tests de bondad de ajuste)

Statgraphics