Conceptos bÆsicos de inferencia estadística (IV...

16
Conceptos bÆsicos de inferencia estadstica (IV): Inferencia no paramØtrica: Contrastes de aleatoriedad. Tema 1 (IV) Estadstica 2 Curso 08/09 Tema 1 (IV) (Estadstica 2) Contrastes de aleatoriedad Curso 08/09 1 / 16

Transcript of Conceptos bÆsicos de inferencia estadística (IV...

Conceptos básicos de inferencia estadística (IV):Inferencia no paramétrica:Contrastes de aleatoriedad.

Tema 1 (IV)

Estadística 2

Curso 08/09

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 1 / 16

Contrastes de aleatoriedad Introducción

Introducción

Los métodos ("clásicos") de inferencia estadística se basan en:

X1, . . . ,Xn m.a.s.de X

Por tanto suponen que X1, . . . ,Xn son independientes.

La ausencia de aleatoriedad es difícil de corregir y puede in�uirnotablemente en el análisis estadístico

Si existe dependencia entre las observaciones muestrales (i.e. elconocimiento de Xi proporciona información sobre los valores deXi+1, Xi+2, . . . ) los métodos estudiados no son válidos (puedenconducir a conclusiones erróneas).

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 2 / 16

Contrastes de aleatoriedad Introducción

Esto es debido principalmente a que introduce un sesgo en losestimadores de las varianzas (obtenidos bajo independencia)Por tanto, los correspondientes intervalos de con�anza ycontrastes de hipótesis tendrán una con�anza o una potenciadistinta de la que deberían.

Si X1 y X2 son independientes (Cov(X1,X2) = 0):

Var(X1 + X2) = Var(X1) + Var(X2)

En el caso general (dependencia):

Var(X1 + X2) = Var(X1) + Var(X2) + 2Cov(X1,X2)

Típicamente Cov(X1,X2) > 0 por lo que con los métodos "clásicos"(basados en independencia) se suelen producir subestimaciones de lasvarianzas (IC más estrechos y tendencia a rechazar H0 en contrastes).

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 3 / 16

Contrastes de aleatoriedad Introducción

Métodos para detectar dependencia

Sería de esperar que datos cercanos en el tiempo (o en el espacio)sean más parecidos (dependientes) que datos más alejados )dependencia temporal (espacial, espacio-temporal).

Métodos para detectar dependencia temporal:

Grá�cos:

Dispersión de variable frente a índice (tiempo) f(i ,Xi )gni=1Dispersión f(Xi ,Xi+1)gn�1i=1Correlograma

Contrastes:

Tests basados en rachasTest de Ljung-Box

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 4 / 16

Métodos grá�cos Grá�co secuencial

Grá�co secuencial

El grá�co de dispersión f(i ,Xi )gni=1 permite detectar la presencia de unadependencia temporal.

Es importante mantener/guardar el orden de recogida de los datos.Si existe una tendencia los datos no son homogéneos (debería tenerseen cuenta la variable índice, o tiempo, como variable explicativa).Podría indicar la presencia de un "efecto aprendizaje".

Independencia Tendencia (lineal)

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 5 / 16

Métodos grá�cos Grá�co secuencial

Valores próximos muy parecidos (valores grandes seguidos de grandesy viceversa) indicarían una posible dependencia positiva.

Valores próximos dispares (valores grandes seguidos de pequeños yviceversa) indicarían una posible dependencia negativa.

Dependencia positiva Dependencia negativa

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 6 / 16

Métodos grá�cos Grá�co de dispersion retardado

Grá�co de dispersion retardado

El grá�co de dispersión f(Xi ,Xi+1)gn�1i=1 permite detectar dependencias aun retardo (relaciones entre valores separados por un instante)

Independencia

Xi

Xi+1

XiXi

Xi+1Xi+1

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 7 / 16

Métodos grá�cos Grá�co de dispersion retardado

Dependencia positiva Dependencia negativa

Xi

Xi+1

XiXi

Xi+1Xi+1

Xi

Xi+1

XiXi

Xi+1Xi+1

Se puede generalizar al grá�co f(Xi ,Xi+k )g que permite detectardependencias a k retardos (separadas k instantes).

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 8 / 16

Métodos grá�cos El correlograma

El correlograma

Para estudiar si el grado de relación (lineal) entre Xi y Xi+k podemosutilizar el coe�ciente de correlación:

ρ (Xi ,Xi+k ) =Cov (Xi ,Xi+k )σ (Xi ) σ (Xi+k )

En el caso de datos homogéneos (estacionarios):

ρ (Xi ,Xi+k ) � ρ (k)

denominada función de autocorrelación simple (fas) o correlograma.

Su estimador es el correlograma muestral:

r(k) =∑n�ki=1 (Xi � X )(Xi+k � X )

∑ni=1(Xi � X )2

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 9 / 16

Métodos grá�cos El correlograma

En caso de independencia es de esperar que las autocorrelacionesmuestrales sean próximas a cero (valores "grandes" indicaríandependencia positiva o negativa según el signo).

Suponiendo normalidad e independencia, asintóticamente:

r(k) �aprox .

N�

ρ(k),1n

�Si el tamaño muestral es grande, podríamos aceptar H0 : ρ (k) = 0 si:

jr(k)j < 2pn

En el grá�co de autocorrelaciones muestrales (tambiéndenominado correlograma) se representan las estimaciones r(k) delas autocorrelaciones correspondientes a los primeros retardos(típicamente k < n/4) y las correspondientes bandas de con�anza(para detectar dependencias signi�cativas).

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 10 / 16

Métodos grá�cos El correlograma

Independencia

Retardo

16151413121110987654321

AC

Fes

t.

1,0

,5

0,0

­,5

­1,0

Retardo

16151413121110987654321

AC

Fes

t.

1,0

,5

0,0

­,5

­1,0

Dependencia positiva Dependencia negativa

Retardo

16151413121110987654321

AC

Fes

t.

1,0

,5

0,0

­,5

­1,0

Retardo

16151413121110987654321

AC

Fes

t.

1,0

,5

0,0

­,5

­1,0

Retardo

16151413121110987654321

ACF

est.

1,0

,5

0,0

­,5

­1,0

Retardo

16151413121110987654321

ACF

est.

1,0

,5

0,0

­,5

­1,0

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 11 / 16

Contrastes de hipótesis Test de rachas

Test de rachas

Permite contrastar si el orden de aparición de dos valores de una variabledicotómica es aleatorio.

Supongamos que X toma los valores + y �

Observamos una muestra del tipo:

++++���+++��++++++����y nos interesa contrastar:�

H0 : La muestra es aleatoriaH1 : La muestra no es aleatoria

Una racha es una secuencia de observaciones iguales (o similares):

++++| {z }1

���| {z }2

+++| {z }3

��|{z}4

++++++| {z }5

����| {z }6

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 12 / 16

Contrastes de hipótesis Test de rachas

Una muestra con muchas o pocas rachas sugeriría que la muestrano es aleatoria (con dependencia negativa o positiva, respec.).

Estadístico del contraste:

R = "No total de rachas en la muestra"

Bajo la hipótesis nula de aleatoriedad:

R �aprox .

N�1+

2n1n2n

,2n1n2(2n1n2 � n)

n2(n� 1)

�siendo:

n1 = no de signos + en la muestran2 = no de signos � (n1 + n2 = n)

Para tamaños muéstrales pequeños (n < 40), la aproximación anteriorno es buena y conviene utilizar la distribución exacta (o utilizarcorrección por continuidad). Los valores críticos de esta distribuciónestán tabulados.

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 13 / 16

Contrastes de hipótesis Test de rachas

Este contraste se emplea también para variables continuas, se �ja unpunto de corte para dicotomizarlas.

Normalmente se toma como punto de corte la mediana.

En este caso si k = n1 (' n2) y (si n ' 2k > 40):

R �aprox .

N�k + 1,

k(k � 1)2k � 1

Se rechaza la hipótesis nula de aleatoriedad si el número de rachas essigni�cativamente pequeño o grande.

Si el tamaño muestral es grande, el p-valor será:

p ' 2 � P Z �

�����R � E (R)pVar(R)

�����!

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 14 / 16

Contrastes de hipótesis Ejemplo test de rachas

Ejemplo (problema 2.4)

X = "tiempo de funcionamiento (en cientos de horas) de cierto tipo deimpresoras antes de la primera avería"Se ha observado una muestra de diez impresoras (orden fabricación):

16.16 18.39 1.69 4.70 3.68 2.99 3.03 9.72 15.87 7.32

Contrastar la aleatoriedad de la muestra.

1 Se calcula la mediana = 4.70+7.322 = 6.01

2 Se obtienen las rachas:

16.16 18.39 1.69 4.70 3.68 2.99 3.03 9.72 15.87 7.32+ + - - - - - + + +

3 n1 = n2 = 5 y R = 34 p � valor = 2 � 0.04) se acepta (con poca "seguridad") laaleatoriedad

Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 15 / 16

Contrastes de hipótesis El contraste de Ljung-Box

El contraste de Ljung-Box

Test muy utilizado (en series de tiempo) para contrastar la hipótesisde independencia.Se contrasta la hipótesis nula de que las primeras m autocorrelacionesson cero: �

H0 : ρ1 = ρ2 = . . . = ρm = 0H1 : ρi 6= 0 para algún i

Se elige un m tal que la estimación r(m) de ρm = ρ(m) sea "�able".El estadístico del contraste:

Q = n(n+ 2)m

∑k=1

r(k)2

n� k �aprox .

χ2m�1, si H0 es cierta.

Se rechaza H0 si el valor observado es grande (Q � χ2m�1,1�α):

p = P�χ2m�1 � Q

�Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 16 / 16