Conceptos bÆsicos de inferencia estadística (IV...
Transcript of Conceptos bÆsicos de inferencia estadística (IV...
Conceptos básicos de inferencia estadística (IV):Inferencia no paramétrica:Contrastes de aleatoriedad.
Tema 1 (IV)
Estadística 2
Curso 08/09
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 1 / 16
Contrastes de aleatoriedad Introducción
Introducción
Los métodos ("clásicos") de inferencia estadística se basan en:
X1, . . . ,Xn m.a.s.de X
Por tanto suponen que X1, . . . ,Xn son independientes.
La ausencia de aleatoriedad es difícil de corregir y puede in�uirnotablemente en el análisis estadístico
Si existe dependencia entre las observaciones muestrales (i.e. elconocimiento de Xi proporciona información sobre los valores deXi+1, Xi+2, . . . ) los métodos estudiados no son válidos (puedenconducir a conclusiones erróneas).
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 2 / 16
Contrastes de aleatoriedad Introducción
Esto es debido principalmente a que introduce un sesgo en losestimadores de las varianzas (obtenidos bajo independencia)Por tanto, los correspondientes intervalos de con�anza ycontrastes de hipótesis tendrán una con�anza o una potenciadistinta de la que deberían.
Si X1 y X2 son independientes (Cov(X1,X2) = 0):
Var(X1 + X2) = Var(X1) + Var(X2)
En el caso general (dependencia):
Var(X1 + X2) = Var(X1) + Var(X2) + 2Cov(X1,X2)
Típicamente Cov(X1,X2) > 0 por lo que con los métodos "clásicos"(basados en independencia) se suelen producir subestimaciones de lasvarianzas (IC más estrechos y tendencia a rechazar H0 en contrastes).
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 3 / 16
Contrastes de aleatoriedad Introducción
Métodos para detectar dependencia
Sería de esperar que datos cercanos en el tiempo (o en el espacio)sean más parecidos (dependientes) que datos más alejados )dependencia temporal (espacial, espacio-temporal).
Métodos para detectar dependencia temporal:
Grá�cos:
Dispersión de variable frente a índice (tiempo) f(i ,Xi )gni=1Dispersión f(Xi ,Xi+1)gn�1i=1Correlograma
Contrastes:
Tests basados en rachasTest de Ljung-Box
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 4 / 16
Métodos grá�cos Grá�co secuencial
Grá�co secuencial
El grá�co de dispersión f(i ,Xi )gni=1 permite detectar la presencia de unadependencia temporal.
Es importante mantener/guardar el orden de recogida de los datos.Si existe una tendencia los datos no son homogéneos (debería tenerseen cuenta la variable índice, o tiempo, como variable explicativa).Podría indicar la presencia de un "efecto aprendizaje".
Independencia Tendencia (lineal)
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 5 / 16
Métodos grá�cos Grá�co secuencial
Valores próximos muy parecidos (valores grandes seguidos de grandesy viceversa) indicarían una posible dependencia positiva.
Valores próximos dispares (valores grandes seguidos de pequeños yviceversa) indicarían una posible dependencia negativa.
Dependencia positiva Dependencia negativa
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 6 / 16
Métodos grá�cos Grá�co de dispersion retardado
Grá�co de dispersion retardado
El grá�co de dispersión f(Xi ,Xi+1)gn�1i=1 permite detectar dependencias aun retardo (relaciones entre valores separados por un instante)
Independencia
Xi
Xi+1
XiXi
Xi+1Xi+1
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 7 / 16
Métodos grá�cos Grá�co de dispersion retardado
Dependencia positiva Dependencia negativa
Xi
Xi+1
XiXi
Xi+1Xi+1
Xi
Xi+1
XiXi
Xi+1Xi+1
Se puede generalizar al grá�co f(Xi ,Xi+k )g que permite detectardependencias a k retardos (separadas k instantes).
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 8 / 16
Métodos grá�cos El correlograma
El correlograma
Para estudiar si el grado de relación (lineal) entre Xi y Xi+k podemosutilizar el coe�ciente de correlación:
ρ (Xi ,Xi+k ) =Cov (Xi ,Xi+k )σ (Xi ) σ (Xi+k )
En el caso de datos homogéneos (estacionarios):
ρ (Xi ,Xi+k ) � ρ (k)
denominada función de autocorrelación simple (fas) o correlograma.
Su estimador es el correlograma muestral:
r(k) =∑n�ki=1 (Xi � X )(Xi+k � X )
∑ni=1(Xi � X )2
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 9 / 16
Métodos grá�cos El correlograma
En caso de independencia es de esperar que las autocorrelacionesmuestrales sean próximas a cero (valores "grandes" indicaríandependencia positiva o negativa según el signo).
Suponiendo normalidad e independencia, asintóticamente:
r(k) �aprox .
N�
ρ(k),1n
�Si el tamaño muestral es grande, podríamos aceptar H0 : ρ (k) = 0 si:
jr(k)j < 2pn
En el grá�co de autocorrelaciones muestrales (tambiéndenominado correlograma) se representan las estimaciones r(k) delas autocorrelaciones correspondientes a los primeros retardos(típicamente k < n/4) y las correspondientes bandas de con�anza(para detectar dependencias signi�cativas).
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 10 / 16
Métodos grá�cos El correlograma
Independencia
Retardo
16151413121110987654321
AC
Fes
t.
1,0
,5
0,0
,5
1,0
Retardo
16151413121110987654321
AC
Fes
t.
1,0
,5
0,0
,5
1,0
Dependencia positiva Dependencia negativa
Retardo
16151413121110987654321
AC
Fes
t.
1,0
,5
0,0
,5
1,0
Retardo
16151413121110987654321
AC
Fes
t.
1,0
,5
0,0
,5
1,0
Retardo
16151413121110987654321
ACF
est.
1,0
,5
0,0
,5
1,0
Retardo
16151413121110987654321
ACF
est.
1,0
,5
0,0
,5
1,0
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 11 / 16
Contrastes de hipótesis Test de rachas
Test de rachas
Permite contrastar si el orden de aparición de dos valores de una variabledicotómica es aleatorio.
Supongamos que X toma los valores + y �
Observamos una muestra del tipo:
++++���+++��++++++����y nos interesa contrastar:�
H0 : La muestra es aleatoriaH1 : La muestra no es aleatoria
Una racha es una secuencia de observaciones iguales (o similares):
++++| {z }1
���| {z }2
+++| {z }3
��|{z}4
++++++| {z }5
����| {z }6
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 12 / 16
Contrastes de hipótesis Test de rachas
Una muestra con muchas o pocas rachas sugeriría que la muestrano es aleatoria (con dependencia negativa o positiva, respec.).
Estadístico del contraste:
R = "No total de rachas en la muestra"
Bajo la hipótesis nula de aleatoriedad:
R �aprox .
N�1+
2n1n2n
,2n1n2(2n1n2 � n)
n2(n� 1)
�siendo:
n1 = no de signos + en la muestran2 = no de signos � (n1 + n2 = n)
Para tamaños muéstrales pequeños (n < 40), la aproximación anteriorno es buena y conviene utilizar la distribución exacta (o utilizarcorrección por continuidad). Los valores críticos de esta distribuciónestán tabulados.
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 13 / 16
Contrastes de hipótesis Test de rachas
Este contraste se emplea también para variables continuas, se �ja unpunto de corte para dicotomizarlas.
Normalmente se toma como punto de corte la mediana.
En este caso si k = n1 (' n2) y (si n ' 2k > 40):
R �aprox .
N�k + 1,
k(k � 1)2k � 1
�
Se rechaza la hipótesis nula de aleatoriedad si el número de rachas essigni�cativamente pequeño o grande.
Si el tamaño muestral es grande, el p-valor será:
p ' 2 � P Z �
�����R � E (R)pVar(R)
�����!
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 14 / 16
Contrastes de hipótesis Ejemplo test de rachas
Ejemplo (problema 2.4)
X = "tiempo de funcionamiento (en cientos de horas) de cierto tipo deimpresoras antes de la primera avería"Se ha observado una muestra de diez impresoras (orden fabricación):
16.16 18.39 1.69 4.70 3.68 2.99 3.03 9.72 15.87 7.32
Contrastar la aleatoriedad de la muestra.
1 Se calcula la mediana = 4.70+7.322 = 6.01
2 Se obtienen las rachas:
16.16 18.39 1.69 4.70 3.68 2.99 3.03 9.72 15.87 7.32+ + - - - - - + + +
3 n1 = n2 = 5 y R = 34 p � valor = 2 � 0.04) se acepta (con poca "seguridad") laaleatoriedad
Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 15 / 16
Contrastes de hipótesis El contraste de Ljung-Box
El contraste de Ljung-Box
Test muy utilizado (en series de tiempo) para contrastar la hipótesisde independencia.Se contrasta la hipótesis nula de que las primeras m autocorrelacionesson cero: �
H0 : ρ1 = ρ2 = . . . = ρm = 0H1 : ρi 6= 0 para algún i
Se elige un m tal que la estimación r(m) de ρm = ρ(m) sea "�able".El estadístico del contraste:
Q = n(n+ 2)m
∑k=1
r(k)2
n� k �aprox .
χ2m�1, si H0 es cierta.
Se rechaza H0 si el valor observado es grande (Q � χ2m�1,1�α):
p = P�χ2m�1 � Q
�Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 16 / 16