4.2.4 Prueba de Anderson - Darling

34
Cap ´ıtulo 2 Pruebas de bondad de a juste. 2.1 Pruebas de a juste simples. Dadas las observaciones (X 1 ,..., X n ) independientes, con distribuci´on F , de- seamos probar la hipo ´tesis nula H 0 : “F = F 0 ”. En principio, la hipo´tesis alternativa sera´ H: “F = F 0 ”, pero es posible que dentro de esta alternativa mu´ltiple haya algunas distribuciones para las que nos interese especialmente que la prueba tenga una buena potencia. A la hip´otesis H 0 se la llama hip´otesis de ajuste de la distribuci´on F 0 al modelo del cual proviene la muestra. Las pruebas de H 0 se llaman pruebas de ajuste . A lo largo del Siglo XIX, los modelos aleatorios se volvieron cada vez ma´s frecuentes y cada vez ma´s necesarios para describir la naturaleza. Un modelo se consideraba adecuado en tanto no presentara incoherencias evidentes con los resultados de la

Transcript of 4.2.4 Prueba de Anderson - Darling

Page 1: 4.2.4 Prueba de Anderson - Darling

Cap´ıtulo 2

Pruebas de bondad de a juste.

2.1 Pruebas de a juste simples.

Dadas las observaciones (X1 , . . . , Xn) independientes, con distribuci´on F , de- seamos probar la hipo´tesis nula H0 : “F = F0 ”. En principio, la hipo´tesis alternativa sera´ H: “F = F0 ”, pero es posible que dentro de esta alternativamu´ltiple haya algunas distribuciones para las que nos interese especialmente que la prueba tenga una buena potencia.

A la hip´otesis H0 se la llama hip´otesis de ajuste de la distribuci´on F0 al modelo del cual proviene la muestra. Las pruebas de H0 se llaman pruebas deajuste.

A lo largo del Siglo XIX, los modelos aleatorios se volvieron cada vez ma´s frecuentes y cada vez ma´s necesarios para describir la naturaleza. Un modelo se consideraba adecuado en tanto no presentara incoherencias evidentes con los resultados de la experiencia.

Reci´en en 1999 surgio´ la primera prueba de ajuste, a partir de la cual los cient´ıficos pudieron poner a prueba sus modelos e incluso seleccionar entre varios modelos propuestos para un mismo feno´menos, cu´ales con adecuados y cu´ales no lo son. Esa primera prueba es la llamada prueba χ2

de Pearson.

2.2 Generalidades sobre las pruebas de a juste.

Para decidir si se rechaza H0 :“F = F0 ” a partir de la informacio´n dada por la muestra aleatoria simple X1 , . . . , Xn de F , resulta natural estimar F por medio de la muestra, y comparar la estimacio´n con F0 .

Page 2: 4.2.4 Prueba de Anderson - Darling

El estimador de m´axima verosimilitud de F es la distribuci´on de probabili-

17

Page 3: 4.2.4 Prueba de Anderson - Darling

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

18

i=1

i=1

H0

H0

i=1

.

dades Fˆ para la que, si Y1 , . . . , Yn es una muestra de Fˆ, entonces la probabilidad de que resulte {Y1 , . . . , Yn} = {X1 , . . . , Xn} es m´axima. Esta probabilidad es positiva so´lo si Fˆ tiene probabilidades p1 , . . . , pn concentradas en X1 , . . . , Xn,y vale n!

n pi, cuando las Xi(i = 1 . . . , n) son todas diferentes.El m´aximo de este producto, con la condicio´n .n

pi ≤ 1, se produce

cuando todas las probabilidades son iguales: p1 = . . . = pn = 1/n.Como consecuencia, Fˆ es la distribuci´on emp´ırica Fn.Cuando Fn es cercana a F0 , no hay razones para rechazar H0 . En cambio,

cuando Fn dista mucho de F0 , vamos a rechazar H0 .No debe extran˜arnos entonces que las pruebas ma´s utilizadas tengan

como regi´on cr´ıtica {(X1 , . . . , Xn) : d(Fn, F0 ) > constante}, donde d es una distan-cia entre probabilidades, o una seudo - distancia, como suele llamarse a una funci´on con las propiedades de una distancia, excepto la que establece que d(F, G) = 0 implica F = G.

Las pruebas que incluimos en las secciones siguientes resultan de elegir adecuadamente d. La primera de ellas ha sido analizada en §??. Las otras dos han sido presentadas en §??, en el marco de aplicaciones del proceso emp´ırico,y ahora las estudiaremos con mayor detenimiento.

2.3 Prueba χ2 de a juste.Para probar la hipo´tesis H0 “F = F0 ” a partir de una muestra aleatoria simpleX1 , . . . , Xn de F , Karl Pearson propuso el siguiente procedimiento, que es enrealidad una prueba de ˜ “Para cada uno de los intervalos I de una particio´nfinita P de R, se cumple F (I ) = F0 (I )”, y, como consecuencia, una prueba aproximada de H0 en la medida que la particio´n P sea suficientemente fina.

Llamemos p0 al vector de las probabilidades F0 (I ) correspondientes a losintervalos de P , y p al de las probabilidades F (I ). Entonces, ˜ equivale a “p =p0 ”. Esta u´ltima es una hipo´tesis simple sobre el par´ametro p de la distribuci´on multinomial(n, p) del vector M cuyas componentes son las frecuencias M (I ) = nFn(I ) =

.n 1{Xi ∈I }, I ∈ P .Denotemos ahora P = {I1 , . . . , Ik }, y p0,j = F0 (Ij ), Mj = M (Ij ). El

estad´ıstico de Pearson esk

Qn = .

j=1

(nFn(Ij ) − np0,j )2

np0,j

k

= .

j=1

(Mj − EMj )2

EMj

Su distribuci´on bajo H0 depende de n y p0 , y puede obtenerse en cada caso mediante el c´alculo directo a partir de la distribucio´n multinomial, o por si-

Page 4: 4.2.4 Prueba de Anderson - Darling

mulaci´on. Su distribuci´on asinto´tica para n → ∞ es χ2 con k − 1 grados

Page 5: 4.2.4 Prueba de Anderson - Darling

√n

k−1

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

20

de libertad. En la secci´on siguiente se aportan argumentos basados en la utilizaci´on de la distribucio´n normal asinto´tica de la multinomial, o bien en el comportamiento asinto´tico del cociente de verosimilitudes, para obtener la mencionada distribucio´n asinto´tica.

2.3.1 La distribucio´n aproximada del estad´ıstico de Pear- son para n grande.

La esperanza de 1{Xi ∈I } es P{X1 ∈ I }, de modo que EM = np. Las covarian- cias Cov(1{Xi ∈I }, 1{Xi ∈J }) valen

E1{Xi ∈I }1{Xi ∈J } − E1{Xi ∈I }E1{Xi

∈J }

= P{Xi ∈ I, Xi ∈ J } − P{Xi ∈ I }P{Xi ∈ J }

de manera queVarM = nΣ, con Σ = diagp − pptr .

El Teorema del L´ımite Central permite deducir que la distribucio´n asinto´- tica de 1 (M − np) es Normal(0, Σ). La matriz Σ es singular, porque cuando u = (1, 1, . . . , 1)tr , Σu = diagpu − pptr u = 0. El recorrido de la transformacio´n lineal x → Σx es ortogonal a u, porque utr Σx = xtr Σu = 0.

Observemos que un vector Z ∼Normal(0, Σ) est´a contenido con probabili- dad 1 en el complemento ortogonal u⊥ de u, ya que la variable aleatoria (u, Z )= utr Z tiene esperanza Eutr Z = 0 y variancia Varutr Z = utr Σu = 0.

Llamemos Π a la matriz de la proyeccio´n ortogonal sobre el complemento deu, es decir, Π = I − uutr /n. Denotamos por T a la matriz de la transformacio´nlineal que, como la asociada a Σ, tiene por nu´cleo al subespacio generado por u, y recorrido u⊥, y cuya restricci´on a u⊥ es la inversa de la restricci´on de Σ al mismo subespacio, es decir, T Σ = Π. Un c´alculo directo permite verificarque T = Π(diagp)−1Π, ya que Π(diagp)−1 ΠΣ = Π(diagp)−1(diagp − pptr ) = Π(I − uptr ) = Π.

El c´alculo anterior permite confirmar que el recorrido de Σ no so´lo es or- togonal a u sino que es u⊥. Como Σ es sim´etrica, T tambi´en lo es, y tiene una ra´ız cuadrada sim´etrica T 1/2 . El vector T 1/2 Z tiene variancia T 1/2

Σ(T 1/2 )tr

= Π, y ¦T 1/2Z ¦2 = Z tr TZ ∼ χ2 .Por lo tanto la forma cuadra´tica

Page 6: 4.2.4 Prueba de Anderson - Darling

−1k1 trQ = √

n (M − np) (diagp)

1√

n (M − np) =

. (Mi − npi)2

npi=1 i

Page 7: 4.2.4 Prueba de Anderson - Darling

Q > χ

√n

¦

¦ 2

Y

k 1

h

Mh

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

22

tiene distribuci´on asinto´tica χ2 con k − 1 grados de libertad, cuando P consta de k intervalos.

Por este motivo, la prueba con regio´n cr´ıtica

2k−1,1−α

tiene nivel asint´otico α para n grande.

2.3.2 Una deduccio´n alternativa de la distribucio´n asin- t´otica de Q ba jo H0.

El argumento constructivo de la seccio´n anterior puede reemplazarse por el siguiente, mucho ma´s directo, pero basado en un artificio que resulta explicable una vez que se conoce el resultado.

Hemos visto que 1 (M −np) es asint´oticamente Normal(0, Σ), de modo que

deseamos establecer que, si Y ∼ Normal(0, Σ), entonces Q∞ = Y tr (diagp)−1Y= ¦(diagp)−1/2Y 2tiene distribuci´on

χ2con k − 1 grados de libertad.

Consideremos ahora un vector Z = (Z1 , . . . , Zk )tr normal t´ıpico en Rk

. Su proyecci´on sobre el vector de norma uno v = (√

p1 , . . . , √

pk )tr es

vvtr Z ,y, como consecuencia, su proyeccio´n sobre el complemento ortogonal de v esZ − vvtr Z . Por tratarse de la proyeccio´n de un vector normal t´ıpico sobre unsubespacio de dimensi´on k − 1, se cumple ¦Z − vvtr Z 2

∼ χk −1.

La variancia de la proyeccio´n es Var(I − vvtr )Z = (I − vvtr )VarZ (I − vvtr )= (I − vvtr )2 = I − vvtr . Por otra parte, la variancia de (diagp)−1/2Y es(diagp)−1/2 Σ(diagp)−1/2 I − (diagp)−1/2 pptr (diagp)−1/2 = I − vvtr . En resumen,(diagp)−1/2 Y y la proyecci´on (I − vvtr )Z de Z tienen la misma distribucio´n,y esto nos permite concluir que Q∞ = ¦(diagp)− 1/2 2¦ tiene la misma dis-tribuci´on que la norma al cuadrado de la proyeccio´n, es decir, χ2 .−

2.3.3 An´alisis a partir del cociente de verosimilitudes.Consideremos la prueba del cociente de verosimilitudes de la hipo´tesis nula H0

“p = p0 ” contra la alternativa H1 “p = p0 ”, a partir de las observaciones Mde la distribuci´on multinomial (n, p).

k MhLa verosimilitud de la muestra es n!kh=1

Mh ! h=1 ph , y el estad´ıstico de

m´axima verosimillitud de p es M/n, de modo que el cociente de verosimilitudesk M

pvale λ = h =1 0 ,h .k

h=1 (Mh /n)

El par´ametro p est´a en el espacio de para´metros Θ formado por los vectores de Rk cuya suma de componentes vale 1. La dimensio´n de este espacio es k −1.

Page 8: 4.2.4 Prueba de Anderson - Darling

2

k k

2

.

2

2 2

Como consecuencia, la distribucio´n asinto´tica de −2 log λ es χ2 con k −1 grados de libertad.

Vamos a calcular

k

−2 log λ = 2 .

Mh

log(Mh/np0,h).h=1

El desarrollo de Taylor log(1 + x) = x − 1 x2 + Ax3 , A acotado, nos conduce a

1 2log(Mh/np0,h) = (Mh/np0,h − 1) − 2

(Mh/np0,h − 1) + A(Mh/np0,h − 1)3

y entonces

k

−2 log λ = 2 .

Mh[(Mh/np0,h − 1) −

h=1

1(Mh/np0,h − 1)2 + A(Mh/np0,h − 1)3 ].

El sumando que contiene la constante A se acota por

k

2A .

Mh(Mh/np0,h − 1)3 ≤ 2A max

Mh Mh − np0,hk (Mh − np0,h)2

h=1h np0,h np0,h h=1 np0,h

≤ 2A

de modo que −2 log λ es asint´oticamente equivalente a

k

2 .

Mh[(Mh/np0,h − 1) −

h=1

1(Mh/np0,h − 1)2 ] =

k

=∼

2 .

Mh

. Mh

.k 2

− 1 = 2 .

h − 2nh=1 np0,h h=1

np0,h

= . (Mh −

np0,h)

k

+ .

(Mh − np0,h) = . (Mh − np0,h)

.

h=1 np0,h h=1 h=1 np0,h

Page 9: 4.2.4 Prueba de Anderson - Darling

h=1

k 1

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

24

Concluimos como consecuencia que .k (Mh −np0,h )

2

np0,htiene distribuci´on asin-

t´otica χ2− para n grande.

Page 10: 4.2.4 Prueba de Anderson - Darling

= 4 5 2n2 /(Φ−1(1 − α))2

k

2.3.4 La seleccio´n de los intervalos de particio´n.

La arbitrariedad con que puede partirse el recorrido de la variable aleatoria es una caracter´ıstica que da a la prueba χ2 una gran versatilidad, y, al mismo tiempo, constituye una debilidad de la misma. Lo primero llega al extremo de que, sin ningu´n cambio, la prueba es aplicable al ajuste de distribuciones multivariantes, por ejemplo. Lo segundo es causa de que los diferentes criterios para el disen˜o de la prueba sean relativamente complicados.

Estos criterios se vuelven relativamente simples cuando la meta es con- seguir una prueba cuyo estad´ıstico tenga una distribucio´n que se aproxime r´apidamente a la asinto´tica (este no es un argumento de calidad de cara´cter estad´ıstico, sino simplemente de comodidad para el usuario). En ese caso, estudios emp´ıricos muestran que conviene utilizar (k) clases con iguales pro- babilidades (1/k), con valor esperado de observaciones por clase (n/k) no de- masiado pequen˜o, al menos 1 o 2 (tanto mayor cuanto ma´s pequen˜o sea el nivel de la prueba).

Una recomendacio´n tradicional, popularizada hace varias d´ecadas, que es- tudios posteriores han mostrado que es excesivamente conservativa, es que la esperanza del nu´mero de observaciones en cada clase de la particio´n sea al menos 5. Una recomendacio´n de Mann y Wald para k celdas equiprobables, eselegir k

. cuando la muestra tiene taman˜o n

(grande)y el nivel de la prueba es α.

2.3.5 Los valores cr´ıticos.

Es recomendable la utilizacio´n de particiones con iguales probabilidades, es decir, p0 = 1 (1, 1, . . . , 1)tr .

En ese caso, los valores cr´ıticos cα tales que

P{Qn > cα} = α (2.1)

dependen s´olo de n, k.Se observara´

que Qn es una variable aleatoria discreta, que so´lo puede

asumir un nu´mero finito de valores. Por ese motivo, la ecuacio´n (2.1) debereemplazarse por

P{Qn > cα} ≤ α, P{Qn ≥ cα} > α.

Page 11: 4.2.4 Prueba de Anderson - Darling

j=j(α) j=j(α)+1

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

26

Esto implica que cα es uno de los valores que alcanza la variable aleatoria Qn. Si estos valores se ordenan de manera creciente: q1 < q2 < . . . < qm,

entoncescα = qj(α) cuando

.m P{Qn = qj } > α, y .m P{Qn = qj } ≤ α.

Page 12: 4.2.4 Prueba de Anderson - Darling

Tabla 2.1: Valores de k dados por la fo´rmula de Mann y Wald, y esperanza del nu´mero de observaciones por celda en cada caso.

nα = .10 α = .05 α = .01

k n/k k n/k k

20253035404550556065707580859095

100150200250300350400450500

14151617181920212122232324252526263135384143464850

1.42861.66671.87502.05882.22222.36842.50002.61902.85712.95453.04353.26093.33333.40003.60003.65383.84624.83875.71436.57897.31718.13958.69579.3750

10.0000

12141516161718191920212122222323242831343739414345

1.66671.78572.00002.18752.50002.64712.77782.89473.15793.25003.33333.57143.63643.86363.91304.13044.16675.35716.45167.35298.10818.97449.7561

10.465111.1111

11121314141516161717181819192020212427303234363839

10.294111.111111.842112.8205

Page 13: 4.2.4 Prueba de Anderson - Darling

= 4 5 2n2 /(Φ−1 (1 − α))2

45

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

28

k 50

α = .1040

α = .0535

30 α = .01

25

20

15

10 0 50 100 150 200 250 300 350 400 450 500

n

Figura 2.1: Gra´fico de k .

para α = .1, .05 y .01

La Tabla 2.2 indica valores de cα estimados mediante una simulacio´n basada en 10.000 replicaciones, correspondientes a α = 5% para varios valores de n, k,e incluye el valor asinto´tico en la l´ınea n = ∞. Los resultados muestranque la aproximacio´n resultante de reemplazar cα por el valor l´ımite cuandon → ∞ es buena. Muestran tambi´en que se requiere una simulaci´on m´asprecisa, basada en un nu´mero considerablemente mayor de replicaciones, para describir adecuadamente la evolucio´n de c en funci´on de n, ya que resulta m´as razonable atribuir las fluctuaciones observadas a medida que n crece a los errores de la simulacio´n que al comportamiento de los verdaderos valores cr´ıticos.

2.4 Prueba de a juste de Kolmogorov.

En el mismo nu´mero de la revista Giornale dell’Istituto Italiano degli Attuari, que dirig´ıa F. P. Cantelli, de enero de 1933, aparecieron un art´ıculo de V. Glivenko 1 en el que muestra la validez del hoy llamado Lema de Glivenko - Cantelli y el art´ıculo en que A. N. Kolmogorov propone la prueba que lleva su nombre 2

1 Sulla determinazione empirica delle leggi di probabilita`, pp. 92-99.

Page 14: 4.2.4 Prueba de Anderson - Darling

2 Sulla determinazione empirica di una legge di distribuzione, pp. 83 - 91.

Page 15: 4.2.4 Prueba de Anderson - Darling

Tabla 2.2: Valores cr´ıticos para la prueba χ2 de Pearson de nivel 5%, corres- pondientes a k clases equiprobables, y muestras de taman˜o n.

n k3 4 5 6 7 8 9 10 11

5101520253035404550556065707580859095100∞

5.20006.20005.20006.10005.84005.60005.71436.05005.73335.92006.14556.10005.93855.94296.08006.02506.09416.06675.95796.02005.9915

7.60007.66677.60007.48007.86677.62867.60007.53337.76007.61827.60007.67697.82867.50677.40007.84717.68897.69477.60007.8147

9.00008.66679.00009.20009.33339.42869.25009.55569.40009.63649.33339.53859.42869.46679.50009.29419.66679.26329.60009.4877

10.400011.000010.600010.760011.200010.771411.000010.866710.960010.781810.800010.784610.914311.000011.050010.929410.933310.915810.880011.0705

12.533312.200012.240012.466712.400012.500012.711112.440012.581812.800012.430812.400012.640012.400012.423512.355612.800012.560012.5916

14.333313.600014.360013.733314.142914.000013.844414.000014.090913.866714.138514.114314.066713.800013.917614.177814.052613.920014.0671

15.600015.100014.960015.600015.142915.350015.200015.520015.527315.600015.446215.371415.120015.400015.694115.600015.368415.200015.5073

16.333317.000017.000016.666716.714316.500016.555616.800017.181816.666716.692317.142916.866717.000017.000016.666716.894716.600016.9190

17.400017.680018.400018.114318.300018.311118.200018.400018.100018.092318.314318.133318.450018.141218.533318.357917.920018.3070

n k12 13 14 15 16 17 18 19 20

20253035404550556065707580859095

100∞

19.600019.640019.600019.514319.400019.266719.600019.836419.600019.369219.485719.560019.600019.611819.600019.315819.760019.6751

20.300021.280021.133320.342921.100021.155620.720021.345520.600020.800020.628621.200020.750020.988220.933320.905320.900021.0261

22.600022.266722.200022.300022.511122.240022.127322.133322.230822.000022.253322.200022.223522.311122.452622.640022.3620

23.600024.000022.857123.750024.000023.800023.818223.500023.846223.857123.600023.500023.529423.666723.578923.600023.6848

24.280025.466724.885724.800024.333325.520024.418224.800024.846225.085725.053325.200025.117625.200025.084224.800024.9958

26.666726.685726.300025.644426.160026.290926.133325.753826.171426.320026.250026.400026.355626.147426.140026.2962

27.600028.257127.500027.400027.760027.145527.600027.769227.714327.000028.000027.447127.200027.210527.440027.5871

29.533328.514329.350028.888929.040028.945529.300028.830829.342928.613329.250028.776529.066729.200028.820028.8693

30.000029.571430.000030.111130.000030.454530.000030.076930.000029.800030.000030.058830.000030.263230.000030.1435

Page 16: 4.2.4 Prueba de Anderson - Darling

j=1

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

26

Tabla 2.3: Valores cr´ıticos del estad´ıstico de Kolmogorov √

nD obtenidos pormedio de una simulaci´on basada en 200.000 replicaciones.

10% 5% 10% 5% 10% 5%56789

10111213

1.1361.1441.1541.1571.1621.1671.1671.1681.176

1.2581.2711.2791.2851.2921.2951.2971.2991.307

141516171819202530

1.1761.1771.1791.1831.1841.1811.1831.1881.191

1.3071.3071.3101.3141.3161.3121.3141.3201.326

35404550607080100∞

1.1971.2011.2021.2061.2031.2051.2051.2091.224

1.3301.3371.3351.3341.3361.3411.3391.3401.358

El estad´ıstico de Kolmogorov es D = sup |Fn(x) − F (x)|, la prueba tiene regi´on cr´ıtica

√nD > cn(α), con cn(α) elegido para que el nivel sea α,

y en elart´ıculo mencionado, Kolmogorov muestra

(i) que la distribucio´n de D cuando se cumple H0 “F = F0 ” es la misma para cualquier distribucio´n F0 continua, y

(ii) que limn→∞ cn(α) = c(α), soluci´on de α = 2 .∞ (−1)j−1

e−2j2 c2 (α).

La Tabla 2.3 describe de manera emp´ırica la variacio´n de cn(α) con n.

Un c´alculo exacto de la probabilidad gn(a) = P{Dn > a} podr´ıa hacerseintegrando la densidad n! de la distribuci´on de probabilidades de la muestraordenada U(1) , U(2) , . . . , U(n) de la distribuci´on uniforme en [0, 1], en la regio´n definida por las desigualdades |Fn(u) − u| < a, 0 < u < 1. Se trata de unnu´mero infinito de desigualdades, una para cada u en [0, 1], pero para que todas se cumplan basta que los puntos de coordenadas (U(i), (i − 1)/n), (U(i), i/n), i = 1, 2, . . . , n est´en en la banda {(u, y) : 0 < u < 1, u − a < y < u + a}.

Para que esto ocurra es necesario y suficiente que los puntos medios de los segmentos verticales del gra´fico de la funci´on de distribuci´on emp´ırica - todosellos de longitud 1/n - disten menos de a − 1/2n de la diagonal, de maneraque 1 − gn(a) es el producto de n! por la medida (longitud, a´rea, volumen ...)de la regi´on de Rn formada por los puntos u = (u1 , . . . , un) que verifican

Page 17: 4.2.4 Prueba de Anderson - Darling

lasecuaciones

|(i − 1/2)/n − ui| < a − 1/2n, i = 1, 2 . . . , n.

Page 18: 4.2.4 Prueba de Anderson - Darling

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

28

Ejemplo 2.4.1 El c´alculo directo mediante la integracio´n de la densidad con- junta es inabordable para valores grandes de n como lo muestra el siguiente an´alisis para algunos valores pequen˜os:

n = 1 Las desigualdades se reducen a |1/2 − u| < a − 1/2, que define paraa > 1/2 un intervalo de longitud min(2a − 1, 1). De all´ı resulta g1 (a) = 1 − min(2a − 1, 1) = 2(1 − a)+ (la notacio´n x+ = max(x, 0) indica laparte positiva de x).

n = 2 Las desigualdades |1/4 − u1 | < a − 1/4, |3/4 − u2 | < a − 1/4 definen un cuadrado cuya interseccio´n con [0, 1]2 tiene lado 2(a − 1/4) cuando1/4 < a ≤ 1/2. Luego, para 1/2 < a ≤ 1, el lado es 1/4 + (a − 1/4) = a,y para a > 1 la intersecci´on es todo el cuadrado unitario, y el lado es constante igual a 1.

u2

//

//

3/4 //

//

//

//

//

//

//

//

Figura 2.2: Regiones de integracio´n para el ca´lculo de la distribucio´n de D2

.

Estos cuadrados esta´n contenidos en el primer caso en la regio´n de in- tegracio´n o recorrido de la variable 0 ≤ u1 ≤ u2 ≤ 1, y en el segundo

Page 19: 4.2.4 Prueba de Anderson - Darling

n

2

caso tienen fuera de esa regio´n un tria´ngulo de a´rea 2(a − 1/2)2 . Como consecuencia,

1 − 2(2a − 1/2) = 1/2 + 4a − 8a2 si 1/4 < a ≤ 1/2g2 (a) = 1 − 2(a2 − 2(a − 1/2)2 ) si 1/2 < a ≤ 1 0 si 1 < a.

La Figura 2.3 muestra los gra´ficos de las funciones g1 y g2 obtenidas en el Ejemplo precedente, y tambi´en de g3 y g4 calculadas mediante integracio´n num´erica.

g1

g2

g3g4

Figura 2.3: Representacio´n gra´fica de gn(a) = P{Dn > a} para n = 1, 2, 3, 4.

2.5 Pruebas de a juste de Cram´er - von Mises.

Los estad´ısticos de Cram´er - von Mises son de la forma

Qn = n¸ ∞ ¸ ∞

(Fn(x) − F0 (x))2 ψ(F0 (x))dF0 (x) = −∞ −∞

b2 (F0 (x))ψ(F0 (x))dF0 (x),

(2.2)

Page 20: 4.2.4 Prueba de Anderson - Darling

0

0

in

donde Fn es la funci´on de distribuci´on emp´ırica de una la muestra aleatoria simple X1 , . . . , Xn de cierta distribuci´on F que suponemos continua.

El cambio de variables u = F0 (x) permite escribirlos de manera equivalentecomo Qn = n

¸ 1 (Fn(F −1 (u)) − u)2 ψ(u)du. Dado que las variables Ui = F0 (Xi)0 0

constituyen una muestra aleatoria simple de la distribucio´n uniforme, y que la funci´on en escalera Fn(F −1(u)) es la funci´on de distribuci´on emp´ırica de esamuestra, esta u´ltima escritura muestra que la distribucio´n de Q no depende de F0 cuando F = F0 .

Muestra tambi´en que la distribuci´on l´ımite para n → ∞ del estad´ıstico Qn

es la de ¸ 1 b2 (u)ψ(u)du, donde b es un puente browniano t´ıpico.

Llamemos X(1) , . . . , X(n) a los estad´ısticoa de orden que se obtienen or- denando la muestra de menor a mayor. El estad´ıstico Qn puede calcularse teniendo en cuenta que en cada intervalo de la forma (X(i), X(i+1) ), la funci´on Fn(x) es constante, igual a i/n. Esta observacio´n vale para i = 0, 1, . . . , n conla convenci´on X(0) = −∞, X(n+1) = ∞. A partir de esta observacio´n podemosescribir

n

Qn = n .

i=0

¸ X(i+1)

(X(i)

n

−F0 (x))2 ψ(F0 (x))dF0 (x) = n .

i=0

¸ F0 (X(i+1) )(

F0 (X(i) )

iu)2 ψ(u)du.

n

El c´alculo expl´ıcito de estas integrales, cuya eventual dificultad depende de la selecci´on de la funci´on ψ, permite reducir la expresi´on que define al estad´ıstico Qn a una suma finita que depende de la muestra a trav´es de las variables aleatorias uniformes F0 (Xi). Encontramos de nuevo de esta manera que la distribuci´on de Qn no depende de cu´al sea la distribucio´n F0

. So´lo depende de n y de cu´al sea la funci´on ψ.

2.5.1 El estad´ıstico de Cram´er - von Mises propiamente dicho.

La prueba propuesta por Cram´er y von Mises se basa en el estad´ıstico (2.2)correspondiente a ψ(u) = u.

El estad´ıstico se calcula en la forma

n

Qn = n .

i=0

¸ F0 (X(i+1) ) i(

F0 (X(i) ) n

n

− u)2 du = n .

i=0

¸ F0 (X(i+1) ) i2

(F0 (X(i) ) n2

2iu− n

+ u2 )du

1 n n ¸ 1

Page 21: 4.2.4 Prueba de Anderson - Darling

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

30

=.

i2 [F0 (X(i+1) ) − F0 (X(i) )] − .

i[F 2 (X(i+1) ) − F 2

(X(i))] + nu2 du

n i=00 0

i=0 0

Page 22: 4.2.4 Prueba de Anderson - Darling

0

0

0

i=1 0

0

3

1 n+11 n n+1 n n

=.

(i−1)2 F0 (X(i)) −

. i2 F0 (X(i) ) −

. (i−1)F 2 (X(i) )+

. iF 2 (X(i))+

n i=1

n2 1

n i=0

n

0i=2

n

0i=1

n= +

.(1 − 2i)F0 (X(i) ) − n +

. F 2 (X(i)) +

n n i=1

n . 2i − 1 .2 n

.

i2

i=1

i

3

1 .

n

= .

i=1

F0 (X(i) ) −2n

.−

i=1 n2 −

n2 + 4n2

+ 3

n

= .

i=1

.

F0 (X(i) ) −2i − 1

.2

2n − n(n + 1)(2n + 1)

6n2 +

n(n + 1)2n2

n n−

4n2 +

3n

= .

i=1

.

F0 (X(i) ) −2i 1

.2

+2n

1.

12n

2.5.2 Sobre la distribucio´n asinto´tica del estad´ıstico deCram´er - von Mises.

Ya hemos observado que Qn converge en ley a Q = ¸ 1 b2 (u)du. Para

describir la distribuci´on de Q, tomemos una sucesi´on de funciones f1

, . . . , fn, . . . queconstituyan un sistema ortonormal completo en el espacio L = {f : [0, 1] → R :Ef 2 (U ) < ∞, U ∼ Unif[0, 1]}, con el producto interno (f, g) =

¸ 1 f (u)g(u)du.En ese caso, del desarrollo de Fourier b(u) =

.∞ fi(u) ¸ 1 fi(v)b(v)dv re-

sulta ¦b¦2 = ¸ 1 b2 (u)du = .∞ (

¸ 1 fi(v)b(v)dv)2 .0 i=1 0

Las variables ¸ 1fi(v)b(v)dv tienen distribuci´on normal conjunta, con espe-

ranzas cero y covariancias¸ 1 ¸ 1

E fi(v)b(v)dv0 0

fj (v)b(v)dv =¸ 1 ¸ 1

fi(u)[0 0

(Eb(u)b(v))fj (v)dv]du.

Esta expresi´on se simplificar´ıa notablemente si se cumpliera¸ 1

(Eb(u)b(v))fj (v)dv = λj fj (u) (2.3)0

para algu´n valor de λj , porque en ese caso tendr´ıamos

¸ 1

Cov(0

¸ 1

fi(u)b(u)du,0

¸ 1

fi(v)b(v)dv) = 0fi(u)λj fj (u)du

. 0, si i = j, λi, si i = j.

Vamos a verificar que las funciones fj pueden elegirse de manera que se cumpla (2.3), es decir:

¸ 1

Page 23: 4.2.4 Prueba de Anderson - Darling

0

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

32

(u ∧ v − uv)fj (v)dv = λj fj (u).

Page 24: 4.2.4 Prueba de Anderson - Darling

−1

0

0

.

Z 2

0

− −

Veamos en primer lugar qu´e funciones f cumplen¸ 1

λf (u) = 0

¸ u(u ∧ v − uv)f (v)dv = (1 − u)

¸ 1vf (v)dv + u

u

f (v)(1 − v)dv.

Al derivar esta ecuacio´n una vez, encontramos¸ u

λf t(u) = 0

¸ 1vf (v)dv + u(1 u)f (u) +

u

f (v)(1 − v)dv − u(1 − u)f (u),

¸ 1

= vf (v)dv +0

¸ 1

f (v)dv.u

Una nueva derivacio´n muestra que f debe cumplir λf tt(u) = −f (u). Las soluciones de esta ecuaci´on son de la forma a cos(u/

√λ) + b sin(u/

√λ).

La ecuaci´on de partida muestra que f (0) = f (1) = 0, y esto implica que, de las funciones trigonom´etricas indicadas, s´olo podemos conservar las de laforma fi(u) = bi sin(u/

√λi), con 1/λi = i2 π2 . Para que las funciones fi tengan

norma 1, se requiere elegir bi = √

2.Es conocido que el sistema de las funciones trigonom´etricas 1, sin(nt),

cos(nt) (n = 1, 2, . . .) es un sistema completo en el intervalo [−π, π], y, de maneraequivalente, que 1, sin(nπu), cos(nπu) (n = 1, 2, . . .) son un sistema com-pleto en [−1, 1]. Esto significa que cuando

¸ 1

L2 ([−1, 1]) con su desarrollo en serie de Fourier.f 2 (x)dx < ∞, f coincide en

Por este motivo, si ¸ 1 f 2 (u)du < ∞, entonces la funci´on impar f˜ igual

af en [0, 1] coincide en L2 ([−1, 1]) con su desarrollo en serie de Fourier, que esun desarrollo de senos, porque los coeficientes de los cosenos son todos nulos, debido a que f˜ es impar. Esto implica que f coincide en L2 ([0, 1]) en [0, 1] con su desarrollo en serie de Fourier de senos.

Un c´alculo directo muestra que las funciones fi(u) = √

2 sin(nπu) cumplenlas condiciones que muestran que

¸ 1 b2 (u)du tiene la distribuci´on de la suma∞ 1

i , con Z1 , Z2 , . . . i.i.d. normales t´ıpicas. Se trata de una distribucio´n

i=1 i2 π2

con puntos de contacto con las distribuciones χ2 . En vez de una suma finitade cuadrados de variables normales t´ıpicas independientes, como es el caso de las distribuciones χ2 , se trata de una suma infinita de tales cuadrados, pero multiplicados por coeficientes diferentes, que tienden a cero de modo que la

∞ 1variancia (que en este caso vale

.

i=1 i2 π2 = 1/6) es finita.

2.5.3 La prueba de Anderson y Darling.

Page 25: 4.2.4 Prueba de Anderson - Darling

n

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

34

El estad´ıstico de Anderson - Darling integra los cuadrados b2 de los apartamien- tos del proceso emp´ırico respecto de su esperanza (nula bajo H0 ) medidos

Page 26: 4.2.4 Prueba de Anderson - Darling

n

A2 n

b (u)

√n

¸

n

¸ .2

n √

=

¸ 1

11

n

en relaci´on a Varb2 (x) = F0 (x)(1 − F0 (x)). En otras palabras, se utilizaψ F0 (x)) = 1 .(

F0 (x)(1−F0 (x))Como en el caso de la Prueba de Cram´er - von Mises, puede obtenerse una

f´ormula para calcular el estad´ıstico¸ 1 b2 (F0 (x))

n 0 F0 (x)(1 − F0 (x))dF0 (x)

mediante una suma finita, y puede describirse la ley asinto´tica, que es la de2

0 u(1−u) du como la de una serie del mismo tipo que la encontrada en el caso

de Cran´er - von Mises.

2.6 Pruebas de a juste a la familiaF = {L(µ + σX ) : L(X ) = F0, µ ∈ R, σ ∈ R+}.

Para probar H0 :“F ∈ F ”, pueden estimarse µ y σ2 mediante µˆ = 1 .n

Xi,n i=1

σˆ2 = 1 .n (Xi − µˆ)2 . Luego se tipifica la muestra en la forma Yi = Xi − µˆ yn i=1 σˆ2

se aplica a Y1 , . . . , Yn una prueba de ajuste a la distribucio´n F0 , adaptada a lacircunstancia de que la muestra tipificada no es i.i.d., ya que las variables noson independientes, puesto que en todas intervienen µˆ y σˆ2 .

El promedio de la muestra µˆ = X¯ = ¸

xdFn(x) = µ + 1

xdb(X ) se expresa

convenientemente a partir de la funcio´n de distribuci´on emp´ırica o del procesoemp´ırico.

Lo mismo ocurre con el estimador de la variancia, σˆ2 = 1 .n (Xi − X¯ )2

= ¸

(x − X¯ )2 dFn(x) = σ2 + 1

n

(x − µ)2 db(X ) − 1 .

xdb(X ) .

i=1

√n

¸n n n

Introducimoe el proceso emp´ırico estimado

ˆb (y) = 1

n

n.

i=1

.{Yi ≤y}− F0 (y)

. 1= √

n

n.

i=1

.{Xi ≤X¯

+sy}− F0 (y)

.

1= √

n

n.

i=1

.

1 s{Zi ≤y+( σ −1)y+X¯ −µ

σ }

.

− F0 (y) .

El proceso emp´ırico de las variables tipificadas Z1 = X1 − µ , . . ., Zn = Xn − µ

es

b(Z )

σ σ

1 . . .

Con la notacio´n

n (x) = √ni=1

1{Zi ≤x} − F0 (x) .

Page 27: 4.2.4 Prueba de Anderson - Darling

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

36

yn = y +.

s.

σ − 1 y +

X¯ − µ

Page 28: 4.2.4 Prueba de Anderson - Darling

n

n n n

n

escribimosˆbn(y) = b(Z )(yn) +

√n (F0 (yn) − F0 (y)) .

Como consecuencia, de b(X ) (x) = b(Z ) .

x− µ ., obtenemosn n σ

X¯ − µ =

1

¸

zdb(Z )

σ

s2 1

¸

√n

2 (Z )

n (z),

1 .¸

(Z ) .2

y entonces

σ2 = 1 + √

nz dbn (z) −

nzdbn ,

1 ¸

(Z ) y¸

2 (Z )√

yn = y + √n

zdbn (z) + 2√

nz dbn (z) + o(1/ n).

Como consecuencia, si F0 tiene densidad f0 , podemos escribir

ˆbn(y) = b(Z )(yn) + zdb(Z )(z) + y

¸

2

.

z2 db(Z )(z) f0 (y) + o(1/√

n).

Puesto que b(Z ) tiene la distribuci´on asinto´tica del puente browniano b(F0 ) asociado a F0 , bajo “F = F0 ”, la distribucio´n l´ımite del proceso emp´ırico estimado ˆbn(y) es tambi´en gaussiana. El l´ımite de las covariancias muestra que esta distribuci´on asinto´tica es la de

b(F0 )(y) + zdb(F0 )(z) + y

¸

2

.

z2 db(F0 ) (z) f0 (y). (2.4)

Se observara´

que el procedimiento de estimacio´n de los para´metros pro-

porciona estimadores que no son invariantes respecto de la transformacio´n can´onica X → F0 (X ). Por ese motivo, la distribucio´n de los estad´ısticos que describen el taman˜o de ˆbn no es independiente de la distribuci´on F0 , o ma´s pre-cisamente, no es independiente de la familia de distribuciones de probabildad que interviene en la hip´otesis nula de ajuste. Por ese motivo, los procedimien- tos basados en lo que precede requieren la determinacio´n de los valores cr´ıticos para cada F0 en particular.

Una prueba ana´loga puede realizarse para cualquier otra familia de dis-tribuciones que sea la m´ınima familia cerrada bajo cambios de posicio´n o de dispersi´on que contiene a una distribucio´n F0 dada. Por lo que acabamos de indicar, el procedimiento es el mismo, pero los valores cr´ıticos tienen que ser calculados nuevamente, para cada familia.

Page 29: 4.2.4 Prueba de Anderson - Darling

Enrique M. Caban˜a.

Cap´ıtulo 2: Pruebas de bondad de

34

2.6.1 Un ejemplo: La prueba de normalidad de Lil- liefors.

La utilizacio´n del estad´ıstico de Kolmogorov Dˆ n = sup |Fˆ

n −Φ|, donde Fˆn(y) =

1 .nn i=1 1{Yi ≤y} dentro del contexto precedente, conduce a la llamada Prueba de

Lilliefors de regi´on cr´ıtica Dˆ n > cˆn(α).

Intuitivamente, es de esperar que, si la muestra tiene distribucio´n normal,la muestra tipificada estimada est´e m´as cerca de la distribuci´on normal t´ıpicaque la muestra tipificada con los verdaderos para´metros, ya que µˆ

y σˆ2 son

los para´metros de la distribucio´n normal que mejor se ajusta a la muestra, en particular, mejor que la verdadera distribucio´n que dio lugar a la muestra.

Este argumento no es concluyente, ya que los estimadores son los que ma- ximizan la verosimilitud, en el caso de la distribucio´n normal, y no los que minimizan la distancia de Kolmogorov. Pero la intuicio´n es correcta: Lillieforsobtuvo emp´ıricamente la distribucio´n de Dˆ

n, y sus tablas lo confirman.Existe una propuesta ana´loga de Lilliefors, para la cual tambi´en ha cal-

culado tablas de los valores cr´ıticos, para probar la hipo´tesis nula de que la distribuci´on es exponencial.

El estad´ıstico de la prueba de normalidad de Lilliefors suele escribirse en la forma

Ln = sup |Fn(x) − Fˆ(x)|,

donde Fˆ es la distribuci´on normal cuyas media y variancia son las estimadas, es decir, con Z normal t´ıpica, Fˆ(x) = P{µˆ + σˆZ ≤ x} = Φ((x

− µˆ)/σˆ), pero elcambio de variables Yi = (Xi − µˆ)/σˆ conduce a escribir Fn(x) = 1 .n 1n i=1 {Xi ≤x}

n i=1 1{Yi ≤(x−µˆ)/σˆ} = Fˆn((x − µˆ)/σˆ) y entonces Ln = sup |Fˆ

n((x − µˆ)/σˆ) −= 1 .n

ˆΦ((x − µˆ)/σˆ)| = Dn.En resumen es equivalente utilizar la muestra tipificada estimada, y com-

pararla con la distribucio´n normal t´ıpica, o comparar directamente la dis- tribuci´on emp´ırica con la distribucio´n normal estimada.