Download - Notas para el curso de Introduccion a la Estad stica, · Notas para el curso de Introduccion a la Estad stica, dictado por Juan Kalemkerian 1 en la Facultad de Ciencias, el segundo

Notas para el curso deIntroduccion a la Estadıstica,

dictado por Juan Kalemkerian 1

en la Facultad de Ciencias, el segundo semestre de 2008.

1

Los errores que puedan contener son total responsabilidad de quien las transcribePor sugerencias y correcciones: [email protected]

Indice general

1. Introduccion 41.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . . 7

2. Muestreo aleatorio simple 92.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2. Muestreo en poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3. Estadısticos de Orden para una M.A.S. . . . . . . . . . . . . . . . . . . . . . . . . . 14

3. Metodos parametricos de estimacion 163.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2. Metodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.3. Metodo de Maxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.4. Metodo de estimacion por cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.5. Estimacion de la funcion de Distribucion . . . . . . . . . . . . . . . . . . . . . . . . . 233.6. Convergencia casi segura de Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . 24

4. Evaluacion de Estimadores 25

5. Estimacion por intervalos de confianza 34

6. Pruebas de hipotesis 376.1. Region crıtica optima, Teorema de Neyman-Pearson. . . . . . . . . . . . . . . . . . . 386.2. Familias con cociente de verosimilitud monotono . . . . . . . . . . . . . . . . . . . . 446.3. Metodo de la razon de verosimilitud para RC: . . . . . . . . . . . . . . . . . . . . . . 456.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6.4.1. Test de χ2: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6.5. Analisis de Varianza, (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

7. Modelos Lineales 507.1. Variable Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507.2. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527.3. Hipotesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527.4. Aplicacion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

8. Test de Aleatoriedad 568.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568.2. Test de Rachas para muestras de 2 tipos . . . . . . . . . . . . . . . . . . . . . . . . . 56

8.2.1. Test basados en el numero total de rachas . . . . . . . . . . . . . . . . . . . . 568.3. Test de Rachas de subidas y bajadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 598.4. Test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

2

Indice general

Bibliografıa 61

3

Capıtulo 1

Introduccion

Este capıtulo pretende introducir los conceptos de esperanza condicional, ası como las nocionesde convergencia de variables aletorias, que seran necesarios para los siguientes capıtulos. Se asumiraque el lector esta familiarizado con los conceptos basicos de la probabilidad, correspondientes a unprimer curso introductorio, no ası los del analisis real.

1.1. Esperanza Condicional

Definicion 1.1. Dado(Ω,A, P

)un espacio de probabilidad, y X,Y : Ω → R variables aleatorias,

E(X) <∞, definimos la Esperanza Condicional de X dado Y que anotaremos

E(X|Y

),

como la funcion de Y , que denotaremos E(X|Y ) : Ω→ R que verifica

E(XIY (B)

)= E

(E(X|Y )IY (B)

)para todo B perteneciente a la sigma algebra de Borel de R, que anotaremos de aquı en mas comoB(R).

Observacion 1.2. Veamos que E(X|Y ) esta bien definida:

existencia: Que E(X|Y ) existe y es una variable aleatoria se sigue del Teorema de Radon-Nikodym.

unicidad: Supongamos que α(Y ) y β(Y ) cumplen

E(XIY (B)

)= E

(α(Y )IY (B)

)∀B ∈ B(R)

= E(β(Y )IY (B)

).

Consideremos B = y ∈ R : α(y) > β(y), sabemos que 0 = E((α(Y ) − β(Y ))IY (B)

), como(

α(Y ) − β(Y ))IY (B) ≥ 0 y su esperanza es 0 entonces

(α(Y ) − β(Y )

)IY (B) = 0 c.s., pero

por otro lado(α(Y )− β(Y )

)IY (B) > 0 ∀ω tal que Y (ω) ∈ B, por lo tanto P (Y ∈ B) = 0 esto

es P(α(Y ) > β(Y )

)= 0. De forma totalmente analoga, tomando B = y ∈ R : β(y) > α(y),

obtenemos que P (Y ∈ B) = P(β(Y ) > α(Y )

)= 0, c.s., de donde se sigue que α(Y ) =

β(Y ) c.s.

Proposicion 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X,Y, Z seranvariables aleatorias a valores reales y a, b numeros reales.

1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).

2) Si X ≥ 0 c.s. entonces E(X|Y ) ≥ 0 c.s..

4

Capıtulo 1. Introduccion

3) Si X ≤ Z entonces E(X|Y ) ≤ E(Z|Y ).

4) E(X|X) = X.

5) E(a|Y ) = a.

6) E(X|Y ) = E(X) si X e Y son independientes.

7) E(Xg(Y )|Y ) = g(Y )E(X|Y ).

8) E(E(X|Y )

)= E(X).

Demostracion.

1) Por la unicidad, basta demostrar que, para todo B ∈ B(R)

E((aX + bY )IB(Z)

)= E

((aE(X|Z) + bE(Y |Z))IB(Z)

),

usando la linealidad de la esperanza el ultimo termino es

aE(E(X|Z)IB(Z)

)+ bE

(E(Y |Z)IB(Z)

),

que, por definicion de esperanza condicional, es igual a

aE(XIB(Z)

)+ bE

(Y IB(Z)

).

2) La demostracion necesita de conceptos del analisis real.

3) Es consecuencia inmediata de 2).

4) Es consecuencia inmediata de la unicidad.

6) Queremos ver que E(XIB(Y )

)= E

(E(X)IB(Y )

), E(XIB(Y )

)= E(X)E(IB(Y )) por la inde-

pendencia, y E(E(X)IB(Y )

)= E(X)E(IB(Y )) dado que una constante es independiente de

cualquier variable.

5) Es una consecuencia inmediata de 6).

7) La demostracion necesita de conceptos del analisis real.

8) Basta tomar en la definicion B = R.

Proposicion 1.4. Desigualdad de Jensen: Sea ϕ : R → R convexa, entonces

ϕ(E(X)

)≤ E

(ϕ(X)

)ϕ(E(X|Y )

)≤ E

(ϕ(X)|Y

)La primera desigualdad es estricta si ϕ es convexa en sentido estricto y X no es constante. Recorde-mos que ϕ es convexa si y solo si ϕ(λp + (1 − λ)q) ≤ λϕ(p) + (1 − λ)ϕ(q) ∀p, q, ∀λ ∈ [0, 1], y quesi ϕ es C2, ϕ es convexa si y solo si ϕ′′(x) ≥ 0 ∀x.

Notacion: Sea α(Y ) = E(X|Y

), denotamos E

(X|Y = y

)= α(y) ∈ R. Dicho de otra manera:

E(X|Y = y

)= E

(X|Y

)(ω)

donde ω es tal que Y (ω) = y.

Definicion 1.5. Distribucion Condicional: Dadas X,Y v.a., definimos

FX|Y=y(x) := P (X ≤ x|Y = y) := E(I( −∞,x](X)|Y = y).

5


Definicion 1.6. Probabilidad Condicional: Dadas X,Y v.a., definimos

P (X ∈ [a, b]|Y ) := E(I[a,b](X)|Y ).

Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego elcaso continuo.

Caso Discreto: Sea (X,Y ) vector aleatorio bidimensional tal que Rec(X,Y ) =

(xn, ym) : n,m ∈ N

, defini-mos la probabilidad condicional en el sentido usual, como

PX|Y=y(x) = P (X = x|Y = y) =PX,Y (x, y)

PY (y)∀x ∈ Rec(X),∀y ∈ Rec(Y ),

entoncesE(X|Y ) =

∑x∈Rec(X)

xPX|Y (x),

donde PX|Y (x) es la variable aleatoria definida en ω ∈ Ω como PX|Y (x)(ω) = PX|Y=Y (ω)(x).

Demostracion. Sea

α(y) =∑

x∈Rec(X)

xPX|Y=y(x) =1

PY (y)

∑x∈Rec(X)

xPX,Y (x, y)

queremos demostrar que

E(α(Y )IB(Y )

)= E

(XIB(Y )

),∀B ∈ B(R)

En efecto

E(α(Y )IB(Y )

)=

∑y∈Rec(Y )

α(y)IB(y)PY (y)

=∑

y∈Rec(Y )

∑x∈Rec(X)

xIB(y)PX,Y (x, y)

= E(XIB(Y )

).

Caso Continuo: Sea (X,Y ) absolutamente continuo, entonces

E(X|Y ) =

∫ +∞

−∞xfX,Y (x, Y )

fY (Y )dx,

donde fX,Y (x, Y ) es la variable aleatoria definida en ω como fX,Y (x, Y )(ω) = fX,Y (x, Y (ω)).

Demostracion.

E

(∫ +∞

−∞xfX,Y (x, Y )

fY (Y )dxIB(Y )

)=

∫ +∞

−∞

(∫ +∞

−∞xfX,Y (x, y)

fY (y)IB(y)dx

)fY (y)dy

=

∫ +∞

−∞

∫ +∞

−∞xIB(y)fX,Y (x, y)dxdy

= E(XIB(Y )).

Luego, la tesis es consecuencia de la unicidad.

6


Proposicion 1.8. Formula de la distribucion conjunta: Dadas X,Y v.a. se tiene que

FX,Y (x, y) =

∫ y

−∞FX|Y=t(x)dFY (t)

Demostracion.

FX,Y (x, y) = P (X ≤ x, Y ≤ y) = E(I(−∞,x](X)I(−∞,y](Y )

)= E

(E(I(−∞,x](X)I(−∞,y](Y )

)∣∣Y )=

∫ +∞

−∞I(−∞,y](t)FX|Y=t(x)dFY (t)

=

∫ y

−∞FX|Y=t(x)dFY (t)

Definicion 1.9. Distribucion condicionada a un conjunto: Dada X v.a. y A ∈ A con P (A) 6= 0definimos

FX|A = P (X ≤ x|A) =P (X ≤ x ∩A)

P (A)

Definicion 1.10. Esperanza condicionada a un conjunto:

E(X|A) =

∫ +∞

−∞xdFX|A(x) A ∈ A, P (A) 6= 0

1.2. Nociones de convergencia de variables aletorias

Definicion 1.11. Convergencia en probabilidad y casi segura: Dado(Ω,A, P

)espacio de

probabilidad, Xn una sucesion de v.a. y X una v.a. decimos que

1) Xn converge a X en probabilidad, y anotamos XnP−→ X si

lımn→+∞

P(|Xn −X| ≤ ε

)= 1

2) Xn converge a X casi seguramente, y anotamos Xnc.s.−→ X si

P

(lım

n→+∞Xn = X

)= 1

Definicion 1.12. Convergencia en distribucion: Sean Xn v.a. en(Ωn,An, Pn

)y X v.a. en(

Ω,A, P), decimos que Xn converge en distribucion a X y anotamos

Xnd−→ X si lım

n→+∞FXn(x) = FX(x) ∀x punto de continuidad de FX

Proposicion 1.13. Relacion entre convergencias: Si Xn y X son v.a. sobre(Ω,A, P

)en-

toncesXn

c.s.−→ X ⇒ XnP−→ X ⇒ Xn

d−→ X.

Observacion 1.14. Todos los recıprocos de la proposicion anterior son falsos.

7


Teorema 1.15. Ley Fuerte de los grandes numeros: Sean Xn v.a. sobre(Ω,A, P

)y Xn

independientes identicamentes distribuidas (i.i.d.) en L1 y µ = E(X) entonces

Xn =X1 + · · ·+Xn

n

c.s.−→ µ

Teorema 1.16. Teorema Central del Lımite: Sean Xn definidas en(Ω,A, P

)v.a. i.i.d. en

L2 entoncesXn − µσ/√n

d−→ N(0, 1).

Donde N(0, 1) denota la distribucion normal con esperanza 0 y varianza 1.

Observacion 1.17. Si n es ’grande’ y fijo, FXn se aproxima por la distribucion N(µ, σ2

n ) donde

µ = E(Xn) y σ2 = V ar(Xn)

8

Capıtulo 2

Muestreo aleatorio simple

2.1. Algunas definiciones previas

Definicion 2.1. Muestra aleatoria simple (M.A.S.): X1, . . . , Xn v.a. definidas en(Ω,A, P

)son una muestra aleatoria simple si son independientes identicamente distribuidas (i.i.d.).

Definicion 2.2. Media Muestral y Varianza Muestral: dadaX1, . . . , Xn una M.A.S. definimos

1) Media Muestral: Xn =X1 + . . . , Xn

n.

2) Varianza Muestral: S2n =

1

n− 1

n∑i=1

(Xi −Xn)2

Observacion 2.3. S2n =

1

n− 1

( n∑i=1

X2i − nXn

2)Observacion 2.4. Si X ∈ L1, Xn

c.s.−→ µ = E(X) por L.F.G.N.

Observacion 2.5. Si X ∈ L2, S2nc.s.−→ σ2 = V ar(X).

Demostracion.

S2n =

n

n− 1

(1

n

n∑i=1

X2i −Xn

2

)c.s.→ E(X2)− µ2 = σ2,

donde hemos usado la L.F.G.N. para las variables Yn = X2n.

2.2. Muestreo en poblaciones normales

Definicion 2.6. Distribucion Gamma: Decimos que X tiene distribucion Gamma(α, λ) si sudensidad es

fX(x) =

λα

Γ(α)xα−1e−λx si x > 0

0 si x ≤ 0.

donde Γ(α) es la funcion Γ que se define como

Γ(α+ 1) =

∫ +∞

0

tαe−tdt.

Observacion 2.7. Tres propiedades importantes de la distribucion Gamma son:

9

Capıtulo 2. Muestreo aleatorio simple

1) Si X v Gamma(α, λ) entonces E(X) = α/λ y V ar(X) = α/λ2.

2) Si X v Gamma(α, λ) e Y v Gamma(β, λ) y son independientes entonces X+Y v Gamma(α+β, λ).

3) Si α = 1, Gamma(1, λ) = Exp(λ).

Definicion 2.8. Distribucion Ji cuadrado con k grados de libertad: Decimos que X v χ2k

si X v Gamma(k/2, 1/2) es decir si

fX(x) =1

Γ(k/2)2k/2xk/2−1e−x/2I(0,+∞)(x)

En la figura 2.1 se grafica fX para diferentes valores de k.

Observacion 2.9. Se puede demostrar que

E(χ2k) = k

V ar(χ2k) = 2k

Figura 2.1: Grafica de la distribucion X 2 para diferentes valores de k

Teorema 2.10. Si X1, . . . , Xn es una M.A.S. y X v N(0, 1), entonces

X21 + · · ·+X2

k = ‖(X1, . . . , Xk)‖2 v χ2k

Demostracion. Por la propiedad 2) de las distribuciones Gamma, es suficiente demostrar que X2i v

χ21. Si X v N(0, 1) entonces, tomando t > 0, FX2(t) = P (X2 ≤ t) = P (|X| ≤

√t) = P (−

√t ≤ X ≤√

t) = ∫ √t−√t

1√2πe−

12 s

2

ds = 2

∫ √t0

1√2πe−

12 s

2

ds =1√2π

∫ t

0

e−12u

1√udu,

10


donde en la primera igualdad hemos usado que la funcion e−12 s

2

es par, y en la seguna hemos hechoel cambio de variable u = s2, 2ds = 1/

√udu. Para concluir basta observar que

e−12u

√2π√u,

es la densidad de χ21 pero esto se sigue de que Γ(1/2) =

√π.

Definicion 2.11. Distribucion T-Student con k grados de libertad: Sean X v N(0, 1) eY v χ2

k independientes, la distribucion de

Tk =X√Y/k

,

se llama distribucion T − Student con k grados de libertad. Decimos que la variable Tk tienedistribucion T − Student no central, con parametro de no centralidad µ > 0 si

Tk =X + µ√Y/k

Observacion 2.12. Si µ = 0 se verifica que

E(Tk) = 0

V ar(Tk) = k/(k − 2) para k > 2.

Teorema 2.13. Sea T v Tk, entonces la densidad es

fT (t) =Γ(k+1

2 )√kπΓ(k2 )

1(1 + t2

k

) k+12

Demostracion. Tomemos el vector (X,Y ), su densidad es

fX,Y (x, y) =1√2πe−

12x

2 yk2−1e−

y2

Γ(k2 )2k2

I(0,+∞)(y).

Sea g : R × R+ −→ R × R+ tal que

g(x, y) =

(x√y/k

, y

), g es difeomofismo y g−1(u, v) =

(u√v/k, v

),

tenemos entonces que g(X,Y ) = (U, V )

fg(X,Y )(u, v) = fU,V (u, v) = fX,Y(g−1(u, v)

) I(0,+∞)(v)∣∣det Jg(g−1(u, v)

)∣∣donde

Jg(x, y) =

(1√y/k

u√k

12√v

0 1

)y∣∣det Jg(x, y)

∣∣ =√k/y,

luego, sustituyendo

fU,V (u, v) =1√2π

e−12ku

2vvk2−1e−

v2

Γ(k2 )2k/2I(0,+∞)(v)

√v√k,

como T = U tenemos que

fU (u) =

∫ +∞

−∞fU,V (u, v)dv =

1√2kπΓ(k/2)2

k2

∫ +∞

0

vk−12 e−v(u2

2k+ 12

)dv,

11


por otro lado sabemos que

λα

Γ(α)

∫ +∞

0

xα−1e−λxdx = 1 entonces

∫ +∞

0

xα−1e−λxdx =Γ(α)

λα,

si tomamos entonces α = k+12 x = v y λ = u2

2k + 12 se concluye la tesis.

Figura 2.2: Grafica de la densidad de una variable Tk de Student para diferentes valores de k, k =∞corresponde a la densidad de N(0, 1)

Teorema 2.14. Sea X1, . . . , Xn M.A.S. de X v N(µ, σ2), entonces

1) Xn v N

(µ,σ2

n

).

2) Xn y S2n son independientes.

3)n− 1

σ2S2n v χ2

n−1.

4)√n

(Xn − µ)

Snv Tn−1.

Demostracion.

1) es inmediato

3) tomemos σ = 1, por induccion en n, para n = 2 tenemos que

S22 =

(X1 −

X1 +X2

2

)2

+

(X2 −

X1 +X2

2

)2

=

(X1 −X2

2

)2

+

(X2 −X1

2

)2

=

(X1 −X2√

2

)2

v χ21,

12


Ya que X1 −X2 ∼ N(0, 2). Supongamos cierto para n− 1. Vamos a usar la igualdad

(n− 1)S2n = (n− 2)S2

n−1 +n− 1

n(Xn −Xn−1)2,

como estamos tomando σ = 1 tenemos que ver que (n − 1)S2n v χ2

n−1 o lo que es lo mismo

(n − 2)S2n−1 + n−1

n (Xn − Xn−1)2 v χ2n−1, por hipotesis de induccion (n − 2)S2

n−1 v χ2n−2,

ademas n−1n (Xn − Xn−1)2 es independiente de (n − 2)S2

n−1 pues Xn−1 es independiente deS2n−1 por la parte 2), y Xn es independiente de S2

n−1 pues S2n−1 depende solo de X1, . . . , Xn−1

y la muestra es una M.A.S.Basta entonces ver que n−1

n (Xn −Xn−1)2 v χ21,

Xn −Xn−1 v N

(0, 1 +

1

n− 1

)= N

(0,

n

n− 1

)⇒ n− 1

n(Xn −Xn−1)2 v χ2

1,

y, como la suma de χ2 es tiene distribucion χ2 con la suma de los grados tenemos que χ2n−2 +

χ21 v χ2

n−1.

4) Es inmediato a partir de 1,2 y 3.

2)

S2n =

1

n− 1

((X1 −Xn)2 +

n∑i=2

(Xi −Xn)2)

=1

n− 1

(( n∑i=2

(Xi −Xn))2

+

n∑i=2

(Xi −Xn

)2),

hemos escrito entonces S2n en funcion de X2−Xn, . . . , Xn−Xn, basta demostrar entonces que

Xn es independiente de X2 −Xn, . . . , Xn −Xn.Consideremos Y1 = Xn, Y2 = X2 −Xn, . . . , Yn = Xn −Xn, y1 = xn, y2 = x2 − xn, . . . , yn =xn − xn y y = g(x1, . . . , xn) entonces

Jg =

1n

1n . . . 1

n− 1n 1− 1

n . . . − 1n

......

− 1n − 1

n . . . 1− 1n

.

Es facil ver que det(Jg) = 1/n, basta sumar la primer fila a las demas, y queda una matriztriangular superior con diagonal 1/n, 1, . . . , 1.x2 = y2 + y1, . . . , xn = yn + y1 de donde

g−1(y) =

(−∑

2

yi − y1, y2 + y1, . . . , yn + y1

),

entonces

fY (y) = fX(g−1(y))1

|det Jg(g−1(y))|

=n

(2π)n/2exp

−1

2

(y2

1 − 2y1

∑2

yi + (∑

2

yi)2 +

∑2

(y2i + 2y1yi + y2

1)

)

=n

(2π)n/2exp

−n

2y2

1

exp

−1

2

((∑

2

yi)2 +

∑2

y2i

).

Por lo tanto factorizamos respecto de y1, iterando, son independientes.

13


Observacion 2.15. Distribucion F de Fisher: Sea X v χ2n e Y v χ2

m independientes, ladistribucion de

X/n

Y/m

se denomina distribucion F de Fisher de parametros n y m, y la anotamos F (n,m).

A modo de motivacion geometrica de la distribucion F de Fisher, vamos a enunciar el siguienteteorema.

Teorema 2.16. Sea A el angulo que forma un vector X v N(0, σ2) en Rd con un subespacio R dedimension ρ, entonces

ρ

d− ρtan2(A) v F (d− ρ, ρ)

Observacion 2.17. Si Z v F (n,m) entonces

fZ(x) =Γ(n+m

2

)Γ(n2

)Γ(m2

) ( nm

)n2 x

n2−1(

1 + nmx)n+m

2

I(0,+∞)(x)

Teorema 2.18. Sea X1, . . . , Xn M.A.S. de X v N(µX , σ2X) y Y1, . . . , Yn M.A.S. de Y v N(µY , σ

2Y )

X e Y independientes, entonces

S2X/σ

2X

S2Y /σ

2Y

v F (n− 1,m− 1).

Demostracion. La demostracion se sigue de la parte 3) y 2) del teorema 2.14

2.3. Estadısticos de Orden para una M.A.S.

Definicion 2.19. Muestra Ordenada: Sea X1, . . . , Xn una M.A.S. de X v FX , definimos

X1:n = mınX1, . . . , XnX2:n = mın

(X1, . . . , Xn \ X1:n

)...

Xn:n = mın(X1, . . . , Xn \ X1:n, . . . , Xn−1:n

)se tiene entonces que X1:n ≤ · · · ≤ Xn:n

Teorema 2.20. Distribucion de los percentiles: Sea X1, . . . , Xn una M.A.S. de X absoluta-mente continua, entonces

fXj:n(x) =n!

(j − 1)!(n− j)!fX(x)

(FX(x)

)j−1(1− FX(x)

)n−jDemostracion. FXj:n(x) = P (Xj:n ≤ x) es decir, es la probabilidad de que al menos j variables seanmenores o iguales que x. Consideremos Y la cantidad de observaciones que son menores o igualesque x, entonces Y v Bin(n, p) con p = FX(x).

P (Xj:n ≤ x) = P (Y ≥ j) =

n∑k=j

P (Y = k) =

n∑k=j

Cnk(FX(x)

)k(1− FX(x)

)n−k

14


entonces, derivando y usando q = 1− p

fXj:n(x) =

n∑k=j

n!

(n− k)!k!

(kpk−1fX(x)qn−k − fX(x)(n− k)qn−k−1pk

)

= fX(x)n!

n∑k=j

1

(n− k)!(k − 1)!pk−1qn−k −

n−1∑k=j

1

(n− k − 1)!k!pkqn−k−1

= fX(x)n!

n∑k=j

1

(n− k)!(k − 1)!pk−1qn−k −

n∑k=j+1

1

(n− k)!(k − 1)!pk−1qn−k

= fX(x)n!

1

(n− j)!(j − 1)!pj−1qn−j

Observacion 2.21. fXmax(x) = nfX(x)(FX(x)

)n−1y fXmin(x) = nfX(x)

(1− FX(x)

)n−1

Definicion 2.22. Distribucion beta: SiX tiene densidad f(x) =Γ(α+ β)

Γ(α)Γ(β)xα−1(1−x)β−1I(0,1)(x)

decimos que X v Beta(α, β)

Observacion 2.23. Si X v Beta(α, β) entonces E(X) = α/(α+β) y V ar(X) =αβ

(α+ β)2(α+ β + 1).

Observacion 2.24. Si X1, . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n−j+1).

15

Capıtulo 3

Metodos parametricos deestimacion

3.1. Algunas definiciones previas

Consideremos el caso en que tenemos X1, . . . , Xn M.A.S. de X v FX(x|θ) donde θ ∈ Θ ⊂ Rk esun parametro desconocido.

Definicion 3.1. Sea θ : Rn −→ Θ medible, independiente de θ, entonces θ(X1, . . . , Xn) : Ω −→ Θes un estimador de θ.

Ejemplo 3.2. Si X v N(µ, σ2) y θ = (µ, σ2) ∈ Θ = R × R+ entonces si definimos

θ(x1, . . . , xn) =

(x1 + · · ·+ xn

n,

1

n− 1

n∑i=1

xi −x1 + · · ·+ xn

n

): Rn −→ Θ

entoncesθ(X1, . . . , Xn) = (Xn, S

2n)

es un estimador de θ.

Observemos que si bien θ es un vector, θ es un vector aleatorio a valores en Rk.

Definicion 3.3. Si X1, . . . , Xn es una M.A.S. de X v FX(X|θ) y θ es un estimador, decimos que

θ es debilmente consistente si θP−→ θ. Decimos que es fuertemente consistente si θ

c.s.−→ θ

Ejemplo 3.4. Si X v N(µ, σ2) y θ = (Xn, S2n) entonces θ es fuertemente consistente.

3.2. Metodo de los momentos

Si X1, . . . , Xn es una M.A.S. de X v F (x|θ) y θ = (θ1, . . . , θk) ∈ Rk y X ∈ Lk. Consideremos elsistema

E(X) = Xn

E(X2) =1

n

n∑i=1

X2i

......

E(Xk) =1

n

n∑i=1

Xki

16

Capıtulo 3. Metodos parametricos de estimacion

Los E(Xk) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentosmuestrales. Los θi aparecen en los momentos poblacionales y si despejamos las k incognitas de lask ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener solucionni ser unica. Observemos que por la ley fuerte, los estimdores que se despejan para cada θi sonconsistentes.

Ejemplo 3.5. Sea X1, . . . , Xn M.A.S. de X v Gamma(α, 1/β), entonces E(X1) = αβ y E(X21 ) =

βαα(α+ 1), consideremos

m1 =X1 + · · ·+Xn

ny

m2 =X2

1 + · · ·+X2n

n,

planteamos m1 = αβ y m2 = βαα(α+ 1) y obtenemos los estimadores de α y de β :

α =m2

1

m2 −m21

y

β =m2 −m2

1

m1.

Ejemplo 3.6. Sea X1, . . . , Xn M.A.S. de X v U[a,b] y θ = (a, b) entonces el metodo de los momentoses

1/2(b− a) = Xn

1/12(b− a)2 + 1/4(a+ b)2 = 1/n∑X2i =: M2

Si despejamos b en la primer ecuacion y sustituimos en la segunda obtenemos las soluciones

a = Xn ±√

3(M2 −Xn), b = Xn ±√

3(M2 −Xn)

Como Θ = (a, b) ∈ R2 : a < b descartamos soluciones y nos queda

a = Xn −√

3(M2 −Xn), b = Xn +

√3(M2 −Xn).

Notacion: 1n

∑ni=1X

ki =: Mk

Teorema 3.7. Metodo de los momentos, existencia y unicidad de solucion, consistencia:Si F : Θ ⊂ Rk −→ Rk es tal que (E(X), E(X2), . . . , E(Xk)) = F (θ1, . . . , θk), entonces, si F esinyectiva, F−1 : F

(Θ)−→ Θ es continua y si M1,M2, . . . ,Mk ∈ F

(Θ)c.s. entonces los estimadores

por momentos existen, son unicos y convergen c.s. a θ1, . . . , θk.

Demostracion. Los estimadores por el metodo de los momentos son (θ1, . . . , θk) = F−1(M1, . . . ,Mk),como

M1 = Xnc.s.−→ E(X)

...

Mk =1

n

∑i

Xkic.s.−→ E(Xk)

y F−1 es continua entonces

(θ1, . . . , θk) = F−1(M1, . . . ,Mk)c.s.−→ F−1

(E(X), . . . , E(Xk)

)= F−1

(F (θ1, . . . , θk)

)= (θ1, . . . , θk),

de donde θ es fuertemente consistente.

17


3.3. Metodo de Maxima Verosimilitud

Definicion 3.8. Funcion de Verosimilitud: Dada X1, . . . , Xn una M.A.S. de X v F (x|θ)θ ∈ Θ ⊂ Rk se define L : Θ× Rn −→ R

L(θ, x) =

n∏i=1

fX(xi|θ) si X es absolutamente continua

L(θ, x) =

n∏i=1

pX(xi|θ) si es discreta

donde x = (x1, . . . , xn).

El metodo consiste entonces en hallar θ ∈ Θ donde se realice maxθ∈Θ L(θ, x), dicho θ =

θ(X1, . . . , Xn) es el estimador de maxima verosimilitud (E.M.V.) de θ. El metodo no asegura la

existencia y/o unicidad de θ.

Ejemplo 3.9. Sea X1, . . . , Xn una M.A.S. de X v exp(λ) entonces la funcion de verosimilitud paraλ es

L(λ) =

n∏i=1

λ exp−λxi = λn exp− λ

∑i

xi

,

con xi ≥ 0 ∀i, derivando obtenemos

L′(λ) = λn−1 exp

−λ∑i

xi

(n− λ

∑i

xi

),

y por lo tanto, como λ 6= 0, si hacemos L′(λ) = 0 obtenemos λ =n∑i xi

, es facil ver, mirando el

signo de L′(λ) que es un maximo. Por lo tanto λ = 1Xn

es el E.M.V. de λ.

Ejemplo 3.10. Sea X1, . . . , Xn una M.A.S. de X v U[0,b] Θ = b > 0, la funcion de verosimilitudes entonces

L(b) =

n∏i=1

1

bI[0,b](xi) =

1

bnsi 0 < x1, . . . , xn < b

0 si no=

1

bnsi b > maxx1, . . . , xn

0 si no

Como la funcion 1/bn es decreciente obtenemos que b = xn:n = maxx1, . . . , xn.

Observacion 3.11. Interpretacion del metodo: Para el caso discreto, si tenemos X1, . . . , Xn

una M.A.S. y X v pX(X|θ) entonces

L(θ|x) =

n∏i=1

pX(xi|θ) =

n∏i=1

P (X = xi|θ) = P (X1 = x1, . . . , Xn = xn|θ),

esto es, la probabilidad de que salga la muestra (x1, . . . , xn) dado el parametro θ. El metodo consisteentonces en encontrar el θ que hace que la muestra que obtuvimos sea la mas probable.Otra forma de ver esto es observar que, de la desigualdad de Jensen se deduce que

Eg(x|θ0)

(log

(g(x|θ1)

g(x|θ0)

))≤ log

(Eg(x|θ0)

(g(x|θ1)

g(x|θ0)

))= 0

Por lo tantoEg(x|θ0)

(log(g(x|θ1))

)≤ Eg(x|θ0)

(log(g(x|θ0))

)lo cual significa que la verosimilitud bajo modelo real g(x|θ0) es mayor o igual que bajo cualquierotro valor del parametro.

18


Principio de invarianza del E.M.V.: Supongamos que tenemos un parametro θ ∈ Θ yg : Θ → R, y que estamos interesados en estimar g(θ) por el metodo de maxima verosimilitud, esdecir queremos encontrar M = g(θ) que haga que la muestra sea mas probable. Queremos maximizarentonces

L∗(M |x) = supθ:g(θ)=M

L(θ|x),

Veremos que si M = E.M.V. de g(θ), es decir donde se realiza el maximo de L∗ entonces M = g(θ)

siendo θ = E.M.V de θ. En efecto:

L∗(M |x) = supM

L∗(M |x) = supM

supθ:g(θ)=M

L(θ|x) = supθ∈Θ

L(θ, x) = L(θ|x)

yL∗(g(θ), x) = sup

θ:g(θ)=g(θ)L(θ|x) = L(θ|x).

Entonces g(θ) es E.M.V. de g(θ).

Ejemplo 3.12. Sea X1, . . . , Xn v Ber(p), el E.M.V. de p es p = Xn, como σ2 = p(1 − p) = g(p)por el Principio de Invarianza σ2 = g(p) = p(1− p).

Observacion 3.13. Si h(θ) = log(L(θ)) =∑

log(fX(xi|θ)) podemos, dado que log(x) es unafuncion creciente, tomar el θ que maximiza h(θ)

Teorema 3.14. Consistencia del E.M.V.: Sea X1, . . . , Xn, . . . i.i.d v f(x|θ) y θ ∈ Θ ⊂ Rdonde Θ es tal que si θ0 es el valor exacto de θ entonces ∃δ > 0 tal que (θ0 − δ, θ0 + δ) ⊂ Θ, sihn(θ) = log(L(θ, X)) es derivable como funcion de θ y ademas f(x|θ) = f(x|θ′) implica θ = θ′ c.s.entonces

para casi todo ω ∃θnk = θnk(ω) ∈ Θ tal que∂

∂θhnk(θnk) = 0 y θnk−→θ0

Demostracion.

hn(θ0 − δ)− hn(θ0) =

n∑i=1

log((f(Xi|θ0 − δ))−n∑i=1

log((f(Xi|θ0))) =

n∑i=1

log

(f(Xi|θ0 − δ)f(Xi|θ0)

)entonces

hn(θ0 − δ)− hn(θ0)

n=

1

n

∑log

(f(Xi|θ0 − δ)f(Xi|θ0)

)L.F.G.N.−→ E

(log

(f(X|θ0 − δ)f(X|θ0)

))c.s.,

como − log es una funcion convexa estricta y f es inyectiva en θ, usando la desigualdad de Jensen

E

(log

(f(X|θ0 − δ)f(X|θ0)

))< log

(E

(f(X|θ0 − δ)f(X|θ0)

)),

por otro lado, como X v f(x|θ0)

E

(f(X|θ0 − δ)f(X|θ0)

)=

∫ +∞

−∞

f(x|θ0 − δ)f(x|θ0)

f(x|θ0)dx =

∫ +∞

−∞f(x|θ0 − δ)dx = 1.

Luego el lımite anterior es negativo. Lo mismo para θ0 + δ. Definamos

Aδ =ω ∈ Ω :

hn(θ0 ± δ)− hn(θ0)

n−→E

(log

(f(X|θ0 ± δ)f(X|θ0)

))< 0.

19


Por la L.F.G.N. P (Aδ) = 1. Fijado ω ∈ Aδ existe n0 = n0(ω, δ) tal que hn(θ0) > hn(θ0±δ) ∀n ≥ n0,

y entonces existe θn ∈ (θ0− δ, θ0 + δ) tal que∂

∂θhn(θn) = 0 ∀n ≥ n0 porque hn es derivable respecto

a θ. Definamos

Bδ =ω ∈ Ω : ∃n0 y θn ∈ (θ0 − δ, θ0 + δ),

∂

∂θhn(θn) = 0 ∀n ≥ n0

.

Como Aδ ⊂ Bδ tenemos que P (Bδ) = 1, si tomamos δ = 1/k,

B =

∞⋂k=1

B1/k, P (B) = 1.

Sea ω ∈ B, vamos a construir θnk :

ω ∈ B1, entonces ∃θn1 ∈ (θ0 − 1, θ0 + 1) tal que∂

∂θhn1

(θn1) = 0.

Supongamos que tenemos definido θnk−1, ω ∈ B1/k entonces ∃θnk ∈ (θ0 − 1

k , θ0 + 1k ) con nk > nk−1

tal que∂

∂θhnk(θnk) = 0.

La sucesion θnk verifica θnk−→θ0 y es cero de ∂∂θhnk .

Observe que los subındices de la sucesion dependen de ω.

Observacion 3.15. El teorema anterior no asegura la existencia ni la unicidad del E.M.V.

Lema 3.16. Lema de Slutsky: SiXnP−→ c y Yn

d−→ Y con c constante entoncesXn+Ynd−→ c+Y

y XnYnd−→ cY .

Recordemos que Xnd−→ c⇔ Xn

P−→ c.

Teorema 3.17. Normalidad asintotica del E.M.V: Sea X1, . . . , Xn, . . . una M.A.S. de X vf(x|θ), supongamos que existe δ > 0 tal que (θ0 − δ, θ0 + δ) ∈ Θ donde θ0 es el valor exacto de θ.Si se cumplen, para todo θ ∈ (θ0 − δ, θ0 + δ)

1) ∃θn variables aleatorias tal que∂

∂θh(θn) = 0 ∀n y θn

c.s.−→ θ0

2)∂3

∂θ3h(θ|X) ≤ Y con E(Y ) <∞.

3) E

(∂∂θf(X|θ)f(X|θ)

)= 0.

4) E

(∂2

∂θ2 f(X|θ)f(X|θ)

)= 0.

5) i(θ) := E

(∂∂θf(X|θ)f(X|θ)

)2

> 0, el numero i se denomina numero de informacion de Fischer.

Entonces√n(θn − θ0

) d−→ N

(0,

1

i(θ0)

)Demostracion. La demostracion sera una consecuencia de dos afirmaciones:

Afirmacion 1:1√n

∂

∂θh(θ0)→ N(0, i(θ0))

Afirmacion 2:√n(θn − θ0)− 1√

ni(θ0)

∂

∂θh(θ0)

P−→ 0.

20


Veamos primero como, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye latesis. En efecto, podemos escribir

√n(θn − θ0) =

(√n(θn − θ0)− 1√

ni(θ0)

∂

∂θh(θ0)

)+

1√ni(θ0)

∂

∂θh(θ0)

Veamos la demostracion de la Afirmacion 1:

1√n

∂

∂θh(θ0) =

1√n

n∑i=1

∂∂θf(Xi|θ0)

f(Xi|θ0)=√n

1

n

n∑i=1

∂∂θf(Xi|θ0)

f(Xi|θ0)=√n Zn.

E(Zi) = 0 por la hipotesis 3) y V ar(Zi) = E(Z2i )− E2(Zi) = i(θ0) > 0 por la hipotesis 5). Luego,

si aplicamos el T.C.L. tenemos que√n Zn

d−→ N(0, i(θ0)). Lo que concluye la demostracion de laafirmacion 1.

Veamos la demostracion de la Afirmacion 2: podemos escribir, usando el desarrollo de Taylor yla hipotesis 1,

0 =∂

∂θh(θn) =

∂

∂θh(θ0) +

∂2

∂θ2h(θ0)(θn − θ0) +

∂3

∂θ3h(θn)

(θn − θ0)2

2

donde θn ∈ [θ0, θn], despejando obtenemos

θn − θ0 =− ∂∂θh(θ0)

∂2

∂θ2h(θ0) + ∂3

∂θ3h(θn) (θn−θ0)2

y√n(θn − θ0)− 1√

ni(θ0)

∂

∂θh(θ0) =

− ∂∂θh(θn)

√n

∂2

∂θ2h(θ0) + ∂3


− 1√ni(θ0)

∂

∂θh(θ0) =

1√n

∂

∂θh(θ0)

[−1

1n∂2

∂θ2h(θ0) + 1n∂3


− 1

i(θ0)

](3.1)

Nuevamente, como1√n

∂

∂θh(θ0)

d−→ N(0, i(θ0)), por el lema de Slutsky, la afirmacion 2 queda

demostrada si probamos que la expresion entre [] tiende en probabilidad a 0 (o lo que es lo mismo,en distribucion a 0).Sabemos que

1

n

∂3

∂θ3h(θn)

(θn − θ0)

2

P−→ 0,

donde hemos usado que si XnP−→ 0 y si E(Yn) ≤ k ∀n entonces XnYn

P−→ 0. (Hipotesis 2)

1

n

∂2

∂θ2h(θ0) =

1

n

n∑i=1

∂

∂θ

(∂∂θf(Xi|θ0)

f(Xi|θ0)

)=

1

n

n∑i=1

(∂2

∂θ2 f(Xi|θ0))f(Xi|θ0)−

(∂∂θf(Xi|θ0)

)2

(f(Xi|θ0)

)2 .

Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando lashipotesis 4 y 5:

E

(∂2

∂θ2 f(X|θ0))f(X|θ0)(

f(X|θ0))2

− E( ∂∂θf(X|θ)f(X|θ)

)2

= −i(θ0)

de donde se concluye que la expresion entre [] en 3.1. converge en probabilidad a 0 como querıamosdemostrar.

21


Observacion 3.18. Sobre las hipotesis del teorema anterior

3) E

(∂∂θf(x|θ)f(x|θ)

)=

∫ +∞

−∞

∂∂θf(x|θ)f(x|θ)

f(x|θ)dx =

∫ +∞

−∞

∂

∂θf(x|θ)dx, observemos que si pudier-

amos aplicar convergencia dominada∂

∂θ

∫ +∞

−∞f(x|θ)dx =

∂

∂θ1 = 0.

4) Analogo a 3).

5) Por 3), 5) es pedir que∂∂θf(x|θ)f(x|θ)

no sea constante.

Observacion 3.19. Un estudio mas detallado del E.M.V se puede encontrar en [?] donde se incluyeademas el caso en que el parametro θ a estimar es vectorial.

3.4. Metodo de estimacion por cuantiles

Definicion 3.20. Cuantil o percentil p: Sea X v.a., dado p ∈ (0, 1) el cuantil p es

xp = ınfx ∈ R : FX(x) ≥ p

Observacion 3.21. xp existe, y es mınimo

Demostracion. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si xn estal que F (xn) ≥ p y xn → x+

p , como F es continua por derecha

lımnF (xn) = F (lım

nxn) = F (xp) ≥ p.

Definicion 3.22. Percentil empırico: Sea X1, . . . , Xn M.A.S. de X, consideremos la muestraordenada X∗1 = X1:n ≤ · · · ≤ X∗n = Xn:n, entonces

Xp =

X∗np si np ∈ NX∗[np]+1 si np /∈ N

El metodo consiste en plantear la funcion g(θ) =∑ki=1(Xpi−xpi)2 donde los pi y k son cualquiera.

Lo que se busca es el mınimo de g(θ). El argumento que minimiza g(θ) sera θ y dependera de loscuantiles empıricos Xpi .

Ejemplo 3.23. Si X v (µ, σ2), entonces fX(x|µ, σ2) =1

πσ(

1 +(x−µσ

)2) .

Es facil ver que E(X) = ∞ y que su mediana es µ. Vamos a estimar θ = (µ, σ2) por el metodode cuantiles. Tomamos k = 4, Q1 = X0,25, Q2 = X0,5 y Q3 = X0,75, estimadores de los cuartiles.Entonces, la funcion a minimizar es

g(µ, σ2) = (Q1 − x0,25)2 + (Q2 − x0,5)2 + (Q3 − x0,75)2

Calculemos los cuartiles x0,25, x0,5 y x0,75 en funcion de µ y σ.

FX(x|µ, σ2) =1

2+

1

πarctan

(x− µσ

)

22


Si hacemos FX(x|µ, σ2) = 0,25 entonces arctan

(x− µσ

)= −π

4de donde x = µ−σ. Analogamente

x0,5 = µ y x0,75 = µ+ σ (estos valores se calculan facilmente a partir de x0,25 usando la paridad defX). Luego, la funcion a minimizar resulta entonces

g(µ, σ2) = (Q1 − µ+ σ)2 + (Q2 − µ)2 + (Q3 − µ− σ)2

Derivando esta funcion respecto de µ y de σ, el gradiente resultante se anula en

µ =Q1 +Q2 +Q3

3σ =

Q3 −Q1

2

3.5. Estimacion de la funcion de Distribucion

Definicion 3.24. Distribucion Empırica: Sea X1, . . . , Xn M.A.S. de X v FX donde FX esdesconocida, la distribucion empırica se define como

F ∗n(x) =1

n

n∑i=1

I(−∞,x](Xi)

Observemos que en cada x nos da la proporcion de observaciones menores o iguales que x, y que,para x y n fijos, F ∗n(x) es una v.a. Observemos ademas que si xi 6= xj ∀i 6= j los incrementos de F ∗nson n , y de tamano 1/n.

Proposicion 3.25. F ∗n(x)c.s.−→ F (x) ∀x ∈ R.

Demostracion. Es una consecuencia inmediata de la L.F.G.N a las variables I(−∞,x] v Ber(p) conp = FX(x).

Teorema 3.26. Teorema fundamental de la Estadıstica, Glivenko-Cantelli, 1937: SeaX1, . . . , Xn, . . . una M.A.S. de X v FX entonces

‖F ∗n − FX‖∞ = supx∈R

∣∣F ∗n(x)− FX(x)∣∣ c.s.−→ 0

.

Demostracion. Para la demostracion vamos a necesitar el siguiente lema:

Lema 3.27. Yn = supx∈R∣∣F ∗n(x)− FX(x)

∣∣ es una v.a., es decir, es medible.

Demostracion. Basta demostrar que Yn ≤ δ ∈ A ∀δ > 0.

Yn ≤ δ =|F ∗n(x)− FX(x)| ≤ δ ∀x ∈ R

=F (x)− δ ≤ F ∗n(x) ≤ F (x) + δ ∀x ∈ R

=⋂x∈R

F (x)− δ ≤ F ∗n(x) ≤ F (x) + δ

Basta demostrar que⋂x∈R

F (x)− δ ≤ F ∗n(x) ≤ F (x) + δ

=⋂x∈Q

F (x)− δ ≤ F ∗n(x) ≤ F (x) + δ

Fijemos x ∈ R, dado ε > 0 ∃y ∈ Q, y ≥ x tal que

1) F ∗n(y)− F ∗n(x) ≤ ε pues F ∗n es continua por derecha.

2) F (y)− F (x) ≤ ε pues F es continua por derecha.

23


3) F (y)− δ ≤ F ∗n(y) ≤ F (y) + δ.

Podemos escribir entonces

F (x)− δ − εx≤y≤ F (y)− δ − ε

3≤ F ∗n(y)− ε

1≤ F ∗n(x)

x≤y≤ F ∗n(y)

3≤ F (y) + δ

2≤ F (x) + ε+ δ

y por lo tantoF (x)− δ − ε ≤ F ∗n(x) ≤ F (x) + ε+ δ ∀ε > 0

entoncesF (x)− δ ≤ F ∗n(x) ≤ F (x) + δ.

lo cual concluye la demostracion del lema.

Veamos la demostracion del teorema, para el caso continuo, dado x ∈ R sea Ax = ω ∈ Ω :lımn F

∗n(x) = F (x). Por la proposicion anterior sabemos que P (Ax) = 1 para todo x. Luego

P(⋂

x∈QAx

)= 1.

Sea A :=⋂x∈QAx, basta ver que A ⊂ ω ∈ Ω : lımn supx∈R |F ∗n(x) − FX(x)| = 0. Sea ε > 0 y

ω ∈ A.Como lımx→+∞ F (x) = 0 existe k1 ∈ Q tal que ∀x < k1 F (x) < ε.Como lımx→+∞ F (x) = 1 existe k2 ∈ Q tal que ∀x > k2 1− F (x) < ε.Como F es uniformemente continua en [k1, k2] existe k1 = x1 < x2 < . . . < xm < xm+1 = k2 ∈ Qtal que F (xk+1)− F (xk) < ε para todo k = 1, . . . ,m.Luego si tomamos −∞ = x0 < x1 < x2 < . . . < xm < xm+1 < +∞ = xm+2 se verifica queF (xk+1)− F (xk) < ε para todo k = 0, . . . ,m+ 1. Como ω ∈ A,F ∗n(xk)→ F ∗n(xk)∀k = 0, . . . ,m+ 2Si x ∈ R existe k ∈ 0, . . . ,m+ 2 tal que xk ≤ x ≤ xk+1 entonces

F ∗n(x) ≤ F ∗n(xk+1)1≤ F (xk+1) + ε

2

F (x) + ε+ ε = F (x) + 2ε,

donde 1 es porque xk+1 ∈ Q y hemos tomado ω ∈ A. Esta desigualdad vale para n > n0, que nodepende de x. La desigualdad 2 se sigue de que F (xk+1) ≤ F (xk) + ε ≤ F (x) + ε. Razonando deforma analoga llegamos a que, para n > n1, para todo x tenemos que

F (x)− 2ε ≤ F ∗n(x) ≤ F (x) + 2ε

de dondelım

n→+∞sup |F ∗n − F | = 0.

3.6. Convergencia casi segura de Percentiles

Teorema 3.28. Dado p ∈ (0, 1) tal que ∀ε > 0 F (xp + ε) > p entonces el percentil empıricoˆXp,n

c.s.−→ xp.

Demostracion. Observemos que

F ∗n( ˆXp,n) =

1nnp = p si np ∈ N1n ([np] + 1)→ p si np /∈ N

.

dado ε > 0 sabemos que F ∗n(xp+ε)n−→ F (xp+ε) > p c.s. y F ∗n( ˆXp.n)

n−→ p por lo tanto ∀n ≥ n0 se

cumple que F ∗n( ˆXp,n) < F ∗n(xp+ε), de donde ˆXp,n < xp+ε. Ademas F ∗n(xp−ε)c.s. n−→ F (xp−ε) < p

y, razonando de forma analoga xp − ε < ˆXp,n ∀n ≥ n0 . Por lo tanto Xp,nc.s−→ xp.

24

Capıtulo 4

Evaluacion de Estimadores

Definicion 4.1. Dada X1, . . . , Xn M.A.S. de FX(x|θ) y T = Tn(X1, . . . , Xn) estimador de g(θ) cong a valores reales, conocida. Decimos que

Tn es insesgado si E(Tn) = g(θ) ∀θ ∈ (H)

Tn es asintoticamente insesgado si E(Tn)n−→ g(θ)

Tn es debilmente consistente si TnP−→ g(θ)

Tn es fuertemente consistente si Tnc.s.−→ g(θ)

Definicion 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn)−g(θ)

Definicion 4.3. Error cuadratico medio: Se define E.C.M(Tn) = E(Tn − g(θ)

)2Es claro que si Tn es un estimador insesgado E.C.M.(Tn) = V (Tn), es natural entonces, tomar

estimadores con E.C.M. mınimo.

Definicion 4.4. Estimador de mınima varianza: Sea Tn un estimador de g(θ) tal que Tn ∈ L2,decimos que es insesgado en θ0 ∈ (H), de varianza mınima si

i) Tn es insesgado en θ0

ii) Si T ′n ∈ L2 es insesgado en θ0 V arθ0(Tn) ≤ V arθ0(T ′n).

Observacion 4.5. Eθ(Tn(X1, . . . , Xn)

)=∫Rn Tn(x1, . . . , xn)dFX(x|θ)

Observacion 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de mınimavarianza.

Teorema 4.7. Tn es insesgado de minima varianza en θ0 si y solo siEθ0(f(X1, . . . , Xn)Tn(X1, . . . , Xn)) = 0 para toda f(x1, . . . , xn) a valores reales, tal que Eθ(f) = 0.

Demostracion. Para demostrar el teorema sera necesario el siguiente lema

Lema 4.8. Tn es insesgado de mınima varianza en θ0 si y solo si Tn es insesgado y V arθ0(Tn) ≤V arθ0(Tn + λf) para todo λ ∈ R , para todo f tal que Eθ0(f) = 0.

Demostracion. Veamos el directo, sea λ y f tal que Eθ0(f) = 0, T ′n = Tn + λf es insesgado puesE(Tn + λf) = E(Tn) + λE(f) = E(Tn) = g(θ). Como Tn es de mınima varianza V arθ0(Tn) ≤V arθ0(T ′n).Para demostrar el recıproco consideremos T ′n insesgado, entonces T ′n = Tn + (T ′n − Tn), tomemosf = T ′n − Tn y λ = 1 entonces E(f) = 0, luego, por hipotesis

V arθ0(Tn) ≤ V arθ0(Tn + λf) = V arθ0(T ′n).

25

Capıtulo 4. Evaluacion de Estimadores

Veamos ahora la demostracion del teorema. Por el lema basta ver que V arθ(Tn) ≤ V arθ0(Tn+λf)si y solo si Eθ0(fTn) = 0.

V arθ0(Tn + λf) = V ar(Tn) + λ2V (f) + 2λcov(Tn, f) ≥ V arθ0(Tn) ∀λ ∈ R⇔λ2V arθ0(f) + 2λcov(Tn, f) ≥ 0 ∀λ ∈ R⇔p(λ) = λ2V arθ02λcov(Tn, f) ≥ 0⇔ cov(Tn, f) = 0,

de lo contrario p tendra 2 raices.

cov(Tn, f) = E(Tnf)− E(Tn)E(f) = 0⇔ E(Tnf) = 0.

Definicion 4.9. Estimador insesgado de mınima varianza uniformemente: Tn es estimadorI.M.V.U. si es insesgado de varianza mınima ∀θ ∈ (H).

Ejemplo 4.10. Sea X1, . . . , Xn M.A.S. de X v exp(λ), θ = 1/λ. Un estimador de θ es Xn, veamos

que es de mınima varianza. Sabemos que Xnc.s.−→ E(X) = 1/λ = θ. Si f es tal que E(f) = 0 para

todo θ.

E(f) =

∫[0,+∞)n

f(x1, . . . , xn)λn exp−λ∑

xidx1 . . . dxn = 0

entonces ∫[0,+∞)n

f(x1, . . . , xn) exp−λ∑

xidx1 . . . dxn = 0 ∀λ ∈ R.

Veamos que E(fXn) = 0.

E(fXn) =

∫[0,+∞)n

f(x1, . . . , xn)1

n

( n∑i=1

xi)λn exp−λ

∑xidx1 . . . dxn = 0

⇔∫

[0,+∞)nf(x1, . . . , xn)

1

n

( n∑i=1

xi)

exp−λ∑

xidx1 . . . dxn = 0

⇔∫

[0,+∞)n

∂

∂λ

(f(x1, . . . , xn) exp−λ

∑xi)dx1 . . . dxn = 0

⇔ ∂

∂λ

∫[0,+∞)n

(f(x1, . . . , xn) exp−λ

∑xi)dx1 . . . dxn = 0

Ejemplo 4.11. Sea X1, . . . , Xn M.A.S. de X v Ber(p). Consideremos Xn estimador de p. Veamosque es de mınima varianza, sea f tal que E(f) = 0

E(f) =∑

(x1,...,xn)∈0,1nf(x1, . . . , xn)

n∏i=1

p(xi|p)

=∑

(x1,...,xn)∈0,1nf(x1, . . . , xn)p

∑xi(1− p)n−

∑xi

=

n∑k=0

∑x1+···+xn=k

f(x1, . . . , xn)p∑xi(1− p)n−

∑xi

=

n∑k=0

[ ∑x1+···+xn=k

f(x1, . . . , xn)

]pk(1− p)n−k = 0

26


Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos suscoeficientes son nulos. Luego si calculamos

E(fXn) =

n∑k=0

( ∑x1+···+xn=k

f(x1, . . . , xn)

)k

npk(1− p)n−k = 0

Teorema 4.12. Desigualdad de Cramer-Rao: Sea X1, . . . , Xn M.A.S. de X v fX(x|θ). Si Tnes un estimador insesgado de g(θ). Asumiremos que estamos en las hipotesis de derivacion dentrode la integral, es decir que

∂

∂θE(Tn) =

∫Rn

∂

∂θ

(Tn

n∏i=1

fX(xi|θ)

)dx1 . . . dxn

y

∂

∂θ

∫Rn

n∏i=1

fX(xi|θ)dxi =

∫Rn

∂

∂θ

n∏i=1

fX(xi|θ)dxi,

entonces

V ar(Tn) ≥(g′(θ)

)nE(

∂∂θ f(x|θ)f(x|θ)

)2 .

Ademas, el igual se da si y solo si existe λ = λ(n, θ) tal que

Tn(X1, . . . , Xn)− g(θ)c.s.= λ

n∑i=1

∂∂θf(xi|θ)f(xi|θ)

.

Demostracion.

g′(θ) =∂

∂θE(Tn) =

∂

∂θ

∫RnTn(x1, . . . , xn)

n∏i=1

fX(x|θ)dx1 . . . dxn

=

∫Rn

∂

∂θ

[Tn(x1, . . . , xn)

n∏i=1

fX(xi|θ)

]dx1 . . . dxn

=

∫Rn

(Tn(x1, . . . , xn)− g(θ)

) ∂∂θ

n∏i=1

fX(xi|θ)dx1 . . . dxn

=

∫Rn

(Tn(x1, . . . , xn)− g(θ)

)√∏n

i=1fX(xi|θ)

∂∂θ

∏ni=1 fX(xi|θ)√∏ni=1 fX(xi|θ)

dx1 . . . dxn

27


entonces, si aplicamos la desigualdad de Cauchy-Schwartz

(g′(θ)

)2 ≤∫Rn

(Tn − g(θ)

)2 n∏i=1

fX(xi|θ)∫Rn

(∂∂θ

∏ni=1 fX(xi|θ)

)2∏ni=1 fX(xi|θ)

=V ar(Tn)

∫Rn

(∂∂θ

∏ni=1 fX(xi|θ)

)2∏ni=1 fX(xi|θ)

=V ar(Tn)E

((∂∂θ

∏ni=1 fX(xi|θ)

)2∏ni=1 fX(xi|θ)

)2

=V ar(Tn)E

(∂

∂θlog

n∏i=1

fX(xi|θ)

)2

=V ar(Tn)E

(∂

∂θlog(fX(xi|θ))

)2

=V ar(Tn)E

(n∑i=1


)2

.

Definamos g(Xi) =∂∂θf(xi|θ)f(xi|θ)

.

E(∑

g(Xi))2

= E(∑

g2(Xi) + 2∑i 6=j

g(Xi)g(Xj))

= nE(g(Xi)

2)

+ 2∑i6=j

E(g(Xi)g(Xj)

).

Basta ver que E(g(Xi)g(Xj)

)= 0 para todo i 6= j. Como son independientes E

(g(Xi)g(Xj)

)=

E(g(Xi)

)E(g(Xj)

).

E(g(Xi)) =

∫R


f(xi|θ)dx

=

∫R

∂

∂θf(xi|θ)dx = 0.

Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz,por lo tanto el igual se da si y solo si existe λ = λ(n, θ) independiente de x1, . . . , xn tal que

(Tn − g(θ))√∏

fX(xi|θ) = λ∂∂θ

∏fX(xi|θ)√∏fX(xi|θ)

y esto sucede si y solo si

Tn − g(θ) =λ∂∂θ

∏fX(xi|θ)∏fX(xi|θ)

= λ∂

∂θ

(log(∏

fX(xi|θ)))

= λ∑ ∂

∂θlog(fX(xi|θ)

)=λ∑ ∂

∂θfX(xi|θ)fX(xi|θ)

Definicion 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g(θ) y cumple eligual en la desigualdad de Cramer-Rao se dice que es eficiente

Observacion 4.14. Si θ es un estimador de θ, θ es eficiente si y solo si

i) θ es insesgado

28


ii) V ar(θ) =1

nE(


)2

Observacion 4.15. Observemos que nE(


)2

es el numero de informacion de Fisher, del

logaritmo de la funcion de verosimilitud de X1, . . . , Xn por lo tanto la observacion anterior implicaque el E.M.V es asintoticamente eficiente. Si descomponemos el error cuadratico medio E(θ− θn)2

en sesgo y variabilidad, es decir

E(θ − θn)2 = E(θ − E(θn))2 + V ar(θn)

obtenemos, de la desigualdad de Cramer-Rao, que el E.M.V minimiza (entre los estimadores asintotica-mente insesgados) asintoticamente el error cuadratico medio.

Observacion 4.16. Observemos que si θ es eficiente, es de mınima varianza (entre el conjunto deestimadores que estan el las hipotesis del Teorema de Cramer-Rao). Podrıa no existir un estimadoreficiente, ademas, existen estimadores de mınima varianza que no cumplen la igualdad.

Ejemplo 4.17. Sea X1, . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y ademas

nE

(∂∂pp(x|p)p(x|p)

)2

= n

(1

p2p+

(−1

1− p

)2

(1− p)

)= n

1

p(1− p)=

1

V ar(X),

por lo tanto p = Xn es eficiente. Como Xn es eficiente es de mınima varianza varianza ya que X esde recorrido finito.

Definicion 4.18. Estimador Suficiente: Dada X1, . . . , Xn M.A.S. de X v F (x|θ) y Tn =T (X1, . . . , Xn) estimador, decimos que Tn es suficiente para θ si y solo si FX1,...,Xn|Tn no dependede θ.

Ejemplo 4.19. Sea X1, . . . , Xn M.A.S. tal que X v Ber(p) entonces T =∑ni=1Xi es un estimador

suficiente para estimar p.

Demostracion.

pX1,...,Xn|T=t(x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn|T = t)

=P (X1 = x1, . . . , Xn = xn, T = t)

P (T = t)=

0 si t 6=∑xi

P (X1=x1)...P (Xn=xn)P (T=t) si t =

∑xi

=p∑xi(1− p)n−

∑xi

Cnt pt(1− p)n−t

=1

Cnt.

Que no depende de p, hemos usado que T v Bin(n, p).

Teorema 4.20. T es suficiente para θ si y solo si L(x|θ) =∏ni=1 f(xi|θ) = g

(T (x), θ

)h(x)

Demostracion. (Caso discreto:)

L(x|θ) =

n∏i=1

pX(xi|θ) =

n∏i=1

P (X = xi|θ) = P (X1 = x1, . . . , Xn = xn|θ) =

Pθ(X1 = x1, . . . , Xn = xn|T = t)P (T = t) = h(x)g(T (x, θ))

29


Veamos el recıproco, supongamos que P (T = t) > 0.

P (X1 = x1, . . . , Xn = xn|T = t) =P (X1 = x1, . . . , Xn = xn, T = t)

P (T = t)

=

0 si t 6= T (x)

P (X1=x1,...,Xn=xn)P (T=t) si t = T (x)

Para el caso en que t = T (x)

P (X1 = x1, . . . , Xn = xn|T = t) =P (X1 = x1, . . . , Xn = xn)∑

y:T (y)=t P (X1 = y1, . . . , Xn = yn)=

g(T (x))h(x)∑y:T (y)=t g(T (y), θ)h(y)

.

Observemos que, dado que estamos en el caso T (x) = t y g(T (x), θ) = g(t, θ) = g(T (y), θ). Porlo tanto

P (X1 = x1, . . . , Xn = xn|T = t) =h(x)∑

y:T (y)=t h(y).

Que no depende de θ.

Ejemplo 4.21. Sea X1, . . . , Xn M.A.S. de X v N(µ, σ2). Estimamos µ y σ2, consideremos T (x) =(∑xi,∑x2i ) = (T1, T2).

L(x|(µ, σ)) =

n∏i=1

1√2πσ

exp

− 1

σ2(xi − µ)2

=1

(2π)n/2σnexp

− 1

2σ2

n∑i=1

(xi − µ)2

= (2πσ2)−n2 exp

n∑i=1

x2i − 2µ

n∑i=1

xi + nµ2

= (2π)−n2 σ−n exp

− 1

2σ2

(T2 − 2µT1 + nµ2

).

Por lo tanto si definimos

h(x) = (2π)−n2 y g

(T (x), (µ, σ2)

)= σ−n exp

− 1

2σ2

(T2 − 2µT1 + nµ2

).

De donde T es suficiente.

Observacion 4.22. Siempre existe un estimador suficiente, basta tomar T (x) = x y h constante.Esto significa que tener toda la muestra es suficiente.

Ejemplo 4.23. Si X1, . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b).

L(x|(a, b)

)=

∏1b−a si a < xi < b

0 si no

=

(b− a)n si a < xi < b0 si no

=

(b− a)n si a < x1:i; xn:n < b0 si no

=

(b− a)n si a < T1; T2 < b0 si no

Luego T (x) = (T1, T2) es suficiente.

30


Observacion 4.24. Si T es fuciente, el E.M.V. es funcion de un estimador suficiente, ya queen este caso L(x|θ) = g(T (x), θ)h(x), y, al maximizar en θ como h no varıa, podemos maximizarsolamente en g(T (x), θ)

Definicion 4.25. Estimador suficiente minimal: T estimador suficiente, es minimal si paratodo T ′ estimador suficiente, T es funcion de T ′.

Teorema 4.26. Sea X1, . . . , Xn M.A.S. de X v FX(x|θ), si T es un estimador que cumple:

L(x|θ)L(y|θ)

no depende de θ ⇔ T (x) = T (y)

entonces T es suficiente minimal.

Demostracion. Veamos primero que T es suficiente, podemos escribir, tomando y tal que T (y) =T (x)

L(x|θ) =L(x|θ)L(y|θ)

L(y|θ) = h(x)L(y|θ) = h(x)g(T (x), θ)

).

Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la funcion deverosimilitud.Veamos que T es minimal, sea T ′ suficiente, podemos escribir entonces L(x|θ) = g′

(T ′(x), θ

)h′(x).

Sea x y y, T ′(x) = T ′(y) entonces

L(x|θ)L(y|θ)

=g′(T ′(x), θ)h′(x)

g′(T ′(y), θ)h′(y)=h′(x)

h′(y),

que no depende de θ, entonces, usando el directo de nuestra hipotesis tenemos que T (x) = T (y).Hemos demostrado que cada ves que T ′(x) = T ′(y) entonces T (x) = T (y). Veamos que esto implicaque T = f(T ′). Definimos para z /∈ Im(T ′) f(z) cualquier cosa, y para z ∈ Im(T ′) entoncesz = T ′(x) y f(z) := T (x).

Definicion 4.27. Estadıstico Completo: T se dice completo si toda vez que tenga una funciong tal que Eθ

(g(T )

)= 0 para todo θ ∈ (H) implica que g(T ) = 0 c.s.

Ejemplo 4.28. Sea X1, . . . , Xn M.A.S. de X v U(0, θ) veamos que θ = xn:n es completo.

E(g(T )) =

∫ +∞

−∞g(t)fT (t)dt =

∫ θ

0

g(t)ntn−1

θn−1

1

θdt =

n

θn

∫ θ

0

tn−1g(t)dt,

luego E(g(T )) = 0 si y solo si∫ θ

0tn−1g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es

derivable c.s., θn−1g(θ) = 0 entonces g(θ) = 0 para todo θ.

Definicion 4.29. Funcion de perdida: Sea (H) y L : (H)× (H) −→ R que verifica

i) L(u, v) = L(v, u) para todo u, v ∈ (H).

ii) L(u, v) = 0 si y solo si u = v.

iii) L es convexa, es decir,

para todo p, q ∈ (H)× (H) L(λp+ (1− λ)q) ≤ λL(p) + (1− λ)L(q).

se denomina funcion de perdida.

Observacion 4.30. Si L es C2 es convexa si y solo si H(x,y)L es semidefinido positivo

Definicion 4.31. funcion de riesgo: Sea X1, . . . , Xn M.A.S. de X v FX(x|θ) y θ ∈ (H) de-sconocida, dado T (X1, . . . , Xn) estimador de θ y L una funcion de perdida, definimos la funcion deriesgo

R(θ, T ) = E(L(θ, T )

).

31


Definicion 4.32. Estimador de riesgo mınimo, uniformemente entre los insesgados: Tes E.R.M.U entre los insesgados si dado T ′ estimador insesgado se cumple que

R(θ, T ) ≤ R(θ, T ′) ∀ θ ∈ (H).

Teorema 4.33. Rao-Blackwell: Si σ(X1, . . . , Xn) es insesgado y T (X1, . . . , Xn) es suficiente,entonces

η(X1, . . . , Xn) = E(σ(X1, . . . , Xn)|T (X1, . . . , Xn)

),

entoncesR(θ, η) ≤ R(θ, σ).

Demostracion.

R(θ, η) = E(L(θ, η)

)= E

(L(θ,E(σ|T ))

)= E

(L(E(θ, σ|T ))

)≤ E

(E(L(θ, σ)|T )

)= E

(L(θ, σ)

).

Donde hemos usado la desigualdad de Jensen.

Observacion 4.34. En la demostracion anterior, la hipotesis de que T es suficiente es necesariapara que η sea un estimador de θ.

Observacion 4.35. η es insesgado E(η) = E(E(σ|T )) = E(σ) = θ.

Lema 4.36. Sea T suficiente, y ψ(T (X1, . . . , Xn)

)tal que si f

(T (X1, . . . , Xn)

)es una funcion de

T insesgada entonces ψ(T (X1, . . . , Xn)

)= f

(T (X1, . . . , Xn)

)c.s. entonces ψ(T ) es uniformemente

de mınimo riesgo entre los insesgados.

Demostracion. Sea σ insesgado, por Rao-Blackwell, como T es suficiente R(θ, η) ≤ R(θ, σ), seaη = E(σ|T ) es una funcion de T y es insesgado entonces por hipotesis f(T ) = ψ(T ) c.s.. Entoncesη = ψ(T ), y R(θ, ψ(T )) ≤ R(θ, σ), donde σ es arbitrario dentro de los insesgados, por lo tanto ψ esuniformemente de mınimo riesgo.

Lema 4.37. Si T es completo y f(T (X1, . . . , Xn)) ψ(T (X1, . . . , Xn)) son insesgados entonces en-tonces

f(T (X1, . . . , Xn)) = ψ(T (X1, . . . , Xn)) c.s.

Demostracion. E(f(T ) − ψ(T )) = 0 para todo θ ∈ (H), como T es completo, tomamos g(T ) =f(T )− ψ(T ) entonces E(g(T )) = 0 para todo θ ∈ (H), entonces g = 0 c.s..

Teorema 4.38.

1) Si T es suficiente y completo y σ es insesgado entonces E(σ|T ) minimiza el riesgo uniforme-mente entre los insesgados.

2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entrelos insesgados.

Demostracion.

1) Sea ψ(T ) = E(σ|T ), entonces ψ es insesgado ya que σ lo es. Si f(T ) es insesgado, por el Lema4.37 f(T ) = ψ(T ) c.s., entonces, por el Lema 4.36 ψ(T ) minimiza el riesgo uniformementeentre los insesgados.

2) Tomamos σ = E(T |T ) = T y se concluye usando la parte anterior.

32


Ejemplo 4.39. Sea X1, . . . , Xn M.A.S. de X v Ber(p). Entonces p = Xn es uniformemente demınimo riesgo entre los insesgados. Como ya vimos p es insesgado y suficiente como ya vimos, veamosque es completo.

0 = E(g(p)) =∑

x1,...,xn∈0,1

g(x)P (X1 = x1, . . . , Xn = xn)

=

n∑k=0

∑x1+···+xn=k

g

(k

n

)pk(1− p)n−k

=

n∑k=0

g

(k

n

)pk(1− p)n−kAnk = 0 ∀p

= (1− p)n∑

g

(k

n

)(p

1− p

)kk!

(n− k)!.

Como p ∈ (0, 1) y tomamos t = p/(1−p). Luego, tenemos un polinomio de grado n, en t con infinitasraices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.

33

Capıtulo 5

Estimacion por intervalos deconfianza

Definicion 5.1. Intervalo de confianza: Dada X1, . . . , Xn M.A.S. de X v FX(x|θ) con θ de-sconocido, θ ∈ R. Un intervalo de confianza al nivel 1− α con α ∈ (0, 1) es

I =[L(X1, . . . , Xn), U(X1, . . . , Xn)

],

donde L y U son estimadores y P (θ ∈ I) = 1− α.

Ejemplo 5.2. Construccion de intervalos de confianza: Sea X v N(µ, σ2) con σ2 conocido,tomamos θ = µ. Buscamos un intervalo de la forma[

Xn − k,Xn + k].

Debemos hallar k tal que P (µ ∈ I) = 1− α, entonces

1− α =P (Xn − k ≤ µ ≤ Xn + k)

=P (µ− k ≤ Xn ≤ µ+ k)

=Φ

(µ+ k − µσ/√n

)− Φ

(µ− k − µσ/√n

)=Φ

(√nk

σ

)− Φ

(−√nk

σ

)=2Φ

(√nk

σ

)− 1,

donde en la tercer igualdad hemos usado que X v N(µ, σ2/n) y en la ultima la paridad de Φ. Porlo tanto obtuvimos que

1− α/2 = Φ

(√nk

σ

)entonces

√nk

σ= φ−1(1− α/2),

y por lo tanto tomamos

k =σ√n

Φ−1(1− α/2).

Notacion: Anotaremos Zp = Φ−1(p), con esta notacion el intervalo de confianza del ejemploanterior es [

Xn −σ√nZ1−α/2, Xn +

σ√nZ1−α/2

].

34

Capıtulo 5. Estimacion por intervalos de confianza

Ejemplo 5.3. Se X v N(µ, σ2) con σ2 desconocido, y θ = µ, buscamos un intervalo de la forma[Xn − kSn, Xn + kSn

].

P (µ ∈ I) = P(|Xn − µ| ≤ kSn

)= P

(√n|Xn − µ|Sn

≤√nk

).

Recordemos que √n(Xn − µ)

Snv Tn−1,

entonces

P (µ ∈ I) =P(−√nk ≤ T ≤

√nk)

=FT (√nk)− FT (−

√nk)

=2FT (√nk)− 1 = 1− α,

donde hemos usado la simetrıa de F . Despejando obtenemos

k =F−1T (1− α/2)√

n=t1−α/2(n− 1)

√n

,

donde usamos la notacion F−1T (p) = tp(n− 1) siendo n− 1 son los grados de libertad. Por lo tanto

el intervalo de confianza para µ al nivel 1− α es

I =

[Xn −

Sn√nt1−α/2(n− 1), Xn +

Sn√nt1−α/2(n− 1)

].

Obervemos que como Snc.s.−→ σ entonces

Tn =

√n(Xn − µ)

Sn

d−→ N(0, 1), tp(n− 1)→ Zp.

Ejemplo 5.4. Si X ∈ L2 cualquiera con E(X) = µ y V ar(X) = σ2, si n es grande, en vista de lasobservaciones anteriores, un intervalo de confianza aproximado, para µ al nivel 1− α es[

Xn −Sn√nZ1−α/2, Xn +

Sn√nZ1−α/2

].

Ejemplo 5.5. Si X v N(µ, σ2) con µ desconocido, tomamos θ = σ2, busquemos a y b tal que

P(aS2

n ≤ σ2 ≤ bS2n

)= 1− α,

Recordemos que

(n− 1)S2n

σ2v χ2

n−1,

entonces

P (σ2/b ≤ S2n ≤ σ2/a) = P

((n− 1)

b≤ (n− 1)S2

n

σ2≤ n− 1

a

)= F

(n− 1

a

)− F

(n− 1

b

),

Basta elegir a tal que F ((n− 1)/a) = 1α/2 y b tal que F ((n− 1)/b) = α/2, de donde

a =n− 1

χ21−α/2(n− 1)

b =n− 1

χ2α/2(n− 1)

,

donde hemos usado la notacion F−1χ2 (p) = χ2

p(n− 1), para la distribucion χ2 con (n− 1) grados delibertad. Luego el intervalo es

I =

[n− 1

χ21−α/2(n− 1)

S2n,

n− 1

χ2α/2(n− 1)

S2n

].

35

Capıtulo 5. Estimacion por intervalos de confianza

Ejemplo 5.6. Sea X v Ber(p) con n grande tomemos θ = p, si aproximamos usando el T.C.L. es

facil ver, como σ2 = p(1− p) y Sn =√Xn(1−Xn), nos queda el intervalo

I =

Xn −

√Xn(1−Xn)√n

Z1−α/2, Xn +

√Xn(1−Xn)√n

Z1−α/2

Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para µ = E(X) cuandoσ2 = f(µ). Consideremos X1, . . . , Xn M.A.S. de X ∈ L2 y g : R −→ R clase C1. Si g′(µ) 6= 0, veamos

que√n(g(Xn − g(µ))

d−→ N(0, (σg′(µ))2) :

√n(g(Xn − g(µ)) =

√ng′(Cn)(Xn − µ) = g′(Cn)

√n(Xn − µ),

con Cn ∈ [Xn, µ] o Cn ∈ [µ,Xn], sabemos que g′(Cn)c.s.−→ g′(µ) y

√n(Xn − µ)

d−→ N(0, σ2), por lotanto usando el lema de Slutsky se concluye.

36

Capıtulo 6

Pruebas de hipotesis

Supongamos que queremos saber si una moneda esta balanceada o no. Se tira 100 veces yobtenemos 54 caras, debemos tomar una decision entre

H0 : p = 1/2 donde p = P (cara)

H1 : p 6= 1/2.

Definicion 6.1. Test de hipotesis: Dada X1, . . . , Xn M.A.S. de FX(x|θ) con θ desconocido, untest de hipotesis es decidir entre 2 hipotesis;

H0 : θ ∈ A hipotesis nula

H1 : θ ∈ B hipotesis alternativa

donde suponemos que A,B ⊂ (H) y A ∩B = ∅.

Definicion 6.2. Region Crıtica: La region crıtica, que anotaremos como RC ⊂ Rn con n eltamano de la muestra, es la zona de rechazo de H0.

Definicion 6.3. Regla de decision: Si (x1, . . . , xn) ∈ RC entonces rechazo H0, en caso contrariosi (x1, . . . , xn) /∈ RC no rechazo H0 (acepto H0).

Ejemplo 6.4. En nuestro ejemplo de la moneda es natural tomar

RC =

(x1, . . . , xn) ∈ 0, 1n ⊂ Rn : |Xn − 1/2| ≥ k

Definicion 6.5. Errores de tipo 1 y 2:

* error tipo 1: rechazar H0 siendo cierta.

* error tipo 2: aceptar H0 siendo falsa, H1 es cierta.

Definicion 6.6. Significacion de una prueba:

α = supθ∈A

Pθ((X1, . . . , Xn) ∈ RC

)= P ( error tipo 1 ).

Definicion 6.7. Probabilidad del error tipo 2: definimos, para θ ∈ B

β(θ) = Pθ∈B((X1, . . . , Xn) /∈ RC

)= P ( error tipo 2 ).

Definicion 6.8. Potencia de la prueba: se define como

π(θ) = P((X1, . . . , Xn) ∈ RC

)∀θ

37

Capıtulo 6. Pruebas de hipotesis

Observacion 6.9. π(θ) = 1−β(θ) si θ ∈ B y π(θ) ≤ α si θ ∈ A. En particular si A es θ0 π(θ0) = α.

Ejemplo 6.10. Para el caso de la moneda, si tomamos α = 0,05 es decir el 5 %, entonces σ2 = 1/4.

α = P1/2

((X1, . . . , Xn) ∈ [1/2− k, 1/2 + k]c

)= P1/2

(Xn ∈ [1/2− k, 1/2 + k]c

)= P

(20(Xn − 1/2) ∈ [−20k, 20k]c

)= 1− Φ(20k) + Φ(−20k) = 2− 2Φ(20k)

donde hemos usado la aproximacion de√

100σ (Xn−1/2) por una N(0, 1). Obtenemos entonces 20k =

Z0,975 de donde k = 0,098. Tenemos entonces la region crıtica

RC =

(x1, . . . , xn) ∈ Rn : |xn − 1/2| ≥ 0,098.

Como |0, 54− 1/2| no es mayor o igual que 0,98 no rechazo H0 al nivel 5 %.

Observacion 6.11. La decision depende fuertemente del nivel al que trabajo. Concretamente sielegimos α = 0, es decir, la probabilidad de rechazar H0 siendo cierto es 0, siempre acepeto H0.

Calculemos β(p) con p ∈ H1 = 1/2c con

β(p) = Pp(RCc)

= Pp(|Xn − 1/2| < 0,098)

= P (0,402 < Xn < 0,598)

∼= Φ

0,598− p√p(1−p)100

− Φ

0,402− p√p(1−p)100

Donde hemos usado que Xn v N

(p, p(1−p)100

).

Observacion 6.12. Si construimos una RC con un nivel dado α entonces puedo controlar el errorde tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave.

Observacion 6.13. En general, uno define la region crıtica a partir de un estimador insesgadoRC = |θ − θ0| ≥ k.

Observacion 6.14. Al permitir variar el tamano de la muestra uno puede fijar los errores α y β yhallar un n que verifique las igualdades.

Observacion 6.15. Como el error de tipo 1 es mas grave, al rechazar H0 uno debe estar seguro(tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia empricapara decir que H0 es falso. No es que se acepte H1.

6.1. Region crıtica optima, Teorema de Neyman-Pearson.

Teorema 6.16. Neyman-Pearson: Sea X1, . . . , Xn M.A.S. de X v FX(x|θ) absolutamente con-tinua, y el test

H0 : θ = θ0

H1 : θ = θ1

Sea Sk =

n∏i=1

f(xi, θ1)

f(xi|θ0)≥ k

, si k es tal que

PH0(Sk) = PH0

((X1, . . . , Xn) ∈ Sk

)= α,

entonces Sk es entre todas las RC de nivel α la que tiene menor β (maxima potencia).

38


Demostracion. Sea β = Pθ1(Sck) y β0 = Pθ1(Sc0) donde S0 es otra RC de nivel α, entonces

β − β0 = Pθ1(Sck)− Pθ1(Sc0)

=

∫Sck

n∏i=1

f(xi|θ1)dx1 . . . dxn −∫Sc0

n∏i=1

f(xi|θ1)dx1 . . . dxn

=

∫Sck\S

c0

n∏i=1

f(xi|θ1)dx1 . . . dxn −∫Sc0∩Sk

n∏i=1


≤ k

[∫Sck\S

c0

n∏i=1

f(xi|θ0)dx1 . . . dxn −∫Sc0∩Sk

n∏i=1


]

= k

[∫Sck

n∏i=1

f(xi|θ0)dx1 . . . dxn −∫Sc0

n∏i=1


]= k

[Pθ0(Sck)− Pθ0(Sc0)

]= k[1− α− (1− α)] = 0.

Luego β ≤ β0, como β0 es arbitrario β es mınimo.

Ejemplo 6.17. Hallar la forma de la RC optima para el caso X v N(µ, σ2) y el problema

H0 : µ = µ0

H1 : µ = µ1

con µ1 > µ0

Por el teorema de Neyman-Pearson planteamos

RNP =

n∏i=1

e−(Xi−µ1)2

2σ2

e−(Xi−µ0)2

2σ2

≥ k

donde k es tal que PH0

(RNP ) = α,

RNP =

e−∑ni=1

(Xi−µ1)2−(Xi−µ0)2

2σ2 ≥ k

=

−

n∑i=1

(Xi − µ1)2 − (Xi − µ0)2

2σ2≥ log(k)

=

−∑ni=1X

2i − 2µ1

∑ni=1Xi + nµ2

1 −∑ni=1X

2i + 2µ0

∑ni=1Xi − nµ2

0

2σ2≥ log(k)

=

µ1 − µ0

σ2

∑i=1

Xi +n(µ2

0 − µ21)

2σ2≥ log(k)

=

2n(µ1 − µ0)Xn − n(µ1 − µ0)(µ1 + µ0)

2σ2≥ log(k)

=

Xn ≥

2σ2 log(k) + n(µ1 − µ0)(µ1 + µ0)

2n(µ1 − µ0)

=Xn ≥ k′

donde

k′ =σ2 log(k)

n(µ1 − µ0)+

(µ1 + µ0)

2,

Observemos que bajo H0 Xn ∼ N(µ0,

σ2

n

)entonces

α = PH0

(√n(Xn − µ0)

σ≥√n(k′ − µ0)

σ

)= P

(N(0, 1) ≥

√n(k′ − µ0)

σ

)

39


por lo tanto

zα =

√n(k′ − µ0)

σy

k′ = µ0 +σzα√n

finalmente la region crıtica es Xn ≥ µ0 +

σzα√n

.

Vamos a calcular para esta prueba la probabilidad del error de tipo II, esto es:

β = PH1

(Xn ≤ µ0 +

σzα√n

)= PH1

(√n(Xn − µ1)

σ≤√n(µ0 − µ1)

σ+ zα

)= Φ

zα −

√n(µ1 − µ0)

σ

Por ejemplo si σ = 1 , α = 5 %, zα = 1, 645, µ0 = 0, µ1 = 0, 5, tenemos la siguiente variacion de

β segun n

n β4 0,7409 0,55816 0,36125 0,19636 0,088

Es decir que por ejemplo para n = 9 ningun test de nivel 5 % para este test tiene potencia mayorque 44, 2 %, esto quiere decir que es muy probable que aceptemos H0 de forma erronea con estasmuestras pequeas.

Observacion 6.18. Analogamente se demuestra que si µ1 < µ0 la prueba

H0 : µ = µ0

H1 : µ = µ1

tiene como region crıtica

Rα =

Xn < µ0 −

σzα√n

Ejemplo 6.19. Consideremos X1, . . . , Xn i.i.d. con distribucion de Poisson de parametro λ, queanotaremos P(λ) y

H0 : λ = 100

H1 : λ = 120

entonces RNP = Xn > cα,n donde cα,n es tal que P(P(n100) > ncα,n

)= α. Observemos que

usando el T.C.L, sabemos que si Z ∼ P(n100) entonces

Z − n100√n100

≈ N(0, 1),

de donde

α = P

(Z − n100√

n100>n(cα,n − 100)√

n100

)≈ P

(N(0, 1) >

√n

10(cα,n − 100)

)despejando

cα,n ≈10zα√n

+ 100.

40


Ejemplo 6.20. Consideremos X1, . . . , Xn i.i.d. ∼ Ber(p) y deseamos testear

H0 : p = p0

H1 : p = p1

con p1 > p0 dados. Tenemos RNP = Xn > cα,n donde

cα,n lo deducimos de la tabla de la Bin(n, p0) si n es moderado y P (Bin(n, p0) > ncα,n) = α.

cα,n lo deducimos de la tabla de P(np0) si n es grande y p0 muy pequeo, donde P (P(np0) >ncα,n) = α.

cα,n = p0 +

√p0(1−p0)√

nzα para el caso en que n es grande, y p0 no muy pequeo, aqui usamos el

T.C.L.

Las regiones crıticas para p1 < p0 son analogas.

Corolario 6.21. Corolario de Neyman-Pearson, en las hipotesis del teorema, α+ β ≤ 1

Demostracion.

β = PH1(Sc) =

∫Sc

n∏i=1

f(xi|θ1)dx1 . . . dxn ≤ k∫Sc

n∏i=1

f(xi|θ0)dx1 . . . dxn =

k(1−

∫S

n∏i=1

f(xi|θ1)dx1 . . . dxn)

= k(1− α),

si k ≤ 1 entonces β ≤ 1− α de donde α+ β ≤ 1,si k ≥ 1

1− β = PH1(S) =

∫S

n∏i=1

f(xi|θ1)dx1 . . . dxn ≥ k∫S

n∏i=1

f(xi|θ0)dx1 . . . dxn = kα,

como k ≥ 1 entonces 1− β ≥ kα ≥ α de donde α+ β ≤ 1.

Teorema 6.22. Consideremos X1, . . . , Xn una M.A.S. de X v FX(x|θ) absolutamente continua, yla prueba

H0 : µ = µ0

H1 : µ = µ1

y k = kn es tal que PH0

(n∏i=1

f(Xi|θ1)

f(Xi|θ0)≥ kn

)= α entonces βn → 0.

Demostracion. log

(n∏i=1

f(Xi|θ1)

f(Xi|θ0)

)=

n∑i=1

log

(f(Xi|θ1)

f(Xxi|θ0)

)y por la L.F.G.N.

1

nlog

(n∏i=1

f(Xi|θ1)

f(Xi|θ0)

)c.s.−→E

(log

(f(X|θ1)

f(X|θ0)

))< log

(E

(f(X|θ1)

f(X|θ0)

))= log

(∫f(x|θ1)

f(x|θ0)f(x|θ0)dx

)= log(1) = 0.

41


Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente concava), yen la siguiente igualdad hicimos el supuesto de H0 cierto, es decir θ = θ0. Tenemos entonces que

n∑i=1

log

(f(Xi|θ1)

f(Xi|θ0)

)c.s.−→ −∞.

Luego, para todo ε > 0 tomando α = ε, y para todo m ∈ N existe n0 tal que ∀n ≥ n0

P

(n∑i=1

log

(f(Xi|θ1)

f(Xi|θ0)

)< −m

)≥ 1− ε = 1− α.

Llamemos

Sn =

n∏i=1

f(Xi|θ1)

f(Xi|θ)≥ kn

y

An,m =

n∑i=1

log

(f(Xi|θ)f(Xi|θ)

)< −m

.

Si tomamos ω ∈ An,m ∩ Sn entonces

log(Kn) ≤n∑i=1

log

(f(Xi(ω)|θ1)

f(Xi(ω)|θ0)

)< −m,

luego, tenemos que ∀ m ∈ N, ∃n0 tal que ∀n ≥ n0 log(kn) < −m de donde kn → 0.Observemos que Sn ∩ An,m 6= ∅ ya que P (Sn) + P (An,m) > α + 1 − α > 1, luego, se intersectan.Como βn = PH1

(Scn) =∫Scn

∏f(xi|θ)dx ≤ kn

∫ cn

∏f(xi|θ)dx→ 0.

Corolario 6.23. Consideremos el caso particular

H0 : θ = θ0

H1 : θ = θ1

Sea Sn =∏n

i=1f(xi|θ1)f(xi|θ0) ≥ 1

entonces αn + βn → 0

Demostracion. Si H0 es cierto entonces∑ni=1 log

(f(Xi|θ1)f(Xi|θ0)

)P−→ −∞, de donde αn = PH0

(Sn) =

PH0

(∑ni=1 log

(f(Xi|θ1)f(Xi|θ0)

)≥ 0)

n−→ 0.

Si H1 es cierto entonces∑ni=1 log

(f(Xi|θ0)f(Xi|θ1)

)P−→ −∞.

βn = PH1

(n∑i=1

log

(f(Xi|θ1)

f(Xi|θ0)

)≤ 0

)−→ 0.

Observemos que este resultado nos dice que si pudiesemos disponer de muestras arbitrariamentegrandes, tanto la probabilidad de error de tipo I, como la de tipo II, podrıan hacerse arbitrariamentepequeas. No obstante se cumple el siguiente teorema:

Teorema 6.24. Si X1, . . . , Xn son i.i.d. con densidad fθ , consideramos la prueba

H0 : θ = θ0

H1 : θ = θ1

y suponemos ademas que ∀ Ak sucesion de sucesos tal que PH0(Ak)→ 1 el lımite inferior en k

de PH1(Ak) es positivo, entonces existe δn > 0 tal que para cualquier region crıtica RC se tiene que

si P (error tipo I) = PH0(RC) P (error tipo II) = P(H1)(RCc) entonces

P (error tipo I) + P (error tipo II) ≥ δn

42


La hipotesis sobre los Ak es tecnica y se cumple en la mayorıa de los casos, ademas puede verseque que en los casos en que las densidades correspondientes a ambas hipotesis tienen el mismosoporte, esa hipotesis es valida. Observemos que lo que nos esta dando este teorema es una cotapara la velocidad de convergencia de la suma de las probabilidades.

Ejemplo 6.25. Supongamos que X1, . . . , Xn son i.i.d. ∼ N(µ, σ2), con σ conocida y queremostestear:

H0 : µ ≤ µ0

H1 : µ > µ0

dada, en tal caso tenemos que si RC es la region crıtica,

α = supµ≤µ0

P((X1, . . . , Xn) ∈ RC

)

Dado α propondremos la region crıtica (para cada alternativa µ > µ0 fija, es la mejor segun NeymanPearson)

RC =

Xn > µ0 +

zασ√n

,

y verifiquemos que su nivel es α, en efecto

supµ≤µ0

P

(Xn > µ0 +

zασ√n

)= supµ≤µ0

P

(√n

(Xn − µ)

σ>

√n(µ0 − µ)

σ+ zα

)= supµ≤µ0

1−Φ

(√n(µ0 − µ)

σ+ zα

)= 1− Φ(zα) = α

Observemos que en este caso el error de tipo II puede ser muy apreciable. Finalmente, puededemostrarse que, en este tipo de ejemplos (test sobre la media de poblaciones guassianas) si σ esdesconocida, todos los test antes vistos funcionan de igual modo si se reemplaza σ por Sn y zα portα(n− 1). Notese que si X1, . . . , Xn son i.i.d. ∼ N(µ, σ2) sea σ conocida o no, los test

H0 : µ ≤ µ0

H1 : µ > µ0

H0 : µ = µ0

H1 : µ > µ0

H0 : µ = µ0

H1 : µ = µ1

Tienen la misma region crıtica ya que el segundo caso contiene la peor comparacion del primero , yla region crıtica de Neyman Pearson del tercero, no depende del valor de µ1 como se observo.

La prueba

H0 : µ = µ0

H1 : µ 6= µ0

tiene region crıtica

RC =

∣∣∣∣√n(Xn − µ0)

σ

∣∣∣∣ ≥ zα/2Vamos a presentar, sin demostracion las regiones crıticas para el caso en que tanto σ como µ sondesconocidos, para un tratamiento mas detallado de estos temas pueden verse, [3] o [2].

ParaH0 : σ = σ0

H1 : σ = σ1

H0 : σ = σ0

H1 : σ > σ0

H0 : σ ≤ σ0

H1 : σ > σ0

con σ1 > σ0, tenemos

RCα =

(n− 1)

S2n

σ20

≥ χ2α(n− 1)

,

43


y para

H0 : σ = σ0

H1 : σ = σ1

H0 : σ = σ0

H1 : σ < σ0

H0 : σ ≤ σ0

H1 : σ > σ0

con σ1 < σ0 es

RCα =

(n− 1)

S2n

σ20

≥ χ21−α(n− 1)

,

finalmente paraH0 : σ = σ0

H1 : σ 6= σ1

tenemos

RCα =

(n− 1)

S2n

σ20

/∈(χ2

1−α/2(n− 1), χ2α/2(n− 1)

).

6.2. Familias con cociente de verosimilitud monotono

Definicion 6.26. Familia con C.V.M.: Una familia de densidades f(·|θ) con θ ∈ (H) ⊂ R tieneC.V.M. si

L(x|θ)L(x|θ′)

=

∏ni=1 f(xi|θ)∏ni=1 f(xi|θ′)

= g(T (x)

),

donde g : R −→ R es estrictamente creciente, θ > θ′, y T = Tn es un estimador. Observemos que gdepende de n de θ y de θ′

Ejemplo 6.27. f(·|θ) es una familia exponencial (para θ ∈ (H) ⊂ R) si

n∏i=1

f(xi|θ) = CneQ(θ)t(x)h(x) con Cn(θ) > 0,

si Q es estrictamente creciente la familia tiene C.V.M.:

L(x|θ)L(x|θ′)

=Cn(θ)

Cn(θ′)

eQ(θ)t(x)

eQ(θ′)t(x)

h(x)

h(x)=

Cn(θ)

Cn(θ′)et(x)

(Q(θ)−Q(θ′)

)= g(t(x))

con g(s) = Cn(θ)Cn(θ′)e

s(Q(θ)−Q(θ′)

), luego, g es una funcion creciente de s.

Teorema 6.28. Sea X1, . . . , Xn M.A.S. de X con densidad f(·|θ) perteneciente a una familia conC.V.M, sea T (x) absolutamente continua y θ ∈ (H) ⊂ R, consideremos

H0 : θ ≤ θ0

H1 : θ > θ0

Si R = x ∈ Rn : T (x) ≥ k donde k es tal que R sea R.C. de nivel α, entonces R es R.C.uniformemente de maxima potencia.

Demostracion. En el conjutno θ : θ ≤ θ0 ⊂ (H) defino αk(θ) = α(θ) = Pθ(R). Probaremosque α es creciente y por lo tanto supθ∈H0

α(θ) = α(θ0), de donde el k de la hipotesis es tal quePθ0(T (x) ≥ k) = α. Consideremos la prueba

H0 : θ = θ′

H1 : θ = θ′′

44


Con θ′′ > θ′. Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos laregion crıtica optima

n∏i=1

f(xi|θ′′)f(xi|θ′)

≥ k′

= T (x) ≥ g−1(k′),

en esta igualdad hemos usado que g es creciente, llamemos k′′ = g−1(k′). Para esta prueba α+β ≤ 1,α = Pθ′(T (x) ≥)) = α(θ′) y β = Pθ′′(T (x) ≥ k′′c) = 1 − Pθ′′(T (x) ≥ k′′) = 1 − α(θ′′).Entonces α(θ′) + 1−α(θ′′) ≤ 1 y por lo tanto α(θ′) ≤ α(θ′′). Como θ′ y θ′′ son arbitrarios se deduceque α creciente.Veamos ahora que R es optima, es decir, uniformemente de maxima potencia. Supongamos porabsurdo, que existe otra S RC de nivel α tal que existe θ > θ0 y βS(θ) < βR(θ), sabemos quesupθ≤θ0 αS(θ) = α ya que hemos supuesto que S es RC de nivel α, por lo tanto αS(θ0) ≤ α.Consideremos la prueba

H0 : θ = θ0

H1 : θ > θ0 (6.1)

Sea S′ = T (x) ≥ k con k′ tal que αS′(θ0) = αS(θ0), (tal k′ existe porque hemos supuesto queT es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos porel teorema de Neyman Person que S′ es uniformemente de maxima potencia para la prueba 6.1.Entonces βS′(θ) ≤ βS(θ) ∀θ ≥ θ0. En particular βS′(θ) ≤ βS(θ). Como αS(θ0) ≤ α = αR(θ0) olo que es lo mismo Pθ0(T (x) ≥ k′) ≤ Pθ0(T (x ≥ k) obtenemos que k ≤ k′, pero esto contradice

βS′(θ) ≤ βS(θ) ya que esto es equivalente a que Pθ(T (x) ≥ k′c) < Pθ(T (x) ≥ kc) ya que estoimplica k ≥ k′.

6.3. Metodo de la razon de verosimilitud para RC:

Consideremos X1, . . . , Xn M.A.S. de X v FX(x|θ) con θ ∈ (H) ⊂ Rk y la prueba

H0 : θ ∈ A ⊂ (H)

H1 : θ /∈ A

Planteamos una RC de la forma

R =

x ∈ Rn :

supθ∈A L(x|θ)supθ∈H L(x|θ)

≤ k.

Observemos que para hipotesis simples H0 : θ = θ0 y H1 : θ = θ1 se obtiene

supθ∈A

L(x|θ) = L(x|θ0) =

n∏i=1

f(xi|θ0)

y

supθ∈(H)

L(x|θ) =

L(x|θ0) =

n∏i=1

f(xi|θ0) de donde R = ∅

L(x|θ1) =

n∏i=1

f(xi|θ1)

Entonces, la RC de de la razon de verosimilitud quedax ∈ Rn :

n∏i=1

f(xi|θ0)

f(xi|θ1)≤ k

que es la R.C .O. del teorema de Neyman Pearson.

45


Ejemplo 6.29. Sea X1, . . . , Xn M.A.S. de X v N(µ, 1) y la prueba

H0 : µ = µ0

H1 : µ 6= µ0

Hallaremos la RC de la razon de verosimilitud. Tenemos que

supµ∈R

L(x|µ) = L(x|x)

y

L(x|µ) =

(1√2π

)nexp

−1

2

n∑i=1

x2i −

n

2µ2

expnµx

entonces

L(x|θ0)

L(x|x)=e−

nµ202 +nµ0x

e−nx2

2 +nx2= e−

nµ202 +nµ0x−nx

2

2 = e−n2 (µ0−x)2

si planteamos la region crıtica

L(x|θ0)

L(x|x)≤ k ⇔ −n

2(x− µ0)2 ≤ L(k) = k′ ⇔ |x− µ0| ≥ k′′

por lo tanto la region crıtica es de la forma

RC = x ∈ Rn : |x− µ0| ≥ k

Proposicion 6.30. Consideremos la prueba

H0 : θ ∈ A ⊂ (H)

H1 : θ /∈ A

α(x) =supθ∈A L(x|θ)

supθ∈(H) L(x|θ)=

supθ∈A g(T (x), θ)h(x)

supθ∈(H) g(T (x), θ)h(x)=

supθ∈A g(T (x), θ)

supθ∈(H) g(T (x, θ))= β(T (x))

6.4. Pruebas de Bondad de ajuste

Se tiene una M.A.S. X1, . . . , Xn de X v FX desconocida. Dada F0 una distribucion, (conocidao no) se quiere tomar una decision acerca de si X distribuye como F0 o no, es decir,

H0 : FX = F0

H1 : FX 6= F0

6.4.1. Test de χ2:

Consideremos la prueba

H0 : FX = F0

H1 : FX 6= F0

Dado k ∈ N elijo I1, . . . , Ik intervalos en R tal que Ii = (ai−1, ai], I1 = (−∞, a1] y Ik = (ak,+∞]tal que Ii ∩ Ij = ∅ si i 6= j, y ∪ki=1Ii = R. Si H0 es cierto P (X ∈ Ij) = F0(aj)− F0(aj−1) = F0(Ij),

dadaX1, . . . , Xn M.A.S. deX definimos F ∗n la distribucion emprica, sabemos que F ∗n(Ij)c.s.−→ FX(Ij).

Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en el

intervalo Ij := Ej = nF0(Ij), consideremos T =∑ki=1(bj −Ej)2. Es razonable entonces construir la

RC = T ≥ k.Si definimos Tn =

∑(bj−Ej)2Ej

, siendo bj la cantidad de observaciones Xi que cayeron en el intervalo

Ij , bajo la hipotesis H0, se prueba que Tnd−→ χ2

k−1. Luego si α = PH0(Tn ≥ k), se aproxima con la

distribucion de una χ2k−1 y se halla un k aproximado.

46


6.4.2. Test de Kolmogorov-Smirnov

Consideremos

H0 : FX = F0 completamente conocida

H1 : FX 6= F0

tomemos RC = supx∈R |F ∗n(x)− F0(x)| ≥ k, por Gilvenco−Cantelli F ∗n converge uniformementea F0(x). Para conocer la distribucion de supx∈R |F ∗n(x)− F0(x)| tenemos el siguiente teorema.

Teorema 6.31. Kolmogorov: Si Dn = supx∈R |F ∗n(x)− F0(x)| entonces, si F0 es continua

lımn→+∞

P(√nDn ≤ z

)= 1− 2

∞∑n=1

(−1)n−1e−2n2z2

Definicion 6.32. Dada una prueba de hipotesis

H0 : θ ∈ AH1 : θ /∈ A

cuya region crıtica sea RC = T ≥ k con T = T (X1, . . . , Xn) estimador de θ, el p− valor es

supθ∈A

P(T (X) ≥ T (x)

)Ejemplo 6.33. Sea X1, . . . , Xn M.A.S. de X v N(µ, 1), consideremos la prueba

H0 : µ = µ0 = 0

H1 : µ 6= µ0 = 0

Sabemos que RC = |xn| ≥ k entonces T (X1, . . . , Xn) = |Xn| el p− valor es

PH0(|Xn| ≥ |x|) = 1 − PH0

(|Xn| ≤ |x|) = 1 − Φ(√n|x|) + Φ(−

√n|x|) = 2

(1 − Φ(

√n|x|)

)Proposicion 6.34. Si los supremos se realizan en un mismo θ0 ∈ A, α < p− valor ⇔ no rechazoH0 al nivel α.

Demostracion. Si α < p− valor entonces hallamos k tal que α = supθ∈A P ((T (X ≥ k)

),

α = supθ∈A

P(T (X) ≥ k

)< supθ∈A

P(T (X) ≥ T (x)

)α = Pθ0

(T (X) ≥ k

)< Pθ0

(T (X) ≥ T (x)

)de donde T (x) < k por lo tanto x /∈ RC y no rechado H0. El razonamiento es analogo si α >p− valor.

Observacion 6.35. La propiedad se cumple si H0 es simple (θ = θ0), o en el caso de concientesde verosimilitud monotonos.

6.5. Analisis de Varianza, (ANOVA)

Supongamos que tenemos Yij observaciones, con i = 1, . . . , k y j = 1, . . . , nj y que Yij vN(θi, σ

2) para todo i, j. Queremos testear si los θi son todos iguales o no. El supuesto de que σ2

es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Paracada i ∈ 1, . . . , k definimos

Yi =1

ni

n∑j=1

Yij ,

47


y

S2i =

1

ni − 1

ni∑j=1

(Yij − Yij)2.

Sabemos que

Yi v N(θi, σ2/ni)

(ni − 1)

σ2S2i v χ2

ni−1

Observacion 6.36. Si A = a = (a1, . . . , ak) ∈ Rk :∑ai = 0 entonces

θ1 = · · · = θk ⇔ ∀a ∈ A,∑

aiθi = 0

Demostracion. El directo es inmediato, veamos el recıproco, tomemos a1 = 1, a2 = −1, a3 = · · · =ak = 0 entonces θ1 − θ2 = 0 y as sucesivamente θ1 = · · · = θk.

Observacion 6.37. Si defino S2p = 1

N−k∑ki=1(ni − 1)Ski con N =

∑ni. entonces

N − kσ2

S2p =

k∑i=1

(ni − 1)

σ2S2i v χ2

N−k.

Ademsk∑i=1

aiYi v N

(k∑i=1

aiθi,

∑ki=1 a

2iσ

2

ni

).

Se puede demostrar que S2p y

∑aiYi son independientes, luego, si recordamos que si X v N(0, 1)

es independiente de χ2n entonces

X√χ2n/n

v tn

obtenemos quek∑i=1

aiYi −k∑i=1

aiθi

σ√∑k

i=1 a2i /ni√

(N−K)σ2 S2

p/(N − k)=

k∑i=1

ai(Yi − θi)

Sp

√∑ki=1 a

2i /ni

v tN−k

Supongamos que a ∈ A fijo, y α ∈ (0, 1) tenemos

H0 :∑

aiθi = 0

H1 : no H0

Consideremos la region crıtica,

RC =

|∑aiYi|

Sp√∑

ai/ni> m

,

α = PH0(RC) = PH0

(|∑aiYi|

Sp√∑

ai/ni> k

),

como estamos bajo H0 si utilizamos la observacion anterior

α = 1− P (−m < T < m), con T v tN−k,

y por lo tanto 1− α/2 = F (m), k = t1−α/2(N − k).

48


Nos planteamos ahora la siguiente prueba

H0 : θ1 = · · · = θk

H1 : noH0

y esto es si y solo si

H0 :∑

aiθi = 0 ∀a ∈ A

H1 : noH0

Tomo el estadıstico Ta =

∑aiYi

Sp√∑

a2i /ni

, resulta natural plantear la region crıticaRC =

supa∈A

T 2a > k

.

Debemos entonces hallar la distribucion de supa∈A Ta bajo la hipotesis H0 cierto. Llamemos Ci = Yi

y Ci =∑niCiN .

supa∈A

T 2a =

1

Spsupa∈A

(∑aiCi

)2∑ai/ni

= supa∈A

(∑ ai√ni

(Ci − C)√ni)2∑

ai/ni,

donde hemos usado que∑aiC = 0, si aplicamos la desigualdad de Cauchy-Schwartz

supa∈A

(∑ ai√ni

(Ci − C)√ni)2∑

ai/ni≤ supa∈A

∑a2i /ni

∑ni(Ci − C)2∑ai/ni

=∑

ni(Ci − C)2.

Obtuvimos una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni(Ci−C) es claroque

∑ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz

se da en ese caso).

supa∈A

T 2a =

∑ki=1 ni(Yi − Y )2

S2p

donde Y =

∑ki=1 niYiN

,

recordemos queχ2n/n

χ2m/m

v F (n,m),

se puede demostrar que

k∑i=1

ni(Yi − Y )2 v χ2k−1 y por lo tanto

supa∈A

σ2χ2k−1

σ2χ2N−k/(N − k)

> cte ⇔χ2k−1/(k − 1)

χ2N−k/(N − k)

v F (k − 1, N − k) ≥ cte/(k − 1).

Planteamos

α = PH0(RC) = 1− PH0

(F (k − 1, N − k) ≤ cte

k − 1

)entonces cte = F1−α(k − 1, N − k)(k − 1).

Finalmente, obtuvimos la region crıtica

RC =

1

Sp

k∑i=1

ni(Yi − Yi)2 ≥ F1−α(k − 1, N − k)(k − 1)

.

49

Capıtulo 7

Modelos Lineales

7.1. Variable Normal Multivariada

Definicion 7.1. Dado un vector aleatorio (X1, . . . , Xn) recordemos que el vector de medias µ =(µ1, . . . , µn) := (E(X1), . . . , E(Xn)), y la matriz de covarianzas es

Σn×n =

V ar(X1) cov(X1X2) . . . cov(X1Xn)cov(X2X1) V ar(X2)

......

. . .

cov(XnX1) . . . V ar(Xn)

Anotamos µ = E(X) y V ar(X) = σn×n.

Observacion 7.2. Veamos algunas propiedades

1) Si A ∈Mk×n es constante entonces E(AX) = AE(X).

2) V ar(AX) = AΣn×nAt.

3) Si X ∈ Rn es un vector aleatorio A es una matriz k×n y b un vector k×1 constante entonces

E(AX + b) = AE(X) + b y V ar(AX + b) = AΣXAt.

4) Si X es un vector aleatorio en Rn, σX es semidefinida positiva.

Demostracion.

2) Es inmediato a partir de observar que V ar(X) = E((X − E(X))(X − E(X))t

).

4) Tenemos que ver que para todo λ = (λ1, . . . , λn) ∈ Rn entonces λΣλt ≥ 0, y esto se sigue deque λΣλt = V ar(

∑λiXi).

Definicion 7.3. Normal tıpica en Rn: Decimos que el vector U = (U1, . . . , Un) tiene distribucionnormal tıpica en Rn si las Ui v N(0, 1) y son independientes.

Observacion 7.4. La densidad conjunta de U es

fU (x) =e−

12‖x‖

2

(2π)n2.

50

Capıtulo 7. Modelos Lineales

Definicion 7.5. Normal multivariada Decimos que X tiene distribucion normal multivariada siexiste una matriz n× k C y un vector µ n× 1 tal que X = CU + µ.

Observacion 7.6. Observemos que si X tiene distribucion normal multivariada entonces E(X) = µy ΣX = CCt

Proposicion 7.7. Veamos algunas propiedades de la normal multivariada

1) Si Cn×n es invertible, X es absolutamente coninua y

fX(x) =e−

12 (x−µ)tΣ−1(x−µ)

(2π)n/2|det Σ|1/2Σ = CCt.

Demostracion. X = CU + µ = g(U), g : Rn −→ Rn es invertible ya que C lo es.

fX(x) = fg(U)(x) = fU ((g−1(x))1

|det Jg(g−1(x))|= fU (C−1(x− µ))

1

|detC|

=e−

12 (x−µ)(C−1)tC−1(x−µ)

(2π)n/2|det Σ|1/2

2) La distribucion normal tpica es invariante bajo tranformaciones ortogonales. De hecho es lanica distribucion que depende solamente de la norma, y que es invariante bajo transformacionesortogonales (a menos de multiplicarla por constantes). Que es invariante bajo transformacionesortogonales se sigue de la definicion y de la propiedad anterior.

3) Si X es normal multivariada, entonces AX + b tambien lo es, con Am×n y bm×1 constantes.

4) Si X = CU + µ y C es sobreyectiva entonces X es absolutamente continua.

Definicion 7.8. Normal multivariada degenerada: Si X = CU + µ con U normal tpica,decimos que es degenerada si C no es sobreyectiva

Observacion 7.9. Si X es degenerada entonces no es absolutamente conitnua.

Demostracion. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobresi y solo si det(CCt) = det(Σ) = 0, si det(Σ) = 0 entonces tΣtt = V ar(tX) = 0 entonces tX es c.s.constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX(x1, . . . , xn), alintegrarla en S obtendramos que debera dar 1 porque X esta contenida ahi, pero 0 porque S tienemedida nula, absurdo.

Observacion 7.10. Si X v N(µ,Σ) cualquier subvector de X tambien es normal multivariado.Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar Aadecuadamente.

Observacion 7.11. Si (X1, . . . , Xk, Y1, . . . , Yk) v N(µ,Σ) entonces si cov(Xi, Yj) = 0 ∀i, jenontces (X1, . . . , Xk) y (Y1, . . . , Yk) son independientes.

Demostracion. Si Σ es invertible, entonces

Σ−1 =

(Σ−1X 00 Σ−1

Y

)

y es facil ver que fX,Y (x) = gX(x)gY (y).Si Σ no es invertible, y ΣY si, entonces (X1, . . . , Xk) ∈ S, variedad lineal de dimension α − k,supongamos que S esta generado por X1, . . . , Xα entonces(X1, . . . , Xα, Y1, . . . , Ym) est en las hipotesis anteriores y por lo tanto son independientes, de donde(X1, . . . , Xk, Y1, . . . , Ym) lo son. El caso en que ΣY tampoco es invertible es anlogo.

51


7.2. Modelos Lineales

Se desea estimar Y = g(X1, . . . , Xk), se observan medidas de las variables X1, . . . , Xk y se deseaestimar g. A las variables Xi se las denomina explicativas y a la Y explicada. Se plantea entoncesg(x) = g(x, θ) = θ1X1 + · · · + θkXk, θ = (θ1, . . . , θk). Para estimar g estimamos θ. Se planteaentonces Y1

...Yn

=

X11 X12 . . . X1k

......

. . .

Xn1 Xn2 . . . Xnk

θ1

...θk

Se observan n muestras de Y ,

X =

X11 X12 . . . X1k

......

. . .

Xn1 Xn2 . . . Xnk

,

es la matriz de diseno (constante y conocida).

En el modelo lineal planteamos Y = Xθ + e donde, X es una matriz de diseno, y

Y =

Y1

...Yn

θ =

θ1

...θk

e =

e1

...en

,

e aleatorio (vector de errores).

Ejemplo 7.12. Analisis de varianza: Yij = θi+ eij , en este caso la matriz X es un vector n×1con entradas todas iguales a 1.

Ejemplo 7.13. Modelo lineal simple: Y = α + βX + e, tomamos (Y1, X1), . . . , (Yn, Xn) yθ = (α, β), y como matriz de diseno la matriz

X =

1 X1

1 X2

...1 Xn

,

lo que se busca es entonces ajustar una recta a los datos.

Ejemplo 7.14. Ajuste de un polinomio de grado k: De forma analoga al ejemplo anterior, siY = α+ β1x+ β2x

2 + · · ·+ βkxk + e, planteamos la matriz de diseno

X =

1 X1 X21 . . . Xk

1...

...1 Xn X2

n . . . Xkn

.

Observacion 7.15. Observemos que, en vistas del ejemplo anterior, la funcion y = g(x1, . . . , xn, θ)es lineal en θ pero no en x = (x1, . . . , xn), podra ser x3 = cos(x1) etc.

7.3. Hipotesis del modelo

1) Rango(g(X)) = k.

2) Los errores tienen media 0, E(ei) = 0 para todo i.

52


3) Homocedasticidad: V ar(ei) = σ2 para todo i.

3’) cov(ei, ej) = 0 para todo i 6= j.

4) el vector e de errores tiene distribucion N(0, σ2I) en este caso se cumplen 2), 3) y 3′)

Para estimar θ ∈ Rk se utiliza el metodo de los mınimos cuadrados, consiste en hallar θ ∈ Rkdonde se realize

mınθ∈Rk

‖Y −Xθ‖.

Teorema 7.16. Bajo la hipotesis 1 se cumple que (XtX)−1XtY es el estimador por mınimoscuadrados de θ.

Demostracion. Sea θ el valor donde se obtiene el mınimo, es decir

‖Y −Xθ‖2 ≤ ‖Y −Xθ‖2 ∀θ ∈ Rk,

si consideramos la multiplicacion por X como una transformacion lineal de Rk en Rn entonces Xθes la proyeccion de Y sobre la imagen de X, entonces Y − Xθ⊥Xθ para todo θ ∈ Rk, esto es0 = (Xθ)t(Y −Xθ), o lo que es lo mismo

θtXtY = θtXtXθ ∀θ ∈ Rk,

luego las transformaciones lineales XtY y XtXθ son iguales, de donde θ = (XtX)−1XtY .

Teorema 7.17.

a) Bajo las hipotesis 1) y 2), θ es insesgado.

b) Bajo las hipotesis 1), 2) y 3), Σθ = σ2(XtX)−1.

Demostracion.

a) E(θ) = (XtX)−1XtE(Y ) = (XtX)−1XtXθ = θ.

b) Σθ = Σ(XtX)−1Xte+θ = (XtX)−1Xt(σ2Id)X(XtX)−1, donde usamos que ΣAX+C = AσXAt,

finalmente se obtiene, Σθ = σ2(XtX)−1, ya que transponer e invertir conmutan.

Teorema 7.18. Bajo las hipotesis 1) a 4) el E.M.V. de θ coincide con el de mınimos cuadrados y

adems el E.M.V. de σ es 1n‖Y −Xθ‖.

.

Teorema 7.19. Bajo las hiptesis 1) a 4) θ es insesgado de mnima varianza, uniformemente.

Demostracion. Veamos que es suficiente:

L(y1, . . . , yn|θ, σ2) = (2πσ2)−n/2 exp

− 1

2σ2‖Y −Xθ‖2

exp

− 1

2σ2‖Xθ −Xθ‖2

= h(y)g(θ, θ)

donde hemos usado que Y −Xθ es perpendicular a Xθ −Xθ. Es facil ver que es completo y por lotanto minimiza el riesgo uniformemente entre los insesgados, considerando como funcion de riesgo‖‖2.

Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribu-

cion Noramal), entonces θ es uniformemente de mınima varianza entre los estimadores lineales einsesgados, (es decir los ˜= CY ).

Teorema 7.21. Bajo los supuestos 1) a 4):

53


a)nσ2

σ2=‖Y −Xθ‖2

σ2v χ2

(n−k)

b) s2 =nσ2

n− k=‖Y −Xθ‖n− k

es insesgado (de donde σ2 es asintoticamente insesgado).

c)‖X(θ − θ)‖2

ks2v F (k, n− k)

d)λ1(θ1 − θ1) + λ(θ2 − θ2) + · · ·+ λn(θn − θn)

s√λt(XtX)−1λ

v tn−k ∀λ ∈ Rn

Demostracion. a) Sea H = v1, . . . , vn base ortonormal de Rn tal que v1, . . . , vk es baseortonormal de S = Im(X), tenemos entonces que existen Z1, . . . , Zn variables aleatorias talque Y =

∑ni=1 Zivi. Si B es la matriz de cambio de base de la base H a la base cannica, B es

ortogonal yY = BZ de donde Z = B−1Y = BtY v N(BtXθ,Btσ2IdB) y por lo tanto Z es normal multi-

variado y ΣZ = σ2Id, adems Zi son variables aleatorias independientes con distribucion N(γ1, σ2).

‖Y −Xθ‖2 =

∥∥∥∥∥∥n∑i=1

Zivi −k∑j=1

Zjvj

∥∥∥∥∥∥2

=

∥∥∥∥∥n∑k=1

Zivi

∥∥∥∥∥2

=

n∑i=k+1

Z2i ,

‖Y −Xθ‖2

σ2=

n∑i=k+1

(Ziσ

)2

Ziσ2

v N(γi, 1),

bastarıa entones demostrar que todos los γi para i = k + 1 son 0. Observemos que E(Y ) = Xθ ∈ Sy E(Y ) =

∑ni=1 γivi.

b) E(s2) =1

n− kE(‖Y −Xθ‖) =

σ2

n− kE

(‖Y −Xθ‖

σ2

)= σ2

c) ‖Xθ −Xθ‖2 =

∥∥∥∥∥k∑i=1

Zivi −k∑i=1

γivi

∥∥∥∥∥2

=

k∑i=1

(Zi − γi)2. entonces

‖XθX − θ‖ks2

=

∑(Zi−γiσ

)2

kσ2

1n−k‖Y −Xθ‖

vχ2k/k

χ2n−k/(n− k)

v F (k, n− k).

d) λ1(θ1 − θ1) + · · · + λn(θn − θn) = λt(θ − θ), como θ v N(θ, σ2(XtX)−1), entonces λt(θ − θ) vN(0, λtσ2(XtX)−1λ),

λt(θ − θ)s√λt(XtX)−1λ

=

λt(θ−θ)σ√λ(XtX)−1λ

sσ

,

por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que

‖Y −Xθ‖2 depende de Zk+1, . . . , Zn y Xθ de Zk+1, . . . , Zk.

54


7.4. Aplicacion:

Construccon de intervalos de confianza para λtθ. Consideremos

I =[λtθ − ks, λtθ + ks

],

1− α = P (λtθ ∈ I) = P

(∣∣∣∣∣λt(θ − θ)s

∣∣∣∣∣ ≤ k)

= P

(∣∣∣∣∣ λt(θ − θ)s√λt(XtX)−1λ

∣∣∣∣∣ ≤ k√λt(XtX)−1λ

),

de donde, por la parte d) k = t1−α/2(n− k)√λt(XtX)−1λ.

Observemos que en particular tomando λ = (1, . . . , 0) obtenemos un intervalo de confianza para θ1.

55

Capıtulo 8

Test de Aleatoriedad

8.1. Introduccion

En este capıtulo veremos algunos test que permiten chequear cuando una muestra X1, . . . , Xn avalores en R cumple las hipotesis de ser independiente e identicamente distribuida, como no haremossuposiciones respecto de la distribucion de las Xi veremos metodos muy basicos que lo que midenes la forma en que las variables estan ordenadas.

8.2. Test de Rachas para muestras de 2 tipos

En esta seccion vamos a suponer que tenemos n1 objetos de un cierto tipo, y n2 de otro, yestamos interesados en la forma en que estos objetos se distribuyen. Podemos pensar que estamosobservando el genero de las personas que forman una cola de espera. Una posible observacion serıaM,F,M,F,M,F,M,F,M,F , en este caso es evidente que el orden de llegada de los generos noes aleatorio, lo mismo pasa si observamos M,M,M,M,M,M,F, F, F, F, F, F . Dada una secuenciade objetos de dos tipos, una racha es una sucesion de objetos de un tipo, seguida y precedida porobjetos del otro tipo, o por ningun objeto, por ejemplo en F,M,F tenemos 2 rachas de objetos detipo F y 1 de objetos de tipo M , en F, F, F tenemos una sola racha. Intuitivamente, si observamosmuchas rachas o muy pocas estamos ante un caso en el que los objetos no se distribuyen de formaindependiente. Para ser mas rigurosos podemos pensar que tenemos X1, . . . , Xn variables que tomanvalores 0 o 1, y estamos testeando si son i.i.d., condicionado a que

∑Xi = n1.

8.2.1. Test basados en el numero total de rachas

Supongamos que tenemos n objetos, n1 de un tipo y n2 de otro, (n1 + n2 = n), anotaremosr1 al numero de rachas de tipo 1, y r2 al numero de rachas de tipo 2. El numero total de rachases r = r1 + r2, veremos un test basado en la variable aleatoria R que nos da el numero total derachas, vamos a calcular la distribucion de R, para el caso en que se cumple la hipotesis de ser i.i.d..Bajo dicha hipotesis, cualquier ordenacion de los n objetos tiene la misma probabilidad, veamos conun ejemplo sencillo como calcular la distribucion de R, supongamos que tenemos los objetos ∗, ∗ y+,+, las posibles reordenaciones son + + ∗∗, ∗+ ∗+, ∗ ∗++, + ∗+∗, + ∗ ∗+ y ∗+ +∗, y el numerototal de rachas es 2,4,2,4,3,3 respectivamente, por lo tanto la probabilidad de obtener por ejemplo 2rachas es 2/6 = 1/3. Para el caso general, el numero total de posibles reordenaciones es n!/(n1!n2!),por lo tanto para calcular por ejemplo la probabilidad de tener r1 rachas de tipo 1, y r2 de tipo 2,tenemos que contar la cantidad de formas de intercalar los n objetos, que dan como resultado r1

rachas de tipo 1, y r2 de tipo 2. Observemos que si tenemos n1 objetos de tipo 1 y queremos contarla cantidad de ordenaciones que se pueden formar con dichos objetos de modo de generar r1 rachas,

56

Capıtulo 8. Test de Aleatoriedad

y con la hipotesis adicional de que siempre se comience con un objeto de tipo 1, es(n1 − 1

r1 − 1

)para visualizar esto basta observar que tenemos n1 − 1 lugares donde poner divisiones de los n1

objetos y que tomando r1 − 1 de dichas divisiones genero r1 rachas, por ejemplo si tenemos

∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗

y queremos tener 5 rachas, y que se comience con un ∗ algunas posibilidades de separacion son

∗ ∗ | ∗ ∗| ∗ | ∗ ∗ ∗ ∗| ∗ ∗| ∗ ∗ ∗ ∗ ∗ | ∗ | ∗ | ∗ ∗ ∗ | ∗ | ∗ | ∗ | ∗ ∗ ∗ ∗ ∗ ∗,

si ademas queremos tener r2 rachas de tipo 2, tenemos que colocar en los | los objetos de tipo 2,esto nos da otras

(n2−1r2−1

), de forma analoga si comenzamos con objetos de tipo 2. Observemos que

como los bloques de objetos de tipo 1 y 2 se alternan solo tenemos 3 casos, o bien r1 = r2 + 1 comoen el ejemplo anterior, o r1 = r2−1, o r1 = r2. Observemos que si r1 = r2 + 1 la secuencia tiene queempezar necesariamente con un objeto de tipo 1, si r2 = r1 + 1 tiene que empezar necesariamentecon objetos de tipo 2, mientras que si r1 = r2 puede empezar o bien con objetos de tipo 1, o 2,(observar en el ejemplo de ∗∗ y ++). Finalmente hemos demostrado el siguiente teorema.

Teorema 8.1. Sean R1 el numero de rachas de objetos de tipo 1, y R2 el numero de rachas de tipo2, en una muestra aleatoria de n = n1 + n2 objetos, la distribucion conjunta de R1 y R2 es

fR1,R2(r1, r2) =

c(n1−1r1−1

)(n2−1r2−1

)(n1+n2

n1

)para r1 = 1, . . . , n1 r2 = 1, . . . , n2 donde c = 2 si r1 = r2 y c = 1 si r1 = r2 ± 1.

Corolario 8.2. La distribucion marginal de probabilidades de R1 es

fR1(r1) =

(n1−1r1−1

)(n2−1r1

)(n1+n2

n1

)donde r1 = 1, . . . , n1.

Demostracion. Del teorema anterior, solo tenemos que calcular los tres sumandos:

fR1(r1) =

∑r1

fR1,R2(r1, r2),

(n1 + n2

n1

)fR1

(r1) = 2

(n1 − 1

r1 − 1

)(n2 − 1

r1 − 1

)+

(n1 − 1

r1 − 1

)(n2 − 1

r1 − 2

)+

(n1 − 1

r1 − 1

)(n2 − 1

r1

)=

(n1 − 1

r1 − 1

)[(n2 − 1

r1 − 1

)+

(n2 − 1

r1 − 2

)+

(n2 − 1

r1 − 1

)+

(n2 − 1

r1

)]=

(n1 − 1

r1 − 1

)[(n2

r1 − 1

)+

(n2

r1

)]=

(n1 − 1

r1 − 1

)(n2 + 1

r1

)

Teorema 8.3. La distribucion de R, el numero total de rachas de n = n1 + n2 objetos, n1 de tipo1 y n2 de tipo 2, en una muestra aleatoria es

fR(r) =

2(n1−1

r/2−1)(n2−1

r/2−1)(n1+n2

n1)

si r es par

( n1−1

(r−1)/2)(n2−1

(r−3)/2)+( n1−1

(r−3)/2)(n2−1

(r−1)/2)(n1+n2

n1)

si r es impar

57


Momentos de R

Veamos ahora como aplicar los resultados anteriores para calcular los momentos de R bajo lahipotesis de que las observaciones son i.i.d.

E(Rk) =∑r

rkfR(r)

=

∑r par 2rk

(n1−1r/2−1

)(n2−1r/2−1

)(n1+n2

n1

) +

∑r impar r

k[(

n1−1(r−1)/2

)(n2−1

(r−3)/2

)+(n1−1

(r−3)/2

)(n2−1

(r−1)/2

)](n1+n2

n1

)El valor mas pequeno para r es siempre 2. Si n1 = n2 el valor mas grande para r es 2n1, si

n1 < n2 el maximo valor para r es 2n1 + 1. Si asumimos sin perdida de generalidad que n1 ≤ n2, elrango de r es 2 ≤ r ≤ 2n1 + 1. Si tomamos r = 2i para r par (y r = 2i + 1 para r impar) i varıaentre 1 ≤ i ≤ n1, por ejemplo para la media de R podemos escribir las sumatorias anteriores como(

n1 + n2

n1

)E(R) =

n1∑i=1

4i

(n1 − 1

i− 1

)(n2 − 1

i− 1

)+

n1∑i=1

(2i+ 1)

(n1 − 1

i

)(n2 − 1

i− 1

)

+

n1∑i=1

(2i+ 1)

(n1 − 1

i− 1

)(n2 − 1

i

)Para calcular estas sumatorias son utiles los siguientes lemas:

Lema 8.4.c∑r=0

(m

r

)(n

r

)=

(m+ n

m

)con c = mınm,n

Lema 8.5.c∑r=0

(m

r

)(n

r + 1

)=

(m+ n

m+ 1

)con c = mınm,n− 1

Una forma mas simple de calcular el valor esperado y la varianza de R es observar que sin = n1 + n2, entonces

R = 1 + I2 + I3 + · · ·+ In

donde,

Ik =

1 si el k − esimo elemento es distnto del k − 10 en caso contrario

Observemos que Ik es una variable aleatoria con distribucion Bernoulli de parametro p =2n1n2(n− 2)!/n! = n1n2/

(n2

), por lo tanto

E(Ik) = E(I2k) =

2n1n2

n(n− 1),

de donde

E(R) = 1 +2n1n2

n1 + n2.

De forma analoga se puede demostrar que

V ar(R) =2n1n2(2n1n2 − n)

n2(n− 1).

58


Distribucion asintotica

Para el caso en que n es muy grande, las cuentas para la distribucion de R se vuelven muyengorrosas, para el caso en que la hipotesis nula es cierta, se puede usar la siguiente aproximacion:Si suponemos que λ = n1/n y 1− λ = n2/n se mantienen constantes, se puede demostrar que

Zn =R− 2nλ(1− λ)

2√nλ(1− λ)

,

tiende en distribucion a una N(0, 1), en virtud de eso, rechazamos la hipotesis nula si∣∣∣∣R− 2nλ(1− λ)

2√nλ(1− λ)

∣∣∣∣ ≥ zα/2.8.3. Test de Rachas de subidas y bajadas

Supongamos que tenemos variables aleatorias X1, X2, . . . , Xn y queremos chequear si son i.i.d,para eso definimos las variables Y1, . . . , Yn−1 de la siguiente forma

Yi = IXi<Xi+1.

Lo que haremos es estudiar el numero de rachas totales de Y1, . . . , Yn−1 o lo que es lo mismo

R = 1 +

n−2∑i=1

IYi 6=Yi+1.

Si n es chico, al igual que antes, la distribucion de R esta tabulada, y rechazamos la hipotesis de seri.i.d., a nivel α, si el valor observado R cumple que |R| > Rα/2, para valores grandes de n se cumpleque

Zn =R− (2n− 1)/3√

16n−2990

converge en distribucion a una variable con distribucion normal con media 0 y varianza 1.

8.4. Test de Spearman

Consideremos una variable aleatoria X y una muestra X1, . . . , Xn de ella, a partir de la cual sepuede construir el estadıstico ordenado X(1), . . . , X(n), y el estadıstico de rangos R1, . . . , Rn donde

Ri =

n∑j=1

IXj≤Xi.

Para visualizar lo que estamos haciendo, consideremos X1;X2;X3;X4 = 1,3; 7,4; 6,2; 2,3, en estecaso la muestra ordenada es 1,3; 2,3; 6,2; 7,4, y el el estadistico de rancos es 1; 4; 3; 2. Llamemos ρsal coeficiente de correlacion entre el vector P = (1, 2, . . . , n) y el vector formado por los rangos,R = (R1, . . . , Rn). ρs se denomina coeficiente de correlacion de rangos de Spearman. Teniendo encuenta que la media y varianza de P estan fijas y valen (n + 1)/2 y (n2 − 1)/12 y que ademascoinciden con la media y varianza de los rangos (n+ 1)/2 y (n2− 1)/12 y que ademas coinciden conla media y varianza de los rangos, ya que el vector R es una permutacion de P . Por lo tanto

ρs =

∑ni=1 iRin −

(n+1

2

)2n2−1

12

= 1− 6D

n(n2 − 1),

con D =∑ni=1(Ri − i)2. Bajo la hipotesis de que la muestra es aleatoria simple, lo valores de X

podrıan estar ordenados de cualquier forma posible, con la misma probabilidad, es decir, todas las

59


permutacioens de los valores de X serıan igualmenten probables, en consecuencia la variable R tomacualquier valor entre 1 y n con la misma probabildad, con este dato, se puede calcular la distribucionde ρs bajo la hipotesis nula. De esta forma se obtiene que:

ρs es una variable discreta que tiene una distribucion simetrica entre −1 y 1.

E(ρs)=0.

V ar(ρs) = 1/(n− 1).

Definimos la region crıtica RC = (X1, . . . , Xn)/|ρs| > c. Para valores de n menores que 20existen tablas con la distribucion de ρs, para muestras de tamano grande se cumple que

√n− 1ρs

converge en distribucion a una variable N(0, 1).

60

Bibliografıa

[1] Lehmann, E.L, Casella, G. Theory of Point Estimation. Springer.

[2] Borokov, A.A. (1988). Estadıstica Matematica, Editorial Mir, Moscuu.

[3] Pena, Daniel. (2001). Fundamentos de estadıstica. Alianza.

61

Indice alfabetico

Convergenciacasi segura, 8en distribucion, 8en probabilidad, 8

Desigualdad de Jensen, 6Distribucion

F de Fisher, 16de los percentiles, 16Gamma, 11Ji cuadrado χ2, 12T-Student, 13

Distribucion condicional, 6

Esperanza condicional, 5

Ley fuerte de los grandes numero, 9

Muestra aleatoria simple (M.A.S.), 11

Teoremacentral del lımite, 9

62