Notas para el curso deIntroduccion a la Estadıstica,
dictado por Juan Kalemkerian 1
en la Facultad de Ciencias, el segundo semestre de 2008.
1
Los errores que puedan contener son total responsabilidad de quien las transcribePor sugerencias y correcciones: [email protected]
Indice general
1. Introduccion 41.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . . 7
2. Muestreo aleatorio simple 92.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2. Muestreo en poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3. Estadısticos de Orden para una M.A.S. . . . . . . . . . . . . . . . . . . . . . . . . . 14
3. Metodos parametricos de estimacion 163.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2. Metodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.3. Metodo de Maxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.4. Metodo de estimacion por cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.5. Estimacion de la funcion de Distribucion . . . . . . . . . . . . . . . . . . . . . . . . . 233.6. Convergencia casi segura de Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . 24
4. Evaluacion de Estimadores 25
5. Estimacion por intervalos de confianza 34
6. Pruebas de hipotesis 376.1. Region crıtica optima, Teorema de Neyman-Pearson. . . . . . . . . . . . . . . . . . . 386.2. Familias con cociente de verosimilitud monotono . . . . . . . . . . . . . . . . . . . . 446.3. Metodo de la razon de verosimilitud para RC: . . . . . . . . . . . . . . . . . . . . . . 456.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.4.1. Test de χ2: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.5. Analisis de Varianza, (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7. Modelos Lineales 507.1. Variable Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507.2. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527.3. Hipotesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527.4. Aplicacion: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8. Test de Aleatoriedad 568.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568.2. Test de Rachas para muestras de 2 tipos . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2.1. Test basados en el numero total de rachas . . . . . . . . . . . . . . . . . . . . 568.3. Test de Rachas de subidas y bajadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 598.4. Test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2
Indice general
Bibliografıa 61
3
Capıtulo 1
Introduccion
Este capıtulo pretende introducir los conceptos de esperanza condicional, ası como las nocionesde convergencia de variables aletorias, que seran necesarios para los siguientes capıtulos. Se asumiraque el lector esta familiarizado con los conceptos basicos de la probabilidad, correspondientes a unprimer curso introductorio, no ası los del analisis real.
1.1. Esperanza Condicional
Definicion 1.1. Dado(Ω,A, P
)un espacio de probabilidad, y X,Y : Ω → R variables aleatorias,
E(X) <∞, definimos la Esperanza Condicional de X dado Y que anotaremos
E(X|Y
),
como la funcion de Y , que denotaremos E(X|Y ) : Ω→ R que verifica
E(XIY (B)
)= E
(E(X|Y )IY (B)
)para todo B perteneciente a la sigma algebra de Borel de R, que anotaremos de aquı en mas comoB(R).
Observacion 1.2. Veamos que E(X|Y ) esta bien definida:
existencia: Que E(X|Y ) existe y es una variable aleatoria se sigue del Teorema de Radon-Nikodym.
unicidad: Supongamos que α(Y ) y β(Y ) cumplen
E(XIY (B)
)= E
(α(Y )IY (B)
)∀B ∈ B(R)
= E(β(Y )IY (B)
).
Consideremos B = y ∈ R : α(y) > β(y), sabemos que 0 = E((α(Y ) − β(Y ))IY (B)
), como(
α(Y ) − β(Y ))IY (B) ≥ 0 y su esperanza es 0 entonces
(α(Y ) − β(Y )
)IY (B) = 0 c.s., pero
por otro lado(α(Y )− β(Y )
)IY (B) > 0 ∀ω tal que Y (ω) ∈ B, por lo tanto P (Y ∈ B) = 0 esto
es P(α(Y ) > β(Y )
)= 0. De forma totalmente analoga, tomando B = y ∈ R : β(y) > α(y),
obtenemos que P (Y ∈ B) = P(β(Y ) > α(Y )
)= 0, c.s., de donde se sigue que α(Y ) =
β(Y ) c.s.
Proposicion 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X,Y, Z seranvariables aleatorias a valores reales y a, b numeros reales.
1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).
2) Si X ≥ 0 c.s. entonces E(X|Y ) ≥ 0 c.s..
4
Capıtulo 1. Introduccion
3) Si X ≤ Z entonces E(X|Y ) ≤ E(Z|Y ).
4) E(X|X) = X.
5) E(a|Y ) = a.
6) E(X|Y ) = E(X) si X e Y son independientes.
7) E(Xg(Y )|Y ) = g(Y )E(X|Y ).
8) E(E(X|Y )
)= E(X).
Demostracion.
1) Por la unicidad, basta demostrar que, para todo B ∈ B(R)
E((aX + bY )IB(Z)
)= E
((aE(X|Z) + bE(Y |Z))IB(Z)
),
usando la linealidad de la esperanza el ultimo termino es
aE(E(X|Z)IB(Z)
)+ bE
(E(Y |Z)IB(Z)
),
que, por definicion de esperanza condicional, es igual a
aE(XIB(Z)
)+ bE
(Y IB(Z)
).
2) La demostracion necesita de conceptos del analisis real.
3) Es consecuencia inmediata de 2).
4) Es consecuencia inmediata de la unicidad.
6) Queremos ver que E(XIB(Y )
)= E
(E(X)IB(Y )
), E(XIB(Y )
)= E(X)E(IB(Y )) por la inde-
pendencia, y E(E(X)IB(Y )
)= E(X)E(IB(Y )) dado que una constante es independiente de
cualquier variable.
5) Es una consecuencia inmediata de 6).
7) La demostracion necesita de conceptos del analisis real.
8) Basta tomar en la definicion B = R.
Proposicion 1.4. Desigualdad de Jensen: Sea ϕ : R → R convexa, entonces
ϕ(E(X)
)≤ E
(ϕ(X)
)ϕ(E(X|Y )
)≤ E
(ϕ(X)|Y
)La primera desigualdad es estricta si ϕ es convexa en sentido estricto y X no es constante. Recorde-mos que ϕ es convexa si y solo si ϕ(λp + (1 − λ)q) ≤ λϕ(p) + (1 − λ)ϕ(q) ∀p, q, ∀λ ∈ [0, 1], y quesi ϕ es C2, ϕ es convexa si y solo si ϕ′′(x) ≥ 0 ∀x.
Notacion: Sea α(Y ) = E(X|Y
), denotamos E
(X|Y = y
)= α(y) ∈ R. Dicho de otra manera:
E(X|Y = y
)= E
(X|Y
)(ω)
donde ω es tal que Y (ω) = y.
Definicion 1.5. Distribucion Condicional: Dadas X,Y v.a., definimos
FX|Y=y(x) := P (X ≤ x|Y = y) := E(I( −∞,x](X)|Y = y).
5
Capıtulo 1. Introduccion
Definicion 1.6. Probabilidad Condicional: Dadas X,Y v.a., definimos
P (X ∈ [a, b]|Y ) := E(I[a,b](X)|Y ).
Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego elcaso continuo.
Caso Discreto: Sea (X,Y ) vector aleatorio bidimensional tal que Rec(X,Y ) =
(xn, ym) : n,m ∈ N
, defini-mos la probabilidad condicional en el sentido usual, como
PX|Y=y(x) = P (X = x|Y = y) =PX,Y (x, y)
PY (y)∀x ∈ Rec(X),∀y ∈ Rec(Y ),
entoncesE(X|Y ) =
∑x∈Rec(X)
xPX|Y (x),
donde PX|Y (x) es la variable aleatoria definida en ω ∈ Ω como PX|Y (x)(ω) = PX|Y=Y (ω)(x).
Demostracion. Sea
α(y) =∑
x∈Rec(X)
xPX|Y=y(x) =1
PY (y)
∑x∈Rec(X)
xPX,Y (x, y)
queremos demostrar que
E(α(Y )IB(Y )
)= E
(XIB(Y )
),∀B ∈ B(R)
En efecto
E(α(Y )IB(Y )
)=
∑y∈Rec(Y )
α(y)IB(y)PY (y)
=∑
y∈Rec(Y )
∑x∈Rec(X)
xIB(y)PX,Y (x, y)
= E(XIB(Y )
).
Caso Continuo: Sea (X,Y ) absolutamente continuo, entonces
E(X|Y ) =
∫ +∞
−∞xfX,Y (x, Y )
fY (Y )dx,
donde fX,Y (x, Y ) es la variable aleatoria definida en ω como fX,Y (x, Y )(ω) = fX,Y (x, Y (ω)).
Demostracion.
E
(∫ +∞
−∞xfX,Y (x, Y )
fY (Y )dxIB(Y )
)=
∫ +∞
−∞
(∫ +∞
−∞xfX,Y (x, y)
fY (y)IB(y)dx
)fY (y)dy
=
∫ +∞
−∞
∫ +∞
−∞xIB(y)fX,Y (x, y)dxdy
= E(XIB(Y )).
Luego, la tesis es consecuencia de la unicidad.
6
Capıtulo 1. Introduccion
Proposicion 1.8. Formula de la distribucion conjunta: Dadas X,Y v.a. se tiene que
FX,Y (x, y) =
∫ y
−∞FX|Y=t(x)dFY (t)
Demostracion.
FX,Y (x, y) = P (X ≤ x, Y ≤ y) = E(I(−∞,x](X)I(−∞,y](Y )
)= E
(E(I(−∞,x](X)I(−∞,y](Y )
)∣∣Y )=
∫ +∞
−∞I(−∞,y](t)FX|Y=t(x)dFY (t)
=
∫ y
−∞FX|Y=t(x)dFY (t)
Definicion 1.9. Distribucion condicionada a un conjunto: Dada X v.a. y A ∈ A con P (A) 6= 0definimos
FX|A = P (X ≤ x|A) =P (X ≤ x ∩A)
P (A)
Definicion 1.10. Esperanza condicionada a un conjunto:
E(X|A) =
∫ +∞
−∞xdFX|A(x) A ∈ A, P (A) 6= 0
1.2. Nociones de convergencia de variables aletorias
Definicion 1.11. Convergencia en probabilidad y casi segura: Dado(Ω,A, P
)espacio de
probabilidad, Xn una sucesion de v.a. y X una v.a. decimos que
1) Xn converge a X en probabilidad, y anotamos XnP−→ X si
lımn→+∞
P(|Xn −X| ≤ ε
)= 1
2) Xn converge a X casi seguramente, y anotamos Xnc.s.−→ X si
P
(lım
n→+∞Xn = X
)= 1
Definicion 1.12. Convergencia en distribucion: Sean Xn v.a. en(Ωn,An, Pn
)y X v.a. en(
Ω,A, P), decimos que Xn converge en distribucion a X y anotamos
Xnd−→ X si lım
n→+∞FXn(x) = FX(x) ∀x punto de continuidad de FX
Proposicion 1.13. Relacion entre convergencias: Si Xn y X son v.a. sobre(Ω,A, P
)en-
toncesXn
c.s.−→ X ⇒ XnP−→ X ⇒ Xn
d−→ X.
Observacion 1.14. Todos los recıprocos de la proposicion anterior son falsos.
7
Capıtulo 1. Introduccion
Teorema 1.15. Ley Fuerte de los grandes numeros: Sean Xn v.a. sobre(Ω,A, P
)y Xn
independientes identicamentes distribuidas (i.i.d.) en L1 y µ = E(X) entonces
Xn =X1 + · · ·+Xn
n
c.s.−→ µ
Teorema 1.16. Teorema Central del Lımite: Sean Xn definidas en(Ω,A, P
)v.a. i.i.d. en
L2 entoncesXn − µσ/√n
d−→ N(0, 1).
Donde N(0, 1) denota la distribucion normal con esperanza 0 y varianza 1.
Observacion 1.17. Si n es ’grande’ y fijo, FXn se aproxima por la distribucion N(µ, σ2
n ) donde
µ = E(Xn) y σ2 = V ar(Xn)
8
Capıtulo 2
Muestreo aleatorio simple
2.1. Algunas definiciones previas
Definicion 2.1. Muestra aleatoria simple (M.A.S.): X1, . . . , Xn v.a. definidas en(Ω,A, P
)son una muestra aleatoria simple si son independientes identicamente distribuidas (i.i.d.).
Definicion 2.2. Media Muestral y Varianza Muestral: dadaX1, . . . , Xn una M.A.S. definimos
1) Media Muestral: Xn =X1 + . . . , Xn
n.
2) Varianza Muestral: S2n =
1
n− 1
n∑i=1
(Xi −Xn)2
Observacion 2.3. S2n =
1
n− 1
( n∑i=1
X2i − nXn
2)Observacion 2.4. Si X ∈ L1, Xn
c.s.−→ µ = E(X) por L.F.G.N.
Observacion 2.5. Si X ∈ L2, S2nc.s.−→ σ2 = V ar(X).
Demostracion.
S2n =
n
n− 1
(1
n
n∑i=1
X2i −Xn
2
)c.s.→ E(X2)− µ2 = σ2,
donde hemos usado la L.F.G.N. para las variables Yn = X2n.
2.2. Muestreo en poblaciones normales
Definicion 2.6. Distribucion Gamma: Decimos que X tiene distribucion Gamma(α, λ) si sudensidad es
fX(x) =
λα
Γ(α)xα−1e−λx si x > 0
0 si x ≤ 0.
donde Γ(α) es la funcion Γ que se define como
Γ(α+ 1) =
∫ +∞
0
tαe−tdt.
Observacion 2.7. Tres propiedades importantes de la distribucion Gamma son:
9
Capıtulo 2. Muestreo aleatorio simple
1) Si X v Gamma(α, λ) entonces E(X) = α/λ y V ar(X) = α/λ2.
2) Si X v Gamma(α, λ) e Y v Gamma(β, λ) y son independientes entonces X+Y v Gamma(α+β, λ).
3) Si α = 1, Gamma(1, λ) = Exp(λ).
Definicion 2.8. Distribucion Ji cuadrado con k grados de libertad: Decimos que X v χ2k
si X v Gamma(k/2, 1/2) es decir si
fX(x) =1
Γ(k/2)2k/2xk/2−1e−x/2I(0,+∞)(x)
En la figura 2.1 se grafica fX para diferentes valores de k.
Observacion 2.9. Se puede demostrar que
E(χ2k) = k
V ar(χ2k) = 2k
Figura 2.1: Grafica de la distribucion X 2 para diferentes valores de k
Teorema 2.10. Si X1, . . . , Xn es una M.A.S. y X v N(0, 1), entonces
X21 + · · ·+X2
k = ‖(X1, . . . , Xk)‖2 v χ2k
Demostracion. Por la propiedad 2) de las distribuciones Gamma, es suficiente demostrar que X2i v
χ21. Si X v N(0, 1) entonces, tomando t > 0, FX2(t) = P (X2 ≤ t) = P (|X| ≤
√t) = P (−
√t ≤ X ≤√
t) = ∫ √t−√t
1√2πe−
12 s
2
ds = 2
∫ √t0
1√2πe−
12 s
2
ds =1√2π
∫ t
0
e−12u
1√udu,
10
Capıtulo 2. Muestreo aleatorio simple
donde en la primera igualdad hemos usado que la funcion e−12 s
2
es par, y en la seguna hemos hechoel cambio de variable u = s2, 2ds = 1/
√udu. Para concluir basta observar que
e−12u
√2π√u,
es la densidad de χ21 pero esto se sigue de que Γ(1/2) =
√π.
Definicion 2.11. Distribucion T-Student con k grados de libertad: Sean X v N(0, 1) eY v χ2
k independientes, la distribucion de
Tk =X√Y/k
,
se llama distribucion T − Student con k grados de libertad. Decimos que la variable Tk tienedistribucion T − Student no central, con parametro de no centralidad µ > 0 si
Tk =X + µ√Y/k
Observacion 2.12. Si µ = 0 se verifica que
E(Tk) = 0
V ar(Tk) = k/(k − 2) para k > 2.
Teorema 2.13. Sea T v Tk, entonces la densidad es
fT (t) =Γ(k+1
2 )√kπΓ(k2 )
1(1 + t2
k
) k+12
Demostracion. Tomemos el vector (X,Y ), su densidad es
fX,Y (x, y) =1√2πe−
12x
2 yk2−1e−
y2
Γ(k2 )2k2
I(0,+∞)(y).
Sea g : R × R+ −→ R × R+ tal que
g(x, y) =
(x√y/k
, y
), g es difeomofismo y g−1(u, v) =
(u√v/k, v
),
tenemos entonces que g(X,Y ) = (U, V )
fg(X,Y )(u, v) = fU,V (u, v) = fX,Y(g−1(u, v)
) I(0,+∞)(v)∣∣det Jg(g−1(u, v)
)∣∣donde
Jg(x, y) =
(1√y/k
u√k
12√v
0 1
)y∣∣det Jg(x, y)
∣∣ =√k/y,
luego, sustituyendo
fU,V (u, v) =1√2π
e−12ku
2vvk2−1e−
v2
Γ(k2 )2k/2I(0,+∞)(v)
√v√k,
como T = U tenemos que
fU (u) =
∫ +∞
−∞fU,V (u, v)dv =
1√2kπΓ(k/2)2
k2
∫ +∞
0
vk−12 e−v(u2
2k+ 12
)dv,
11
Capıtulo 2. Muestreo aleatorio simple
por otro lado sabemos que
λα
Γ(α)
∫ +∞
0
xα−1e−λxdx = 1 entonces
∫ +∞
0
xα−1e−λxdx =Γ(α)
λα,
si tomamos entonces α = k+12 x = v y λ = u2
2k + 12 se concluye la tesis.
Figura 2.2: Grafica de la densidad de una variable Tk de Student para diferentes valores de k, k =∞corresponde a la densidad de N(0, 1)
Teorema 2.14. Sea X1, . . . , Xn M.A.S. de X v N(µ, σ2), entonces
1) Xn v N
(µ,σ2
n
).
2) Xn y S2n son independientes.
3)n− 1
σ2S2n v χ2
n−1.
4)√n
(Xn − µ)
Snv Tn−1.
Demostracion.
1) es inmediato
3) tomemos σ = 1, por induccion en n, para n = 2 tenemos que
S22 =
(X1 −
X1 +X2
2
)2
+
(X2 −
X1 +X2
2
)2
=
(X1 −X2
2
)2
+
(X2 −X1
2
)2
=
(X1 −X2√
2
)2
v χ21,
12
Capıtulo 2. Muestreo aleatorio simple
Ya que X1 −X2 ∼ N(0, 2). Supongamos cierto para n− 1. Vamos a usar la igualdad
(n− 1)S2n = (n− 2)S2
n−1 +n− 1
n(Xn −Xn−1)2,
como estamos tomando σ = 1 tenemos que ver que (n − 1)S2n v χ2
n−1 o lo que es lo mismo
(n − 2)S2n−1 + n−1
n (Xn − Xn−1)2 v χ2n−1, por hipotesis de induccion (n − 2)S2
n−1 v χ2n−2,
ademas n−1n (Xn − Xn−1)2 es independiente de (n − 2)S2
n−1 pues Xn−1 es independiente deS2n−1 por la parte 2), y Xn es independiente de S2
n−1 pues S2n−1 depende solo de X1, . . . , Xn−1
y la muestra es una M.A.S.Basta entonces ver que n−1
n (Xn −Xn−1)2 v χ21,
Xn −Xn−1 v N
(0, 1 +
1
n− 1
)= N
(0,
n
n− 1
)⇒ n− 1
n(Xn −Xn−1)2 v χ2
1,
y, como la suma de χ2 es tiene distribucion χ2 con la suma de los grados tenemos que χ2n−2 +
χ21 v χ2
n−1.
4) Es inmediato a partir de 1,2 y 3.
2)
S2n =
1
n− 1
((X1 −Xn)2 +
n∑i=2
(Xi −Xn)2)
=1
n− 1
(( n∑i=2
(Xi −Xn))2
+
n∑i=2
(Xi −Xn
)2),
hemos escrito entonces S2n en funcion de X2−Xn, . . . , Xn−Xn, basta demostrar entonces que
Xn es independiente de X2 −Xn, . . . , Xn −Xn.Consideremos Y1 = Xn, Y2 = X2 −Xn, . . . , Yn = Xn −Xn, y1 = xn, y2 = x2 − xn, . . . , yn =xn − xn y y = g(x1, . . . , xn) entonces
Jg =
1n
1n . . . 1
n− 1n 1− 1
n . . . − 1n
......
− 1n − 1
n . . . 1− 1n
.
Es facil ver que det(Jg) = 1/n, basta sumar la primer fila a las demas, y queda una matriztriangular superior con diagonal 1/n, 1, . . . , 1.x2 = y2 + y1, . . . , xn = yn + y1 de donde
g−1(y) =
(−∑
2
yi − y1, y2 + y1, . . . , yn + y1
),
entonces
fY (y) = fX(g−1(y))1
|det Jg(g−1(y))|
=n
(2π)n/2exp
−1
2
(y2
1 − 2y1
∑2
yi + (∑
2
yi)2 +
∑2
(y2i + 2y1yi + y2
1)
)
=n
(2π)n/2exp
−n
2y2
1
exp
−1
2
((∑
2
yi)2 +
∑2
y2i
).
Por lo tanto factorizamos respecto de y1, iterando, son independientes.
13
Capıtulo 2. Muestreo aleatorio simple
Observacion 2.15. Distribucion F de Fisher: Sea X v χ2n e Y v χ2
m independientes, ladistribucion de
X/n
Y/m
se denomina distribucion F de Fisher de parametros n y m, y la anotamos F (n,m).
A modo de motivacion geometrica de la distribucion F de Fisher, vamos a enunciar el siguienteteorema.
Teorema 2.16. Sea A el angulo que forma un vector X v N(0, σ2) en Rd con un subespacio R dedimension ρ, entonces
ρ
d− ρtan2(A) v F (d− ρ, ρ)
Observacion 2.17. Si Z v F (n,m) entonces
fZ(x) =Γ(n+m
2
)Γ(n2
)Γ(m2
) ( nm
)n2 x
n2−1(
1 + nmx)n+m
2
I(0,+∞)(x)
Teorema 2.18. Sea X1, . . . , Xn M.A.S. de X v N(µX , σ2X) y Y1, . . . , Yn M.A.S. de Y v N(µY , σ
2Y )
X e Y independientes, entonces
S2X/σ
2X
S2Y /σ
2Y
v F (n− 1,m− 1).
Demostracion. La demostracion se sigue de la parte 3) y 2) del teorema 2.14
2.3. Estadısticos de Orden para una M.A.S.
Definicion 2.19. Muestra Ordenada: Sea X1, . . . , Xn una M.A.S. de X v FX , definimos
X1:n = mınX1, . . . , XnX2:n = mın
(X1, . . . , Xn \ X1:n
)...
Xn:n = mın(X1, . . . , Xn \ X1:n, . . . , Xn−1:n
)se tiene entonces que X1:n ≤ · · · ≤ Xn:n
Teorema 2.20. Distribucion de los percentiles: Sea X1, . . . , Xn una M.A.S. de X absoluta-mente continua, entonces
fXj:n(x) =n!
(j − 1)!(n− j)!fX(x)
(FX(x)
)j−1(1− FX(x)
)n−jDemostracion. FXj:n(x) = P (Xj:n ≤ x) es decir, es la probabilidad de que al menos j variables seanmenores o iguales que x. Consideremos Y la cantidad de observaciones que son menores o igualesque x, entonces Y v Bin(n, p) con p = FX(x).
P (Xj:n ≤ x) = P (Y ≥ j) =
n∑k=j
P (Y = k) =
n∑k=j
Cnk(FX(x)
)k(1− FX(x)
)n−k
14
Capıtulo 2. Muestreo aleatorio simple
entonces, derivando y usando q = 1− p
fXj:n(x) =
n∑k=j
n!
(n− k)!k!
(kpk−1fX(x)qn−k − fX(x)(n− k)qn−k−1pk
)
= fX(x)n!
n∑k=j
1
(n− k)!(k − 1)!pk−1qn−k −
n−1∑k=j
1
(n− k − 1)!k!pkqn−k−1
= fX(x)n!
n∑k=j
1
(n− k)!(k − 1)!pk−1qn−k −
n∑k=j+1
1
(n− k)!(k − 1)!pk−1qn−k
= fX(x)n!
1
(n− j)!(j − 1)!pj−1qn−j
Observacion 2.21. fXmax(x) = nfX(x)(FX(x)
)n−1y fXmin(x) = nfX(x)
(1− FX(x)
)n−1
Definicion 2.22. Distribucion beta: SiX tiene densidad f(x) =Γ(α+ β)
Γ(α)Γ(β)xα−1(1−x)β−1I(0,1)(x)
decimos que X v Beta(α, β)
Observacion 2.23. Si X v Beta(α, β) entonces E(X) = α/(α+β) y V ar(X) =αβ
(α+ β)2(α+ β + 1).
Observacion 2.24. Si X1, . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n−j+1).
15
Capıtulo 3
Metodos parametricos deestimacion
3.1. Algunas definiciones previas
Consideremos el caso en que tenemos X1, . . . , Xn M.A.S. de X v FX(x|θ) donde θ ∈ Θ ⊂ Rk esun parametro desconocido.
Definicion 3.1. Sea θ : Rn −→ Θ medible, independiente de θ, entonces θ(X1, . . . , Xn) : Ω −→ Θes un estimador de θ.
Ejemplo 3.2. Si X v N(µ, σ2) y θ = (µ, σ2) ∈ Θ = R × R+ entonces si definimos
θ(x1, . . . , xn) =
(x1 + · · ·+ xn
n,
1
n− 1
n∑i=1
xi −x1 + · · ·+ xn
n
): Rn −→ Θ
entoncesθ(X1, . . . , Xn) = (Xn, S
2n)
es un estimador de θ.
Observemos que si bien θ es un vector, θ es un vector aleatorio a valores en Rk.
Definicion 3.3. Si X1, . . . , Xn es una M.A.S. de X v FX(X|θ) y θ es un estimador, decimos que
θ es debilmente consistente si θP−→ θ. Decimos que es fuertemente consistente si θ
c.s.−→ θ
Ejemplo 3.4. Si X v N(µ, σ2) y θ = (Xn, S2n) entonces θ es fuertemente consistente.
3.2. Metodo de los momentos
Si X1, . . . , Xn es una M.A.S. de X v F (x|θ) y θ = (θ1, . . . , θk) ∈ Rk y X ∈ Lk. Consideremos elsistema
E(X) = Xn
E(X2) =1
n
n∑i=1
X2i
......
E(Xk) =1
n
n∑i=1
Xki
16
Capıtulo 3. Metodos parametricos de estimacion
Los E(Xk) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentosmuestrales. Los θi aparecen en los momentos poblacionales y si despejamos las k incognitas de lask ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener solucionni ser unica. Observemos que por la ley fuerte, los estimdores que se despejan para cada θi sonconsistentes.
Ejemplo 3.5. Sea X1, . . . , Xn M.A.S. de X v Gamma(α, 1/β), entonces E(X1) = αβ y E(X21 ) =
βαα(α+ 1), consideremos
m1 =X1 + · · ·+Xn
ny
m2 =X2
1 + · · ·+X2n
n,
planteamos m1 = αβ y m2 = βαα(α+ 1) y obtenemos los estimadores de α y de β :
α =m2
1
m2 −m21
y
β =m2 −m2
1
m1.
Ejemplo 3.6. Sea X1, . . . , Xn M.A.S. de X v U[a,b] y θ = (a, b) entonces el metodo de los momentoses
1/2(b− a) = Xn
1/12(b− a)2 + 1/4(a+ b)2 = 1/n∑X2i =: M2
Si despejamos b en la primer ecuacion y sustituimos en la segunda obtenemos las soluciones
a = Xn ±√
3(M2 −Xn), b = Xn ±√
3(M2 −Xn)
Como Θ = (a, b) ∈ R2 : a < b descartamos soluciones y nos queda
a = Xn −√
3(M2 −Xn), b = Xn +
√3(M2 −Xn).
Notacion: 1n
∑ni=1X
ki =: Mk
Teorema 3.7. Metodo de los momentos, existencia y unicidad de solucion, consistencia:Si F : Θ ⊂ Rk −→ Rk es tal que (E(X), E(X2), . . . , E(Xk)) = F (θ1, . . . , θk), entonces, si F esinyectiva, F−1 : F
(Θ)−→ Θ es continua y si M1,M2, . . . ,Mk ∈ F
(Θ)c.s. entonces los estimadores
por momentos existen, son unicos y convergen c.s. a θ1, . . . , θk.
Demostracion. Los estimadores por el metodo de los momentos son (θ1, . . . , θk) = F−1(M1, . . . ,Mk),como
M1 = Xnc.s.−→ E(X)
...
Mk =1
n
∑i
Xkic.s.−→ E(Xk)
y F−1 es continua entonces
(θ1, . . . , θk) = F−1(M1, . . . ,Mk)c.s.−→ F−1
(E(X), . . . , E(Xk)
)= F−1
(F (θ1, . . . , θk)
)= (θ1, . . . , θk),
de donde θ es fuertemente consistente.
17
Capıtulo 3. Metodos parametricos de estimacion
3.3. Metodo de Maxima Verosimilitud
Definicion 3.8. Funcion de Verosimilitud: Dada X1, . . . , Xn una M.A.S. de X v F (x|θ)θ ∈ Θ ⊂ Rk se define L : Θ× Rn −→ R
L(θ, x) =
n∏i=1
fX(xi|θ) si X es absolutamente continua
L(θ, x) =
n∏i=1
pX(xi|θ) si es discreta
donde x = (x1, . . . , xn).
El metodo consiste entonces en hallar θ ∈ Θ donde se realice maxθ∈Θ L(θ, x), dicho θ =
θ(X1, . . . , Xn) es el estimador de maxima verosimilitud (E.M.V.) de θ. El metodo no asegura la
existencia y/o unicidad de θ.
Ejemplo 3.9. Sea X1, . . . , Xn una M.A.S. de X v exp(λ) entonces la funcion de verosimilitud paraλ es
L(λ) =
n∏i=1
λ exp−λxi = λn exp− λ
∑i
xi
,
con xi ≥ 0 ∀i, derivando obtenemos
L′(λ) = λn−1 exp
−λ∑i
xi
(n− λ
∑i
xi
),
y por lo tanto, como λ 6= 0, si hacemos L′(λ) = 0 obtenemos λ =n∑i xi
, es facil ver, mirando el
signo de L′(λ) que es un maximo. Por lo tanto λ = 1Xn
es el E.M.V. de λ.
Ejemplo 3.10. Sea X1, . . . , Xn una M.A.S. de X v U[0,b] Θ = b > 0, la funcion de verosimilitudes entonces
L(b) =
n∏i=1
1
bI[0,b](xi) =
1
bnsi 0 < x1, . . . , xn < b
0 si no=
1
bnsi b > maxx1, . . . , xn
0 si no
Como la funcion 1/bn es decreciente obtenemos que b = xn:n = maxx1, . . . , xn.
Observacion 3.11. Interpretacion del metodo: Para el caso discreto, si tenemos X1, . . . , Xn
una M.A.S. y X v pX(X|θ) entonces
L(θ|x) =
n∏i=1
pX(xi|θ) =
n∏i=1
P (X = xi|θ) = P (X1 = x1, . . . , Xn = xn|θ),
esto es, la probabilidad de que salga la muestra (x1, . . . , xn) dado el parametro θ. El metodo consisteentonces en encontrar el θ que hace que la muestra que obtuvimos sea la mas probable.Otra forma de ver esto es observar que, de la desigualdad de Jensen se deduce que
Eg(x|θ0)
(log
(g(x|θ1)
g(x|θ0)
))≤ log
(Eg(x|θ0)
(g(x|θ1)
g(x|θ0)
))= 0
Por lo tantoEg(x|θ0)
(log(g(x|θ1))
)≤ Eg(x|θ0)
(log(g(x|θ0))
)lo cual significa que la verosimilitud bajo modelo real g(x|θ0) es mayor o igual que bajo cualquierotro valor del parametro.
18
Capıtulo 3. Metodos parametricos de estimacion
Principio de invarianza del E.M.V.: Supongamos que tenemos un parametro θ ∈ Θ yg : Θ → R, y que estamos interesados en estimar g(θ) por el metodo de maxima verosimilitud, esdecir queremos encontrar M = g(θ) que haga que la muestra sea mas probable. Queremos maximizarentonces
L∗(M |x) = supθ:g(θ)=M
L(θ|x),
Veremos que si M = E.M.V. de g(θ), es decir donde se realiza el maximo de L∗ entonces M = g(θ)
siendo θ = E.M.V de θ. En efecto:
L∗(M |x) = supM
L∗(M |x) = supM
supθ:g(θ)=M
L(θ|x) = supθ∈Θ
L(θ, x) = L(θ|x)
yL∗(g(θ), x) = sup
θ:g(θ)=g(θ)L(θ|x) = L(θ|x).
Entonces g(θ) es E.M.V. de g(θ).
Ejemplo 3.12. Sea X1, . . . , Xn v Ber(p), el E.M.V. de p es p = Xn, como σ2 = p(1 − p) = g(p)por el Principio de Invarianza σ2 = g(p) = p(1− p).
Observacion 3.13. Si h(θ) = log(L(θ)) =∑
log(fX(xi|θ)) podemos, dado que log(x) es unafuncion creciente, tomar el θ que maximiza h(θ)
Teorema 3.14. Consistencia del E.M.V.: Sea X1, . . . , Xn, . . . i.i.d v f(x|θ) y θ ∈ Θ ⊂ Rdonde Θ es tal que si θ0 es el valor exacto de θ entonces ∃δ > 0 tal que (θ0 − δ, θ0 + δ) ⊂ Θ, sihn(θ) = log(L(θ, X)) es derivable como funcion de θ y ademas f(x|θ) = f(x|θ′) implica θ = θ′ c.s.entonces
para casi todo ω ∃θnk = θnk(ω) ∈ Θ tal que∂
∂θhnk(θnk) = 0 y θnk−→θ0
Demostracion.
hn(θ0 − δ)− hn(θ0) =
n∑i=1
log((f(Xi|θ0 − δ))−n∑i=1
log((f(Xi|θ0))) =
n∑i=1
log
(f(Xi|θ0 − δ)f(Xi|θ0)
)entonces
hn(θ0 − δ)− hn(θ0)
n=
1
n
∑log
(f(Xi|θ0 − δ)f(Xi|θ0)
)L.F.G.N.−→ E
(log
(f(X|θ0 − δ)f(X|θ0)
))c.s.,
como − log es una funcion convexa estricta y f es inyectiva en θ, usando la desigualdad de Jensen
E
(log
(f(X|θ0 − δ)f(X|θ0)
))< log
(E
(f(X|θ0 − δ)f(X|θ0)
)),
por otro lado, como X v f(x|θ0)
E
(f(X|θ0 − δ)f(X|θ0)
)=
∫ +∞
−∞
f(x|θ0 − δ)f(x|θ0)
f(x|θ0)dx =
∫ +∞
−∞f(x|θ0 − δ)dx = 1.
Luego el lımite anterior es negativo. Lo mismo para θ0 + δ. Definamos
Aδ =ω ∈ Ω :
hn(θ0 ± δ)− hn(θ0)
n−→E
(log
(f(X|θ0 ± δ)f(X|θ0)
))< 0.
19
Capıtulo 3. Metodos parametricos de estimacion
Por la L.F.G.N. P (Aδ) = 1. Fijado ω ∈ Aδ existe n0 = n0(ω, δ) tal que hn(θ0) > hn(θ0±δ) ∀n ≥ n0,
y entonces existe θn ∈ (θ0− δ, θ0 + δ) tal que∂
∂θhn(θn) = 0 ∀n ≥ n0 porque hn es derivable respecto
a θ. Definamos
Bδ =ω ∈ Ω : ∃n0 y θn ∈ (θ0 − δ, θ0 + δ),
∂
∂θhn(θn) = 0 ∀n ≥ n0
.
Como Aδ ⊂ Bδ tenemos que P (Bδ) = 1, si tomamos δ = 1/k,
B =
∞⋂k=1
B1/k, P (B) = 1.
Sea ω ∈ B, vamos a construir θnk :
ω ∈ B1, entonces ∃θn1 ∈ (θ0 − 1, θ0 + 1) tal que∂
∂θhn1
(θn1) = 0.
Supongamos que tenemos definido θnk−1, ω ∈ B1/k entonces ∃θnk ∈ (θ0 − 1
k , θ0 + 1k ) con nk > nk−1
tal que∂
∂θhnk(θnk) = 0.
La sucesion θnk verifica θnk−→θ0 y es cero de ∂∂θhnk .
Observe que los subındices de la sucesion dependen de ω.
Observacion 3.15. El teorema anterior no asegura la existencia ni la unicidad del E.M.V.
Lema 3.16. Lema de Slutsky: SiXnP−→ c y Yn
d−→ Y con c constante entoncesXn+Ynd−→ c+Y
y XnYnd−→ cY .
Recordemos que Xnd−→ c⇔ Xn
P−→ c.
Teorema 3.17. Normalidad asintotica del E.M.V: Sea X1, . . . , Xn, . . . una M.A.S. de X vf(x|θ), supongamos que existe δ > 0 tal que (θ0 − δ, θ0 + δ) ∈ Θ donde θ0 es el valor exacto de θ.Si se cumplen, para todo θ ∈ (θ0 − δ, θ0 + δ)
1) ∃θn variables aleatorias tal que∂
∂θh(θn) = 0 ∀n y θn
c.s.−→ θ0
2)∂3
∂θ3h(θ|X) ≤ Y con E(Y ) <∞.
3) E
(∂∂θf(X|θ)f(X|θ)
)= 0.
4) E
(∂2
∂θ2 f(X|θ)f(X|θ)
)= 0.
5) i(θ) := E
(∂∂θf(X|θ)f(X|θ)
)2
> 0, el numero i se denomina numero de informacion de Fischer.
Entonces√n(θn − θ0
) d−→ N
(0,
1
i(θ0)
)Demostracion. La demostracion sera una consecuencia de dos afirmaciones:
Afirmacion 1:1√n
∂
∂θh(θ0)→ N(0, i(θ0))
Afirmacion 2:√n(θn − θ0)− 1√
ni(θ0)
∂
∂θh(θ0)
P−→ 0.
20
Capıtulo 3. Metodos parametricos de estimacion
Veamos primero como, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye latesis. En efecto, podemos escribir
√n(θn − θ0) =
(√n(θn − θ0)− 1√
ni(θ0)
∂
∂θh(θ0)
)+
1√ni(θ0)
∂
∂θh(θ0)
Veamos la demostracion de la Afirmacion 1:
1√n
∂
∂θh(θ0) =
1√n
n∑i=1
∂∂θf(Xi|θ0)
f(Xi|θ0)=√n
1
n
n∑i=1
∂∂θf(Xi|θ0)
f(Xi|θ0)=√n Zn.
E(Zi) = 0 por la hipotesis 3) y V ar(Zi) = E(Z2i )− E2(Zi) = i(θ0) > 0 por la hipotesis 5). Luego,
si aplicamos el T.C.L. tenemos que√n Zn
d−→ N(0, i(θ0)). Lo que concluye la demostracion de laafirmacion 1.
Veamos la demostracion de la Afirmacion 2: podemos escribir, usando el desarrollo de Taylor yla hipotesis 1,
0 =∂
∂θh(θn) =
∂
∂θh(θ0) +
∂2
∂θ2h(θ0)(θn − θ0) +
∂3
∂θ3h(θn)
(θn − θ0)2
2
donde θn ∈ [θ0, θn], despejando obtenemos
θn − θ0 =− ∂∂θh(θ0)
∂2
∂θ2h(θ0) + ∂3
∂θ3h(θn) (θn−θ0)2
y√n(θn − θ0)− 1√
ni(θ0)
∂
∂θh(θ0) =
− ∂∂θh(θn)
√n
∂2
∂θ2h(θ0) + ∂3
∂θ3h(θn) (θn−θ0)2
− 1√ni(θ0)
∂
∂θh(θ0) =
1√n
∂
∂θh(θ0)
[−1
1n∂2
∂θ2h(θ0) + 1n∂3
∂θ3h(θn) (θn−θ0)2
− 1
i(θ0)
](3.1)
Nuevamente, como1√n
∂
∂θh(θ0)
d−→ N(0, i(θ0)), por el lema de Slutsky, la afirmacion 2 queda
demostrada si probamos que la expresion entre [] tiende en probabilidad a 0 (o lo que es lo mismo,en distribucion a 0).Sabemos que
1
n
∂3
∂θ3h(θn)
(θn − θ0)
2
P−→ 0,
donde hemos usado que si XnP−→ 0 y si E(Yn) ≤ k ∀n entonces XnYn
P−→ 0. (Hipotesis 2)
1
n
∂2
∂θ2h(θ0) =
1
n
n∑i=1
∂
∂θ
(∂∂θf(Xi|θ0)
f(Xi|θ0)
)=
1
n
n∑i=1
(∂2
∂θ2 f(Xi|θ0))f(Xi|θ0)−
(∂∂θf(Xi|θ0)
)2
(f(Xi|θ0)
)2 .
Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando lashipotesis 4 y 5:
E
(∂2
∂θ2 f(X|θ0))f(X|θ0)(
f(X|θ0))2
− E( ∂∂θf(X|θ)f(X|θ)
)2
= −i(θ0)
de donde se concluye que la expresion entre [] en 3.1. converge en probabilidad a 0 como querıamosdemostrar.
21
Capıtulo 3. Metodos parametricos de estimacion
Observacion 3.18. Sobre las hipotesis del teorema anterior
3) E
(∂∂θf(x|θ)f(x|θ)
)=
∫ +∞
−∞
∂∂θf(x|θ)f(x|θ)
f(x|θ)dx =
∫ +∞
−∞
∂
∂θf(x|θ)dx, observemos que si pudier-
amos aplicar convergencia dominada∂
∂θ
∫ +∞
−∞f(x|θ)dx =
∂
∂θ1 = 0.
4) Analogo a 3).
5) Por 3), 5) es pedir que∂∂θf(x|θ)f(x|θ)
no sea constante.
Observacion 3.19. Un estudio mas detallado del E.M.V se puede encontrar en [?] donde se incluyeademas el caso en que el parametro θ a estimar es vectorial.
3.4. Metodo de estimacion por cuantiles
Definicion 3.20. Cuantil o percentil p: Sea X v.a., dado p ∈ (0, 1) el cuantil p es
xp = ınfx ∈ R : FX(x) ≥ p
Observacion 3.21. xp existe, y es mınimo
Demostracion. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si xn estal que F (xn) ≥ p y xn → x+
p , como F es continua por derecha
lımnF (xn) = F (lım
nxn) = F (xp) ≥ p.
Definicion 3.22. Percentil empırico: Sea X1, . . . , Xn M.A.S. de X, consideremos la muestraordenada X∗1 = X1:n ≤ · · · ≤ X∗n = Xn:n, entonces
Xp =
X∗np si np ∈ NX∗[np]+1 si np /∈ N
El metodo consiste en plantear la funcion g(θ) =∑ki=1(Xpi−xpi)2 donde los pi y k son cualquiera.
Lo que se busca es el mınimo de g(θ). El argumento que minimiza g(θ) sera θ y dependera de loscuantiles empıricos Xpi .
Ejemplo 3.23. Si X v (µ, σ2), entonces fX(x|µ, σ2) =1
πσ(
1 +(x−µσ
)2) .
Es facil ver que E(X) = ∞ y que su mediana es µ. Vamos a estimar θ = (µ, σ2) por el metodode cuantiles. Tomamos k = 4, Q1 = X0,25, Q2 = X0,5 y Q3 = X0,75, estimadores de los cuartiles.Entonces, la funcion a minimizar es
g(µ, σ2) = (Q1 − x0,25)2 + (Q2 − x0,5)2 + (Q3 − x0,75)2
Calculemos los cuartiles x0,25, x0,5 y x0,75 en funcion de µ y σ.
FX(x|µ, σ2) =1
2+
1
πarctan
(x− µσ
)
22
Capıtulo 3. Metodos parametricos de estimacion
Si hacemos FX(x|µ, σ2) = 0,25 entonces arctan
(x− µσ
)= −π
4de donde x = µ−σ. Analogamente
x0,5 = µ y x0,75 = µ+ σ (estos valores se calculan facilmente a partir de x0,25 usando la paridad defX). Luego, la funcion a minimizar resulta entonces
g(µ, σ2) = (Q1 − µ+ σ)2 + (Q2 − µ)2 + (Q3 − µ− σ)2
Derivando esta funcion respecto de µ y de σ, el gradiente resultante se anula en
µ =Q1 +Q2 +Q3
3σ =
Q3 −Q1
2
3.5. Estimacion de la funcion de Distribucion
Definicion 3.24. Distribucion Empırica: Sea X1, . . . , Xn M.A.S. de X v FX donde FX esdesconocida, la distribucion empırica se define como
F ∗n(x) =1
n
n∑i=1
I(−∞,x](Xi)
Observemos que en cada x nos da la proporcion de observaciones menores o iguales que x, y que,para x y n fijos, F ∗n(x) es una v.a. Observemos ademas que si xi 6= xj ∀i 6= j los incrementos de F ∗nson n , y de tamano 1/n.
Proposicion 3.25. F ∗n(x)c.s.−→ F (x) ∀x ∈ R.
Demostracion. Es una consecuencia inmediata de la L.F.G.N a las variables I(−∞,x] v Ber(p) conp = FX(x).
Teorema 3.26. Teorema fundamental de la Estadıstica, Glivenko-Cantelli, 1937: SeaX1, . . . , Xn, . . . una M.A.S. de X v FX entonces
‖F ∗n − FX‖∞ = supx∈R
∣∣F ∗n(x)− FX(x)∣∣ c.s.−→ 0
.
Demostracion. Para la demostracion vamos a necesitar el siguiente lema:
Lema 3.27. Yn = supx∈R∣∣F ∗n(x)− FX(x)
∣∣ es una v.a., es decir, es medible.
Demostracion. Basta demostrar que Yn ≤ δ ∈ A ∀δ > 0.
Yn ≤ δ =|F ∗n(x)− FX(x)| ≤ δ ∀x ∈ R
=F (x)− δ ≤ F ∗n(x) ≤ F (x) + δ ∀x ∈ R
=⋂x∈R
F (x)− δ ≤ F ∗n(x) ≤ F (x) + δ
Basta demostrar que⋂x∈R
F (x)− δ ≤ F ∗n(x) ≤ F (x) + δ
=⋂x∈Q
F (x)− δ ≤ F ∗n(x) ≤ F (x) + δ
Fijemos x ∈ R, dado ε > 0 ∃y ∈ Q, y ≥ x tal que
1) F ∗n(y)− F ∗n(x) ≤ ε pues F ∗n es continua por derecha.
2) F (y)− F (x) ≤ ε pues F es continua por derecha.
23
Capıtulo 3. Metodos parametricos de estimacion
3) F (y)− δ ≤ F ∗n(y) ≤ F (y) + δ.
Podemos escribir entonces
F (x)− δ − εx≤y≤ F (y)− δ − ε
3≤ F ∗n(y)− ε
1≤ F ∗n(x)
x≤y≤ F ∗n(y)
3≤ F (y) + δ
2≤ F (x) + ε+ δ
y por lo tantoF (x)− δ − ε ≤ F ∗n(x) ≤ F (x) + ε+ δ ∀ε > 0
entoncesF (x)− δ ≤ F ∗n(x) ≤ F (x) + δ.
lo cual concluye la demostracion del lema.
Veamos la demostracion del teorema, para el caso continuo, dado x ∈ R sea Ax = ω ∈ Ω :lımn F
∗n(x) = F (x). Por la proposicion anterior sabemos que P (Ax) = 1 para todo x. Luego
P(⋂
x∈QAx
)= 1.
Sea A :=⋂x∈QAx, basta ver que A ⊂ ω ∈ Ω : lımn supx∈R |F ∗n(x) − FX(x)| = 0. Sea ε > 0 y
ω ∈ A.Como lımx→+∞ F (x) = 0 existe k1 ∈ Q tal que ∀x < k1 F (x) < ε.Como lımx→+∞ F (x) = 1 existe k2 ∈ Q tal que ∀x > k2 1− F (x) < ε.Como F es uniformemente continua en [k1, k2] existe k1 = x1 < x2 < . . . < xm < xm+1 = k2 ∈ Qtal que F (xk+1)− F (xk) < ε para todo k = 1, . . . ,m.Luego si tomamos −∞ = x0 < x1 < x2 < . . . < xm < xm+1 < +∞ = xm+2 se verifica queF (xk+1)− F (xk) < ε para todo k = 0, . . . ,m+ 1. Como ω ∈ A,F ∗n(xk)→ F ∗n(xk)∀k = 0, . . . ,m+ 2Si x ∈ R existe k ∈ 0, . . . ,m+ 2 tal que xk ≤ x ≤ xk+1 entonces
F ∗n(x) ≤ F ∗n(xk+1)1≤ F (xk+1) + ε
2
F (x) + ε+ ε = F (x) + 2ε,
donde 1 es porque xk+1 ∈ Q y hemos tomado ω ∈ A. Esta desigualdad vale para n > n0, que nodepende de x. La desigualdad 2 se sigue de que F (xk+1) ≤ F (xk) + ε ≤ F (x) + ε. Razonando deforma analoga llegamos a que, para n > n1, para todo x tenemos que
F (x)− 2ε ≤ F ∗n(x) ≤ F (x) + 2ε
de dondelım
n→+∞sup |F ∗n − F | = 0.
3.6. Convergencia casi segura de Percentiles
Teorema 3.28. Dado p ∈ (0, 1) tal que ∀ε > 0 F (xp + ε) > p entonces el percentil empıricoˆXp,n
c.s.−→ xp.
Demostracion. Observemos que
F ∗n( ˆXp,n) =
1nnp = p si np ∈ N1n ([np] + 1)→ p si np /∈ N
.
dado ε > 0 sabemos que F ∗n(xp+ε)n−→ F (xp+ε) > p c.s. y F ∗n( ˆXp.n)
n−→ p por lo tanto ∀n ≥ n0 se
cumple que F ∗n( ˆXp,n) < F ∗n(xp+ε), de donde ˆXp,n < xp+ε. Ademas F ∗n(xp−ε)c.s. n−→ F (xp−ε) < p
y, razonando de forma analoga xp − ε < ˆXp,n ∀n ≥ n0 . Por lo tanto Xp,nc.s−→ xp.
24
Capıtulo 4
Evaluacion de Estimadores
Definicion 4.1. Dada X1, . . . , Xn M.A.S. de FX(x|θ) y T = Tn(X1, . . . , Xn) estimador de g(θ) cong a valores reales, conocida. Decimos que
Tn es insesgado si E(Tn) = g(θ) ∀θ ∈ (H)
Tn es asintoticamente insesgado si E(Tn)n−→ g(θ)
Tn es debilmente consistente si TnP−→ g(θ)
Tn es fuertemente consistente si Tnc.s.−→ g(θ)
Definicion 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn)−g(θ)
Definicion 4.3. Error cuadratico medio: Se define E.C.M(Tn) = E(Tn − g(θ)
)2Es claro que si Tn es un estimador insesgado E.C.M.(Tn) = V (Tn), es natural entonces, tomar
estimadores con E.C.M. mınimo.
Definicion 4.4. Estimador de mınima varianza: Sea Tn un estimador de g(θ) tal que Tn ∈ L2,decimos que es insesgado en θ0 ∈ (H), de varianza mınima si
i) Tn es insesgado en θ0
ii) Si T ′n ∈ L2 es insesgado en θ0 V arθ0(Tn) ≤ V arθ0(T ′n).
Observacion 4.5. Eθ(Tn(X1, . . . , Xn)
)=∫Rn Tn(x1, . . . , xn)dFX(x|θ)
Observacion 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de mınimavarianza.
Teorema 4.7. Tn es insesgado de minima varianza en θ0 si y solo siEθ0(f(X1, . . . , Xn)Tn(X1, . . . , Xn)) = 0 para toda f(x1, . . . , xn) a valores reales, tal que Eθ(f) = 0.
Demostracion. Para demostrar el teorema sera necesario el siguiente lema
Lema 4.8. Tn es insesgado de mınima varianza en θ0 si y solo si Tn es insesgado y V arθ0(Tn) ≤V arθ0(Tn + λf) para todo λ ∈ R , para todo f tal que Eθ0(f) = 0.
Demostracion. Veamos el directo, sea λ y f tal que Eθ0(f) = 0, T ′n = Tn + λf es insesgado puesE(Tn + λf) = E(Tn) + λE(f) = E(Tn) = g(θ). Como Tn es de mınima varianza V arθ0(Tn) ≤V arθ0(T ′n).Para demostrar el recıproco consideremos T ′n insesgado, entonces T ′n = Tn + (T ′n − Tn), tomemosf = T ′n − Tn y λ = 1 entonces E(f) = 0, luego, por hipotesis
V arθ0(Tn) ≤ V arθ0(Tn + λf) = V arθ0(T ′n).
25
Capıtulo 4. Evaluacion de Estimadores
Veamos ahora la demostracion del teorema. Por el lema basta ver que V arθ(Tn) ≤ V arθ0(Tn+λf)si y solo si Eθ0(fTn) = 0.
V arθ0(Tn + λf) = V ar(Tn) + λ2V (f) + 2λcov(Tn, f) ≥ V arθ0(Tn) ∀λ ∈ R⇔λ2V arθ0(f) + 2λcov(Tn, f) ≥ 0 ∀λ ∈ R⇔p(λ) = λ2V arθ02λcov(Tn, f) ≥ 0⇔ cov(Tn, f) = 0,
de lo contrario p tendra 2 raices.
cov(Tn, f) = E(Tnf)− E(Tn)E(f) = 0⇔ E(Tnf) = 0.
Definicion 4.9. Estimador insesgado de mınima varianza uniformemente: Tn es estimadorI.M.V.U. si es insesgado de varianza mınima ∀θ ∈ (H).
Ejemplo 4.10. Sea X1, . . . , Xn M.A.S. de X v exp(λ), θ = 1/λ. Un estimador de θ es Xn, veamos
que es de mınima varianza. Sabemos que Xnc.s.−→ E(X) = 1/λ = θ. Si f es tal que E(f) = 0 para
todo θ.
E(f) =
∫[0,+∞)n
f(x1, . . . , xn)λn exp−λ∑
xidx1 . . . dxn = 0
entonces ∫[0,+∞)n
f(x1, . . . , xn) exp−λ∑
xidx1 . . . dxn = 0 ∀λ ∈ R.
Veamos que E(fXn) = 0.
E(fXn) =
∫[0,+∞)n
f(x1, . . . , xn)1
n
( n∑i=1
xi)λn exp−λ
∑xidx1 . . . dxn = 0
⇔∫
[0,+∞)nf(x1, . . . , xn)
1
n
( n∑i=1
xi)
exp−λ∑
xidx1 . . . dxn = 0
⇔∫
[0,+∞)n
∂
∂λ
(f(x1, . . . , xn) exp−λ
∑xi)dx1 . . . dxn = 0
⇔ ∂
∂λ
∫[0,+∞)n
(f(x1, . . . , xn) exp−λ
∑xi)dx1 . . . dxn = 0
Ejemplo 4.11. Sea X1, . . . , Xn M.A.S. de X v Ber(p). Consideremos Xn estimador de p. Veamosque es de mınima varianza, sea f tal que E(f) = 0
E(f) =∑
(x1,...,xn)∈0,1nf(x1, . . . , xn)
n∏i=1
p(xi|p)
=∑
(x1,...,xn)∈0,1nf(x1, . . . , xn)p
∑xi(1− p)n−
∑xi
=
n∑k=0
∑x1+···+xn=k
f(x1, . . . , xn)p∑xi(1− p)n−
∑xi
=
n∑k=0
[ ∑x1+···+xn=k
f(x1, . . . , xn)
]pk(1− p)n−k = 0
26
Capıtulo 4. Evaluacion de Estimadores
Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos suscoeficientes son nulos. Luego si calculamos
E(fXn) =
n∑k=0
( ∑x1+···+xn=k
f(x1, . . . , xn)
)k
npk(1− p)n−k = 0
Teorema 4.12. Desigualdad de Cramer-Rao: Sea X1, . . . , Xn M.A.S. de X v fX(x|θ). Si Tnes un estimador insesgado de g(θ). Asumiremos que estamos en las hipotesis de derivacion dentrode la integral, es decir que
∂
∂θE(Tn) =
∫Rn
∂
∂θ
(Tn
n∏i=1
fX(xi|θ)
)dx1 . . . dxn
y
∂
∂θ
∫Rn
n∏i=1
fX(xi|θ)dxi =
∫Rn
∂
∂θ
n∏i=1
fX(xi|θ)dxi,
entonces
V ar(Tn) ≥(g′(θ)
)nE(
∂∂θ f(x|θ)f(x|θ)
)2 .
Ademas, el igual se da si y solo si existe λ = λ(n, θ) tal que
Tn(X1, . . . , Xn)− g(θ)c.s.= λ
n∑i=1
∂∂θf(xi|θ)f(xi|θ)
.
Demostracion.
g′(θ) =∂
∂θE(Tn) =
∂
∂θ
∫RnTn(x1, . . . , xn)
n∏i=1
fX(x|θ)dx1 . . . dxn
=
∫Rn
∂
∂θ
[Tn(x1, . . . , xn)
n∏i=1
fX(xi|θ)
]dx1 . . . dxn
=
∫Rn
(Tn(x1, . . . , xn)− g(θ)
) ∂∂θ
n∏i=1
fX(xi|θ)dx1 . . . dxn
=
∫Rn
(Tn(x1, . . . , xn)− g(θ)
)√∏n
i=1fX(xi|θ)
∂∂θ
∏ni=1 fX(xi|θ)√∏ni=1 fX(xi|θ)
dx1 . . . dxn
27
Capıtulo 4. Evaluacion de Estimadores
entonces, si aplicamos la desigualdad de Cauchy-Schwartz
(g′(θ)
)2 ≤∫Rn
(Tn − g(θ)
)2 n∏i=1
fX(xi|θ)∫Rn
(∂∂θ
∏ni=1 fX(xi|θ)
)2∏ni=1 fX(xi|θ)
=V ar(Tn)
∫Rn
(∂∂θ
∏ni=1 fX(xi|θ)
)2∏ni=1 fX(xi|θ)
=V ar(Tn)E
((∂∂θ
∏ni=1 fX(xi|θ)
)2∏ni=1 fX(xi|θ)
)2
=V ar(Tn)E
(∂
∂θlog
n∏i=1
fX(xi|θ)
)2
=V ar(Tn)E
(∂
∂θlog(fX(xi|θ))
)2
=V ar(Tn)E
(n∑i=1
∂∂θf(xi|θ)f(xi|θ)
)2
.
Definamos g(Xi) =∂∂θf(xi|θ)f(xi|θ)
.
E(∑
g(Xi))2
= E(∑
g2(Xi) + 2∑i 6=j
g(Xi)g(Xj))
= nE(g(Xi)
2)
+ 2∑i6=j
E(g(Xi)g(Xj)
).
Basta ver que E(g(Xi)g(Xj)
)= 0 para todo i 6= j. Como son independientes E
(g(Xi)g(Xj)
)=
E(g(Xi)
)E(g(Xj)
).
E(g(Xi)) =
∫R
∂∂θf(xi|θ)f(xi|θ)
f(xi|θ)dx
=
∫R
∂
∂θf(xi|θ)dx = 0.
Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz,por lo tanto el igual se da si y solo si existe λ = λ(n, θ) independiente de x1, . . . , xn tal que
(Tn − g(θ))√∏
fX(xi|θ) = λ∂∂θ
∏fX(xi|θ)√∏fX(xi|θ)
y esto sucede si y solo si
Tn − g(θ) =λ∂∂θ
∏fX(xi|θ)∏fX(xi|θ)
= λ∂
∂θ
(log(∏
fX(xi|θ)))
= λ∑ ∂
∂θlog(fX(xi|θ)
)=λ∑ ∂
∂θfX(xi|θ)fX(xi|θ)
Definicion 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g(θ) y cumple eligual en la desigualdad de Cramer-Rao se dice que es eficiente
Observacion 4.14. Si θ es un estimador de θ, θ es eficiente si y solo si
i) θ es insesgado
28
Capıtulo 4. Evaluacion de Estimadores
ii) V ar(θ) =1
nE(
∂∂θ f(x|θ)f(x|θ)
)2
Observacion 4.15. Observemos que nE(
∂∂θ f(x|θ)f(x|θ)
)2
es el numero de informacion de Fisher, del
logaritmo de la funcion de verosimilitud de X1, . . . , Xn por lo tanto la observacion anterior implicaque el E.M.V es asintoticamente eficiente. Si descomponemos el error cuadratico medio E(θ− θn)2
en sesgo y variabilidad, es decir
E(θ − θn)2 = E(θ − E(θn))2 + V ar(θn)
obtenemos, de la desigualdad de Cramer-Rao, que el E.M.V minimiza (entre los estimadores asintotica-mente insesgados) asintoticamente el error cuadratico medio.
Observacion 4.16. Observemos que si θ es eficiente, es de mınima varianza (entre el conjunto deestimadores que estan el las hipotesis del Teorema de Cramer-Rao). Podrıa no existir un estimadoreficiente, ademas, existen estimadores de mınima varianza que no cumplen la igualdad.
Ejemplo 4.17. Sea X1, . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y ademas
nE
(∂∂pp(x|p)p(x|p)
)2
= n
(1
p2p+
(−1
1− p
)2
(1− p)
)= n
1
p(1− p)=
1
V ar(X),
por lo tanto p = Xn es eficiente. Como Xn es eficiente es de mınima varianza varianza ya que X esde recorrido finito.
Definicion 4.18. Estimador Suficiente: Dada X1, . . . , Xn M.A.S. de X v F (x|θ) y Tn =T (X1, . . . , Xn) estimador, decimos que Tn es suficiente para θ si y solo si FX1,...,Xn|Tn no dependede θ.
Ejemplo 4.19. Sea X1, . . . , Xn M.A.S. tal que X v Ber(p) entonces T =∑ni=1Xi es un estimador
suficiente para estimar p.
Demostracion.
pX1,...,Xn|T=t(x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn|T = t)
=P (X1 = x1, . . . , Xn = xn, T = t)
P (T = t)=
0 si t 6=∑xi
P (X1=x1)...P (Xn=xn)P (T=t) si t =
∑xi
=p∑xi(1− p)n−
∑xi
Cnt pt(1− p)n−t
=1
Cnt.
Que no depende de p, hemos usado que T v Bin(n, p).
Teorema 4.20. T es suficiente para θ si y solo si L(x|θ) =∏ni=1 f(xi|θ) = g
(T (x), θ
)h(x)
Demostracion. (Caso discreto:)
L(x|θ) =
n∏i=1
pX(xi|θ) =
n∏i=1
P (X = xi|θ) = P (X1 = x1, . . . , Xn = xn|θ) =
Pθ(X1 = x1, . . . , Xn = xn|T = t)P (T = t) = h(x)g(T (x, θ))
29
Capıtulo 4. Evaluacion de Estimadores
Veamos el recıproco, supongamos que P (T = t) > 0.
P (X1 = x1, . . . , Xn = xn|T = t) =P (X1 = x1, . . . , Xn = xn, T = t)
P (T = t)
=
0 si t 6= T (x)
P (X1=x1,...,Xn=xn)P (T=t) si t = T (x)
Para el caso en que t = T (x)
P (X1 = x1, . . . , Xn = xn|T = t) =P (X1 = x1, . . . , Xn = xn)∑
y:T (y)=t P (X1 = y1, . . . , Xn = yn)=
g(T (x))h(x)∑y:T (y)=t g(T (y), θ)h(y)
.
Observemos que, dado que estamos en el caso T (x) = t y g(T (x), θ) = g(t, θ) = g(T (y), θ). Porlo tanto
P (X1 = x1, . . . , Xn = xn|T = t) =h(x)∑
y:T (y)=t h(y).
Que no depende de θ.
Ejemplo 4.21. Sea X1, . . . , Xn M.A.S. de X v N(µ, σ2). Estimamos µ y σ2, consideremos T (x) =(∑xi,∑x2i ) = (T1, T2).
L(x|(µ, σ)) =
n∏i=1
1√2πσ
exp
− 1
σ2(xi − µ)2
=1
(2π)n/2σnexp
− 1
2σ2
n∑i=1
(xi − µ)2
= (2πσ2)−n2 exp
n∑i=1
x2i − 2µ
n∑i=1
xi + nµ2
= (2π)−n2 σ−n exp
− 1
2σ2
(T2 − 2µT1 + nµ2
).
Por lo tanto si definimos
h(x) = (2π)−n2 y g
(T (x), (µ, σ2)
)= σ−n exp
− 1
2σ2
(T2 − 2µT1 + nµ2
).
De donde T es suficiente.
Observacion 4.22. Siempre existe un estimador suficiente, basta tomar T (x) = x y h constante.Esto significa que tener toda la muestra es suficiente.
Ejemplo 4.23. Si X1, . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b).
L(x|(a, b)
)=
∏1b−a si a < xi < b
0 si no
=
(b− a)n si a < xi < b0 si no
=
(b− a)n si a < x1:i; xn:n < b0 si no
=
(b− a)n si a < T1; T2 < b0 si no
Luego T (x) = (T1, T2) es suficiente.
30
Capıtulo 4. Evaluacion de Estimadores
Observacion 4.24. Si T es fuciente, el E.M.V. es funcion de un estimador suficiente, ya queen este caso L(x|θ) = g(T (x), θ)h(x), y, al maximizar en θ como h no varıa, podemos maximizarsolamente en g(T (x), θ)
Definicion 4.25. Estimador suficiente minimal: T estimador suficiente, es minimal si paratodo T ′ estimador suficiente, T es funcion de T ′.
Teorema 4.26. Sea X1, . . . , Xn M.A.S. de X v FX(x|θ), si T es un estimador que cumple:
L(x|θ)L(y|θ)
no depende de θ ⇔ T (x) = T (y)
entonces T es suficiente minimal.
Demostracion. Veamos primero que T es suficiente, podemos escribir, tomando y tal que T (y) =T (x)
L(x|θ) =L(x|θ)L(y|θ)
L(y|θ) = h(x)L(y|θ) = h(x)g(T (x), θ)
).
Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la funcion deverosimilitud.Veamos que T es minimal, sea T ′ suficiente, podemos escribir entonces L(x|θ) = g′
(T ′(x), θ
)h′(x).
Sea x y y, T ′(x) = T ′(y) entonces
L(x|θ)L(y|θ)
=g′(T ′(x), θ)h′(x)
g′(T ′(y), θ)h′(y)=h′(x)
h′(y),
que no depende de θ, entonces, usando el directo de nuestra hipotesis tenemos que T (x) = T (y).Hemos demostrado que cada ves que T ′(x) = T ′(y) entonces T (x) = T (y). Veamos que esto implicaque T = f(T ′). Definimos para z /∈ Im(T ′) f(z) cualquier cosa, y para z ∈ Im(T ′) entoncesz = T ′(x) y f(z) := T (x).
Definicion 4.27. Estadıstico Completo: T se dice completo si toda vez que tenga una funciong tal que Eθ
(g(T )
)= 0 para todo θ ∈ (H) implica que g(T ) = 0 c.s.
Ejemplo 4.28. Sea X1, . . . , Xn M.A.S. de X v U(0, θ) veamos que θ = xn:n es completo.
E(g(T )) =
∫ +∞
−∞g(t)fT (t)dt =
∫ θ
0
g(t)ntn−1
θn−1
1
θdt =
n
θn
∫ θ
0
tn−1g(t)dt,
luego E(g(T )) = 0 si y solo si∫ θ
0tn−1g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es
derivable c.s., θn−1g(θ) = 0 entonces g(θ) = 0 para todo θ.
Definicion 4.29. Funcion de perdida: Sea (H) y L : (H)× (H) −→ R que verifica
i) L(u, v) = L(v, u) para todo u, v ∈ (H).
ii) L(u, v) = 0 si y solo si u = v.
iii) L es convexa, es decir,
para todo p, q ∈ (H)× (H) L(λp+ (1− λ)q) ≤ λL(p) + (1− λ)L(q).
se denomina funcion de perdida.
Observacion 4.30. Si L es C2 es convexa si y solo si H(x,y)L es semidefinido positivo
Definicion 4.31. funcion de riesgo: Sea X1, . . . , Xn M.A.S. de X v FX(x|θ) y θ ∈ (H) de-sconocida, dado T (X1, . . . , Xn) estimador de θ y L una funcion de perdida, definimos la funcion deriesgo
R(θ, T ) = E(L(θ, T )
).
31
Capıtulo 4. Evaluacion de Estimadores
Definicion 4.32. Estimador de riesgo mınimo, uniformemente entre los insesgados: Tes E.R.M.U entre los insesgados si dado T ′ estimador insesgado se cumple que
R(θ, T ) ≤ R(θ, T ′) ∀ θ ∈ (H).
Teorema 4.33. Rao-Blackwell: Si σ(X1, . . . , Xn) es insesgado y T (X1, . . . , Xn) es suficiente,entonces
η(X1, . . . , Xn) = E(σ(X1, . . . , Xn)|T (X1, . . . , Xn)
),
entoncesR(θ, η) ≤ R(θ, σ).
Demostracion.
R(θ, η) = E(L(θ, η)
)= E
(L(θ,E(σ|T ))
)= E
(L(E(θ, σ|T ))
)≤ E
(E(L(θ, σ)|T )
)= E
(L(θ, σ)
).
Donde hemos usado la desigualdad de Jensen.
Observacion 4.34. En la demostracion anterior, la hipotesis de que T es suficiente es necesariapara que η sea un estimador de θ.
Observacion 4.35. η es insesgado E(η) = E(E(σ|T )) = E(σ) = θ.
Lema 4.36. Sea T suficiente, y ψ(T (X1, . . . , Xn)
)tal que si f
(T (X1, . . . , Xn)
)es una funcion de
T insesgada entonces ψ(T (X1, . . . , Xn)
)= f
(T (X1, . . . , Xn)
)c.s. entonces ψ(T ) es uniformemente
de mınimo riesgo entre los insesgados.
Demostracion. Sea σ insesgado, por Rao-Blackwell, como T es suficiente R(θ, η) ≤ R(θ, σ), seaη = E(σ|T ) es una funcion de T y es insesgado entonces por hipotesis f(T ) = ψ(T ) c.s.. Entoncesη = ψ(T ), y R(θ, ψ(T )) ≤ R(θ, σ), donde σ es arbitrario dentro de los insesgados, por lo tanto ψ esuniformemente de mınimo riesgo.
Lema 4.37. Si T es completo y f(T (X1, . . . , Xn)) ψ(T (X1, . . . , Xn)) son insesgados entonces en-tonces
f(T (X1, . . . , Xn)) = ψ(T (X1, . . . , Xn)) c.s.
Demostracion. E(f(T ) − ψ(T )) = 0 para todo θ ∈ (H), como T es completo, tomamos g(T ) =f(T )− ψ(T ) entonces E(g(T )) = 0 para todo θ ∈ (H), entonces g = 0 c.s..
Teorema 4.38.
1) Si T es suficiente y completo y σ es insesgado entonces E(σ|T ) minimiza el riesgo uniforme-mente entre los insesgados.
2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entrelos insesgados.
Demostracion.
1) Sea ψ(T ) = E(σ|T ), entonces ψ es insesgado ya que σ lo es. Si f(T ) es insesgado, por el Lema4.37 f(T ) = ψ(T ) c.s., entonces, por el Lema 4.36 ψ(T ) minimiza el riesgo uniformementeentre los insesgados.
2) Tomamos σ = E(T |T ) = T y se concluye usando la parte anterior.
32
Capıtulo 4. Evaluacion de Estimadores
Ejemplo 4.39. Sea X1, . . . , Xn M.A.S. de X v Ber(p). Entonces p = Xn es uniformemente demınimo riesgo entre los insesgados. Como ya vimos p es insesgado y suficiente como ya vimos, veamosque es completo.
0 = E(g(p)) =∑
x1,...,xn∈0,1
g(x)P (X1 = x1, . . . , Xn = xn)
=
n∑k=0
∑x1+···+xn=k
g
(k
n
)pk(1− p)n−k
=
n∑k=0
g
(k
n
)pk(1− p)n−kAnk = 0 ∀p
= (1− p)n∑
g
(k
n
)(p
1− p
)kk!
(n− k)!.
Como p ∈ (0, 1) y tomamos t = p/(1−p). Luego, tenemos un polinomio de grado n, en t con infinitasraices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.
33
Capıtulo 5
Estimacion por intervalos deconfianza
Definicion 5.1. Intervalo de confianza: Dada X1, . . . , Xn M.A.S. de X v FX(x|θ) con θ de-sconocido, θ ∈ R. Un intervalo de confianza al nivel 1− α con α ∈ (0, 1) es
I =[L(X1, . . . , Xn), U(X1, . . . , Xn)
],
donde L y U son estimadores y P (θ ∈ I) = 1− α.
Ejemplo 5.2. Construccion de intervalos de confianza: Sea X v N(µ, σ2) con σ2 conocido,tomamos θ = µ. Buscamos un intervalo de la forma[
Xn − k,Xn + k].
Debemos hallar k tal que P (µ ∈ I) = 1− α, entonces
1− α =P (Xn − k ≤ µ ≤ Xn + k)
=P (µ− k ≤ Xn ≤ µ+ k)
=Φ
(µ+ k − µσ/√n
)− Φ
(µ− k − µσ/√n
)=Φ
(√nk
σ
)− Φ
(−√nk
σ
)=2Φ
(√nk
σ
)− 1,
donde en la tercer igualdad hemos usado que X v N(µ, σ2/n) y en la ultima la paridad de Φ. Porlo tanto obtuvimos que
1− α/2 = Φ
(√nk
σ
)entonces
√nk
σ= φ−1(1− α/2),
y por lo tanto tomamos
k =σ√n
Φ−1(1− α/2).
Notacion: Anotaremos Zp = Φ−1(p), con esta notacion el intervalo de confianza del ejemploanterior es [
Xn −σ√nZ1−α/2, Xn +
σ√nZ1−α/2
].
34
Capıtulo 5. Estimacion por intervalos de confianza
Ejemplo 5.3. Se X v N(µ, σ2) con σ2 desconocido, y θ = µ, buscamos un intervalo de la forma[Xn − kSn, Xn + kSn
].
P (µ ∈ I) = P(|Xn − µ| ≤ kSn
)= P
(√n|Xn − µ|Sn
≤√nk
).
Recordemos que √n(Xn − µ)
Snv Tn−1,
entonces
P (µ ∈ I) =P(−√nk ≤ T ≤
√nk)
=FT (√nk)− FT (−
√nk)
=2FT (√nk)− 1 = 1− α,
donde hemos usado la simetrıa de F . Despejando obtenemos
k =F−1T (1− α/2)√
n=t1−α/2(n− 1)
√n
,
donde usamos la notacion F−1T (p) = tp(n− 1) siendo n− 1 son los grados de libertad. Por lo tanto
el intervalo de confianza para µ al nivel 1− α es
I =
[Xn −
Sn√nt1−α/2(n− 1), Xn +
Sn√nt1−α/2(n− 1)
].
Obervemos que como Snc.s.−→ σ entonces
Tn =
√n(Xn − µ)
Sn
d−→ N(0, 1), tp(n− 1)→ Zp.
Ejemplo 5.4. Si X ∈ L2 cualquiera con E(X) = µ y V ar(X) = σ2, si n es grande, en vista de lasobservaciones anteriores, un intervalo de confianza aproximado, para µ al nivel 1− α es[
Xn −Sn√nZ1−α/2, Xn +
Sn√nZ1−α/2
].
Ejemplo 5.5. Si X v N(µ, σ2) con µ desconocido, tomamos θ = σ2, busquemos a y b tal que
P(aS2
n ≤ σ2 ≤ bS2n
)= 1− α,
Recordemos que
(n− 1)S2n
σ2v χ2
n−1,
entonces
P (σ2/b ≤ S2n ≤ σ2/a) = P
((n− 1)
b≤ (n− 1)S2
n
σ2≤ n− 1
a
)= F
(n− 1
a
)− F
(n− 1
b
),
Basta elegir a tal que F ((n− 1)/a) = 1α/2 y b tal que F ((n− 1)/b) = α/2, de donde
a =n− 1
χ21−α/2(n− 1)
b =n− 1
χ2α/2(n− 1)
,
donde hemos usado la notacion F−1χ2 (p) = χ2
p(n− 1), para la distribucion χ2 con (n− 1) grados delibertad. Luego el intervalo es
I =
[n− 1
χ21−α/2(n− 1)
S2n,
n− 1
χ2α/2(n− 1)
S2n
].
35
Capıtulo 5. Estimacion por intervalos de confianza
Ejemplo 5.6. Sea X v Ber(p) con n grande tomemos θ = p, si aproximamos usando el T.C.L. es
facil ver, como σ2 = p(1− p) y Sn =√Xn(1−Xn), nos queda el intervalo
I =
Xn −
√Xn(1−Xn)√n
Z1−α/2, Xn +
√Xn(1−Xn)√n
Z1−α/2
Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para µ = E(X) cuandoσ2 = f(µ). Consideremos X1, . . . , Xn M.A.S. de X ∈ L2 y g : R −→ R clase C1. Si g′(µ) 6= 0, veamos
que√n(g(Xn − g(µ))
d−→ N(0, (σg′(µ))2) :
√n(g(Xn − g(µ)) =
√ng′(Cn)(Xn − µ) = g′(Cn)
√n(Xn − µ),
con Cn ∈ [Xn, µ] o Cn ∈ [µ,Xn], sabemos que g′(Cn)c.s.−→ g′(µ) y
√n(Xn − µ)
d−→ N(0, σ2), por lotanto usando el lema de Slutsky se concluye.
36
Capıtulo 6
Pruebas de hipotesis
Supongamos que queremos saber si una moneda esta balanceada o no. Se tira 100 veces yobtenemos 54 caras, debemos tomar una decision entre
H0 : p = 1/2 donde p = P (cara)
H1 : p 6= 1/2.
Definicion 6.1. Test de hipotesis: Dada X1, . . . , Xn M.A.S. de FX(x|θ) con θ desconocido, untest de hipotesis es decidir entre 2 hipotesis;
H0 : θ ∈ A hipotesis nula
H1 : θ ∈ B hipotesis alternativa
donde suponemos que A,B ⊂ (H) y A ∩B = ∅.
Definicion 6.2. Region Crıtica: La region crıtica, que anotaremos como RC ⊂ Rn con n eltamano de la muestra, es la zona de rechazo de H0.
Definicion 6.3. Regla de decision: Si (x1, . . . , xn) ∈ RC entonces rechazo H0, en caso contrariosi (x1, . . . , xn) /∈ RC no rechazo H0 (acepto H0).
Ejemplo 6.4. En nuestro ejemplo de la moneda es natural tomar
RC =
(x1, . . . , xn) ∈ 0, 1n ⊂ Rn : |Xn − 1/2| ≥ k
Definicion 6.5. Errores de tipo 1 y 2:
* error tipo 1: rechazar H0 siendo cierta.
* error tipo 2: aceptar H0 siendo falsa, H1 es cierta.
Definicion 6.6. Significacion de una prueba:
α = supθ∈A
Pθ((X1, . . . , Xn) ∈ RC
)= P ( error tipo 1 ).
Definicion 6.7. Probabilidad del error tipo 2: definimos, para θ ∈ B
β(θ) = Pθ∈B((X1, . . . , Xn) /∈ RC
)= P ( error tipo 2 ).
Definicion 6.8. Potencia de la prueba: se define como
π(θ) = P((X1, . . . , Xn) ∈ RC
)∀θ
37
Capıtulo 6. Pruebas de hipotesis
Observacion 6.9. π(θ) = 1−β(θ) si θ ∈ B y π(θ) ≤ α si θ ∈ A. En particular si A es θ0 π(θ0) = α.
Ejemplo 6.10. Para el caso de la moneda, si tomamos α = 0,05 es decir el 5 %, entonces σ2 = 1/4.
α = P1/2
((X1, . . . , Xn) ∈ [1/2− k, 1/2 + k]c
)= P1/2
(Xn ∈ [1/2− k, 1/2 + k]c
)= P
(20(Xn − 1/2) ∈ [−20k, 20k]c
)= 1− Φ(20k) + Φ(−20k) = 2− 2Φ(20k)
donde hemos usado la aproximacion de√
100σ (Xn−1/2) por una N(0, 1). Obtenemos entonces 20k =
Z0,975 de donde k = 0,098. Tenemos entonces la region crıtica
RC =
(x1, . . . , xn) ∈ Rn : |xn − 1/2| ≥ 0,098.
Como |0, 54− 1/2| no es mayor o igual que 0,98 no rechazo H0 al nivel 5 %.
Observacion 6.11. La decision depende fuertemente del nivel al que trabajo. Concretamente sielegimos α = 0, es decir, la probabilidad de rechazar H0 siendo cierto es 0, siempre acepeto H0.
Calculemos β(p) con p ∈ H1 = 1/2c con
β(p) = Pp(RCc)
= Pp(|Xn − 1/2| < 0,098)
= P (0,402 < Xn < 0,598)
∼= Φ
0,598− p√p(1−p)100
− Φ
0,402− p√p(1−p)100
Donde hemos usado que Xn v N
(p, p(1−p)100
).
Observacion 6.12. Si construimos una RC con un nivel dado α entonces puedo controlar el errorde tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave.
Observacion 6.13. En general, uno define la region crıtica a partir de un estimador insesgadoRC = |θ − θ0| ≥ k.
Observacion 6.14. Al permitir variar el tamano de la muestra uno puede fijar los errores α y β yhallar un n que verifique las igualdades.
Observacion 6.15. Como el error de tipo 1 es mas grave, al rechazar H0 uno debe estar seguro(tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia empricapara decir que H0 es falso. No es que se acepte H1.
6.1. Region crıtica optima, Teorema de Neyman-Pearson.
Teorema 6.16. Neyman-Pearson: Sea X1, . . . , Xn M.A.S. de X v FX(x|θ) absolutamente con-tinua, y el test
H0 : θ = θ0
H1 : θ = θ1
Sea Sk =
n∏i=1
f(xi, θ1)
f(xi|θ0)≥ k
, si k es tal que
PH0(Sk) = PH0
((X1, . . . , Xn) ∈ Sk
)= α,
entonces Sk es entre todas las RC de nivel α la que tiene menor β (maxima potencia).
38
Capıtulo 6. Pruebas de hipotesis
Demostracion. Sea β = Pθ1(Sck) y β0 = Pθ1(Sc0) donde S0 es otra RC de nivel α, entonces
β − β0 = Pθ1(Sck)− Pθ1(Sc0)
=
∫Sck
n∏i=1
f(xi|θ1)dx1 . . . dxn −∫Sc0
n∏i=1
f(xi|θ1)dx1 . . . dxn
=
∫Sck\S
c0
n∏i=1
f(xi|θ1)dx1 . . . dxn −∫Sc0∩Sk
n∏i=1
f(xi|θ1)dx1 . . . dxn
≤ k
[∫Sck\S
c0
n∏i=1
f(xi|θ0)dx1 . . . dxn −∫Sc0∩Sk
n∏i=1
f(xi|θ0)dx1 . . . dxn
]
= k
[∫Sck
n∏i=1
f(xi|θ0)dx1 . . . dxn −∫Sc0
n∏i=1
f(xi|θ0)dx1 . . . dxn
]= k
[Pθ0(Sck)− Pθ0(Sc0)
]= k[1− α− (1− α)] = 0.
Luego β ≤ β0, como β0 es arbitrario β es mınimo.
Ejemplo 6.17. Hallar la forma de la RC optima para el caso X v N(µ, σ2) y el problema
H0 : µ = µ0
H1 : µ = µ1
con µ1 > µ0
Por el teorema de Neyman-Pearson planteamos
RNP =
n∏i=1
e−(Xi−µ1)2
2σ2
e−(Xi−µ0)2
2σ2
≥ k
donde k es tal que PH0
(RNP ) = α,
RNP =
e−∑ni=1
(Xi−µ1)2−(Xi−µ0)2
2σ2 ≥ k
=
−
n∑i=1
(Xi − µ1)2 − (Xi − µ0)2
2σ2≥ log(k)
=
−∑ni=1X
2i − 2µ1
∑ni=1Xi + nµ2
1 −∑ni=1X
2i + 2µ0
∑ni=1Xi − nµ2
0
2σ2≥ log(k)
=
µ1 − µ0
σ2
∑i=1
Xi +n(µ2
0 − µ21)
2σ2≥ log(k)
=
2n(µ1 − µ0)Xn − n(µ1 − µ0)(µ1 + µ0)
2σ2≥ log(k)
=
Xn ≥
2σ2 log(k) + n(µ1 − µ0)(µ1 + µ0)
2n(µ1 − µ0)
=Xn ≥ k′
donde
k′ =σ2 log(k)
n(µ1 − µ0)+
(µ1 + µ0)
2,
Observemos que bajo H0 Xn ∼ N(µ0,
σ2
n
)entonces
α = PH0
(√n(Xn − µ0)
σ≥√n(k′ − µ0)
σ
)= P
(N(0, 1) ≥
√n(k′ − µ0)
σ
)
39
Capıtulo 6. Pruebas de hipotesis
por lo tanto
zα =
√n(k′ − µ0)
σy
k′ = µ0 +σzα√n
finalmente la region crıtica es Xn ≥ µ0 +
σzα√n
.
Vamos a calcular para esta prueba la probabilidad del error de tipo II, esto es:
β = PH1
(Xn ≤ µ0 +
σzα√n
)= PH1
(√n(Xn − µ1)
σ≤√n(µ0 − µ1)
σ+ zα
)= Φ
zα −
√n(µ1 − µ0)
σ
Por ejemplo si σ = 1 , α = 5 %, zα = 1, 645, µ0 = 0, µ1 = 0, 5, tenemos la siguiente variacion de
β segun n
n β4 0,7409 0,55816 0,36125 0,19636 0,088
Es decir que por ejemplo para n = 9 ningun test de nivel 5 % para este test tiene potencia mayorque 44, 2 %, esto quiere decir que es muy probable que aceptemos H0 de forma erronea con estasmuestras pequeas.
Observacion 6.18. Analogamente se demuestra que si µ1 < µ0 la prueba
H0 : µ = µ0
H1 : µ = µ1
tiene como region crıtica
Rα =
Xn < µ0 −
σzα√n
Ejemplo 6.19. Consideremos X1, . . . , Xn i.i.d. con distribucion de Poisson de parametro λ, queanotaremos P(λ) y
H0 : λ = 100
H1 : λ = 120
entonces RNP = Xn > cα,n donde cα,n es tal que P(P(n100) > ncα,n
)= α. Observemos que
usando el T.C.L, sabemos que si Z ∼ P(n100) entonces
Z − n100√n100
≈ N(0, 1),
de donde
α = P
(Z − n100√
n100>n(cα,n − 100)√
n100
)≈ P
(N(0, 1) >
√n
10(cα,n − 100)
)despejando
cα,n ≈10zα√n
+ 100.
40
Capıtulo 6. Pruebas de hipotesis
Ejemplo 6.20. Consideremos X1, . . . , Xn i.i.d. ∼ Ber(p) y deseamos testear
H0 : p = p0
H1 : p = p1
con p1 > p0 dados. Tenemos RNP = Xn > cα,n donde
cα,n lo deducimos de la tabla de la Bin(n, p0) si n es moderado y P (Bin(n, p0) > ncα,n) = α.
cα,n lo deducimos de la tabla de P(np0) si n es grande y p0 muy pequeo, donde P (P(np0) >ncα,n) = α.
cα,n = p0 +
√p0(1−p0)√
nzα para el caso en que n es grande, y p0 no muy pequeo, aqui usamos el
T.C.L.
Las regiones crıticas para p1 < p0 son analogas.
Corolario 6.21. Corolario de Neyman-Pearson, en las hipotesis del teorema, α+ β ≤ 1
Demostracion.
β = PH1(Sc) =
∫Sc
n∏i=1
f(xi|θ1)dx1 . . . dxn ≤ k∫Sc
n∏i=1
f(xi|θ0)dx1 . . . dxn =
k(1−
∫S
n∏i=1
f(xi|θ1)dx1 . . . dxn)
= k(1− α),
si k ≤ 1 entonces β ≤ 1− α de donde α+ β ≤ 1,si k ≥ 1
1− β = PH1(S) =
∫S
n∏i=1
f(xi|θ1)dx1 . . . dxn ≥ k∫S
n∏i=1
f(xi|θ0)dx1 . . . dxn = kα,
como k ≥ 1 entonces 1− β ≥ kα ≥ α de donde α+ β ≤ 1.
Teorema 6.22. Consideremos X1, . . . , Xn una M.A.S. de X v FX(x|θ) absolutamente continua, yla prueba
H0 : µ = µ0
H1 : µ = µ1
y k = kn es tal que PH0
(n∏i=1
f(Xi|θ1)
f(Xi|θ0)≥ kn
)= α entonces βn → 0.
Demostracion. log
(n∏i=1
f(Xi|θ1)
f(Xi|θ0)
)=
n∑i=1
log
(f(Xi|θ1)
f(Xxi|θ0)
)y por la L.F.G.N.
1
nlog
(n∏i=1
f(Xi|θ1)
f(Xi|θ0)
)c.s.−→E
(log
(f(X|θ1)
f(X|θ0)
))< log
(E
(f(X|θ1)
f(X|θ0)
))= log
(∫f(x|θ1)
f(x|θ0)f(x|θ0)dx
)= log(1) = 0.
41
Capıtulo 6. Pruebas de hipotesis
Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente concava), yen la siguiente igualdad hicimos el supuesto de H0 cierto, es decir θ = θ0. Tenemos entonces que
n∑i=1
log
(f(Xi|θ1)
f(Xi|θ0)
)c.s.−→ −∞.
Luego, para todo ε > 0 tomando α = ε, y para todo m ∈ N existe n0 tal que ∀n ≥ n0
P
(n∑i=1
log
(f(Xi|θ1)
f(Xi|θ0)
)< −m
)≥ 1− ε = 1− α.
Llamemos
Sn =
n∏i=1
f(Xi|θ1)
f(Xi|θ)≥ kn
y
An,m =
n∑i=1
log
(f(Xi|θ)f(Xi|θ)
)< −m
.
Si tomamos ω ∈ An,m ∩ Sn entonces
log(Kn) ≤n∑i=1
log
(f(Xi(ω)|θ1)
f(Xi(ω)|θ0)
)< −m,
luego, tenemos que ∀ m ∈ N, ∃n0 tal que ∀n ≥ n0 log(kn) < −m de donde kn → 0.Observemos que Sn ∩ An,m 6= ∅ ya que P (Sn) + P (An,m) > α + 1 − α > 1, luego, se intersectan.Como βn = PH1
(Scn) =∫Scn
∏f(xi|θ)dx ≤ kn
∫ cn
∏f(xi|θ)dx→ 0.
Corolario 6.23. Consideremos el caso particular
H0 : θ = θ0
H1 : θ = θ1
Sea Sn =∏n
i=1f(xi|θ1)f(xi|θ0) ≥ 1
entonces αn + βn → 0
Demostracion. Si H0 es cierto entonces∑ni=1 log
(f(Xi|θ1)f(Xi|θ0)
)P−→ −∞, de donde αn = PH0
(Sn) =
PH0
(∑ni=1 log
(f(Xi|θ1)f(Xi|θ0)
)≥ 0)
n−→ 0.
Si H1 es cierto entonces∑ni=1 log
(f(Xi|θ0)f(Xi|θ1)
)P−→ −∞.
βn = PH1
(n∑i=1
log
(f(Xi|θ1)
f(Xi|θ0)
)≤ 0
)−→ 0.
Observemos que este resultado nos dice que si pudiesemos disponer de muestras arbitrariamentegrandes, tanto la probabilidad de error de tipo I, como la de tipo II, podrıan hacerse arbitrariamentepequeas. No obstante se cumple el siguiente teorema:
Teorema 6.24. Si X1, . . . , Xn son i.i.d. con densidad fθ , consideramos la prueba
H0 : θ = θ0
H1 : θ = θ1
y suponemos ademas que ∀ Ak sucesion de sucesos tal que PH0(Ak)→ 1 el lımite inferior en k
de PH1(Ak) es positivo, entonces existe δn > 0 tal que para cualquier region crıtica RC se tiene que
si P (error tipo I) = PH0(RC) P (error tipo II) = P(H1)(RCc) entonces
P (error tipo I) + P (error tipo II) ≥ δn
42
Capıtulo 6. Pruebas de hipotesis
La hipotesis sobre los Ak es tecnica y se cumple en la mayorıa de los casos, ademas puede verseque que en los casos en que las densidades correspondientes a ambas hipotesis tienen el mismosoporte, esa hipotesis es valida. Observemos que lo que nos esta dando este teorema es una cotapara la velocidad de convergencia de la suma de las probabilidades.
Ejemplo 6.25. Supongamos que X1, . . . , Xn son i.i.d. ∼ N(µ, σ2), con σ conocida y queremostestear:
H0 : µ ≤ µ0
H1 : µ > µ0
dada, en tal caso tenemos que si RC es la region crıtica,
α = supµ≤µ0
P((X1, . . . , Xn) ∈ RC
)
Dado α propondremos la region crıtica (para cada alternativa µ > µ0 fija, es la mejor segun NeymanPearson)
RC =
Xn > µ0 +
zασ√n
,
y verifiquemos que su nivel es α, en efecto
supµ≤µ0
P
(Xn > µ0 +
zασ√n
)= supµ≤µ0
P
(√n
(Xn − µ)
σ>
√n(µ0 − µ)
σ+ zα
)= supµ≤µ0
1−Φ
(√n(µ0 − µ)
σ+ zα
)= 1− Φ(zα) = α
Observemos que en este caso el error de tipo II puede ser muy apreciable. Finalmente, puededemostrarse que, en este tipo de ejemplos (test sobre la media de poblaciones guassianas) si σ esdesconocida, todos los test antes vistos funcionan de igual modo si se reemplaza σ por Sn y zα portα(n− 1). Notese que si X1, . . . , Xn son i.i.d. ∼ N(µ, σ2) sea σ conocida o no, los test
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ = µ1
Tienen la misma region crıtica ya que el segundo caso contiene la peor comparacion del primero , yla region crıtica de Neyman Pearson del tercero, no depende del valor de µ1 como se observo.
La prueba
H0 : µ = µ0
H1 : µ 6= µ0
tiene region crıtica
RC =
∣∣∣∣√n(Xn − µ0)
σ
∣∣∣∣ ≥ zα/2Vamos a presentar, sin demostracion las regiones crıticas para el caso en que tanto σ como µ sondesconocidos, para un tratamiento mas detallado de estos temas pueden verse, [3] o [2].
ParaH0 : σ = σ0
H1 : σ = σ1
H0 : σ = σ0
H1 : σ > σ0
H0 : σ ≤ σ0
H1 : σ > σ0
con σ1 > σ0, tenemos
RCα =
(n− 1)
S2n
σ20
≥ χ2α(n− 1)
,
43
Capıtulo 6. Pruebas de hipotesis
y para
H0 : σ = σ0
H1 : σ = σ1
H0 : σ = σ0
H1 : σ < σ0
H0 : σ ≤ σ0
H1 : σ > σ0
con σ1 < σ0 es
RCα =
(n− 1)
S2n
σ20
≥ χ21−α(n− 1)
,
finalmente paraH0 : σ = σ0
H1 : σ 6= σ1
tenemos
RCα =
(n− 1)
S2n
σ20
/∈(χ2
1−α/2(n− 1), χ2α/2(n− 1)
).
6.2. Familias con cociente de verosimilitud monotono
Definicion 6.26. Familia con C.V.M.: Una familia de densidades f(·|θ) con θ ∈ (H) ⊂ R tieneC.V.M. si
L(x|θ)L(x|θ′)
=
∏ni=1 f(xi|θ)∏ni=1 f(xi|θ′)
= g(T (x)
),
donde g : R −→ R es estrictamente creciente, θ > θ′, y T = Tn es un estimador. Observemos que gdepende de n de θ y de θ′
Ejemplo 6.27. f(·|θ) es una familia exponencial (para θ ∈ (H) ⊂ R) si
n∏i=1
f(xi|θ) = CneQ(θ)t(x)h(x) con Cn(θ) > 0,
si Q es estrictamente creciente la familia tiene C.V.M.:
L(x|θ)L(x|θ′)
=Cn(θ)
Cn(θ′)
eQ(θ)t(x)
eQ(θ′)t(x)
h(x)
h(x)=
Cn(θ)
Cn(θ′)et(x)
(Q(θ)−Q(θ′)
)= g(t(x))
con g(s) = Cn(θ)Cn(θ′)e
s(Q(θ)−Q(θ′)
), luego, g es una funcion creciente de s.
Teorema 6.28. Sea X1, . . . , Xn M.A.S. de X con densidad f(·|θ) perteneciente a una familia conC.V.M, sea T (x) absolutamente continua y θ ∈ (H) ⊂ R, consideremos
H0 : θ ≤ θ0
H1 : θ > θ0
Si R = x ∈ Rn : T (x) ≥ k donde k es tal que R sea R.C. de nivel α, entonces R es R.C.uniformemente de maxima potencia.
Demostracion. En el conjutno θ : θ ≤ θ0 ⊂ (H) defino αk(θ) = α(θ) = Pθ(R). Probaremosque α es creciente y por lo tanto supθ∈H0
α(θ) = α(θ0), de donde el k de la hipotesis es tal quePθ0(T (x) ≥ k) = α. Consideremos la prueba
H0 : θ = θ′
H1 : θ = θ′′
44
Capıtulo 6. Pruebas de hipotesis
Con θ′′ > θ′. Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos laregion crıtica optima
n∏i=1
f(xi|θ′′)f(xi|θ′)
≥ k′
= T (x) ≥ g−1(k′),
en esta igualdad hemos usado que g es creciente, llamemos k′′ = g−1(k′). Para esta prueba α+β ≤ 1,α = Pθ′(T (x) ≥)) = α(θ′) y β = Pθ′′(T (x) ≥ k′′c) = 1 − Pθ′′(T (x) ≥ k′′) = 1 − α(θ′′).Entonces α(θ′) + 1−α(θ′′) ≤ 1 y por lo tanto α(θ′) ≤ α(θ′′). Como θ′ y θ′′ son arbitrarios se deduceque α creciente.Veamos ahora que R es optima, es decir, uniformemente de maxima potencia. Supongamos porabsurdo, que existe otra S RC de nivel α tal que existe θ > θ0 y βS(θ) < βR(θ), sabemos quesupθ≤θ0 αS(θ) = α ya que hemos supuesto que S es RC de nivel α, por lo tanto αS(θ0) ≤ α.Consideremos la prueba
H0 : θ = θ0
H1 : θ > θ0 (6.1)
Sea S′ = T (x) ≥ k con k′ tal que αS′(θ0) = αS(θ0), (tal k′ existe porque hemos supuesto queT es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos porel teorema de Neyman Person que S′ es uniformemente de maxima potencia para la prueba 6.1.Entonces βS′(θ) ≤ βS(θ) ∀θ ≥ θ0. En particular βS′(θ) ≤ βS(θ). Como αS(θ0) ≤ α = αR(θ0) olo que es lo mismo Pθ0(T (x) ≥ k′) ≤ Pθ0(T (x ≥ k) obtenemos que k ≤ k′, pero esto contradice
βS′(θ) ≤ βS(θ) ya que esto es equivalente a que Pθ(T (x) ≥ k′c) < Pθ(T (x) ≥ kc) ya que estoimplica k ≥ k′.
6.3. Metodo de la razon de verosimilitud para RC:
Consideremos X1, . . . , Xn M.A.S. de X v FX(x|θ) con θ ∈ (H) ⊂ Rk y la prueba
H0 : θ ∈ A ⊂ (H)
H1 : θ /∈ A
Planteamos una RC de la forma
R =
x ∈ Rn :
supθ∈A L(x|θ)supθ∈H L(x|θ)
≤ k.
Observemos que para hipotesis simples H0 : θ = θ0 y H1 : θ = θ1 se obtiene
supθ∈A
L(x|θ) = L(x|θ0) =
n∏i=1
f(xi|θ0)
y
supθ∈(H)
L(x|θ) =
L(x|θ0) =
n∏i=1
f(xi|θ0) de donde R = ∅
L(x|θ1) =
n∏i=1
f(xi|θ1)
Entonces, la RC de de la razon de verosimilitud quedax ∈ Rn :
n∏i=1
f(xi|θ0)
f(xi|θ1)≤ k
que es la R.C .O. del teorema de Neyman Pearson.
45
Capıtulo 6. Pruebas de hipotesis
Ejemplo 6.29. Sea X1, . . . , Xn M.A.S. de X v N(µ, 1) y la prueba
H0 : µ = µ0
H1 : µ 6= µ0
Hallaremos la RC de la razon de verosimilitud. Tenemos que
supµ∈R
L(x|µ) = L(x|x)
y
L(x|µ) =
(1√2π
)nexp
−1
2
n∑i=1
x2i −
n
2µ2
expnµx
entonces
L(x|θ0)
L(x|x)=e−
nµ202 +nµ0x
e−nx2
2 +nx2= e−
nµ202 +nµ0x−nx
2
2 = e−n2 (µ0−x)2
si planteamos la region crıtica
L(x|θ0)
L(x|x)≤ k ⇔ −n
2(x− µ0)2 ≤ L(k) = k′ ⇔ |x− µ0| ≥ k′′
por lo tanto la region crıtica es de la forma
RC = x ∈ Rn : |x− µ0| ≥ k
Proposicion 6.30. Consideremos la prueba
H0 : θ ∈ A ⊂ (H)
H1 : θ /∈ A
α(x) =supθ∈A L(x|θ)
supθ∈(H) L(x|θ)=
supθ∈A g(T (x), θ)h(x)
supθ∈(H) g(T (x), θ)h(x)=
supθ∈A g(T (x), θ)
supθ∈(H) g(T (x, θ))= β(T (x))
6.4. Pruebas de Bondad de ajuste
Se tiene una M.A.S. X1, . . . , Xn de X v FX desconocida. Dada F0 una distribucion, (conocidao no) se quiere tomar una decision acerca de si X distribuye como F0 o no, es decir,
H0 : FX = F0
H1 : FX 6= F0
6.4.1. Test de χ2:
Consideremos la prueba
H0 : FX = F0
H1 : FX 6= F0
Dado k ∈ N elijo I1, . . . , Ik intervalos en R tal que Ii = (ai−1, ai], I1 = (−∞, a1] y Ik = (ak,+∞]tal que Ii ∩ Ij = ∅ si i 6= j, y ∪ki=1Ii = R. Si H0 es cierto P (X ∈ Ij) = F0(aj)− F0(aj−1) = F0(Ij),
dadaX1, . . . , Xn M.A.S. deX definimos F ∗n la distribucion emprica, sabemos que F ∗n(Ij)c.s.−→ FX(Ij).
Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en el
intervalo Ij := Ej = nF0(Ij), consideremos T =∑ki=1(bj −Ej)2. Es razonable entonces construir la
RC = T ≥ k.Si definimos Tn =
∑(bj−Ej)2Ej
, siendo bj la cantidad de observaciones Xi que cayeron en el intervalo
Ij , bajo la hipotesis H0, se prueba que Tnd−→ χ2
k−1. Luego si α = PH0(Tn ≥ k), se aproxima con la
distribucion de una χ2k−1 y se halla un k aproximado.
46
Capıtulo 6. Pruebas de hipotesis
6.4.2. Test de Kolmogorov-Smirnov
Consideremos
H0 : FX = F0 completamente conocida
H1 : FX 6= F0
tomemos RC = supx∈R |F ∗n(x)− F0(x)| ≥ k, por Gilvenco−Cantelli F ∗n converge uniformementea F0(x). Para conocer la distribucion de supx∈R |F ∗n(x)− F0(x)| tenemos el siguiente teorema.
Teorema 6.31. Kolmogorov: Si Dn = supx∈R |F ∗n(x)− F0(x)| entonces, si F0 es continua
lımn→+∞
P(√nDn ≤ z
)= 1− 2
∞∑n=1
(−1)n−1e−2n2z2
Definicion 6.32. Dada una prueba de hipotesis
H0 : θ ∈ AH1 : θ /∈ A
cuya region crıtica sea RC = T ≥ k con T = T (X1, . . . , Xn) estimador de θ, el p− valor es
supθ∈A
P(T (X) ≥ T (x)
)Ejemplo 6.33. Sea X1, . . . , Xn M.A.S. de X v N(µ, 1), consideremos la prueba
H0 : µ = µ0 = 0
H1 : µ 6= µ0 = 0
Sabemos que RC = |xn| ≥ k entonces T (X1, . . . , Xn) = |Xn| el p− valor es
PH0(|Xn| ≥ |x|) = 1 − PH0
(|Xn| ≤ |x|) = 1 − Φ(√n|x|) + Φ(−
√n|x|) = 2
(1 − Φ(
√n|x|)
)Proposicion 6.34. Si los supremos se realizan en un mismo θ0 ∈ A, α < p− valor ⇔ no rechazoH0 al nivel α.
Demostracion. Si α < p− valor entonces hallamos k tal que α = supθ∈A P ((T (X ≥ k)
),
α = supθ∈A
P(T (X) ≥ k
)< supθ∈A
P(T (X) ≥ T (x)
)α = Pθ0
(T (X) ≥ k
)< Pθ0
(T (X) ≥ T (x)
)de donde T (x) < k por lo tanto x /∈ RC y no rechado H0. El razonamiento es analogo si α >p− valor.
Observacion 6.35. La propiedad se cumple si H0 es simple (θ = θ0), o en el caso de concientesde verosimilitud monotonos.
6.5. Analisis de Varianza, (ANOVA)
Supongamos que tenemos Yij observaciones, con i = 1, . . . , k y j = 1, . . . , nj y que Yij vN(θi, σ
2) para todo i, j. Queremos testear si los θi son todos iguales o no. El supuesto de que σ2
es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Paracada i ∈ 1, . . . , k definimos
Yi =1
ni
n∑j=1
Yij ,
47
Capıtulo 6. Pruebas de hipotesis
y
S2i =
1
ni − 1
ni∑j=1
(Yij − Yij)2.
Sabemos que
Yi v N(θi, σ2/ni)
(ni − 1)
σ2S2i v χ2
ni−1
Observacion 6.36. Si A = a = (a1, . . . , ak) ∈ Rk :∑ai = 0 entonces
θ1 = · · · = θk ⇔ ∀a ∈ A,∑
aiθi = 0
Demostracion. El directo es inmediato, veamos el recıproco, tomemos a1 = 1, a2 = −1, a3 = · · · =ak = 0 entonces θ1 − θ2 = 0 y as sucesivamente θ1 = · · · = θk.
Observacion 6.37. Si defino S2p = 1
N−k∑ki=1(ni − 1)Ski con N =
∑ni. entonces
N − kσ2
S2p =
k∑i=1
(ni − 1)
σ2S2i v χ2
N−k.
Ademsk∑i=1
aiYi v N
(k∑i=1
aiθi,
∑ki=1 a
2iσ
2
ni
).
Se puede demostrar que S2p y
∑aiYi son independientes, luego, si recordamos que si X v N(0, 1)
es independiente de χ2n entonces
X√χ2n/n
v tn
obtenemos quek∑i=1
aiYi −k∑i=1
aiθi
σ√∑k
i=1 a2i /ni√
(N−K)σ2 S2
p/(N − k)=
k∑i=1
ai(Yi − θi)
Sp
√∑ki=1 a
2i /ni
v tN−k
Supongamos que a ∈ A fijo, y α ∈ (0, 1) tenemos
H0 :∑
aiθi = 0
H1 : no H0
Consideremos la region crıtica,
RC =
|∑aiYi|
Sp√∑
ai/ni> m
,
α = PH0(RC) = PH0
(|∑aiYi|
Sp√∑
ai/ni> k
),
como estamos bajo H0 si utilizamos la observacion anterior
α = 1− P (−m < T < m), con T v tN−k,
y por lo tanto 1− α/2 = F (m), k = t1−α/2(N − k).
48
Capıtulo 6. Pruebas de hipotesis
Nos planteamos ahora la siguiente prueba
H0 : θ1 = · · · = θk
H1 : noH0
y esto es si y solo si
H0 :∑
aiθi = 0 ∀a ∈ A
H1 : noH0
Tomo el estadıstico Ta =
∑aiYi
Sp√∑
a2i /ni
, resulta natural plantear la region crıticaRC =
supa∈A
T 2a > k
.
Debemos entonces hallar la distribucion de supa∈A Ta bajo la hipotesis H0 cierto. Llamemos Ci = Yi
y Ci =∑niCiN .
supa∈A
T 2a =
1
Spsupa∈A
(∑aiCi
)2∑ai/ni
= supa∈A
(∑ ai√ni
(Ci − C)√ni)2∑
ai/ni,
donde hemos usado que∑aiC = 0, si aplicamos la desigualdad de Cauchy-Schwartz
supa∈A
(∑ ai√ni
(Ci − C)√ni)2∑
ai/ni≤ supa∈A
∑a2i /ni
∑ni(Ci − C)2∑ai/ni
=∑
ni(Ci − C)2.
Obtuvimos una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni(Ci−C) es claroque
∑ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz
se da en ese caso).
supa∈A
T 2a =
∑ki=1 ni(Yi − Y )2
S2p
donde Y =
∑ki=1 niYiN
,
recordemos queχ2n/n
χ2m/m
v F (n,m),
se puede demostrar que
k∑i=1
ni(Yi − Y )2 v χ2k−1 y por lo tanto
supa∈A
σ2χ2k−1
σ2χ2N−k/(N − k)
> cte ⇔χ2k−1/(k − 1)
χ2N−k/(N − k)
v F (k − 1, N − k) ≥ cte/(k − 1).
Planteamos
α = PH0(RC) = 1− PH0
(F (k − 1, N − k) ≤ cte
k − 1
)entonces cte = F1−α(k − 1, N − k)(k − 1).
Finalmente, obtuvimos la region crıtica
RC =
1
Sp
k∑i=1
ni(Yi − Yi)2 ≥ F1−α(k − 1, N − k)(k − 1)
.
49
Capıtulo 7
Modelos Lineales
7.1. Variable Normal Multivariada
Definicion 7.1. Dado un vector aleatorio (X1, . . . , Xn) recordemos que el vector de medias µ =(µ1, . . . , µn) := (E(X1), . . . , E(Xn)), y la matriz de covarianzas es
Σn×n =
V ar(X1) cov(X1X2) . . . cov(X1Xn)cov(X2X1) V ar(X2)
......
. . .
cov(XnX1) . . . V ar(Xn)
Anotamos µ = E(X) y V ar(X) = σn×n.
Observacion 7.2. Veamos algunas propiedades
1) Si A ∈Mk×n es constante entonces E(AX) = AE(X).
2) V ar(AX) = AΣn×nAt.
3) Si X ∈ Rn es un vector aleatorio A es una matriz k×n y b un vector k×1 constante entonces
E(AX + b) = AE(X) + b y V ar(AX + b) = AΣXAt.
4) Si X es un vector aleatorio en Rn, σX es semidefinida positiva.
Demostracion.
2) Es inmediato a partir de observar que V ar(X) = E((X − E(X))(X − E(X))t
).
4) Tenemos que ver que para todo λ = (λ1, . . . , λn) ∈ Rn entonces λΣλt ≥ 0, y esto se sigue deque λΣλt = V ar(
∑λiXi).
Definicion 7.3. Normal tıpica en Rn: Decimos que el vector U = (U1, . . . , Un) tiene distribucionnormal tıpica en Rn si las Ui v N(0, 1) y son independientes.
Observacion 7.4. La densidad conjunta de U es
fU (x) =e−
12‖x‖
2
(2π)n2.
50
Capıtulo 7. Modelos Lineales
Definicion 7.5. Normal multivariada Decimos que X tiene distribucion normal multivariada siexiste una matriz n× k C y un vector µ n× 1 tal que X = CU + µ.
Observacion 7.6. Observemos que si X tiene distribucion normal multivariada entonces E(X) = µy ΣX = CCt
Proposicion 7.7. Veamos algunas propiedades de la normal multivariada
1) Si Cn×n es invertible, X es absolutamente coninua y
fX(x) =e−
12 (x−µ)tΣ−1(x−µ)
(2π)n/2|det Σ|1/2Σ = CCt.
Demostracion. X = CU + µ = g(U), g : Rn −→ Rn es invertible ya que C lo es.
fX(x) = fg(U)(x) = fU ((g−1(x))1
|det Jg(g−1(x))|= fU (C−1(x− µ))
1
|detC|
=e−
12 (x−µ)(C−1)tC−1(x−µ)
(2π)n/2|det Σ|1/2
2) La distribucion normal tpica es invariante bajo tranformaciones ortogonales. De hecho es lanica distribucion que depende solamente de la norma, y que es invariante bajo transformacionesortogonales (a menos de multiplicarla por constantes). Que es invariante bajo transformacionesortogonales se sigue de la definicion y de la propiedad anterior.
3) Si X es normal multivariada, entonces AX + b tambien lo es, con Am×n y bm×1 constantes.
4) Si X = CU + µ y C es sobreyectiva entonces X es absolutamente continua.
Definicion 7.8. Normal multivariada degenerada: Si X = CU + µ con U normal tpica,decimos que es degenerada si C no es sobreyectiva
Observacion 7.9. Si X es degenerada entonces no es absolutamente conitnua.
Demostracion. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobresi y solo si det(CCt) = det(Σ) = 0, si det(Σ) = 0 entonces tΣtt = V ar(tX) = 0 entonces tX es c.s.constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX(x1, . . . , xn), alintegrarla en S obtendramos que debera dar 1 porque X esta contenida ahi, pero 0 porque S tienemedida nula, absurdo.
Observacion 7.10. Si X v N(µ,Σ) cualquier subvector de X tambien es normal multivariado.Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar Aadecuadamente.
Observacion 7.11. Si (X1, . . . , Xk, Y1, . . . , Yk) v N(µ,Σ) entonces si cov(Xi, Yj) = 0 ∀i, jenontces (X1, . . . , Xk) y (Y1, . . . , Yk) son independientes.
Demostracion. Si Σ es invertible, entonces
Σ−1 =
(Σ−1X 00 Σ−1
Y
)
y es facil ver que fX,Y (x) = gX(x)gY (y).Si Σ no es invertible, y ΣY si, entonces (X1, . . . , Xk) ∈ S, variedad lineal de dimension α − k,supongamos que S esta generado por X1, . . . , Xα entonces(X1, . . . , Xα, Y1, . . . , Ym) est en las hipotesis anteriores y por lo tanto son independientes, de donde(X1, . . . , Xk, Y1, . . . , Ym) lo son. El caso en que ΣY tampoco es invertible es anlogo.
51
Capıtulo 7. Modelos Lineales
7.2. Modelos Lineales
Se desea estimar Y = g(X1, . . . , Xk), se observan medidas de las variables X1, . . . , Xk y se deseaestimar g. A las variables Xi se las denomina explicativas y a la Y explicada. Se plantea entoncesg(x) = g(x, θ) = θ1X1 + · · · + θkXk, θ = (θ1, . . . , θk). Para estimar g estimamos θ. Se planteaentonces Y1
...Yn
=
X11 X12 . . . X1k
......
. . .
Xn1 Xn2 . . . Xnk
θ1
...θk
Se observan n muestras de Y ,
X =
X11 X12 . . . X1k
......
. . .
Xn1 Xn2 . . . Xnk
,
es la matriz de diseno (constante y conocida).
En el modelo lineal planteamos Y = Xθ + e donde, X es una matriz de diseno, y
Y =
Y1
...Yn
θ =
θ1
...θk
e =
e1
...en
,
e aleatorio (vector de errores).
Ejemplo 7.12. Analisis de varianza: Yij = θi+ eij , en este caso la matriz X es un vector n×1con entradas todas iguales a 1.
Ejemplo 7.13. Modelo lineal simple: Y = α + βX + e, tomamos (Y1, X1), . . . , (Yn, Xn) yθ = (α, β), y como matriz de diseno la matriz
X =
1 X1
1 X2
...1 Xn
,
lo que se busca es entonces ajustar una recta a los datos.
Ejemplo 7.14. Ajuste de un polinomio de grado k: De forma analoga al ejemplo anterior, siY = α+ β1x+ β2x
2 + · · ·+ βkxk + e, planteamos la matriz de diseno
X =
1 X1 X21 . . . Xk
1...
...1 Xn X2
n . . . Xkn
.
Observacion 7.15. Observemos que, en vistas del ejemplo anterior, la funcion y = g(x1, . . . , xn, θ)es lineal en θ pero no en x = (x1, . . . , xn), podra ser x3 = cos(x1) etc.
7.3. Hipotesis del modelo
1) Rango(g(X)) = k.
2) Los errores tienen media 0, E(ei) = 0 para todo i.
52
Capıtulo 7. Modelos Lineales
3) Homocedasticidad: V ar(ei) = σ2 para todo i.
3’) cov(ei, ej) = 0 para todo i 6= j.
4) el vector e de errores tiene distribucion N(0, σ2I) en este caso se cumplen 2), 3) y 3′)
Para estimar θ ∈ Rk se utiliza el metodo de los mınimos cuadrados, consiste en hallar θ ∈ Rkdonde se realize
mınθ∈Rk
‖Y −Xθ‖.
Teorema 7.16. Bajo la hipotesis 1 se cumple que (XtX)−1XtY es el estimador por mınimoscuadrados de θ.
Demostracion. Sea θ el valor donde se obtiene el mınimo, es decir
‖Y −Xθ‖2 ≤ ‖Y −Xθ‖2 ∀θ ∈ Rk,
si consideramos la multiplicacion por X como una transformacion lineal de Rk en Rn entonces Xθes la proyeccion de Y sobre la imagen de X, entonces Y − Xθ⊥Xθ para todo θ ∈ Rk, esto es0 = (Xθ)t(Y −Xθ), o lo que es lo mismo
θtXtY = θtXtXθ ∀θ ∈ Rk,
luego las transformaciones lineales XtY y XtXθ son iguales, de donde θ = (XtX)−1XtY .
Teorema 7.17.
a) Bajo las hipotesis 1) y 2), θ es insesgado.
b) Bajo las hipotesis 1), 2) y 3), Σθ = σ2(XtX)−1.
Demostracion.
a) E(θ) = (XtX)−1XtE(Y ) = (XtX)−1XtXθ = θ.
b) Σθ = Σ(XtX)−1Xte+θ = (XtX)−1Xt(σ2Id)X(XtX)−1, donde usamos que ΣAX+C = AσXAt,
finalmente se obtiene, Σθ = σ2(XtX)−1, ya que transponer e invertir conmutan.
Teorema 7.18. Bajo las hipotesis 1) a 4) el E.M.V. de θ coincide con el de mınimos cuadrados y
adems el E.M.V. de σ es 1n‖Y −Xθ‖.
.
Teorema 7.19. Bajo las hiptesis 1) a 4) θ es insesgado de mnima varianza, uniformemente.
Demostracion. Veamos que es suficiente:
L(y1, . . . , yn|θ, σ2) = (2πσ2)−n/2 exp
− 1
2σ2‖Y −Xθ‖2
exp
− 1
2σ2‖Xθ −Xθ‖2
= h(y)g(θ, θ)
donde hemos usado que Y −Xθ es perpendicular a Xθ −Xθ. Es facil ver que es completo y por lotanto minimiza el riesgo uniformemente entre los insesgados, considerando como funcion de riesgo‖‖2.
Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribu-
cion Noramal), entonces θ es uniformemente de mınima varianza entre los estimadores lineales einsesgados, (es decir los ˜= CY ).
Teorema 7.21. Bajo los supuestos 1) a 4):
53
Capıtulo 7. Modelos Lineales
a)nσ2
σ2=‖Y −Xθ‖2
σ2v χ2
(n−k)
b) s2 =nσ2
n− k=‖Y −Xθ‖n− k
es insesgado (de donde σ2 es asintoticamente insesgado).
c)‖X(θ − θ)‖2
ks2v F (k, n− k)
d)λ1(θ1 − θ1) + λ(θ2 − θ2) + · · ·+ λn(θn − θn)
s√λt(XtX)−1λ
v tn−k ∀λ ∈ Rn
Demostracion. a) Sea H = v1, . . . , vn base ortonormal de Rn tal que v1, . . . , vk es baseortonormal de S = Im(X), tenemos entonces que existen Z1, . . . , Zn variables aleatorias talque Y =
∑ni=1 Zivi. Si B es la matriz de cambio de base de la base H a la base cannica, B es
ortogonal yY = BZ de donde Z = B−1Y = BtY v N(BtXθ,Btσ2IdB) y por lo tanto Z es normal multi-
variado y ΣZ = σ2Id, adems Zi son variables aleatorias independientes con distribucion N(γ1, σ2).
‖Y −Xθ‖2 =
∥∥∥∥∥∥n∑i=1
Zivi −k∑j=1
Zjvj
∥∥∥∥∥∥2
=
∥∥∥∥∥n∑k=1
Zivi
∥∥∥∥∥2
=
n∑i=k+1
Z2i ,
‖Y −Xθ‖2
σ2=
n∑i=k+1
(Ziσ
)2
Ziσ2
v N(γi, 1),
bastarıa entones demostrar que todos los γi para i = k + 1 son 0. Observemos que E(Y ) = Xθ ∈ Sy E(Y ) =
∑ni=1 γivi.
b) E(s2) =1
n− kE(‖Y −Xθ‖) =
σ2
n− kE
(‖Y −Xθ‖
σ2
)= σ2
c) ‖Xθ −Xθ‖2 =
∥∥∥∥∥k∑i=1
Zivi −k∑i=1
γivi
∥∥∥∥∥2
=
k∑i=1
(Zi − γi)2. entonces
‖XθX − θ‖ks2
=
∑(Zi−γiσ
)2
kσ2
1n−k‖Y −Xθ‖
vχ2k/k
χ2n−k/(n− k)
v F (k, n− k).
d) λ1(θ1 − θ1) + · · · + λn(θn − θn) = λt(θ − θ), como θ v N(θ, σ2(XtX)−1), entonces λt(θ − θ) vN(0, λtσ2(XtX)−1λ),
λt(θ − θ)s√λt(XtX)−1λ
=
λt(θ−θ)σ√λ(XtX)−1λ
sσ
,
por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que
‖Y −Xθ‖2 depende de Zk+1, . . . , Zn y Xθ de Zk+1, . . . , Zk.
54
Capıtulo 7. Modelos Lineales
7.4. Aplicacion:
Construccon de intervalos de confianza para λtθ. Consideremos
I =[λtθ − ks, λtθ + ks
],
1− α = P (λtθ ∈ I) = P
(∣∣∣∣∣λt(θ − θ)s
∣∣∣∣∣ ≤ k)
= P
(∣∣∣∣∣ λt(θ − θ)s√λt(XtX)−1λ
∣∣∣∣∣ ≤ k√λt(XtX)−1λ
),
de donde, por la parte d) k = t1−α/2(n− k)√λt(XtX)−1λ.
Observemos que en particular tomando λ = (1, . . . , 0) obtenemos un intervalo de confianza para θ1.
55
Capıtulo 8
Test de Aleatoriedad
8.1. Introduccion
En este capıtulo veremos algunos test que permiten chequear cuando una muestra X1, . . . , Xn avalores en R cumple las hipotesis de ser independiente e identicamente distribuida, como no haremossuposiciones respecto de la distribucion de las Xi veremos metodos muy basicos que lo que midenes la forma en que las variables estan ordenadas.
8.2. Test de Rachas para muestras de 2 tipos
En esta seccion vamos a suponer que tenemos n1 objetos de un cierto tipo, y n2 de otro, yestamos interesados en la forma en que estos objetos se distribuyen. Podemos pensar que estamosobservando el genero de las personas que forman una cola de espera. Una posible observacion serıaM,F,M,F,M,F,M,F,M,F , en este caso es evidente que el orden de llegada de los generos noes aleatorio, lo mismo pasa si observamos M,M,M,M,M,M,F, F, F, F, F, F . Dada una secuenciade objetos de dos tipos, una racha es una sucesion de objetos de un tipo, seguida y precedida porobjetos del otro tipo, o por ningun objeto, por ejemplo en F,M,F tenemos 2 rachas de objetos detipo F y 1 de objetos de tipo M , en F, F, F tenemos una sola racha. Intuitivamente, si observamosmuchas rachas o muy pocas estamos ante un caso en el que los objetos no se distribuyen de formaindependiente. Para ser mas rigurosos podemos pensar que tenemos X1, . . . , Xn variables que tomanvalores 0 o 1, y estamos testeando si son i.i.d., condicionado a que
∑Xi = n1.
8.2.1. Test basados en el numero total de rachas
Supongamos que tenemos n objetos, n1 de un tipo y n2 de otro, (n1 + n2 = n), anotaremosr1 al numero de rachas de tipo 1, y r2 al numero de rachas de tipo 2. El numero total de rachases r = r1 + r2, veremos un test basado en la variable aleatoria R que nos da el numero total derachas, vamos a calcular la distribucion de R, para el caso en que se cumple la hipotesis de ser i.i.d..Bajo dicha hipotesis, cualquier ordenacion de los n objetos tiene la misma probabilidad, veamos conun ejemplo sencillo como calcular la distribucion de R, supongamos que tenemos los objetos ∗, ∗ y+,+, las posibles reordenaciones son + + ∗∗, ∗+ ∗+, ∗ ∗++, + ∗+∗, + ∗ ∗+ y ∗+ +∗, y el numerototal de rachas es 2,4,2,4,3,3 respectivamente, por lo tanto la probabilidad de obtener por ejemplo 2rachas es 2/6 = 1/3. Para el caso general, el numero total de posibles reordenaciones es n!/(n1!n2!),por lo tanto para calcular por ejemplo la probabilidad de tener r1 rachas de tipo 1, y r2 de tipo 2,tenemos que contar la cantidad de formas de intercalar los n objetos, que dan como resultado r1
rachas de tipo 1, y r2 de tipo 2. Observemos que si tenemos n1 objetos de tipo 1 y queremos contarla cantidad de ordenaciones que se pueden formar con dichos objetos de modo de generar r1 rachas,
56
Capıtulo 8. Test de Aleatoriedad
y con la hipotesis adicional de que siempre se comience con un objeto de tipo 1, es(n1 − 1
r1 − 1
)para visualizar esto basta observar que tenemos n1 − 1 lugares donde poner divisiones de los n1
objetos y que tomando r1 − 1 de dichas divisiones genero r1 rachas, por ejemplo si tenemos
∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
y queremos tener 5 rachas, y que se comience con un ∗ algunas posibilidades de separacion son
∗ ∗ | ∗ ∗| ∗ | ∗ ∗ ∗ ∗| ∗ ∗| ∗ ∗ ∗ ∗ ∗ | ∗ | ∗ | ∗ ∗ ∗ | ∗ | ∗ | ∗ | ∗ ∗ ∗ ∗ ∗ ∗,
si ademas queremos tener r2 rachas de tipo 2, tenemos que colocar en los | los objetos de tipo 2,esto nos da otras
(n2−1r2−1
), de forma analoga si comenzamos con objetos de tipo 2. Observemos que
como los bloques de objetos de tipo 1 y 2 se alternan solo tenemos 3 casos, o bien r1 = r2 + 1 comoen el ejemplo anterior, o r1 = r2−1, o r1 = r2. Observemos que si r1 = r2 + 1 la secuencia tiene queempezar necesariamente con un objeto de tipo 1, si r2 = r1 + 1 tiene que empezar necesariamentecon objetos de tipo 2, mientras que si r1 = r2 puede empezar o bien con objetos de tipo 1, o 2,(observar en el ejemplo de ∗∗ y ++). Finalmente hemos demostrado el siguiente teorema.
Teorema 8.1. Sean R1 el numero de rachas de objetos de tipo 1, y R2 el numero de rachas de tipo2, en una muestra aleatoria de n = n1 + n2 objetos, la distribucion conjunta de R1 y R2 es
fR1,R2(r1, r2) =
c(n1−1r1−1
)(n2−1r2−1
)(n1+n2
n1
)para r1 = 1, . . . , n1 r2 = 1, . . . , n2 donde c = 2 si r1 = r2 y c = 1 si r1 = r2 ± 1.
Corolario 8.2. La distribucion marginal de probabilidades de R1 es
fR1(r1) =
(n1−1r1−1
)(n2−1r1
)(n1+n2
n1
)donde r1 = 1, . . . , n1.
Demostracion. Del teorema anterior, solo tenemos que calcular los tres sumandos:
fR1(r1) =
∑r1
fR1,R2(r1, r2),
(n1 + n2
n1
)fR1
(r1) = 2
(n1 − 1
r1 − 1
)(n2 − 1
r1 − 1
)+
(n1 − 1
r1 − 1
)(n2 − 1
r1 − 2
)+
(n1 − 1
r1 − 1
)(n2 − 1
r1
)=
(n1 − 1
r1 − 1
)[(n2 − 1
r1 − 1
)+
(n2 − 1
r1 − 2
)+
(n2 − 1
r1 − 1
)+
(n2 − 1
r1
)]=
(n1 − 1
r1 − 1
)[(n2
r1 − 1
)+
(n2
r1
)]=
(n1 − 1
r1 − 1
)(n2 + 1
r1
)
Teorema 8.3. La distribucion de R, el numero total de rachas de n = n1 + n2 objetos, n1 de tipo1 y n2 de tipo 2, en una muestra aleatoria es
fR(r) =
2(n1−1
r/2−1)(n2−1
r/2−1)(n1+n2
n1)
si r es par
( n1−1
(r−1)/2)(n2−1
(r−3)/2)+( n1−1
(r−3)/2)(n2−1
(r−1)/2)(n1+n2
n1)
si r es impar
57
Capıtulo 8. Test de Aleatoriedad
Momentos de R
Veamos ahora como aplicar los resultados anteriores para calcular los momentos de R bajo lahipotesis de que las observaciones son i.i.d.
E(Rk) =∑r
rkfR(r)
=
∑r par 2rk
(n1−1r/2−1
)(n2−1r/2−1
)(n1+n2
n1
) +
∑r impar r
k[(
n1−1(r−1)/2
)(n2−1
(r−3)/2
)+(n1−1
(r−3)/2
)(n2−1
(r−1)/2
)](n1+n2
n1
)El valor mas pequeno para r es siempre 2. Si n1 = n2 el valor mas grande para r es 2n1, si
n1 < n2 el maximo valor para r es 2n1 + 1. Si asumimos sin perdida de generalidad que n1 ≤ n2, elrango de r es 2 ≤ r ≤ 2n1 + 1. Si tomamos r = 2i para r par (y r = 2i + 1 para r impar) i varıaentre 1 ≤ i ≤ n1, por ejemplo para la media de R podemos escribir las sumatorias anteriores como(
n1 + n2
n1
)E(R) =
n1∑i=1
4i
(n1 − 1
i− 1
)(n2 − 1
i− 1
)+
n1∑i=1
(2i+ 1)
(n1 − 1
i
)(n2 − 1
i− 1
)
+
n1∑i=1
(2i+ 1)
(n1 − 1
i− 1
)(n2 − 1
i
)Para calcular estas sumatorias son utiles los siguientes lemas:
Lema 8.4.c∑r=0
(m
r
)(n
r
)=
(m+ n
m
)con c = mınm,n
Lema 8.5.c∑r=0
(m
r
)(n
r + 1
)=
(m+ n
m+ 1
)con c = mınm,n− 1
Una forma mas simple de calcular el valor esperado y la varianza de R es observar que sin = n1 + n2, entonces
R = 1 + I2 + I3 + · · ·+ In
donde,
Ik =
1 si el k − esimo elemento es distnto del k − 10 en caso contrario
Observemos que Ik es una variable aleatoria con distribucion Bernoulli de parametro p =2n1n2(n− 2)!/n! = n1n2/
(n2
), por lo tanto
E(Ik) = E(I2k) =
2n1n2
n(n− 1),
de donde
E(R) = 1 +2n1n2
n1 + n2.
De forma analoga se puede demostrar que
V ar(R) =2n1n2(2n1n2 − n)
n2(n− 1).
58
Capıtulo 8. Test de Aleatoriedad
Distribucion asintotica
Para el caso en que n es muy grande, las cuentas para la distribucion de R se vuelven muyengorrosas, para el caso en que la hipotesis nula es cierta, se puede usar la siguiente aproximacion:Si suponemos que λ = n1/n y 1− λ = n2/n se mantienen constantes, se puede demostrar que
Zn =R− 2nλ(1− λ)
2√nλ(1− λ)
,
tiende en distribucion a una N(0, 1), en virtud de eso, rechazamos la hipotesis nula si∣∣∣∣R− 2nλ(1− λ)
2√nλ(1− λ)
∣∣∣∣ ≥ zα/2.8.3. Test de Rachas de subidas y bajadas
Supongamos que tenemos variables aleatorias X1, X2, . . . , Xn y queremos chequear si son i.i.d,para eso definimos las variables Y1, . . . , Yn−1 de la siguiente forma
Yi = IXi<Xi+1.
Lo que haremos es estudiar el numero de rachas totales de Y1, . . . , Yn−1 o lo que es lo mismo
R = 1 +
n−2∑i=1
IYi 6=Yi+1.
Si n es chico, al igual que antes, la distribucion de R esta tabulada, y rechazamos la hipotesis de seri.i.d., a nivel α, si el valor observado R cumple que |R| > Rα/2, para valores grandes de n se cumpleque
Zn =R− (2n− 1)/3√
16n−2990
converge en distribucion a una variable con distribucion normal con media 0 y varianza 1.
8.4. Test de Spearman
Consideremos una variable aleatoria X y una muestra X1, . . . , Xn de ella, a partir de la cual sepuede construir el estadıstico ordenado X(1), . . . , X(n), y el estadıstico de rangos R1, . . . , Rn donde
Ri =
n∑j=1
IXj≤Xi.
Para visualizar lo que estamos haciendo, consideremos X1;X2;X3;X4 = 1,3; 7,4; 6,2; 2,3, en estecaso la muestra ordenada es 1,3; 2,3; 6,2; 7,4, y el el estadistico de rancos es 1; 4; 3; 2. Llamemos ρsal coeficiente de correlacion entre el vector P = (1, 2, . . . , n) y el vector formado por los rangos,R = (R1, . . . , Rn). ρs se denomina coeficiente de correlacion de rangos de Spearman. Teniendo encuenta que la media y varianza de P estan fijas y valen (n + 1)/2 y (n2 − 1)/12 y que ademascoinciden con la media y varianza de los rangos (n+ 1)/2 y (n2− 1)/12 y que ademas coinciden conla media y varianza de los rangos, ya que el vector R es una permutacion de P . Por lo tanto
ρs =
∑ni=1 iRin −
(n+1
2
)2n2−1
12
= 1− 6D
n(n2 − 1),
con D =∑ni=1(Ri − i)2. Bajo la hipotesis de que la muestra es aleatoria simple, lo valores de X
podrıan estar ordenados de cualquier forma posible, con la misma probabilidad, es decir, todas las
59
Capıtulo 8. Test de Aleatoriedad
permutacioens de los valores de X serıan igualmenten probables, en consecuencia la variable R tomacualquier valor entre 1 y n con la misma probabildad, con este dato, se puede calcular la distribucionde ρs bajo la hipotesis nula. De esta forma se obtiene que:
ρs es una variable discreta que tiene una distribucion simetrica entre −1 y 1.
E(ρs)=0.
V ar(ρs) = 1/(n− 1).
Definimos la region crıtica RC = (X1, . . . , Xn)/|ρs| > c. Para valores de n menores que 20existen tablas con la distribucion de ρs, para muestras de tamano grande se cumple que
√n− 1ρs
converge en distribucion a una variable N(0, 1).
60
Bibliografıa
[1] Lehmann, E.L, Casella, G. Theory of Point Estimation. Springer.
[2] Borokov, A.A. (1988). Estadıstica Matematica, Editorial Mir, Moscuu.
[3] Pena, Daniel. (2001). Fundamentos de estadıstica. Alianza.
61
Indice alfabetico
Convergenciacasi segura, 8en distribucion, 8en probabilidad, 8
Desigualdad de Jensen, 6Distribucion
F de Fisher, 16de los percentiles, 16Gamma, 11Ji cuadrado χ2, 12T-Student, 13
Distribucion condicional, 6
Esperanza condicional, 5
Ley fuerte de los grandes numero, 9
Muestra aleatoria simple (M.A.S.), 11
Teoremacentral del lımite, 9
62
Top Related