Sea un estadístico ( función de la muestra ) que utilizamos para estimar el valor de .
Observa que el estadístico:
es una función que depende de la muestra y lo llamaremos estimador. El valor concreto de es la estimación.
Hay dos tipos básicos de estimación: puntual y por intervalo de confianza.
Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra.
Estimación
),...,,(ˆ21 nXXXT
-Estimación puntual
Provee un solo valor, un valor concreto para la estimación.
Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).
Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor puede ser empleado como un estimador para el valor de la media poblacional.
Algunos autores comparan los estimadores con los lanzamientos en una diana: el círculo central sería el valor real del parámetro.
Hablaremos de nivel de confianza 1-α cuando en el intervalo se encuentre el valor del estimador con probabilidad 1-α.
– Observa que la probabilidad de error (no contener al parámetro) es α.
– En general el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-α.
– En todo intervalo de confianza hay una noticia buena y otra mala:• La buena: hemos usado una técnica que en % alto de casos acierta.• La mala: no sabemos si ha acertado en nuestro caso.
-Por intervalo
Determina dos valores (límites de confianza) entre los que acepta puede estar el valor del estimador.
Métodos de estimación puntual
Método de los momentosMétodo de máxima verosimilitudMétodo de mínimos cuadrados(Lo veremos más adelante en el tema de regresión)
Hemos visto que un estimador de la media poblacional es la media muestral y de la varianza poblacional es la seudovarianza muestral. Pero, ¿cómo determinar un estimador cuando no se trata de la media o la varianza?Por ejemplo, supongamos una población con función densidad:
0,0)1(
)( 1
x
xxf
¿Cómo estimar el parámetro θ?
Método de los momentos
Si una distribución tiene k parámetros, el procedimiento consiste en calcular los primeros k momentos muestrales de la distribución y usarlos como estimadores de los correspondientes momentos poblacionales.
La media poblacional es el primer momento de la distribución alrededor del origen. La media muestral es el promedio aritmético de las observaciones muestrales x1, x2, ..., xn. El método de los momentos toma a la media muestral como una estimación de la media poblacional.
De la misma manera, la varianza de una variable aleatoria es 2 y se denomina segundo momento alrededor de la media. La varianza muestral s2 se usa como un estimador de la varianza poblacional de la distribución.
x
Recordemos que el momento muestral centrado en el origen de orden r se define como:
n
i
rir x
nm
1
1
Para el ejemplo anterior, los momentos de primer orden centrados en el origen de la población y la muestra son respectivamente:
n
iin
ii
xn
xn
m
dxx
x
1
11
11
11
1
11
)1(
1ˆ
1
n
iix
nLuego podemos usar como estimador:
Igualando:
Método de máxima verosimilitud
Sea X una variable aleatoria cuya distribución de probabilidad depende del parámetro desconocido .
Sea la función de densidad de probabilidad de la población f(x, ). Se toma una muestra aleatoria x1, x2, ..., xn de observaciones independientes y se calcula la densidad conjunta de la muestra: la función de verosimilitud y se expresa como:
n
iin
nn
xf, θ,...,xL(x
, θf(x... , θ f(x, θf(x, θ,...,xL(x
11
211
,)
))))
MV
L
Si de una población cualquiera hemos obtenido una muestra particular, es razonable pensar que la muestra obtenida era la que mayor probabilidad tenía de ser escogida.
Valor del estimador máxima verosimilitud
Funciónmáxima verosimilitud
Si los valores posibles de son discretos, el procedimiento es evaluar L(x,) para cada valor posible y elegir el valor de para el cual L alcanza su máximo.
Por otro lado, si L(x,) es diferenciable se puede maximizar L sobre el rango de valores posibles de obteniéndose condiciones de primer y segundo orden.
En la práctica es más fácil maximizar el logaritmo de la función de verosimilitud. Como la función logaritmo es una transformación monótona, maximizar L(x,) es equivalente a maximizar Ln(L(x,)).
Ejemplo: Sea una urna con bolas rojas y blancas en proporciones desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna.
!7!3!10
)1()1()( 73107,3
73 ppPRpppL
0!7!3!10
)103()1()( 62
pppppL
Soluciones: p = 0 p = 1 p = 3/10
Imposible porque hemos extraído 3R
Imposible porque hemos extraído 7B
Que además hace máxima la función L(p)
0)(
10/3
2
2
pp
pL
0,0)1(
)( 1
x
xxfVolvamos al ejemplo:
n
iin
n
in
ii
n
in
xLnnLn, θ,...,xL(xLn
xxf, θ,...,xL(x
11
1
1
11
1)1()
1,)
0ˆ
)
1
ˆ
01)
2ˆ
21
2
1
1
1
nθ
, θ,...,xL(xLn
xLn
n
xLnn
θ, θ,...,xL(xLn
n
n
ii
n
ii
n
Construimos la función máxima verosimilitud
Extraemos logaritmos a ambos lados
Derivamos e igualamos a cero para encontrar el máximo de la función
Observemos que no coincide con el estimador que nos propone el método de los momentos.
Propiedades deseables en los estimadores
1.Ausencia de sesgo
2.Consistencia
3.Eficiencia
4.Suficiencia
Los dos procedimientos que repasamos hace un momento (más el método de mínimos cuadrados que veremos luego) eligen a la media muestral como estimador del parámetro . Sin embargo, otras veces obtenemos estimadores distintos para el mismo parámetro, como ocurre con 2. O como hemos visto para el caso del parámetro del ejemplo.
En esos casos, ¿cuál es el mejor estimador?
1. Estimador insesgado. Diremos que es un estimador insesgado de si:
Vimos que la media muestral es un estimador insesgado de la media poblacional.
Vimos que la varianza muestral no es un estimador insesgado de la varianza poblacional, es sesgado.
Recuerda que construimos la cuasivarianza que sí es un estimador insesgado de la varianza poblacional.
nXXTEE ,...,ˆ1
ˆ)( Eb se llama sesgo de
Sea una población N(, ) y construyamos los estimadores de varianza: varianza muestral y cuasivarianza muestral.
n
jj xx
ns
1
22*2 )(
11
n
jj xx
ns
1
221 )(
1
Vimos que si la población es normal, entonces el estimador:
212 como distribuye se
)1( 2*
nsn
sesgo
nnn
En
nE
En
sEE n
222
2]
21
2
1]ˆ[
1]ˆ[
[1
][]ˆ[
21
2*2
Propiedades en muestras grandes
Muchos estimadores no tienen buenas propiedades para muestras pequeñas, pero cuando el tamaño muestral aumenta, muchas de las propiedades deseables pueden cumplirse. En esta situación se habla de propiedades asintóticas de los estimadores.
Como el estimador va a depender del tamaño de la muestra vamos a expresarlo utilizando el símbolo
Por ejemplo, el sesgo puede depender del tamaño de la muestra. Si el sesgo tiende a cero cuando el tamaño de la muestra crece hasta infinito decimos que el estimador es asintóticamente insesgado.
n
Ausencia de sesgo asintótica
Definición: Un estimador se dice que es asintóticamente insesgado si
o equivalentemente:
n
]ˆ[lim nn
E
0]]ˆ[[lim
nn
E
2. Consistencia. Se dice que un estimador es consistente si se cumple que
Es decir, a medida que se incrementa el tamaño muestral, el estimador se acerca más y más al valor del parámetro. La “consistencia” es una propiedad asintótica.
Tanto la media muestral como la cuasivarianza son estimadores consistentes. La varianza muestral es un estimador consistente de la varianza poblacional, dado que a medida que el tamaño muestral se incrementa, el sesgo disminuye.
1ˆlim
nn
P
]ˆ[ nE 0]ˆ[ nVar
o 1ˆlim
nn
P
Ejemplo: supongamos que la población es no normal y de media desconocida. Construyamos estadísticos media muestral:
Para cada tamaño muestral n tenemos:
)( nxEn
xVar n
2
)(
Por el teorema de Chebychev:
nk
xPn
xP
kxVarkxExP
nn
n
nnn
con
1lim1
11)()(
2
2
2
La media muestral es un estimador consistente de la media poblacional.
3. Eficiencia. Utilizar las varianzas de los estimadores insesgados como una forma de elegir entre ellos.
Si , decimos que es un estimador insesgado eficiente o de varianza mínima para , si cualquier otro estimador insesgado de , digamos , verifica que:
ˆE
~ˆ VarVar
~
La varianza de una variable aleatoria mide la dispersión alrededor de la media. Menor varianza para una variable aleatoria significa que, en promedio, sus valores fluctúan poco alrededor de la media comparados con los valores de otra variable aleatoria con la misma media y mayor varianza. Menor varianza implica mayor precisión y entonces el estimador que tenga menor varianza es claramente más deseable porque, en promedio, está mas cerca del verdadero valor de .
Sean y dos estimadores insesgados del parámetro .
Si Var ( ) < Var ( ) decimos que es más eficiente que .
El cociente Var ( ) / Var ( ) se llama eficiencia relativa.
Entre todos los estimadores insesgados de , el que tenga menor varianza es el estimador insesgado de mínima varianza. Pero, ¿cómo podemos encontrarlo?
1 2
1212
21
2
2
2
),(ln
)('1ˆ
xf
nE
bVar
Cota de Cramér-Rao:
Sea una población con densidad de probabilidad f(x, ), entonces se cumple que:
Si un estimador tiene una varianza que coincide con la cota de Cramér-Rao se dice que es un estimador eficiente.
Si además en insesgado, se dice que es un estimador de eficiencia absoluta o completa.
Ejemplo: Sea una población que se distribuye normalmente con desviación típica conocida y media desconocida. Como estimador utilizaremos la media muestral. Sabemos que la distribución del estimador es también una normal con la misma media y varianza . Luego el estimador es insesgado: b() = 0. Calculemos la cota de Cramér-Rao (CCR).
2 / n
CCRxVarnxf
nE
CCR
Exf
E
xfxxf
xxf
xxf
)(;),(ln
1
11),(Ln
1),(Ln;
),(Ln
2)(
2
1Ln),(Ln;
2)(
exp2
1),(
2
2
2
222
2
22
2
2
2
2
2
2
Eficiencia asintóticaCuando trabajamos con estimadores consistentes el rango de valores de para el cual un estimador es más eficiente que otro disminuye a medida que n crece. En el límite cuando n tiene a infinito la distribución de todos los estimadores consistentes colapsa en el verdadero parámetro . Entonces deberíamos preferir aquel estimador que se aproxime más rápidamente (es decir, aquel cuya varianza converge más rápido a cero)
En términos intuitivos, un estimador consistente es asintóticamente eficiente si para muestras grandes su varianza es menor que la de cualquier otro estimador consistente.
Definición: un estimador consistente se dice que es asintóticamente eficiente si para cualquier otro estimador el
1
2
1)ˆ(
)ˆ(
1
2
Var
Varlimn
4. Suficiencia. Diremos que es un estimador suficiente del parámetro si dicho estimador basta por sí solo para estimar . Si el conocimiento pormenorizado de los elementos la muestra no añade ninguna información sobre .
Ejemplo: Supongamos una población binomial de la que desconocemos la proporción = p. Extraemos una muestra de tamaño n = 50.
1}{max)(;35)(
fracaso es si0
éxito es si1
2
50
11
ii
i
i
xXTxXT
x
Estimador suficiente, p aprox. 35/50.
Error cuadrático medio (ECM)
Consideremos dos estimadores, uno insesgado y el otro es sesgado pero con una varianza bastante menor, de modo que en promedio puede estar más cerca de la verdadera media que el estimador insesgado.
En esta situación podríamos admitir algo de sesgo con la intención de obtener una mayor precisión en la estimación (menor varianza del estimador).
Una medida que refleja este compromiso (“trade off”) entre ausencia de sesgo y varianza es el ECM.
El error cuadrático medio de un estimador se define como ECM ( ) = E[( - )2] . Esto es la esperanza de la desviación al cuadrado del estimador con respecto al parámetro de interés.
Si , son dos estimadores alternativos de y ECM ( ) < ECM ( ) entonces se dice que es eficiente en el sentido del ECM comparado con . Si los dos son insesgados, entonces es más eficiente.
Entre todos los posibles estimadores de , aquel que tenga el menor ECM es el llamado estimador de mínimo error cuadrático medio.
ECM = Var( ) + sesgo2.
es decir que el ECM es igual a la suma de la varianza más el sesgo al cuadrado.
21
12 1
21
22 ˆ)ˆ()(ˆ])ˆ[()ˆ( EEEEECM
2
0
constante
22
)ˆ()ˆ(
])ˆ([)ˆ(ˆ2])ˆ([])ˆ(ˆ[
bVar
EEEEEEE
)ˆ( 2E
2 1
)ˆ( 1 E
sesgo 2
Compromiso entre varianza ysesgo de los estimadores.
Variable aleatoria Constante
Ejemplos: Supongamos una población de la que conocemos la media y la varianza (= 100). Tomemos muestras n = 10. Consideremos los dos estimadores de la media siguientes:
n
ii
n
ii x
nx
nx
12
11 1
1ˆ;1ˆ
1010100
)ˆ(
)ˆ(1
)ˆ(
][1
]ˆ[2
12
11
21
11
nECM
nVar
nVar
xEn
E
n
i
i
n
i
1211000
)1()ˆ(
)1()ˆ(
)1(1
)ˆ(
1][
11
]ˆ[2
2
22
1
2
2
11
22
12
nn
ECM
nn
Varn
Var
nn
xEn
E
n
i
i
n
i
Dependiendo de la media de la población nos interesará tomar un estimador u otro.
Los estimadores máximo verosímiles son:
Asintóticamente insesgadosAsintóticamente normalesAsintóticamente eficientesInvariantes bajo transformaciones biunívocasSi estimador suficiente, es suficiente
MV
Propiedades de los estimadores de máxima verosimilitud
Top Related