Download - Sea un estadístico ( función de la muestra ) que utilizamos para estimar el valor de. Observa que el estadístico: es una función que depende de la muestra.

Sea un estadístico ( función de la muestra ) que utilizamos para estimar el valor de .

Observa que el estadístico:

es una función que depende de la muestra y lo llamaremos estimador. El valor concreto de es la estimación.

Hay dos tipos básicos de estimación: puntual y por intervalo de confianza.

Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra.

Estimación

),...,,(ˆ21 nXXXT

-Estimación puntual

Provee un solo valor, un valor concreto para la estimación.

Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).

Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor puede ser empleado como un estimador para el valor de la media poblacional.

Algunos autores comparan los estimadores con los lanzamientos en una diana: el círculo central sería el valor real del parámetro.

Hablaremos de nivel de confianza 1-α cuando en el intervalo se encuentre el valor del estimador con probabilidad 1-α.

– Observa que la probabilidad de error (no contener al parámetro) es α.

– En general el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-α.

– En todo intervalo de confianza hay una noticia buena y otra mala:• La buena: hemos usado una técnica que en % alto de casos acierta.• La mala: no sabemos si ha acertado en nuestro caso.

-Por intervalo

Determina dos valores (límites de confianza) entre los que acepta puede estar el valor del estimador.

Métodos de estimación puntual

Método de los momentosMétodo de máxima verosimilitudMétodo de mínimos cuadrados(Lo veremos más adelante en el tema de regresión)

Hemos visto que un estimador de la media poblacional es la media muestral y de la varianza poblacional es la seudovarianza muestral. Pero, ¿cómo determinar un estimador cuando no se trata de la media o la varianza?Por ejemplo, supongamos una población con función densidad:

0,0)1(

)( 1

x

xxf

¿Cómo estimar el parámetro θ?

Método de los momentos

Si una distribución tiene k parámetros, el procedimiento consiste en calcular los primeros k momentos muestrales de la distribución y usarlos como estimadores de los correspondientes momentos poblacionales.

La media poblacional es el primer momento de la distribución alrededor del origen. La media muestral es el promedio aritmético de las observaciones muestrales x1, x2, ..., xn. El método de los momentos toma a la media muestral como una estimación de la media poblacional.

De la misma manera, la varianza de una variable aleatoria es 2 y se denomina segundo momento alrededor de la media. La varianza muestral s2 se usa como un estimador de la varianza poblacional de la distribución.

x

Recordemos que el momento muestral centrado en el origen de orden r se define como:

n

i

rir x

nm

1

1

Para el ejemplo anterior, los momentos de primer orden centrados en el origen de la población y la muestra son respectivamente:

n

iin

ii

xn

xn

m

dxx

x

1

11

11

11

1

11

)1(

1ˆ

1

n

iix

nLuego podemos usar como estimador:

Igualando:

Método de máxima verosimilitud

Sea X una variable aleatoria cuya distribución de probabilidad depende del parámetro desconocido .

Sea la función de densidad de probabilidad de la población f(x, ). Se toma una muestra aleatoria x1, x2, ..., xn de observaciones independientes y se calcula la densidad conjunta de la muestra: la función de verosimilitud y se expresa como:

n

iin

nn

xf, θ,...,xL(x

, θf(x... , θ f(x, θf(x, θ,...,xL(x

11

211

,)

))))

MV

L

Si de una población cualquiera hemos obtenido una muestra particular, es razonable pensar que la muestra obtenida era la que mayor probabilidad tenía de ser escogida.

Valor del estimador máxima verosimilitud

Funciónmáxima verosimilitud

Si los valores posibles de son discretos, el procedimiento es evaluar L(x,) para cada valor posible y elegir el valor de para el cual L alcanza su máximo.

Por otro lado, si L(x,) es diferenciable se puede maximizar L sobre el rango de valores posibles de obteniéndose condiciones de primer y segundo orden.

En la práctica es más fácil maximizar el logaritmo de la función de verosimilitud. Como la función logaritmo es una transformación monótona, maximizar L(x,) es equivalente a maximizar Ln(L(x,)).

Ejemplo: Sea una urna con bolas rojas y blancas en proporciones desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna.

!7!3!10

)1()1()( 73107,3

73 ppPRpppL

0!7!3!10

)103()1()( 62

pppppL

Soluciones: p = 0 p = 1 p = 3/10

Imposible porque hemos extraído 3R

Imposible porque hemos extraído 7B

Que además hace máxima la función L(p)

0)(

10/3

2

2

pp

pL

0,0)1(

)( 1

x

xxfVolvamos al ejemplo:

n

iin

n

in

ii

n

in

xLnnLn, θ,...,xL(xLn

xxf, θ,...,xL(x

11

1

1

11

1)1()

1,)

0ˆ

)

1

ˆ

01)

2ˆ

21

2

1

1

1

nθ

, θ,...,xL(xLn

xLn

n

xLnn

θ, θ,...,xL(xLn

n

n

ii

n

ii

n

Construimos la función máxima verosimilitud

Extraemos logaritmos a ambos lados

Derivamos e igualamos a cero para encontrar el máximo de la función

Observemos que no coincide con el estimador que nos propone el método de los momentos.

Propiedades deseables en los estimadores

1.Ausencia de sesgo

2.Consistencia

3.Eficiencia

4.Suficiencia

Los dos procedimientos que repasamos hace un momento (más el método de mínimos cuadrados que veremos luego) eligen a la media muestral como estimador del parámetro . Sin embargo, otras veces obtenemos estimadores distintos para el mismo parámetro, como ocurre con 2. O como hemos visto para el caso del parámetro del ejemplo.

En esos casos, ¿cuál es el mejor estimador?

1. Estimador insesgado. Diremos que es un estimador insesgado de si:

Vimos que la media muestral es un estimador insesgado de la media poblacional.

Vimos que la varianza muestral no es un estimador insesgado de la varianza poblacional, es sesgado.

Recuerda que construimos la cuasivarianza que sí es un estimador insesgado de la varianza poblacional.

nXXTEE ,...,ˆ1

ˆ)( Eb se llama sesgo de

Sea una población N(, ) y construyamos los estimadores de varianza: varianza muestral y cuasivarianza muestral.

n

jj xx

ns

1

22*2 )(

11

n

jj xx

ns

1

221 )(

1

Vimos que si la población es normal, entonces el estimador:

212 como distribuye se

)1( 2*

nsn

sesgo

nnn

En

nE

En

sEE n

222

2]

21

2

1]ˆ[

1]ˆ[

[1

][]ˆ[

21

2*2

Propiedades en muestras grandes

Muchos estimadores no tienen buenas propiedades para muestras pequeñas, pero cuando el tamaño muestral aumenta, muchas de las propiedades deseables pueden cumplirse. En esta situación se habla de propiedades asintóticas de los estimadores.

Como el estimador va a depender del tamaño de la muestra vamos a expresarlo utilizando el símbolo

Por ejemplo, el sesgo puede depender del tamaño de la muestra. Si el sesgo tiende a cero cuando el tamaño de la muestra crece hasta infinito decimos que el estimador es asintóticamente insesgado.

n

Ausencia de sesgo asintótica

Definición: Un estimador se dice que es asintóticamente insesgado si

o equivalentemente:

n

]ˆ[lim nn

E

0]]ˆ[[lim

nn

E

2. Consistencia. Se dice que un estimador es consistente si se cumple que

Es decir, a medida que se incrementa el tamaño muestral, el estimador se acerca más y más al valor del parámetro. La “consistencia” es una propiedad asintótica.

Tanto la media muestral como la cuasivarianza son estimadores consistentes. La varianza muestral es un estimador consistente de la varianza poblacional, dado que a medida que el tamaño muestral se incrementa, el sesgo disminuye.

1ˆlim

nn

P

]ˆ[ nE 0]ˆ[ nVar

o 1ˆlim

nn

P

Ejemplo: supongamos que la población es no normal y de media desconocida. Construyamos estadísticos media muestral:

Para cada tamaño muestral n tenemos:

)( nxEn

xVar n

2

)(

Por el teorema de Chebychev:

nk

xPn

xP

kxVarkxExP

nn

n

nnn

con

1lim1

11)()(

2

2

2

La media muestral es un estimador consistente de la media poblacional.

3. Eficiencia. Utilizar las varianzas de los estimadores insesgados como una forma de elegir entre ellos.

Si , decimos que es un estimador insesgado eficiente o de varianza mínima para , si cualquier otro estimador insesgado de , digamos , verifica que:

ˆE

~ˆ VarVar

~

La varianza de una variable aleatoria mide la dispersión alrededor de la media. Menor varianza para una variable aleatoria significa que, en promedio, sus valores fluctúan poco alrededor de la media comparados con los valores de otra variable aleatoria con la misma media y mayor varianza. Menor varianza implica mayor precisión y entonces el estimador que tenga menor varianza es claramente más deseable porque, en promedio, está mas cerca del verdadero valor de .

Sean y dos estimadores insesgados del parámetro .

Si Var ( ) < Var ( ) decimos que es más eficiente que .

El cociente Var ( ) / Var ( ) se llama eficiencia relativa.

Entre todos los estimadores insesgados de , el que tenga menor varianza es el estimador insesgado de mínima varianza. Pero, ¿cómo podemos encontrarlo?

1 2

1212

21

2

2

2

),(ln

)('1ˆ

xf

nE

bVar

Cota de Cramér-Rao:

Sea una población con densidad de probabilidad f(x, ), entonces se cumple que:

Si un estimador tiene una varianza que coincide con la cota de Cramér-Rao se dice que es un estimador eficiente.

Si además en insesgado, se dice que es un estimador de eficiencia absoluta o completa.

Ejemplo: Sea una población que se distribuye normalmente con desviación típica conocida y media desconocida. Como estimador utilizaremos la media muestral. Sabemos que la distribución del estimador es también una normal con la misma media y varianza . Luego el estimador es insesgado: b() = 0. Calculemos la cota de Cramér-Rao (CCR).

2 / n

CCRxVarnxf

nE

CCR

Exf

E

xfxxf

xxf

xxf

)(;),(ln

1

11),(Ln

1),(Ln;

),(Ln

2)(

2

1Ln),(Ln;

2)(

exp2

1),(

2

2

2

222

2

22

2

2

2

2

2

2

Eficiencia asintóticaCuando trabajamos con estimadores consistentes el rango de valores de para el cual un estimador es más eficiente que otro disminuye a medida que n crece. En el límite cuando n tiene a infinito la distribución de todos los estimadores consistentes colapsa en el verdadero parámetro . Entonces deberíamos preferir aquel estimador que se aproxime más rápidamente (es decir, aquel cuya varianza converge más rápido a cero)

En términos intuitivos, un estimador consistente es asintóticamente eficiente si para muestras grandes su varianza es menor que la de cualquier otro estimador consistente.

Definición: un estimador consistente se dice que es asintóticamente eficiente si para cualquier otro estimador el

1

2

1)ˆ(

)ˆ(

1

2

Var

Varlimn

4. Suficiencia. Diremos que es un estimador suficiente del parámetro si dicho estimador basta por sí solo para estimar . Si el conocimiento pormenorizado de los elementos la muestra no añade ninguna información sobre .

Ejemplo: Supongamos una población binomial de la que desconocemos la proporción = p. Extraemos una muestra de tamaño n = 50.

1}{max)(;35)(

fracaso es si0

éxito es si1

2

50

11

ii

i

i

xXTxXT

x

Estimador suficiente, p aprox. 35/50.

Error cuadrático medio (ECM)

Consideremos dos estimadores, uno insesgado y el otro es sesgado pero con una varianza bastante menor, de modo que en promedio puede estar más cerca de la verdadera media que el estimador insesgado.

En esta situación podríamos admitir algo de sesgo con la intención de obtener una mayor precisión en la estimación (menor varianza del estimador).

Una medida que refleja este compromiso (“trade off”) entre ausencia de sesgo y varianza es el ECM.

El error cuadrático medio de un estimador se define como ECM ( ) = E[( - )2] . Esto es la esperanza de la desviación al cuadrado del estimador con respecto al parámetro de interés.

Si , son dos estimadores alternativos de y ECM ( ) < ECM ( ) entonces se dice que es eficiente en el sentido del ECM comparado con . Si los dos son insesgados, entonces es más eficiente.

Entre todos los posibles estimadores de , aquel que tenga el menor ECM es el llamado estimador de mínimo error cuadrático medio.

ECM = Var( ) + sesgo2.

es decir que el ECM es igual a la suma de la varianza más el sesgo al cuadrado.

21

12 1

21

22 ˆ)ˆ()(ˆ])ˆ[()ˆ( EEEEECM

2

0

constante

22

)ˆ()ˆ(

])ˆ([)ˆ(ˆ2])ˆ([])ˆ(ˆ[

bVar

EEEEEEE

)ˆ( 2E

2 1

)ˆ( 1 E

sesgo 2

Compromiso entre varianza ysesgo de los estimadores.

Variable aleatoria Constante

Ejemplos: Supongamos una población de la que conocemos la media y la varianza (= 100). Tomemos muestras n = 10. Consideremos los dos estimadores de la media siguientes:

n

ii

n

ii x

nx

nx

12

11 1

1ˆ;1ˆ

1010100

)ˆ(

)ˆ(1

)ˆ(

][1

]ˆ[2

12

11

21

11

nECM

nVar

nVar

xEn

E

n

i

i

n

i

1211000

)1()ˆ(

)1()ˆ(

)1(1

)ˆ(

1][

11

]ˆ[2

2

22

1

2

2

11

22

12

nn

ECM

nn

Varn

Var

nn

xEn

E

n

i

i

n

i

Dependiendo de la media de la población nos interesará tomar un estimador u otro.

Los estimadores máximo verosímiles son:

Asintóticamente insesgadosAsintóticamente normalesAsintóticamente eficientesInvariantes bajo transformaciones biunívocasSi estimador suficiente, es suficiente

MV

Propiedades de los estimadores de máxima verosimilitud