Contrastes teoría de decisiones

25
CAP ´ ITULO 7. ESTIMACI ´ ON Y CONT- RASTES Para leer Lee, Cap´ ıtulo 4 Estimaci´ on puntual Para los bayesianos, el problema de estimaci´ on es un problema de decisi´ on. Asociada con cada estimador T hay una p´ erdida L(T,θ ) que refleja la diferencia entre θ y T . Por ejemplo: L(T,θ )=(T θ ) 2 , la p´ erdida cuadr´ atica L(T,θ )= |T θ |, la p´ erdida lineal absoluta L(T,θ )= 0 si T = θ 1 si T = θ , la p´ erdida “todo o nada”. 128

description

Contrastes

Transcript of Contrastes teoría de decisiones

  • CAPITULO 7. ESTIMACION Y CONT-RASTES

    Para leer

    Lee, Captulo 4

    Estimacion puntual

    Para los bayesianos, el problema de estimaciones un problema de decision. Asociada con cadaestimador T hay una perdida L(T, ) que reflejala diferencia entre y T . Por ejemplo:

    L(T, ) = (T )2, la perdida cuadratica

    L(T, ) = |T |, la perdida lineal absoluta

    L(T, ) =

    {0 si T = 1 si T = , la perdida todo

    o nada.

    128

  • Definicion 9 El estimador Bayes TB es una

    solucion de

    TB = mnT

    E[L(T, )]

    Ejemplo 48 Dada la perdida cuadratica, cual

    es el estimador Bayes?

    E[L(T, )] =(T )2f() d

    =

    (T E[] + E[] )2 f() d

    ={(T E[])2 + (E[] )2}f() d

    = V [] + (T E[])2

    y entonces TB = E[] es el estimador Bayes.

    129

  • Ejemplo 49 Con la perdida lineal absoluta, ten-

    emos

    E[L(T, )] =

    |T |f() d

    = T

    (T )f() d +

    + T

    ( T)f() dd

    dTE[L(T |)] = (T T)f(T) +

    T

    f() d

    (T T)f(T) T

    f() d

    = F(T) (1 F(T))= 2F(T) 1

    Entonces, recordando que en el mnimo la deriva-

    da es igual a cero, tenemos F(TB) = 1/2 y el

    estimador Bayes es la mediana de la distribu-

    cion de .

    130

  • Ejemplo 50 Suponiendo que es discreta, con

    la perdida todo o nada se tiene

    E[L(T, )] = =T

    P()

    = P( = T)y se minimiza la perdida esperada eligiendo el

    estimador Bayes TB como la moda de la dis-

    tribucion de .

    Observacion 21 Esta perdida no se puede uti-

    lizar con variables continuas porque P( = T) =

    0 si es continua y entonces, la perdida esper-

    ada sera 1 para cualquier eleccion de T .

    131

  • Intervalos

    Se han visto intervalos de credibilidad anteri-

    ormente. Sigue la definicion formal.

    Definicion 10 Si f(|x) es una densidad a pos-teriori, se dice que (a, b) es un intervalo de

    credibilidad de 100 (1 )% siP(a b|x) = 1

    Ejemplo 51 X| N (,1). Supongamos quef() 1, entonces, |x N (x,1/n) y algunosintervalos de credibilidad de 95% son

    (, x+1,64/n) o (x 1,64/n,) o(x 1,96/n)

    Hay muchos intervalos de credibilidad. El mas

    corto se llama un intervalo de maxima den-

    sidad a posteriori (MDP)

    132

  • Definicion 11 El intervalo MDP de 100(1)% es el intervalo de forma

    C = { : f() c()}donde c() es la constante mas grande cumplien-do

    P(C) 1

    Ejemplo 52 Volviendo al ejemplo 51, el inter-

    valo MDP de 95% es

    x 1,96/n

    Se puede aplicar la definicion de un interva-

    lo de credibilidad a densidades multivariantes

    f(|x). En estas situaciones, se puede definiruna region de credibilidad C:

    P( C|x) = 1 .

    133

  • Contrastes

    Consideramos las hipotesisH0 : 0H1 : 1 , donde

    0 1 = y 0 1 = .

    Teoricamente es facil distinguir entre las dos

    hipotesis; dados los datos, solo se deben usar

    las probabilidades a posteriori. Dada una fun-

    cion de perdida, se elige aceptar o rechazar H0.

    Ejemplo 53 Dada la perdida todo o nada,

    L(H0, ) =

    {0 si H0 es verdadero1 si H1 es verdadero

    elegimos H0 si P(H0|x) > P(H1|x).

    134

  • Ejemplo 54 Supongamos que X| N(,1).Queremos hacer el contraste: H0 : 0 frenteH1 : > 0. Si usamos una distribucion inicialno informativa para ,

    f() 1,tenemos |x N

    (x, 1n

    ). Entonces,

    P(H0|x) = P( 0|x)= P

    (n( x) nx|x

    )=

    (nx

    )donde () es la funcion de distribucion nor-mal.

    Observacion 22 Esta probabilidad es igual alp valor clasico para el contraste Hc0 : = 0frente H1 : > 0.

    P(X x|H0) = P(

    nX nx|H0)

    = 1(

    nx)

    = (nx

    )135

  • La paradoja de Lindley/Jeffreys

    Consideramos el contraste H0 : = 0 frente

    la alternativa H1 : = 0. En situaciones as,los resultados bayesianos pueden ser muy difer-

    entes de los resultados clasicos.

    Ejemplo 55 X| N (,1). Hacemos el con-traste H0 : = 0 frente H1 : = 0.

    Se definen las probabilidades a priori

    f0 = P(H0) = 0,5 = P(H1) = f1

    y se supone que |H1 N (0,1).

    Suponiendo que se observa la media de una

    muestra de tamano n, se quiere calcular las

    probabilidades a posteriori.

    136

  • En primer lugar

    0 = P(H0|x) f0f(x| = 0)

    12

    (n

    2

    )12exp

    (nx

    2

    2

    )

    =K

    2

    (n

    2

    )12exp

    (nx

    2

    2

    )

    para una constante K = f(x). Tambien

    f(,H1|x) f1f(x|,H1)f(|H1)

    12

    (n

    2

    )12exp

    (n(x )

    2

    2

    )

    (

    1

    2

    )12exp

    (

    2

    2

    )

    =K

    2

    (n

    2

    )12(

    1

    2

    )12

    exp(12

    [n(x )2 + 2

    ])

    donde K es la misma constante.

    137

  • Entonces, se tiene

    1 = P(H1|x)=

    f(,H1|x) d

    =

    K

    2

    (n

    2

    )12(

    1

    2

    )12exp

    (12

    [n(x )2 + 2

    ])d

    =K

    2

    (n

    2

    )12(

    1

    2

    )12

    exp

    (12

    [(n+1)

    ( nx

    n+1

    )2 nx

    2

    n+1

    ])d

    =K

    2

    (n

    2

    )12 1

    n+1exp

    ( nx

    2

    2(n+1)

    )

    Recordando que 0 + 1 = 1, se tiene

    K =

    (1

    2

    ( n2

    )12

    exp

    (nx

    2

    2

    )+

    1

    2

    ( n2

    )12 1

    n+1exp

    ( nx

    2

    2(n+1)

    ))1.

    138

  • Entonces

    0 =12

    (n2

    )12 exp

    (nx22

    )12

    (n2

    )12 exp

    (nx22

    )+ 1

    2

    (n2

    )12 1

    n+1exp

    ( nx2

    2(n+1)

    )=

    exp(nx2

    2

    )exp

    (nx22

    )+ 1

    n+1exp

    ( nx2

    2(n+1)

    )

    =exp

    (n(n+1)x2

    2(n+1)

    )exp

    (n(n+1)x2

    2(n+1)

    )+ 1

    n+1exp

    ( nx2

    2(n+1)

    )=

    {1+

    1n+1

    exp

    (n2x2

    2(n+ 1)

    )}1Consideramos el caso x = 2/

    n > 1,96/

    n.

    Sabemos que si hubieramos hecho un contraste

    clasico con un nivel de significacion de 95%, el

    resultado habra sido significativo, y habramos

    rechazado la hipotesis H0.

    Pero 0 =

    {1+

    1n+1

    exp(

    n

    n+1

    )}1 1 cuando n .

    139

  • Una muestra que nos llega a rechazar H0 con

    un contraste clasico nos proporciona una prob-

    abilidad a posteriori de H0 que se acerca a 1

    cuando el tamano de la muestra es grande.

    Esta paradoja se llama la paradoja de Lindley

    y Jeffreys.

    Observacion 23 La eleccion de la varianza de

    en la distribucion inicial es bastante impor-

    tante pero el ejemplo demuestra que no tiene

    sentido usar niveles fijos de significacion segun

    crece n.

    Hipotesis nulos puntuales son poco razonables.

    140

  • Factores Bayes

    Tambien es util introducir otro concepto.

    Supongamos que f0 = P(H0) y f1 = P(H1) y

    que 0 = P(H0|x) y 1 = P(H1|x).

    Definicion 12 Se define

    B =0/1f0/f1

    =0f11f0

    el factor Bayes a favor de H0.

    Observacion 24 El factor Bayes representa las

    posibilidades (odds) a posteriori divididos por

    las posibilidades a priori. Nos informe de los

    cambios en nuestras creencias causados por los

    datos.

    Observacion 25 Es casi objetiva y parcialmente

    elimina la influencia de la distribucion a priori.

    141

  • Ejemplo 56 Supongamos el contraste simple

    H0 : = 0 frente H1 : = 1. Tenemos

    0 = P(H0|x) =f0l(0|x)

    f0l(0|x) + f1l(1|x)1 = P(H1|x) =

    f1l(1|x)f0l(0|x) + f1l(1|x)

    Entonces el factor Bayes es

    B =01

    f1f0

    =f0l(x|0)f1l(x|1)

    f1f0

    =l(0|x)l(1|x)

    que coincide con la razon de verosimilutudes.

    Entonces, la distribucion a priori no influye en

    el factor Bayes.

    142

  • Ejemplo 57 Se observa un dato de una dis-

    tribucion exponencial con densidad

    f(x|) = ex.Se quiere contrastar H0 : = 6 frente H1 : =

    3. Cual es el factor Bayes?

    B =l( = 6|x)l( = 3|x)

    =6e6x3e3x

    = 2e3x

    Suponiendo que la probabilidad a priori de H0es 0,25, se puede demostrar que P(H0|x) < 0,5para cualquier valor de x.

    En primer lugar, hallamos el factor Bayes.

    143

  • B =P(H0|x)P(H1|x)

    P(H1)

    P(H0)

    = 3P(H0|x)P(H1|x)

    P(H0|x)P(H1|x)

    =2

    3e3x

    y P(H0|x) 1/2 23e3x > 1 y entonces

    x < 13log

    3

    2< 0

    que es imposible.

    Observacion 26 El factor Bayes es consistente.

    Si H0 es verdadero, entonces B cuandon y si H1 es verdadero, B 0 cuandon .

    144

  • El factor Bayes no elimina totalmente la influ-

    encia de la distribucion a priori. Supongamos

    que H0 y H1 son compuestos y entonces

    B =P(H0|x)P(H1|x)

    P(H1)

    P(H0)

    =f(x|H0)f(x|H1)

    =

    f(x|H0, 0)f(0|H0) d0f(x|H1, 1)f(1|H1) d1

    donde f(0|H0) es la distribucion a priori bajola hipotesis H0 y f(1|H1) es la distribucion apriori bajo H1.

    145

  • Ejemplo 58 Supongamos que X| E() co-mo en el Ejemplo 57. Ahora se quiere con-trastar H0 : = 6 frente a H1 : = 6. Sea ladistribucion a priori |H1 E(1/6).

    Suponiendo que se observa un dato x comoanteriormente, se tiene

    f(x|H0) = 6e6xy

    f(x|H1) =

    f(x|H1, )f(|H1) d

    =

    ex16e

    16 d

    =1

    6

    e

    (x+16

    )d

    =1

    6

    21e

    (x+16

    )d

    =1

    6

    (2)(x+ 16

    )2=

    6

    (6x+1)2

    146

  • Entonces el factor Bayes es

    B = (6x+1)2e6x.

    Supongamos ahora que las probabilidades a

    priori son P(H0) = P(H1) = 0,5. Para cuales

    valores de x es mas probable H0 a posteriori?

    La probabilidad a posteriori de H0 es mayor

    que 0,5 si B > 1. Construimos un grafico del

    valor de B frente a x.

    147

  • 0.0 0.2 0.4 0.6 0.8 1.0

    0.2

    0.6

    1.0

    1.4

    x

    B

    El modelo H0 es mas probable a posteriori si

    x < 0,4188 a 4 plazas decimales.

    Cual es el maximo valor posible de P(H0|x)?148

  • La probabilidad de H0 es maxima cuando el

    factor Bayes es lo mas grande posible. Calcu-

    lamos el maximo del factor Bayes como fun-

    cion de x.

    B = (6x+1)2e6x

    logB = 2 log(6x+1) 6xd

    dxlogB =

    2

    6x+1 6

    0 =2

    6x+1 6

    36x = 8

    x =2

    9y en este caso, el valor de B es

    B =(6 2

    9+ 1

    )2e6

    29 = 1,43514

    149

  • Recordamos que

    B =P(H0|x)P(H1|x)

    P(H1)

    P(H0)

    1,43514 =P(H0|x)

    1 P(H0|x)P(H0|x) =

    1,43514

    1+ 1,43514 0,5893

    es el maximo valor posible de la probabilidad a

    posteriori.

    150

  • Problemas y Generalizaciones

    Si usamos distribuciones a priori impropias paralos parametros, puede que el factor Bayes noexista.

    Volviendo a la situacion de la transparencia ,supongamos que f(0|H0) y f(1|H1) son im-propias, por ejemplo

    f(i|Hi) = cigi(i)para algunas constantes ci indefinidas.

    Luego

    B =

    f(x|H0, 0)f(0|H0) d0f(x|H1, 1)f(1|H1) d1

    =c1c2

    f(x|H0, 0)g0(0) d0f(x|H1, 1)g1(1) d1

    que depende de la razon de las constantes in-definidas.

    151

  • Hay algunas alternativas

    factores Bayes fraccionales (OHagan, A.

    Bayesian Inference, Edward Arnold, 1995)

    factores Bayes intrnsicos (Berger J. y Per-

    richi L. The Intrinsic Bayes Factor for lin-

    ear models. En Bayesian Statistics V, eds

    Bernardo et al, O.U.P., 23 42.)

    Los dos metodos utilizan partes de los datos

    para crear una distribucion inicial propia.

    152