Aplicacion de MCMC para procesos AR polinomiales con r ...

Aplicacion de MCMC para procesos AR polinomiales con regimen de Markov

LUIS RODRIGUEZDepartamento de Matematicas

Universidad de CaraboboFACYT

Valencia, Estado Carabobo, Venezuelaemail: [email protected]

RAFAEL ROSALESDepartamento de Fısica e Matematica

Universidade de Sao PauloFaculdade de Filosofia, Ciencias e Letras

Ribeirao Preto, SP-Brasilemail: [email protected]

RICARDO RIOSEscuela de Matematicas

Universidad Central de VenezuelaFacultad de Ciencias

Caracas 1040, Venezuelaemail: [email protected]

ABSTRACTIn this work we estimate the a posteriori distri-bution of an autoregressive process with Markovregime. We suppose polynomial regression func-tions in each regime. We use an MCMC samplerthat is an hybrid of Gibbs and Metropolis algo-rithm to make a Bayesian approach for estimat-ing the polynomial order and coefficients and thenoise variance in each regime.

KEYWORDSAutoregressive, MCMC, Markov regime.

RESUMENEn este trabajo estimamos la distribucion poste-rior de un proceso autorregresivo con regimende Markov (AR-RM) en el caso cuando las fun-ciones de regresion en cada regimen son poli-nomios, utilizando un algoritmo MCMC mezclade los algoritmos de Gibbs y Metropolis paraobtener aproximados Monte Carlo de los esti-madores de Bayes para los parametros de lospolinomios, su grado y la varianza asociada alruido en cada regimen.

PALABRAS CLAVESAutorregresion, MCMC, regimen de Markov.

1. Introduccion

En este trabajo consideramos el problemade estimacion para procesos autorregresivos conregimen de Markov (AR-RM) con funciones deregresion polinomiales suponiendo un contextoBayesiano. En este caso el problema de inferen-cia consiste en estimar la distribucion posteriorde los parametros de los polinomios, su gradoy la varianza asociada al ruido en cada regimen.Un metodo Monte Carlo por cadenas de Markov

(MCMC siglas en ingles) es utilizado para esti-mar la distribucion posterior. El metodo MCMCque presentamos es una mezcla de los algoritmosde Gibbs y Metropolis-Hastings.

Los AR-RM pueden ser vistos como unacombinacion de los modelos switching (ver [3]§1.2 y sus referencias) y los modelos de ca-denas de Markov ocultas (ver [13] y sus re-ferencias). Los procesos AR-RM son usados enmuchas areas porque representan modelos he-terogeneos no independientes. En econometrıaHamilton [12], los utiliza en el analisis de la se-rie temporal del producto interno bruto (GNP)de los Estados Unidos, considerando dos esta-dos (regımenes) de la economıa: uno de con-traccion y otro de expansion. Los procesos AR-RM tambien han sido usados en varios proble-mas de la ingenierıa electrica: deteccion de fal-las, control automatico, manipulacion de obje-tivos, ver [7, 15]. Mientras que las cadenas deMarkov oculta son aplicadas en distintas areaspor ejemplo en: finanzas, econometrıa, genetica,reconocimiento de patrones, biofısica. Referimosal lector a [4, 13, 19].

La estimacion Bayesiana de modelos CMOcon un numero conocido de estados es estudiadapor Robert et al. [17] mientras que la regresionswitching es considerada por Ferreira [8] y la su-posicion de funciones de regresion polinomicaspor Gallant y Fuller [10]. Si el numero de estadosde la cadena oculta es desconocido podemos citarel trabajo de Robert et al. [18].

Este artıculo esta estructurado de la mane-ra siguiente. El modelo y sus hipotesis generalesson presentados en la seccion 2. En la seccion3 detallamos lo relacionado con los pasos delmuestreador de Gibbs cuando el grado de las fun-

FARAUTE Ciens. y Tec., 2(1): 5-17, 2007 ISSN 1698-7418Depósito Legal PP200402CA1617

5

ciones de regresion es conocido y para garanti-zar la estabilidad del modelo se introduce un al-goritmo hıbrido mezcla de los pasos de Gibbsy Metropolis. En la seccion 4 suponemos queel grado de las funciones polinomicas es des-conocido y realizamos la inferencia a traves delmuestreador de saltos reversibles. Las demostra-ciones de consistencia son postergadas al capıtulo5.

2. Modelo e hipotesis

Un proceso autorregresivo con regimen deMarkov (AR-RM) se define por

yn = f(xn, yn−1) + σxnεn, (1)

donde {xn} es una cadena de Markov no ob-servada homogenea y ergodica con valores enel conjunto finito {1, . . . ,m} con probabilidadesde transicion aij = P(xn = j|xn−1 = i). Lasprobabilidades aij forman la matriz de transicionA = [aij]. Denotamos por λ = (λ1, . . . , λm) ladistribucion invariante de la cadena de Markov{xn}.

La funcion f : {1, . . . ,m} × R → R tienela forma

f(i, y) = (αikyk + . . . + αi1y + αi0)1I[−1,1](y),

el parametro θi = (αi0, . . . , αik) pertenece al sub-conjunto compacto Θ ⊂ Rk+1 y

θ = (α10, . . . , α1k, . . . , αm0, . . . , αmk)T ,

El sımbolo T denota la operacion transpuesta deun vector o matriz.

La sucesion {εn} es una sucesion de varia-bles aleatorias gaussianas N (0, 1), independi-entes e identicamente distribuidas. Denotamospor σ = (σ1, . . . , σm) y por y = y0, . . . , yN lasobservaciones del proceso AR-RM. Usaremos pcomo un sımbolo generico para distribuciones ydensidades.

El problema de inferencia que estudiamosse centra en el parametro ψ = (A, θ, σ) el cualpertenece al espacio de parametros definido porΨ = [0, 1]m

2 ×Θm × (R+).Cuando se modelan series temporales uti-

lizando procesos autorregresivos es necesario im-poner condiciones de estabilidad por esta razon

en la siguiente seccion introducimos este concep-to para los procesos AR-RM.

2.1. Estabilidad del proceso AR-RM

Un modelo AR-RM es estable si para el pro-ceso {yn} definido por (1) existe una solucionestacionaria y ergodica. Esto significa que existeuna unica medida β tal que c.s.,

lımN→∞

1/NN∑

n=1

h(yn) =

∫h(y)β(dy).

En Yao y Attali [21] se garantiza la estabi-lidad del proceso {yn} bajo las siguientes condi-ciones,

i. La funcion de regresion f satisface para ca-da i = 1, . . . ,m la condicion de sublineali-dad

|f(i, y)| ≤ αi|y|+ bi.

donde αi, bi son constantes positivas.

ii. Condicion tipo radio espectral:

Eλ(log(α)) =m∑

i=1

log(αi)λi < 0.

iii. La variable ε1 tiene una densidad positivacon respecto a la medida de Lebesgue.

iv. E|ε1|ζ < ∞ para algun ζ > 0.

En nuestro caso de la hipotesis de gaussian-idad de ε1 las condiciones (ii) y (iv) son validas.Para el modelo polinomial (1) observemos que

|(αikyk+· · ·+αi1y+αi0)1I[−1,1](y)| ≤ αi|y|+|αi0|

donde αi = max{|αil| : l = 1, . . . , k}. Entoncesla region de estabilidad se define por

S = {α : Eλ(log(α)) < 0}.

En la proxima seccion introducimos algunaterminologıa Bayesiana que requerimos para rea-lizar la inferencia.

Aplicación de MCMC para procesos AR poliminales con régimen de Markov

6 FARAUTE Ciens. y Tec., 2(1). 2007

2.2. Inferencia Bayesiana

La inferencia Bayesiana comienza con laconsideracion del vector de parametros ψ comouna variables aleatoria y con el estudio de la dis-tribucion condicional π(y|ψ) la cual se conocecomo distribucion posterior. Esta requiere parasu determinacion la definicion de la distribucionp(ψ), la cual es llamada distribucion previa. Elteorema de Bayes permite escribir la distribucionposterior como,

π(ψ|y) =L(ψ)p(ψ)∫

ΨL(ψ)p(ψ)dψ

. (2)

donde L(ψ) = p(y|ψ) es la funcion de verosimi-litud.

Si suponemos que y0, {xn} y {εn} sonmutuamente independientes entonces se satisfaceque,

p(yn|xN , . . . , x0, yN , . . . , yn+1, yn−1, . . . , y0)

= p(yn|xn, yn−1), (3)

esta propiedad y la propiedad de Markov so-bre {xn} nos permite escribir la funcion deverosimilitud L(ψ) = p(y|ψ) como

L(ψ) =∑

x∈{1,...,m}N

p(y,x|ψ)

=∑

x∈{1,...,m}N

p(y|ψ, x)p(x|ψ)

=m∑

i1=1

. . .

m∑im=1

µi1pi1(y1, y0) . . .

× aiN−1iN pi1(yN , yN−1) (4)

con

pi(yn+1, yn) ∝ exp

(−(yn+1 − f(i, yn))2

2σ2i

).

Se consideran previas conjugadas que seandebilmente informativos sobre ψ. Una previa quepertenece a una familia parametrica es conjugadaa una funcion de verosimilitud dada si la distribu-cion posterior resultante tambien pertenece a lafamilia (ver Bernardo y Smith [2]).

Sea Ai denotando la i-esima fila de A.Suponemos independencia entre las compo-nentes de ψ,

p(ψ) =∏i∈E

p(Ai)p(σ2i )

k∏

l=0

p(αil).

En el caso de una verosimilitud con {εn}normal y una multinomial para x, las familiasconjugadas para ψ estan dadas por las siguientesdensidades.

1. Para i ∈ {1, . . . , m}, l = 0, . . . , k,

αil ∼ N (0, σ2θ) =

1√2πσθ

exp

(− α2

il

2σ2θ

).

2. Para σ2i se escoge una densidad gamma in-

versa,

σ2i ∼ IG(ui, vi) =

vuii

Γ(ui)exp

{− vi

σ2i

}1

σ2i

,

i ∈ {1, . . . , m}, Γ(u) =∫∞

0sue−sds.

3. Ai ∼ D(ei) donde D es una densidadDirichlet con parametro ei, es decir,

D(ei) =Γ(

∑mj=1 eij)∏m

j=1 Γ(eij)

m∏j=1

aeij−1ij .

La evaluacion de estimadores h(ψ) para al-guna funcion de riesgo L(g, ψ) donde g es un es-timador de ψ, conduce a minimizar en g el riesgoposterior,

∫

Ψ

L(g, ψ)π(ψ|y)dψ.

En particular consideramos el riesgocuadratico L(g, ψ) = ‖h(ψ) − g‖2, para el cualel estimador de Bayes de h(ψ) es

Iπ(h) = Eπ(h(ψ)|y) =

∫

Ψ

h(ψ)π(ψ|y)dψ.

La mayor dificultad de la inferenciaBayesiana es que muchas veces no se conoceπ(ψ|y) en forma explıcita, o la integracion de

L. Rodríguez / R. Rosales / R. Ríos

FARAUTE Ciens. y Tec., 2(1). 2007 7

h(ψ) conociendo π(ψ|y) no se puede efectuaren forma analıtica. En particular ese es nuestrocaso debido a la complejidad inherente a la es-tructura de L(ψ) en (4), por esta razon resul-ta mas apropiado considerar el posterior conjun-to π(ψ, x|y), lo cual evita la integracion sobre{1, . . . , m}N en (4). De ahora en adelante escribi-mos φ = (ψ, x), y nos concentraremos en π(φ|y).

2.3. Metodos MCMC

Una alternativa al tratamiento de la inte-gracion Eπ(h(ψ)|y) es utilizar metodos de apro-ximacion de Monte Carlo con muestreo por ca-denas de Markov (MCMC) los cuales proveenuna solucion. Las tecnicas MCMC consisten enla construccion de una cadena de Markov ergodi-ca {Φ(t)} con valores en E = Ψ× {1, . . . , m}N ,E = B(Ψ) ⊗ σ({1, . . . , m}N) e invariante π, talque la distribucion empırica

π(dφ|y) = 1/TT∑

t=1

δΦ(t)(dφ)

converge casi seguramente por ley de los grandesnumeros a πT = p(Φ(T )|y) cuando T → ∞, ypor lo tanto,

ITπ (h) =

∫

E

h(φ)π(dφ|y) = 1/TT∑

t=1

h(Φ(t))

converge c.s a EπT (h(φ)|y), por ergodicidad

lımT→∞

EπT (h(φ)|y) = Eπ(h(φ)|y)

entonces ITπ (h) es un estimador consistente de

Eπ(h(φ)|y).Dos algoritmos que permiten construir ca-

denas de Markov que tengan como invariante aπ(φ|y) son el muestreador Gibbs y el algoritmode Metropolis-Hastings.

A continuacion mencionamos brevementelas propiedades basicas de estas tecnicas y suimplementacion al modelo (1) cuando k es fijo,§3, y cuando k es desconocido, §4.

3. AR-RM polinomial con k conocido

Introducimos el muestreador de Gibbs en unprincipio sin considerar las restricciones impues-

tas por la condicion de estabilidad §2.1. Poste-riormente presentamos una generalizacion de es-tos metodos con el proposito de incorporar estasrestricciones.

3.1. El muestreador de Gibbs

El muestreador de Gibbs es un metodo paraconstruir una cadena de Markov con distribucionestacionaria π(φ|y) cuando φ ∈ E puede serdescompuesto en componentes (φ1, . . . , φd) ∈E1×· · ·×Ed = E y no se puede muestrear direc-tamente de π(φ|y) pero se puede muestrear de lasdistribuciones condicionales (condicionales com-pletos),

p(φ1|y, φ2, . . . , φd), . . . , p(φd|y, φ1, . . . , φd−1).

Dado el estado Φ(t)d = (Φ

(t)1 , . . . , Φ

(t)d ), simula-

mos Φ(t+1) mediante el siguiente esquema:

Φ(t)1 ∼ p(φ1|y, φ

(t)2 , . . . , φ

(t)d )

Φ(t+1)2 ∼ p(φ2|y, Φ

(t)1 , Φ

(t)3 . . . , Φ

(t)d )

...Φ

(t)d ∼ p(φd|Φ(t)

1 , . . . , Φ(t)d−1).

El algoritmo de Gibbs define una ca-dena de Markov con distribucion estacionariaπ(φ1, . . . , φd|y), la cual es irreducible si el condi-cional completo de φj tiene probabilidad positivapara cualquier subconjunto de Ej , j = 1, . . . , desto como una consecuencia del Teorema deHammersly Clifford, (ver Robert y Casella [16],Teorema 7.1.20, p. 298) el cual garantiza la unici-dad de la descomposicion en condicionales com-pletos.

En la siguiente seccion implementamoseste esquema al modelo de AR-RM y estudiamoslas propiedades de ergodicidad de la cadenaresultante.

A continuacion escribimos la imple-mentacion del algoritmo de Gibbs para muestreardel posterior conjunto π(φ|y) = π(ψ, x|y)

π(ψ, x|y) =p(y|ψ, x)p(x|ψ)p(ψ)∫

E

p(y|ψ, x)p(x|ψ)p(ψ)dφ

,



lo cual implica que muestrearemos de los condi-cionales π(ψ|x,y) y π(x|ψ, y). En los dos si-guientes apartados explicamos el muestreo paracada uno de los condicionales completos.

3.2. Muestreo de π(ψ|x,y)

Observemos que ψ se descompone natural-mente como:

(A1, . . . , Am, σ1, . . . , σm, θ1, . . . , θm)

en este caso, hechas las elecciones de las previas,todos las densidades completas tienen una expre-sion analıtica cerrada porque solo involucran unarealizacion de x (Robert et al [17]). Las condi-cionales en este caso son

p(Ai| · · · ) = D(Ni1 + ei1, . . . , Ni1 + eim), (5)p(σ2

i | · · · ) = IG(C1, C2), (6)p(αil| · · · ) = N (C3; C4), (7)

donde definimos

C1 = Ni/2 + ui

C2 =

{1

2

N∑n=1

(yn − f(i, yn−1))2 + vi

}

C3 =

σ2θ

N∑n=1

U in(yn−1)

l1Ii(xn)

σ2θ

N∑n=1

(yn−1)2l1Ii(xn) + σ2

i

C4 =σ2

i σ2θ

σ2θ

N∑n=1

(yn−1)2l1Ii(xn) + σ2

i

y definimos

Ni =N∑

n=1

1Ii(xn)

Nij =N−1∑n=1

1Ii,j(xn, xn+1)

U in = yn −

k∑

l′=0l 6=l′

αil′(yn−1)l′ .

Para muestrear de las densidades (5),(6) y(7) seguimos los metodos descritos en Fishman[9].

3.3. Muestreo de π(x|ψ, y)

Para muestrear del condicional completo

π(x|ψ, y)

=µi1pi1(y1, y0) . . . aiN−1iN pi1(yN , yN−1)

p(y|ψ),

definido para todo (i1, . . . , iN) ∈ {1, . . . ,m}N ,Carter y Kohn [5] proponen una metodologıa demuestreo que es una version estocastica del al-goritmo forward-backward propuesto por Baumet al. [1]. Notemos que p(x|ψ, y) admite la des-composicion,

π(x|ψ, y) = p(xN |y, ψ)N−1∏n=1

p(xn|xn+1,y, ψ),

y por lo tanto es suficiente muestrear de las dis-tribuciones discretas p(xN |y, ψ) y p(xn| xn+1,y,ψ) para n = 1, . . . , N − 1. Para ello, sea y1:n =y1, . . . , yn, entonces dada xn+1, se define el filtrop(xn|y1:n, ψ) recursivamente por

p(xn = i|y1:n, ψ)

∝ p(yn|xn = i, yn−1, ψ)m∑

i=1

aijp(xn−1|y1:n−1),

con

p(yn|xn = i, yn−1, ψ) ∝ exp(−(yn − f(i, yn−1))2)

2σ2i

.

Entonces muestreamos xN ∼ p(xN |y, ψ) y paran = N − 1, . . . , n

xn ∼ p(xn|xn+1, y1:n, ψ)

=aijp(xn = i|y1:n, ψ)∑ml=1 ailp(xn = l|y1:n, ψ)

.

3.4. Ejemplo numerico

En esta subseccion presentamos el de-sempeno del muestreador de Gibbs para obser-vaciones simuladas de un AR-RM las cualesmostramos en la figura 1. Para una muestra detalla N = 500 los parametros que se usaron paragenerar la simulacion son: k = 2,

A =

(0.99 0.010.01 0.99

)



0 50 100 150 200 250 300 350 400 450 500−4

−3

−2

−1

0

1

2

3Observaciones

iteraciones

0 50 100 150 200 250 300 350 400 450 500

0

0.2

0.4

0.6

0.8

1

Frecuencia empirica de visitas al estado 1

iteraciones

Figura 1. Observaciones simuladas y frecuenciaempırica de las visitas de {x(t)} al estado i = 1.

θT = (1, 0,−0.5,−2, 0, 0.5) y σ2 = (0.5, 0.2).En la figura 2 se observa el comportamiento

de los iterados de los parametros A(t), θ(t) y σ2(t).En la seccion 5 mostramos que el algorit-

mo de Gibbs satisface propiedades de consisten-cia y que los estimados de los parametros satis-facen un Teorema del lımite central (TCL, siglasen ingles) lo que justifica su uso, pero es difıcilincorporar las restricciones de estabilidad §2.1 eneste caso. Por lo tanto implementaremos un algo-ritmo hıbrido donde se sustituye el paso de Gibbspara θ con un paso de Metropolis-Hastings. Es-to se describe con mayor detalle en la proximaseccion.

3.5. El algoritmo Metropolis-Hastings

La idea de esta subseccion es estimar la den-sidad posterior del proceso AR-RM imponiendocondiciones de estabilidad al modelo para estoreemplazamos el muestreo de los condicionalescompletos p(θi| · · · ) por un paso de Metropolis-Hastins tal que la condicion tipo radio espectralse preserve.

El algoritmo Metropolis-Hastings (Roberty Casella [16]) asociado a la densidad objeti-vo p(θi| . . .) (ver (7)) y la densidad condicionalq(·|θi), consiste en la construccion de la cade-na {θ(t)

i } siguiendo el siguiente algoritmo. Dadoθ

(t)i ≡ θi,

0 100 200 300 400 500−1.5

−1

−0.5

0

1

1.5Coeficientes del polinomilio estado 1

0 100 200 300 400 500

−2

−1

00.5

11.5

Coeficientes polinomio estado 2

0 100 200 300 400 5000

0.5

1

1.5Varianza estado 1

0 100 200 300 400 5000

0.2

0.5

1


0 200 400 600

0.01

0.99

Transiciones estado 1

iteraciones0 100 200 300 400 500

0.01

0.99


iteraciones

Figura 2. Comportamiento de los iterados de losparametros.

1. Para cada, i = 1, . . . , m, generamos θ∗i ∼q(·|θi).

2. Aceptamos con probabilidad

γ(θi, θ∗i ) = mın

{1,

p(θ∗i | · · · )q(θ∗i |θi)

p(θi| · · · )q(θi|θ∗i )}

,

Si γ(θi, θ∗i ) > 1, entonces θ

(t+1)i = θ∗i . Si no,

generamos u ∼ U [0, 1] y

θ(t+1)i =

{θ∗i si u < γ(θi, θ

∗i ),

θi en otro caso.

Sea Kθ, el nucleo de la cadena {θ(t)}, dadopor

Kθ(θ, θ∗) = γ(θ, θ∗)q(θ∗|θ) + (1− r(θ))δθ(θ

∗)

donde r(θ) =∫

γ(θ, θ∗)q(θ∗|θ)dθ∗. El primertermino representa la probabilidad de cambiar devalor y el otro la probabilidad de permanecer enel mismo θ. Para este nucleo es sencillo observarque efectivamente {θ(t)

i } tiene como invarianteel condicional deseado si la cadena de Markov{θ(t)

i } con nucleo de transicion K satisface lacondicion de detalle balanceado, esto es, si existeuna probabilidad ν tal que:

ν(θ)K(θ, θ) = ν(θ)K(θ, θ) ∀ θ, θ,



Robert y Casella [16], Teorema 6.2.3, p. 235..El algoritmo hıbrido que se propone

a continuacion mezcla el procedimiento de Gibbs§3.1 con el paso de Metropolis descrito anterior-mente,

σ2 ∼ p(σ2| · · · ).A ∼ p(A| · · · ).x,∼ p(x| · · · ).Para i = 1, . . . , m

θi0 ∼ p(αi0| · · · ).

Para i = 1, . . . , m, l = 1, . . . , k, se muestreaαil con el procedimiento de M-H. Se detallael procedimiento en la siguiente seccion.

3.6. Muestreando desde la region SPara muestrear valores que esten en la re-

gion de estabilidad S ⊂ Rm, debemos definir unadensidad q que tenga como soporte este conjun-to. Si observamos que la condicion de tipo radioespectral puede ser escrita en la forma

αm <1

αλ1/λm

1 · · · αλm−1/λm

m−1

, (8)

entonces para i = 1, . . . , m − 1 nos bas-ta muestrear los αi de manera independiente,de una distribucion con soporte en R. Luegomuestreamos αm de una distribucion con soporteen el intervalo

Sm =

(0 ,

1

αλ1/λm

1 · · · αλm−1/λm

m−1

).

En el apartado §2.1 definimos αi = k|αili|para i = 1, . . . , m, donde li ∈ {1, . . . , k} de-nota la posicion en la cual se alcanza el coe-ficiente αil con modulo maximo. Para determi-nar el coeficiente αili nos resta: muestrear laposicion li de una distribucion discreta uniformeen {1, . . . , k} y su signo de una distribucionBernoulli de parametro p = 1/2. Los parametrosrestantes αil los muestreamos de distribucionescon soporte en los intervalos (−αi, αi).

0 100 200 300 400 500

−1

0

1

Coeficientes del polinomilio estado 1

0 100 200 300 400 500

−2

−1

00.5

1Coeficientes polinomio estado 2

0 100 200 300 400 5000

0.5

1


0 100 200 300 400 5000

0.2

0.5

1


0 100 200 300 400 500

0.01

0.99


iteraciones0 100 200 300 400 500

0.01

0.99


iteraciones

Figura 3. Comportamiento de los iterados de losparametros al muestrear desde N (0, v2)1ISm .

En la implementacion, utilizamos la densi-dad normal truncada en cada uno de los intervalossoporte. Para generar los valores desde la densi-dad Normal truncada, empleamos un metodo de-scrito por Demian y Walker [6] el cual consisteen la introduccion de una variable latente que re-duce el problema a muestrear desde una dupla devariables uniformes.

Para el ejemplo descrito en la seccion §3.4vemos los resultados de las salidas del algoritmoen las figuras 3 y 4.

4. AR-RM con k desconocido

Consideramos el caso donde el grado k delas funciones de regresion en el modelo (1) es de-sconocido. Desde el punto de vista Bayesiano kes una v.a. y la inferencia es basada en la distribu-cion posterior conjunta de φ y k,

π(k, φ|y) ∝ p(y|φ, k)p(φ|k)p(k),

para cada k = 1, . . . , kmax denotaremos porφk = φ|k, Ek = {φk}, Mk = Ek × {k} y porM =

⋃kmax

k=1 Mk a la coleccion finita de todos losmodelos. Construiremos una cadena de Markov{Φ(t)

k } que tenga valores en M con invarianteπ(k, φ|y) haciendo uso de un metodo MCMC lla-mado muestreador de saltos reversibles, el cualdescribimos a continuacion.



0 100 200 300 400 500

−1

0

1

Coeficientes del polinomilio estado 1

0 100 200 300 400 500

−2

−1

00.5

1Coeficientes polinomio estado 2

0 100 200 300 400 5000

0.5

1


0 100 200 300 400 5000

0.2

0.5

1


0 100 200 300 400 500

0.01

0.99


iteraciones0 100 200 300 400 500

0.01

0.99


iteraciones

Figura 4. Comportamiento de los iterados de losparametros al muestrear desde N (θ

(t−1)1,m , v2)1ISm .

4.1. Muestreador de saltos reversibles

El muestreador de saltos reversibles intro-ducido por Green [11] es un algoritmo que con-struye una cadena de Markov que puede saltar en-tre los modelos Mk garantizando que se satisfa-gan las ecuaciones de detalle balanceado §3.5. Elalgoritmo es el siguiente: si la cadena se encuen-tra en el estado (k, φk),

1. Proponemos un nuevo modelo Mk∗ conprobabilidad s(k|k∗).

2. Generamos u de una distribucionq(u|φk, k, k∗).

3. Sea (φ∗k∗ , u∗) = gk,k∗(φk, u), donde gk,k∗ es

una biyeccion entre (φk, u), (φ∗k∗ , u∗), y las

dimensiones de los vectores u, u∗ satisfacend∗k + dim(u) = dk + dim(u∗).

4. Aceptamos el movimiento propuesto(φ∗k∗ , u

∗) con probabilidad

γ = min

(1,

π(k∗, φ∗k∗|y)s(k|k∗)π(k, φk|y)s(k∗|k)

× q(u∗|φ∗k∗ , k∗, k)

q(u|φk, k, k∗)

× det

[∂gk,k∗(φ

∗k, u)

∂(φ∗(k), u)

])(9)

La muestra {kt, t = 1, . . . , T} generadapor este algoritmo permite estimar el ındice de ladensidad posterior p(k|y) bajo perdida cuadraticapor

p(k|y) =1

T

T∑t=1

1Ik(kt),

y la muestra {Φ(t)k , t = 1, . . . , T} permite esti-

mar la E(φk|y, k) bajo perdida cuadratica por

E(φk|y, k) =

∑Tt=1 Φ

(t)k 1Ik(kt)∑T

t=1 1Ik(kt).

Para la implementacion particular para elmodelo (1) proponemos los cambios directa-mente en el nuevo espacio de parametros, es de-cir, gk,k∗(φk, u) = u ası el termino jacobianoque aparece en (9) es 1 y en la formulacion ge-neral del algoritmo de Green la probabilidad deaceptacion es,

γ = min

{1,

π(k∗, φ∗k∗ |y)s(k|k∗)π(k, φk|y)s(k∗|k)

× q(u∗|φ∗k∗ , k∗, k)

q(u|φk, k, k∗)

}. (10)

Elegimos para k una previa uniforme so-bre el conjunto {1, . . . , kmax}. Si estamos en unmodelo que tiene ındice k proponemos un nuevomodelo con ındice k∗ de la distribucion condi-cional s(k|k∗). Proponemos un nuevo modelocuya dimension este muy cerca del modelo an-terior pero que eventualmente nos permita saltosgrandes de dimension, es decir, queremos unadistribucion condicional s que a los saltos de di-mension pequenos les de alta probabilidad y losgrandes baja probabilidad, para este fin seguimosa Troughton y Godsill [20] que utilizan la dis-tribucion Laplaciana,

s(k∗|k) ∝ exp(−τ |k−k∗|), k∗ ∈ {1, . . . , kmax},

donde τ es un parametro de escala.La implementacion del procedimiento

MCMC es la siguiente,

a) ψ ∼ π(ψ|x, y).

b) x ∼ π(x|ψ, y).



c) (k, θ) → (k∗, θ∗).

los pasos a) y b) son basicamente los pasos deGibbs descritos en §3.2,3.3. El paso c) involu-cra un paso de Metropolis con probabilidad deaceptacion (10) el cual se simplifica al solo con-siderar en este el parametro θ directamente in-volucrado con k, en este caso,

γ = min

{1,

p(k∗, θ∗k∗ |A, σ2, x, y)s(k|k∗)p(k, θk|A, σ2, x, y)s(k∗|k)

× q(u∗|θ∗k∗ , k∗, k)

q(u|θk, k, k∗)

si elegimos q(u|θk, k, k) = p(θk|A, σ2, x, y) y deacuerdo a la identidad de Besag,

p(k, θk|A, σ2, x, y)

p(θk|A, σ2, x, y)= p(k|A, σ2,x,y),

entonces la probabilidad de aceptacion para el pa-so c) es:

γ = min{

1,p(k∗|A, σ2,x,y)

p(k|A, σ2, x, y)

s(k ∗ |k)

s(k∗|k)

},

este es el punto de vista considerado enTroughton y Godsill [20]. A continuacion obte-nemos la distribucion p(k|A, σ2,x,y) para rea-lizar la evaluacion de γ.

4.2. Calculo de p(k|A, σ2,x,y)

Comenzaremos escribiendo el modelo (1)en la forma vectorial

y1 = Zθ + ε,

con y1 = (y1, . . . , yN)T , ε =(σx1ε1, . . . , σx1εN). Donde Z es una matrizde dimension (N − 1)×m(k + 1) y el elemento

Zn(ik) = 1I[−1,1](yn)1Ii(xn)(yn)k−1.

Denotaremos por σx = (σx1 , . . . , σxN). Por

el teorema de Bayes,

p(k|A, σ2x, y) ∝ p(k)p(y|k,A, σ2, x)

= p(k)

∫p(y|θ, k, A, σ2,x)p(θ|k, σθ)dθ

pero

p(y|k, θ, A, σ2,x)p(θ|k, σθ)

= N (ε|0, σ2xIN)N (θ|0, σθIdθ

)

= (2π)−N/2

m∏i=1

σNii (2π)−dθ/2

× exp

{−1

2εT Dε− 1

2σ−2

θ θT θ

}

con D = (σxI)−1.

Tenemos que

εtDε + σ−2θ θT θ

= (y1 −Zθ)T D(y1 −Zθ) + σ−2θ θT θ

= yT1 Dy1 + (θ −mθ)

T C−1(θ −mθ)

− mTθ C−1mθ

con C−1 = ZT DZ + σ−2θ I , mθ = CZT Dy1.

Luego

p(y|k, θ, A, σ2,x)p(θ|k, σθ)

= (2π)−N/2

m∏i=1

σNii N (θ|mθ, C) det(C1/2)

× exp(−1

2yT

1 Dy1 −mTθ C−1mθ)

al integrar con respecto a θ se tiene,

p(k|A, σ2,x,y)

∝ p(k)(2π)−N/2

m∏i=1

σNii det(C1/2)

× exp(−1

2yT

1 Dy1 −mTθ C−1mθ),

y finalmente la probabilidad de aceptacion γ seescribe como:

min

{1,

det(C1/2k∗ ) exp(1

2mθk∗

T Ck∗−1mθk∗ )

det(C1/2k ) exp(1

2mθ

T C−1k mθ)

× s(k∗|k)

s(k|k∗)}

.

Para el ejemplo descrito en la seccion §3.4 vemosel comportamiento de las salidas del algoritmo enlas figuras 5 y 6.



0 100 200 300 400 500 600 700 800 900 10000

1

2

3

4

5

6Valores muestrales del grado

iteraciones

k

Figura 5. Comportamiento de los iterados de k.

0.5 1 1.5 2 2.5 3 3.5 40

100

200

300

400

500

600

700Densidad posterior p(k|y)

Figura 6. Distribucion posterior p(k|y) estimada.

5. Convergencia del muestreador de Gibbs

En esta seccion demostramos la convergen-cia de la cadena {ψ(t),x(t)}. Siguiendo a Rosa-les [19] se demuestra que la cadena es ergodicay que converge uniformemente sobre E al poste-rior conjunto π(ψ, x|y). El muestreador descritoen la seccion §3.1 genera la sucesion {ψ(t),x(t)},t = 1, . . . , T , por composicion de dos nucleos:

Kx(x(t)|x(t−1))

=

∫

Ψ

πx(x(t)|ψ, y)πψ(ψ|x(t−1), y)dψ

Kψ(ψ(t)|ψ(t−1)))

=

∫

{1,...,m}N

πψ(ψ(t−1)|,x,y)πx(x|ψ(t−1),y)dx

si cada nucleo actua sobre el respectivo condi-cional de la iteracion previa,

π(t)

x (x(t)|y) =

∫

{1,...,m}N

Kx(x(t)|x(t−1)))

× π(t−1)

x (x(t−1)|y)dx

π(t)

ψ (ψ(t)|y) =

∫

Ψ

Kψ(ψ(t)|ψ(t−1)))

× π(t−1)

ψ (ψ(t−1)|y)dψ

donde π(t)x (x(t)|y), π

(t)ψ (ψ(t)|y) corresponden

a los marginales de la distribucion conjunta(ψ(t),x(t)) condicionado a y en la t-esima itera-cion.

Para demostrar la ergodicidad de{ψ(t), x(t)}, procedemos mostrando que ca-da sucesion {ψ(t)} y {x(t)} es ergodica y por lotanto tiene como invariante la correspondientedensidad marginal posterior π(x|y) y π(ψ|y).A continuacion demostramos que los marginalesposteriores de {ψ(t)} y {x(t)} son densidadesinvariantes para los nucleos Kψ y Kx, esto es,

∫{1,...,m}N Kx(x

(t)|x(t−1))π(x(t−1)|y)dx(t−1)

= πx(x(t)|y)

y∫Ψ

Kψ(ψ(t)|ψ(t−1))π(ψ(t−1)|y)dψ(t−1)

= πψ(ψ(t)|y).



En efecto,∫

{1,...,m}N

Kx(x(t)|x(t−1))πx(x

(t−1)|ψ, y)dx(t−1)

=

∫

{1,...,m}N

∫

Ψ

πx(x(t)|ψ, y)πψ(ψ|x(t−1),y)

× dψπx(x(t−1)|ψ, y)dx(t−1)

=

∫

Ψ

∫

{1,...,m}N

πx(x(t)|ψ, y)πψ(ψ|x(t−1),y)

× π(xx

(t−1)|ψ, y)dx(t−1)dψ

=

∫

Ψ

πx(x(t)|ψ, y)

∫

{1,...,m}N

π(ψ, x(t−1)|y)

× dx(t−1)dψ

=

∫

Ψ

πx(x(t)|ψ, y)π(ψ|y)dψ

=

∫

Ψ

πx(x(t), ψ|y)dψ

= πx(x(t)|y)

para πψ(ψ(t)|y) la demostracion es analoga.

Teorema 5.1 Sea {ψ(t),x(t)} generada por elprocedimiento de Gibbs para el AR-RM entonces

i. Existe ρ, 0 ≤ ρ < 1 y c > 0 tal que ∀t ∈ N,

‖π(t)x − π‖ ≤ Cρt−1.

ii. Existe r, 0 ≤ r < 1 y R > 0 tal que ∀t ∈ N,

‖π(t)ψ − π‖ ≤ Rrt−1.

Demostracion de i. Como la cadena {x(t)} es-ta definida en un espacio de estado discreto{1, . . . , m}N , solo hay que demostrar que es irre-ducible y aperiodica, para esto nos basta con verque el nucleo de transicion es positivo, en efecto,por el procedimiento de Carter y Kohn descritoen §3.3 el nucleo de transicion satisface que:

Kx(x(t)|x(t−1))

∝ p(x(t)N |ψ, y)

N−1∏n=1

p(x(t)n |x(t)

n+1ψ, y) > 0

y por teoremas clasicos de cadenas de Markovfinitas se satisface el resultado con, C =

card({1, . . . , m}N), ρ = (1 − 2K∗x) y K∗

x =ınf Kx(x

′|x), para cualesquieras realizaciones x′

y x.Para demostrar la segunda parte del teore-

ma es necesario demostrar que Kψ satisface unacondicion de minorizacion, porque los valores dela sucesion {ψ(t)} estan en el conjunto no discre-to Ψ.

Lema 5.1 Existe una constante 0 < h ≤ 1 y unadensidad κ sobre ψ, tal que

Kψ(ψ′, ψ) ≥ h κ(ψ′),

para todo ψ ∈ ψ.

Demostracion: por la definicion de Kψ(ψ′, ψ)se tiene,

Kψ(ψ′, ψ)

=

∫

{1,...,m}N

πψ(ψ′|x,y)πx(x|ψ, y)dx

≥∫

{1,...,m}N

ınfx

πψ(ψ′|x,y)πx(x|ψ, y)dx

≥ η(ψ′),

donde η(ψ′) = ınfx

πψ(ψ′|x, y). Para cada x ve-mos que,

∫

ψ

η(ψ′)dψ′ ≤∫

ψ

πψ(ψ′|x, y)dψ′ = 1.

Ademas existe ψ ∈◦ψ tal que para cada x ∈

{1, . . . , m}N , p(y|x, ψ) > 0, en efecto,

p(y|x, Φ) =N∏

n=1

pin(yn, yn−1)

=N∏

n=1

N (yn − f(in, yn−1), σ2in) > 0

y por la eleccion de los previos, p(ψ) > 0,para

ψ ∈◦ψ, de aquı

η(ψ) ∝ ınfx

p(y|x, ψ)p(ψ) > 0.

De la forma de la verosimilitud y los previos seve que η es diferenciable y por lo tanto continuade aquı

c =

∫

ψ

η(ψ′)dψ′ > 0,



si κ(ψ′) = η(ψ′)/c se obtiene el resultado.

Demostracion de ii. La condicion de mi-norizacion sobre Kψ implica que la cadena{ψ(t)} es κ-irreducible y por la invarianza deπ(ψ|y) tambien π(ψ|y)-irreducible, por otraparte {ψ(t)} es recurrente y positiva por tantoπ(ψ|y) es unica. La condicion de minorizacionde Kψ implica que la cadena es aperiodica, Meyny Tweedie [14], p. 118. Por ultimo la condicionde minorizacion nos dice que todo el espacio Ψes un conjunto pequeno y en concordancia con elteorema 16.2.4 de Meyn y Tweedie [14], p. 392se obtiene el resultado.

Explıcitamente tenemos una cota de la ve-locidad de convergencia de {ψ(t)} a π(ψ|y) comouna consecuencia de la relacion de dualidad,

π(t)

(ψ|y) =

∫

{1,...,m}N

π(ψ|x,y)π(t)(x|y)dx,

lo cual como observa Robert et al. [17] (teorema1, (i)) implica

‖π(t)ψ − π‖ ≤ ‖π(t)

x − π‖ ≤ Cρ(t−1).

Lo que nos dice que la velocidad de conver-gencia de {ψ(t)} al invariante esta mayorada porla velocidad de convergencia de {x(t)}. Ademastenemos una cota del numero de iteraciones nece-sario para garantizar un umbral de tolerancia tol

para la diferencia ‖π(t)ψ − π‖,

m =log(tol)− log(C)

log(1− 2K∗x)

+ 1,

y como log(1 − 2K∗x) ≤ 2K∗

x y C ≤ mN final-mente la cota para el numero de iteraciones es,

m ≥ log(tol)−N log(m)

2K∗x

+ 1.

En la practica ψ(0),x(0) son conocidos y fi-jos, K∗

x depende del estado inicial x(0) y por lotanto el ınfimo en la definicion de K∗

x dependesolo de x′. En este caso la minimizacion puedeser realizada directamente utilizando por ejemploel algoritmo de programacion dinamica de Viter-bi (ver MacDonald y Zucchini [13]).

Un TCL para los parametros estimados dela muestra {ψ(t)} se obtiene a partir de la cadena{x(t)} observando que esta es ϕ-mixing, es decir,que existe una funcion monotona decreciente ϕt,tal que ϕt → 0 cuando t →∞, y

∫

{1,...,m}N

|π(t)x (x|y)− π(x|y)|dx ≤ ϕt,

en nuestro caso esta condicion es satisfechacon ϕt = Cρt−1, y se traslada por la dualidad a{ψ(t)} de donde el TCL aplica para esta sucesion.

Agradecimiento L. R. agradece al Departamentode Matematicas del IVIC por su hospitalidad du-rante la realizacion de este trabajo y al CDCH dela UC por su apoyo financiero a traves del proyec-to de ayuda menor 0504-06.

Referencias

[1] L. E. Baum, T. Petrie, G. Soules, andN. Weiss. A maximization tecnique occur-ing in the statistical analysis of a probabilis-tic functions of Markov chains. Ann. Math.Stat., 41:164–171, 1970.

[2] J. Bernardo and A. Smith. Bayesian Theory.Wiley, New York, 1994.

[3] H. Bunke and O. Bunke. Nonlinear Re-gression, Functional Relations and RobustMethods. Wiley, New York, 1989.

[4] O. Cappe. Ten years of HHMs. Available:http://www-sig.enst.fr/˜cappe, 2001.

[5] C. K Carter and R. Kohn. On Gibbs sam-pling for state space model. Biometrika,81:541–553, 1994.

[6] P. Demian and S. G. Walker. SamplingTruncated Normal, Beta, and Gamma Den-sities. Journal of Computational andGraphical Statistics, 10(2):206–215, 2001.

[7] R. Douc, E. Moulines, and T. Ryden.Asymptotic properties of the maximumlikelihood estimator in autoregressive mod-els with Markov regime. Ann. Statist. 32 no.5, 2254–2304, 2004.



[8] Ferreira P. E. A Bayesian analysis of deswitching regresion model: know number ofregimes. J. Amer. Statist. Assoc., 70:370–374, 1975.

[9] G. S. Fishman. Monte Carlo, Concepts, Al-gorithms, and Applications. Springer Ver-lag, New York, 1996.

[10] A. R. Gallant y Fuller W. A. Fittingsegmented polynomial regression modelswhose join points have to be estimated. J.Amer. Statist. Assoc., 68:144–147, 1973.

[11] P.J. Green. Reversible jump Markovchain Monte Carlo computation andBayesian model determination. Biometrika,82(4):711–732, 1995.

[12] J.D. Hamilton. A new approach to the eco-nomic analysis of non stationary time se-ries and the business cycle. Econometrica,pages 357–384, 1989.

[13] I.L. MacDonald y W. Zucchini. HiddenMarkov and Other Models for discrete-valued Time Series. Chapman and Hall,1997.

[14] S. P. Meyn y R. L. Tweedie. Markov Chainsand Stochastic Stability. Springer-Verlag,London, 1993.

[15] R. Rıos y L. Rodrıguez. Estimacionsemiparametrica en procesos autorregre-sivos con regimen de Markov. Acepta-do para su publicacion en DivulgacionesMatematicas.

[16] C. P. Robert y G. Casella. Monte Carlostatistical methods. Springer-Verlag, NewYork, 1999.

[17] C. P. Robert, G. Celeux, y J. Diebolt.Bayesian estimation of hidden Markovmodels: a stochastic implementation.Statist. Prob. Lett., 83:16–77, 1993.

[18] C. P. Robert, T. Ryden, y D. M. Titterington.Bayesian inference in hidden markov mod-els trough the reversible jump markov chain

monte carlo method. Journal of the RoyalStatistical Society B, 62(1): 57–75, 2000.

[19] R. Rosales. MCMC for hidden Markovmodels incorporating aggregation of statesand filtering. Bull. Math. Biol. 66: 1173-99,2004.

[20] P. Troughton y S. Godsill. A ReversibleJump Sampler for Autoregressive Time Se-ries. Proceedings of the IEEE InternationalConference on Acoustics, Speech and Sig-nal Processing, IV:2257–2260, 1998.

[21] J. Yao y J. G. Attali. On stability of non-linear AR process with Markov switching.Adv. Applied Probab, 1999.



Aplicacion de MCMC para procesos AR polinomiales con r ...

Documents

Transcript of Aplicacion de MCMC para procesos AR polinomiales con r ...