TESIS_edgarSM
-
Upload
mehida-vera-medina -
Category
Documents
-
view
7 -
download
2
description
Transcript of TESIS_edgarSM
Dedicado a
mi familia
AGRADECIMIENTOS
A mi asesor y maestro el Dr. Antonio Villanueva Morales por dirigir esta tesis. Gracias por
su apoyo, dedicacion y oportunas observaciones para el desarrollo de este trabajo. Tambien
al Dr. Eduardo Gutierrez Gonzalez, el M.C. Margarito Soriano Montero, el M.C. Alejandro
Corona Ambrız y al Dr. Gerardo Terrazas Gonzalez por revisar esta tesis y sus valiosas
aportaciones para el termino de la misma.
A mis padres y hermanos, sin lugar a duda las personas mas importantes en mi vida.
Gracias por su apoyo incondicional.
A mis maestros que durante toda mi carrera profesional contribuyeron a mi formacion
academica.
A mis amigos que han estado conmigo en todo momento, gracias por su tiempo, consejos
y paciencia.
A todos ustedes muchas gracias.
INDICE GENERAL
RESUMEN IX
SUMMARY XI
INTRODUCCION XIII
1. VEROSIMILITUD 1
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. La funcion de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1. Datos dependientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2. Funcion score e informacion . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Estimadores de maxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1. Propiedades de los estimadores de maxima verosimilitud . . . . . . . 10
1.4. Pruebas estadısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. VEROSIMILITUD COMPUESTA 17
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Definicion de verosimilitud compuesta . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1. Verosimilitudes compuestas condicionales . . . . . . . . . . . . . . . . 18
2.2.2. Verosimilitudes compuestas marginales . . . . . . . . . . . . . . . . . 19
2.2.3. Terminologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Estimadores de maxima verosimilitud compuesta . . . . . . . . . . . . . . . 20
IV
2.3.1. Teorıa asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2. Aplicaciones de la verosimilitud compuesta . . . . . . . . . . . . . . . 26
2.3.2.1. Campos aleatorios Gaussianos . . . . . . . . . . . . . . . . . 26
2.3.2.2. Extremos espaciales . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2.3. Efectos aleatorios serialmente correlacionados . . . . . . . . 29
2.3.2.4. Efectos aleatorios espacialmente correlacionados . . . . . . . 32
2.3.2.5. Modelos mixtos conjuntos . . . . . . . . . . . . . . . . . . . 33
2.3.2.6. Matrices de correlacion de variables con el tiempo . . . . . . 34
2.3.2.7. Modelos de regresion marginal con datos faltantes . . . . . . 35
2.3.3. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4. Robustez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5. Identificabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6. Aspectos computacionales de la verosimilitud compuesta . . . . . . . . . . . 44
2.6.1. Errores estandar de los estimadores de maxima verosimilitud compuesta 44
2.6.2. Algoritmo EM para la verosimilitud compuesta . . . . . . . . . . . . 46
2.6.3. Integracion en bajas dimensiones versus integracion en altas dimensiones 47
2.6.4. Dificultades combinatorias . . . . . . . . . . . . . . . . . . . . . . . . 48
3. MODELOS ESPACIALES SOBRE LATTICES 49
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2. Campos aleatorios de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.1. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.2. Generalizacion en dos dimensiones . . . . . . . . . . . . . . . . . . . 52
V
3.2.3. Campos aleatorios de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.4. Funcion negpotencial y teorema de Hammersley-Clifford . . . . . . . 55
3.3. Generacion de un campo aleatorio de Markov . . . . . . . . . . . . . . . . . 57
3.3.1. El Muestreador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.2. Criterio de convergencia . . . . . . . . . . . . . . . . . . . . . . . . . 59
4. EL MODELO CONDICIONAL POISSON WINSORIZADO 63
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2. El auto-modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3. El auto-modelo Poisson Winsorizado . . . . . . . . . . . . . . . . . . . . . . 66
4.3.1. Distribucion Poisson Winzorizada . . . . . . . . . . . . . . . . . . . . 67
4.3.2. Formulacion espacial de la distribucion Poisson Winzorizada . . . . . 68
4.4. Modelo condicional Poisson Winsorizado centrado . . . . . . . . . . . . . . . 69
4.4.1. Estimacion por maxima verosimilitud . . . . . . . . . . . . . . . . . . 70
4.4.2. Maxima verosimilitud vıa Monte Carlo . . . . . . . . . . . . . . . . . 71
4.5. Alternativas a la estimacion por maxima verosimilitud . . . . . . . . . . . . 74
4.5.1. Pseudo-verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.5.2. Pseudo-verosimilitud generalizada . . . . . . . . . . . . . . . . . . . . 75
5. ESTUDIO DE SIMULACION PARA EL MODELO POISSON WINSORIZA-
DO 78
6. APLICACION DE LA VEROSIMILITUD COMPUESTA A UN CON-
JUNTO DE DATOS REALES 87
VI
7. CONCLUSIONES 90
BIBLIOGRAFIA 95
INDICE DE FIGURAS
1.1. Funciones de verosimilitud y log-verosimilitud para datos de una distribucion
Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1. Diferentes estructuras de vecindades . . . . . . . . . . . . . . . . . . . . . . . 53
3.2. Tipos de cliques para un sistema de orden 1. . . . . . . . . . . . . . . . . . . 54
3.3. Tipos de cliques para un sistema de orden 2. . . . . . . . . . . . . . . . . . . 54
5.1. Lattice regular 10×10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2. Grafica de convergencia del muestreador de Gibbs para sitios 1 y 100. . . . . 79
5.3. Grafica de convergencia del muestreador de Gibbs para sitios 35 y 80. . . . . 79
5.4. Grafica de convergencia del muestreador de Gibbs para sitios 25 y 55. . . . . 80
5.5. Valores de 500 estimaciones de κ simulados de un modelo condicional Poisson
Winsorizado con θ = (κ, η) =(1.099,0.01) y R=10. . . . . . . . . . . . . . . . 81
5.6. Valores de 500 estimaciones de η simulados de un modelo condicional Poisson
Winsorizado con θ = (κ, η) =(1.099,0.01) y R=10. . . . . . . . . . . . . . . . 82
5.7. Estimaciones del error cuadrado medio para estimadores de los parametros κ
y η (×102) para un modelo condicional Poisson Winsorizado con valores de
η =(0.01,...,0.05) y κ =1.099. . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.8. Estimaciones del sesgo para estimadores de los parametros κ y η (×102) para
un modelo condicional Poisson Winsorizado con valores de η =(0.01,...,0.05)
y κ =1.099. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.9. Estimaciones del error estandar de κ y η (×102) para un modelo condicional
Poisson Winsorizado con valores de η =(0.01,...,0.05) y κ =1.099. . . . . . . 85
VIII
6.1. Distribucion espacial del numero de acaros. . . . . . . . . . . . . . . . . . . . 87
6.2. Grafica de contorno de los valores de la funcion log-verosimilitud Monte Carlo
para el modelo condicional Poisson Winsorizado ajustado a los datos de acaros. 89
RESUMEN
Recientemente, ha habido un interes creciente en los metodos de verosimilitud compuesta para
inferencia estadıstica de datos de una amplia variedad de aplicaciones. Estos metodos estan
siendo aplicados con la finalidad de resolver el problema de inferencia en situaciones donde la
verosimilitud completa de los datos es computacionalmente intratable debido principalmente
a la compleja estructura de dependencias, lo cual es comun encontrar en datos espaciales. Los
metodos de maxima pseudo-verosimilitud (MPV) de Besag y maxima pseudo-verosimilitud
generalizada (MPVG) de Huang y Ogata son ambos buenos ejemplos de metodos de vero-
similitud compuesta que han mostrado ser utiles en la simplificacion de la inferencia para
datos espaciales. Estudios recientes han mostrado que el metodo de MPVG puede ser tan facil
de implementar computacionalmente como el metodo de MPV pero tiene significativamente
mejor desempeno que este ultimo y mas cercano al desempeno del metodo de verosimilitud or-
dinaria cuando existen dependencias muy fuertes entre los datos. Sin embargo, estos estudios
solamente consideran modelos los cuales la verosimilitud existe en forma explıcita (cerrada)
y el metodo de MPVG es facil de implementar como en el caso del modelo auto-normal para
datos continuos y el modelo Ising para datos espaciales binarios. De este modo, existe la
necesidad de comparar el desempeno de dos metodos en modelos computacionalmente mas
complicados, donde la verosimilitud no existe en forma explıcita. En este trabajo, extendemos
la aplicacion del metodo de MPVG al auto-modelo Poisson de Kaiser y Cressie. Las compara-
ciones en desempeno con el metodo de MPV se lleva a cabo tanto en datos simulados como
en datos reales en una region de lattice espacial cuadrado. Resultados de nuestros estudios
con el auto-modelo Poisson Winsorizado muestran que los estimadores producidos por el
X
metodo de MPVG tienen un mejor desempeno que los estimadores producidos por el metodo
de MPV con respecto al error cuadrado medio, sesgo, error estandar y cercanıa al estimador
de maxima verosimilitud. Adicionalmente, en este trabajo tambien se presenta una revision
sintetizada de avances recientes en la teorıa y aplicacion de las verosimilitudes compuestas,
incluyendo aplicaciones en geoestadıstica, extremos espaciales, modelos espacio-temporales,
datos longitudinales y de series de tiempo.
SUMMARY
Recently, there has been an important increase in the use of composite likelihood methods in
statistical inference of data. These methods are being applied to deal with inference when the
full likelihood of the data is intractable computationally due mainly to a complex estructure
of dependences, which happens commonly in spatial data. The methods of maximum pseudo-
likelihood (MPL) of Besag and maximum generalized pseudo-likelihood (MGPL) of Huang
and Ogata are both good examples of composite likelihood methods that have shown to
be useful to simplify inference for spatial data. Recent studies have shown that Huang and
Ogata’s MGPL method can be as easy to implement computationally as Besag’s MPL method
but has significantly better performance than the latter and closer to the ordinary maximum
likelihood method when dependences among the data are strong. Nevertheless, these studies
only consider models for which the likelihood exists in explicit (closed) form and Huang and
Ogata’s method is easy to implement as in the auto-normal model for continuos site variables
and the Ising model for binary spatial data. So, there is a need for comparisons of performance
between the two methods in computationally more complex models, where the likelihood
does not exist in closed form. In this work we extend the application of Huang and Ogata’s
MGPL method to the Winsorized Poisson auto-model of Kaiser and Cressie. Comparisons in
performance with Besag’s MPL method are conducted both in simulated and in real data on
a region of a spatial square lattice. Results from our studies in the Winsorized Poisson auto-
model show better performance of the MGPL estimators than the MPL estimators respect to
mean square error, bias, standard error and closeness to the maximum likelihood estimator.
Finally, in this work we also present a short review of recent developments in the theory and
application of composite likelihoods, including applications to geostatistics, spatial extremes,
and space-time models, as well as clustered and longitudinal data and time series.
INTRODUCCION
En un numero importante de aplicaciones, la presencia de grandes conjuntos de datos co-
rrelacionados o la especificacion de modelos estadısticos altamente estructurados hace muy
difıcil y en ocasiones imposible, el calculo del estimador de maxima verosimilitud para los
datos. Para tales situaciones, una alternativa a los metodos de verosimilitud ordinarios es
adoptar el uso de pseudo-verosimilitudes simples, como aquellas que pertenecen a la clase
de verosimilitudes compuestas (Lindsay, 1988). Una verosimilitud compuesta consiste de una
combinacion de terminos validos de verosimilitud, los cuales usualmente estan relacionados
a pequenos subconjuntos de datos. Se ha demostrado que la verosimilitud compuesta tiene
buenas propiedades teoricas y posee un amplio rango de aplicaciones potenciales. Por ejemplo,
ha mostrado ser de gran utilidad en estadıstica espacial (Hjort y Omre, 1994; Heagerty y
Lele, 1998; Varin et al., 2005), analisis de supervivencia multivariada (Parner, 2001), mode-
los lineales mixtos generalizados (Renard et al., 2004), modelos de fragilidad (Henderson y
Shimakura, 2003) y genetica (Fearnhead y Donnelly, 2002).
Los metodos de verosimilitud compuesta son una extension de la teorıa de verosimilitud
de Fisher, uno de los enfoques mas influyentes en la estadıstica. Tal extension es generalmente
motivada por cuestiones de factibilidad computacional surgida en la aplicacion del metodo de
maxima verosimilitud en analisis de datos correlacionados en altas dimensiones. Las depen-
dencias complejas en estas situaciones implican cambios sustanciales en la modelacion y en los
metodos estadısticos de analisis. La idea de proyectar funciones de verosimilitud complicadas
en altas dimensiones a objetos de verosimilitud de menos dimension computacionalmente
factibles es metodologicamente atractivo. La verosimilitud compuesta hereda muchas de las
XIV
buenas propiedades inferenciales de la funcion de verosimilitud completa, pero es mas facil
de implementar en conjuntos de datos correlacionados de altas dimensiones.
Una de las aplicaciones fundamentales de los metodos de verosimilitud compuesta ocurre
en los modelos estadısticos espaciales, particularmente en el caso de modelos para datos en
lattice o lo que se conoce como campos aleatorios de Markov. El metodo de maxima pseudo-
verosimilitud de Besag (1975) y el metodo de maxima pseudo-verosimilitud generalizada de
Huang y Ogata (2002) son ejemplos de metodos de verosimilitud compuesta que han mostra-
do ser de gran utilidad para estimacion en campos aleatorios de Markov. La distribucion
conjunta para estos modelos tiene la forma de una distribucion de Gibbs, la cual involucra
una constante de normalizacion que resulta muy difıcil y en muchas ocasiones imposible de
evaluar. Esto hace muy complicado o a veces imposible el calculo del estimador de maxima
verosimilitud para estos modelos. Como una alternativa a este problema, Besag (1974, 1975)
propuso primero el metodo coding y luego el estimador de maxima pseudo-verosimilitud
(EMPV), los cuales son muy faciles de calcular. En Besag (1977) se demostro que el EMPV
es mas eficiente que el estimador producido por el metodo coding. Desde entonces, muchos in-
vestigadores han demostrado que bajo condiciones adecuadas, el EMPV es consistente y con
distribucion asintotica normal. Sin embargo, en muchos estudios se ha demostrado que cuando
la interaccion entre los datos se hace fuerte, el EMPV se hace menos eficiente. Debido a este
problema, Huang y Ogata (2002) propusieron el estimador de maxima pseudo-verosimilitud
generalizada (EMPVG), el cual es una generalizacion del EMPV de Besag. Huang y Ogata
(2002) implementaron el EMPV y el EMPVG en conjuntos de datos simulados para un mode-
lo Ising y dos modelos auto-normales sobre un lattice rectangular. En ese estudio, se muestra
que el EMPVG es mejor que el EMPV en cuanto a error cuadrado medio, error estandar,
eficiencia asintotica y cercanıa al EMV. Ademas, en tal estudio tambien se muestra que las
diferencias entre el EMPVG y el EMPV se hacen mas notables conforme se incrementa la de-
pendencia espacial entre los datos. Sin embargo, Huang y Ogata (2002) calculan el EMPVG
en modelos donde este es facil de computar, ademas de que la constante normalizadora de la
distribucion de Gibbs para estos modelos tiene una forma explıcita facil de evaluar. En este
XV
contexto, existe la necesidad de extender la aplicabilidad y evaluar la eficiencia del EMPVG
en otros modelos diferentes al Ising y auto-normal y donde la constante normalizadora de la
distribucion de Gibbs sea difıcil o imposible de computar.
En este trabajo, implementamos el calculo del EMPVG y del EMPV en conjuntos de
datos simulados y reales de un modelo condicional Poisson Winsorizado. Los estimadores son
comparados en cuanto al error cuadrado medio, sesgo, error estandar y cercanıa al EMV.
En el Capıtulo 1 se hace una revision general del metodo de maxima verosimilitud. En el
Capıtulo 2 se presenta una revision sobre los avances recientes en la teorıa y aplicaciones de los
metodos de verosimilitud compuesta. Se considera un amplio rango de areas de aplicaciones
que incluyen geoestadıstica, extremos espaciales, modelos espacio-temporales y modelos para
datos de series de tiempo y longitudinales. El Capıtulo 3 hace referencia a los campos aleato-
rios de Markov y sus propiedades. En el Capıtulo 4 se presenta el modelo condicional Poisson
Winsorizado. En los Capıtulos 6 y 7 se implementa el calculo de los estimadores EMPVG y el
EMPV a conjuntos de datos simulados y reales del modelo condicional Poisson Winsorizado,
respectivamente. Finalmente, el trabajo concluye con una conclusion en el Capıtulo 7.
CAPITULO 1
VEROSIMILITUD
1.1. Introduccion
Existen dos areas principales dentro de la inferencia estadıstica: estimacion y pruebas de
hipotesis. A continuacion nos enfocaremos solo en la parte de estimacion ya que es allı donde
podemos encontrar la esencia de nuestro trabajo.
La estimacion es un metodo inferencial cuyo objetivo es conocer el valor de uno o mas
parametros de la distribucion de una variable aleatoria. Cuando se muestrea de una poblacion
descrita por una funcion de densidad de probabilidad (fdp) o una funcion de masa de pro-
babilidad (fmp) representada como f(x; θ), el conocimiento de θ produce conocimiento de
la poblacion completa. Entonces, es natural buscar un buen estimador del valor θ, que sea
un buen estimador puntual de θ. Una de las tecnicas mas usadas de estimacion es el meto-
do de Maxima Verosimilitud. En este capıtulo desarrollaremos los principales resultados de
esta tecnica estadıstica para posteriormente introducirnos a los metodos de verosimilitud
compuesta en el capıtulo 2.
La funcion de verosimilitud 2
1.2. La funcion de verosimilitud
La funcion de verosimilitud es muy importante dentro de la estadıstica y es uno de los
conceptos basicos de la misma. La podemos definir como sigue:
Sea f(x; θ) una fdp o fmp de la muestra X = (X1, ..., Xn). Entonces dado que X = x es
observado, la funcion de θ definida por
L(θ;x) = f(x; θ), (1.1)
se conoce como verosimilitud o funcion de verosimilitud.
En la mayorıa de las ocasiones es preferible, por cuestiones computacionales, considerar
la funcion log-verosimilitud obtenida al tomar el logaritmo de (1.1); esto es,
`(θ;x) = log(L(θ;x)).
Si X es un vector aleatorio discreto, entonces L(θ;x) = Pθ(X = x). Si comparamos la
funcion de verosimilitud en dos puntos del parametro y encontramos que
Pθ1(X = x) = L(θ1;x) > L(θ2;x) = Pθ2(X = x),
entonces la muestra observada es mas probable de ocurrir si θ = θ1 que si θ = θ2, lo cual
puede ser interpretado diciendo que θ1 es un valor mas plausible para el valor verdadero de θ
que θ2. Se han propuesto diferentes formas para el uso de esta informacion, pero ciertamente
es razonable examinar la probabilidad de la muestra que se observa bajo varios valores de θ.
Esta es la informacion proporcionada por la funcion de verosimilitud.
Si X1, ..., Xn es una muestra aleatoria de una poblacion con fdp o fmp f(x; θ1, ..., θk), la
funcion de verosimilitud esta definida por
L(θ;x) = L(θ1, ..., θk;x1, ..., xn) =n∏i=1
f(xi; θ1, ..., θk). (1.2)
La funcion de verosimilitud 3
Ejemplo 1.1 (Distribucion Exponencial). Sea x1, ..., xn una muestra aleatoria de la den-
sidad f(x; θ) = θ−1e−x/θ, x > 0, θ > 0. Entonces, en este caso (1.2) es
L(θ;x) =n∏i=1
θ−1e−xi/θ = θ−n exp
(−1
θ
n∑i=1
xi
), θ > 0.
Ejemplo 1.2 (Distribucion Weibull). La densidad Weibull es
f(x; β, α) =α
β
(x
β
)α−1
exp
−(x
β
)α, x > 0 β, α > 0, (1.3)
donde para este caso θ = (α, β). Una muestra aleatoria x1, ..., xn de (1.3) produce la funcion
de verosimilitud
L(β, α;x) =αn
βnα
(n∏i=1
xi
)α−1
exp
−
n∑i=1
(xiβ
)α, β, α > 0.
1.2.1. Datos dependientes
Hay problemas donde existe una estructura de dependencia de los datos que puede hacer
muy complejo su estudio y comunmente es complicado escribir explıcitamente la fdp (o
fmp) conjunta f(x; θ). Lo podemos ver por ejemplo, cuando los datos son dispuestos por
orden de tiempo, tal que x1 precede a x2 precede a x3, ...; entonces
f(x; θ) = f(x1, ..., xn; θ) = f(x1; θ)n∏i=2
f(xi | x1, ..., xi−1; θ). (1.4)
En el caso de que los datos surjan de un proceso de Markov, la expresion (1.4) viene a ser
f(x; θ) = f(x1; θ)n∏i=2
f(xi | xi−1; θ).
Ejemplo 1.3. Suponga que X0, ..., Xn son tales que dado Xi = xi, la densidad condicional
La funcion de verosimilitud 4
de Xi+1 es Poisson con media θxi; esto es,
f(xi+1|xi; θ) =(θxi)
i+1
xi+1!exp(−θxi), xi+1 = 0, 1, ..., θ > 0.
Si X0 es Poisson con media θ, la densidad conjunta de los datos x0, ..., xn es
f(x0; θ)n∏i=1
f(xi | xi−1; θ) =θx0
x0!exp(−θ)
n−1∏i=0
(θxi)xi+1
xi+1
exp(−θxi),
de modo que la funcion de verosimilitud (1.1) es igual a
L(θ;x) =
(n∏i=0
xi!
)−1
exp(s0 log θ − s1θ), θ > 0,
donde s0 =∑n
i=0 xi y s1 = 1 +∑n−1
i=0 xi.
1.2.2. Funcion score e informacion
Si asumimos un modelo con la log-verosimilitud `(θ;x), entonces la funcion score se define
como
U(θ;x) =∂`(θ;x)
∂θ, (1.5)
la cual es simplemente la primera derivada de la log-verosimilitud. Si θ es un vector, entonces
(1.5) es un vector de primeras derivadas.
Ahora, la ecuacion de verosimilitud se define como
∂`(θ;x)
∂θ= 0.
Estos dos conceptos seran tratados mas a detalle cuando calculemos los estimadores de maxi-
ma verosimilitud.
Estimadores de maxima verosimilitud 5
La informacion observada se define como
J(θ) = −∂2`(θ;x)
∂θ2.
Cuando `(θ;x) es una suma de n componentes (observaciones independientes), entonces J(θ)
tambien lo es,
J(θ) = −∂2`(θ;x)
∂θ2=
∂2
∂θ2
n∑i=1
`i(θ;x) =n∑i=1
−∂2 log f(xi; θ)
∂θ2.
Una alta informacion, precisara θ mas exactamente que una informacion observada baja. La
cantidad de informacion tıpicamente se relaciona al tamano del conjunto de datos. Antes
de que hagamos algun experimento, obviamente no tenemos datos, entonces no podemos
obtener la informacion observada. Sin embargo, podemos calcular la informacion esperada o
informacion de Fisher,
I(θ) = E
(−∂
2`(θ;x)
∂θ2
),
la cual es la informacion media que contendran los datos cuando sean colectados, suponiendo
que el modelo es correcto y el valor del parametro verdadero es θ.
1.3. Estimadores de maxima verosimilitud
El estimador de maxima verosimilitud (EMV) se define como
θ = arg supθL(θ;x);
esto es, θ es el valor de θ para el cual la muestra observada es mas probable. Hay dos
desventajas inherentes asociadas con el problema de encontrar el maximo de una funcion,
y por lo tanto del EMV. El primer problema es en realidad encontrar el maximo global
y verificar, que en efecto, un maximo global ha sido encontrado. La segunda desventaja
Estimadores de maxima verosimilitud 6
es la sensibilidad numerica. ¿Que tan sensible es la estimacion a cambios pequenos en los
datos?. Desafortunadamente, a veces se da el caso en que una muestra ligeramente diferente
producira un EMV notablemente diferente, haciendo dudoso su uso.
Si la funcion de verosimilitud es diferenciable en θi, los posibles candidatos para el EMV
son los valores de (θ1, ..., θk) que resuelven
∂
∂θiL(θ;x) = 0. (1.6)
Las soluciones de las ecuaciones (1.6) son solo los posibles candidatos para el EMV ya que la
primera derivada siendo 0 es solo una condicion necesaria para un maximo, no una condicion
suficiente. Ademas, los ceros de la primera derivada localizan solo puntos extremos en el
interior del dominio de una funcion. Puntos en los cuales las primeras derivadas son 0 pueden
ser mınimos locales o globales, maximos locales o globales, o puntos de inflexion.
La logica de estimacion por maxima verosimilitud es primeramente ilustrada para datos
de una distribucion discreta y despues se da un ejemplo para una distribucion normal. Con-
sideremos una muestra aleatoria de las siguientes 10 observaciones independientes de una
distribucion Poisson: 5, 0, 1, 1, 0, 3, 2, 3, 4 y 1. La fmp de cada observacion es
f(xi; θ) =e−θθxi
xi!.
Puesto que las observaciones son independientes, la funcion de verosimilitud para estos datos
es
L(θ;x) = f(x1, x2, ..., x10; θ) =10∏i=1
f(xi; θ) =e−10θθ
∑10i=1 xi∏10
i=1 xi!=e−10θθ20
207360. (1.7)
La ecuacion (1.7) da la probabilidad de observar la muestra en particular asumiendo que
una distribucion Poisson con parametro θ, aun desconocido, genero los datos. ¿Que valor de
θ podrıa hacer esta muestra mas probable de ocurrir? La figura (1.1) presenta la grafica de
la funcion (1.7) para varios valores de θ. Note que la funcion (1.7) tiene una sola moda en
θ = 2. Este valor podrıa ser el estimador de maxima verosimilitud de θ para estos datos.
Estimadores de maxima verosimilitud 7
Figura 1.1: Funciones de verosimilitud y log-verosimilitud para datos de unadistribucion Poisson.
Ahora, maximizaremos L(θ;x) con respecto a θ. En vista de que es mas facil trabajar con el
logaritmo de L(θ;x), entonces
`(θ;x) = −nθ + ln θn∑i=1
xi −n∑i=1
ln(xi!)
∂`(θ;x)
∂θ= −n+
1
θ
n∑i=1
xi = 0
lo cual nos dice que θ = x. Para nuestras observaciones tendrıamos lo siguiente,
`(θ;x) = −10θ + 20 ln θ − 12.242 (1.8)
∂`(θ;x)
∂θ= −10 +
20
θ= 0⇒ θ = 2
Ahora, para nuestra funcion definida en (1.8) note que
∂2`(θ;x)
∂θ2=−20
θ2< 0
Estimadores de maxima verosimilitud 8
lo cual nos dice que θ = 2 es un maximo. En la figura 1.1 tambien se presenta la grafica de
`(θ;x).
Ejemplo 1.4 (Distribucion Normal). Sea x1, ..., xn una muestra aleatoria con fdp Normal
(µ, σ2), entonces la funcion de verosimilitud en este caso es
L(µ, σ2;x) =n∏i=1
1√2πσ
exp
(1/2σ2)(xi − µ)2
=
(1
2πσ2
)n/2exp
[− 1
2σ2
n∑i=1
(xi − µ)2
],
con logaritmo
`(µ, σ2;x) = −n2
log 2π − n
2log σ2 − 1
2σ2
n∑i=1
(xi − µ)2
donde σ > 0 y −∞ < µ <∞.
Para encontrar la localizacion de su maximo, calculamos primero los componentes de la
funcion score
∂`(µ, σ2;x)
∂µ=
1
σ2
n∑i=1
(xi − µ)
∂`(µ, σ2;x)
∂σ2=
1
σ2
n∑i=1
(xi − µ) = −n2
1
σ2+
1
2σ4
n∑i=1
(xi − µ)2.
Igualando estas derivadas a 0 y resolviendo las ecuaciones resultantes para µ y σ2 se obtienen
las estimaciones de maxima verosimilitud
µ =1
n
n∑i=1
xi = x
y
σ2 =1
n
n∑i=1
(xi − x)2.
Luego tenemos que ver que al menos una derivada parcial de segundo orden sea negativa,
esto es,∂2`(µ, σ2)
∂µ
∣∣∣∣µ=µ,σ2=σ2
< 0 o∂2`(µ, σ2)
∂(σ2)2
∣∣∣∣µ=µ,σ2=σ2
< 0.
Estimadores de maxima verosimilitud 9
Note que
∂2`(µ, σ2)
∂µ
∣∣∣∣µ=µ,σ2=σ2
= − n
σ2= − n
σ2
∂2`(µ, σ2)
∂(σ2)2
∣∣∣∣µ=µ,σ2=σ2
=n
2σ4− 1
σ6
n∑i=1
(xi − µ)2 =n
2σ4− 1
σ6
n∑i=1
(xi − µ)2
Para saber si tenemos un maximo local en (µ, σ2), tenemos que ver si el Jacobiano (determi-
nante de la matriz de informacion observada) de las derivadas de segundo orden es positivo,
esto es, debemos verificar que
J =
∣∣∣∣∣∣∂2`(µ,σ2)∂µ2
∂2`(µ,σ2)∂µ∂σ2
∂2`(µ,σ2)∂σ2∂µ
∂2`(µ,σ2)∂(σ2)2
∣∣∣∣∣∣µ=µ,σ=σ2
=∂2`(µ, σ2)
∂µ2
∂2`(µ, σ2)
∂(σ2)2−(∂2`(µ, σ2)
∂µ∂σ2
)2∣∣∣∣∣µ=µ,σ=σ2
> 0.
De lo anterior tenemos lo siguiente,
J =
∣∣∣∣∣∣ − nσ2 − 1
σ4
∑ni=1(xi − µ)
− 1σ4
∑ni=1(xi − µ) n
2σ4 − 1σ6
∑ni=1(xi − µ)2
∣∣∣∣∣∣µ=µ,σ2=σ2
=1
σ6
−n2
2+
n
σ2
n∑i=1
(xi − µ)2 − 1
σ2
(n∑i=1
(xi − µ)
)2µ=µ,σ2=σ2
=1
σ6
−n2
2+n2
σ2σ2 − 1
σ2
(n∑i=1
(xi − x)
)2 =
1
σ6
n2
2> 0
y en efecto hemos encontrado un maximo en (µ, σ2).
Estimadores de maxima verosimilitud 10
1.3.1. Propiedades de los estimadores de maxima verosimilitud
Los estimadores de maxima verosimilitud (EMV) son atractivos por sus propiedades exactas y
asintoticas. Sea θ el estimador de maxima verosimilitud y θ el valor verdadero del parametro.
Bajo condiciones de regularidad, que seran listadas mas adelante, las propiedades de los
EMV´s pueden resumirse como sigue:
[I] Consistencia. El estimador θ de θ es consistente si, cuando el tamano de la muestra
se incrementa, θ es “mas cercano” a θ. Esto es,
lımn→∞
P (|θ − θ| > 0) = ε ∀ε > 0
[II] Normalidad asintotica. Cuando n→∞ se tiene que θa∼ N
[θ, I(θ)−1] donde
I(θ) = E
(−∂2`(θ;x)
∂θ∂θT
).
[III] Eficiencia asintotica. El estimador θ es asintoticamente eficiente, lo cual significa que
la varianza de θ alcanza la cota inferior de Cramer-Rao para estimadores insesgados de
θ.
[IV] Invarianza. El estimador de maxima verosimilitud de γ = c(θ) es c(θ) si c(θ) es
una funcion continua y continuamente diferenciable.
Para que se cumplan estas propiedades de los EMV´s, las funciones de densidad nece-
sitan seguir ciertas condiciones de regularidad. Suponga que (x1, x2, ..., xn) es una muestra
aleatoria de una poblacion con funcion de densidad f(xi; θ). Las condiciones de regularidad
a las que se hace referencia anteriormente son:
[I] Las primeras tres derivadas de ln f(xi; θ) con respecto a θ son continuas y finitas
Pruebas estadısticas 11
para casi todos los xi y para todo θ. Esta condicion asegura la existencia de una
cierta aproximacion de Taylor y la varianza finita de las derivadas de lnL.
[II] Las condiciones necesarias para obtener las esperanzas de la primera y la segunda
derivadas de ln f(xi; θ) son conocidas.
[III] Para todos los valores de θ, |∂3 ln f(xi; θ)/∂θj∂θk∂θl| es menor que una funcion que
tiene una esperanza finita. Esta condicion nos permitira truncar las series de Taylor.
1.4. Pruebas estadısticas
Suponiendo que el modelo utilizado satisface las condiciones de regularidad para normalidad
asintotica del estimador de maxima verosimilitud, en muestras grandes el estadıstico de razon
de verosimilitudes
W (θ) = 2`(θ;x)− `(θ;x)
tiene una distribucion aproximada chi-cuadrada con p grados de libertad bajo repetido
muestreo de los datos del modelo. Esto es I(θ)→∞,
W (θ)D→ χ2
p. (1.9)
La expresion (1.9) muestra que W (θ) es un pivote aproximado, el cual puede ser usado
para proveer regiones de confianza para θ.
Ahora, suponga que θ = (ψT , λT ), donde ψ es un vector de dimension p×1 que representa
el parametro de interes y λ es un vector de dimension q × 1 que representa parametros de
ruido. Nuestro interes es en ψ pero no podemos evitar incluir λ.
Dos modelos se dicen que son anidados si uno reduce al otro cuando ciertos parametros
son fijos. Un estadıstico natural que compara dos modelos anidados es el logaritmo de la
Pruebas estadısticas 12
razon de verosimilitudes maximizadas
Wp(ψ) = 2`(ψ, λ;x)− `(ψ, λ)
,
el cual se conoce como estadıstico de razon de verosimilitud generalizada. Con lo anterior
tenemos el siguiente resultado
Wp(ψ)D→ χ2
p.
Tambien, podemos suponer que nuestro parametro de interes, ψ, tiene una dimension mucho
menor que el parametro de ruido, λ, y deseamos regiones de confianza para el valor verdadero
de ψ sin tener en cuenta λ, entonces es conveniente usar la verosimilitud profile
`p(ψ;x) = `(ψ, λψ;x)
donde λψ es el estimador de maxima verosimilitud de λ para ψ fijo.
Hasta ahora hemos supuesto que el modelo es conocido, pero en la practica es raramente
cierto y es esencial revisar el modelo ajustado. Una aproximacion usual es la prueba score, y la
idea principal radica en que si el modelo restringido es adecuado, entonces la log-verosimilitud
maximizada no incrementara bruscamente en la direccion de ψ.
Si el modelo mas simple es adecuado, entonces
S =∂`(ψ, λψ)
∂ψT(Iψψ − IψλI−1
λλ Iλψ)−1∂`(ψ, λψ)
∂ψ
.∼ χ2p
donde Iψλ = E(−∂2`/∂λ∂ψT ).
Hasta ahora hemos visto las principales caracterısticas del metodo de maxima verosimilitud,
sin embargo muchas veces tenemos escenarios donde la verosimilitud es mas complicada, por
ejemplo para series de tiempo un modelo dado en Li (2009).
Pruebas estadısticas 13
Ejemplo 1.5 (Modelo AR(1)). Sea Xt un proceso Gaussiano autoregresivo de orden
uno con coeficiente de correlacion a. Esto se define como Xt = aXt−1 + εt. Donde εt es una
secuencia de ruido blanco Gaussiano con media cero y varianza constante σ2. Entonces la
funcion de verosimilitud para la muestra X1, ..., XT esta dada por
L(a, σ2;x) = f(x1)T∏t=2
f(xt|xt−1)
=1√
2π σ2
1−a2
exp
− x2
1
2 σ2
1−a2
T∏t=2
1√2πσ
exp
−(xt − axt−1)2
2σ2
donde X0 se asume N(0, σ2/(1− a2)) e independiente de ε2, ..., εT .
La log-verosimilitud es
l(a, σ2;x) =1
2log(1− a2)− T
2log σ2 − 1
2σ2[S1 + a2S2 − 2aS12], (1.10)
donde S1 =∑T
t=1 x2t , S2 =
∑T−1t=2 x
2t y S12 =
∑T−1t=1 xtxt+1.
Los estimadores de maxima verosimilitud, a y σ2, son las soluciones a 0 =(1− 1
T
)S2a
3 −(1− 2
T
)S12a
2 −(S2 + S1
T
)a+ S12
σ2 = (S1 + a2S2 − 2aS12)/T.(1.11)
Resolviendo la primera ecuacion en (1.11) significa encontrar las raıces de la funcion cubica
de a,
g(a) = a3 − T − 2
T − 1
S12
S2
a2 − S1 + TS2
(T − 1)S2
+T
T − 1
S12
S2
para T grande, podrıamos tener
g(a) = a3 − S12
S2
a2 − a+S12
S2
+O
(1
T
)=
(a− S12
S2
)(a2 − 1) +O
(1
T
)
Pruebas estadısticas 14
Como la raız de interes esta entre (−1, 1), vemos que a es asintoticamente igual a S12/S2 y
es facil verificar que S12/S2p→ a.
Ademas, la informacion de Fisher esperada se puede obtener como
I(θ) = E
(− ∂2l
∂θ∂θ′
)=
1+a2
(1−a2)2+ T−2
1−a2a
σ2(1−a2)
aσ2(1−a2)
T2σ4
Hasta aquı podemos ver que la forma para calcular los estimadores de maxima verosimil-
itud tenemos que hacerlo numericamente, sin embargo surge una pregunta ¿existe alguna
manera de encontrar esos estimadores de una forma mas sencilla?, la respuesta es sı. Por
ejemplo consideremos realizar la siguiente modificacion al ejemplo anterior, suponiendo que
la verosimilitud esta formada por pares adyacentes, denotando la nueva funcion de verosimil-
itud como L2.
L2 =T∏t=2
f(xt, xt−1)
donde (Xt, Xt−1) sigue una distribucion normal bivariada con media cero, varianza σ2/(1−a2)
y correlacion a. La funcion de verosimilitud serıa
L2(a, σ2;x) = f(x1)T∏t=2
f(xt|xt−1)T−1∏t=2
f(xt) = L(a, σ2)T−1∏t=2
f(xt)
donde L(a, σ2;x) es la funcion de verosimilitud completa
La log-verosimilitud es,
`2(a, σ2;x) = `(a, σ2) +T−1∑t=2
log f(xt)
Pruebas estadısticas 15
Podemos ver ahora que la log-verosimilitud se compone de la log-verosimilitud completa y
un termino adicional de la suma de marginales de primer orden.
Es sencillo escribir la log-verosimilitud en terminos de S1, S2, y S12,
`2(a, σ2) =T − 1
2log(1− a2)− 2(T − 1) log σ − 1
2σ2(S1 + S2 − 2aS12)
lo cual en este caso se mantiene una forma explıcita de los estimadores de maxima verosimil-
itud, los cuales los podemos denotar como (a, σ2) a = 2S12
S1+S2
σ2 =(S1+S2)2−4S2
12
2(T−1)(S1+S2)
(1.12)
Simplificar la ecuacion de σ2 para
σ2 =S1 + S2 − 4S2
12
S1+S2
2(T − 1)=S1
T− S2
12
TS1
+O
(1
T 2
)y ya que
S1
T
p→ E[X2t ] y
S212
TS1
=S12
T.S12
S1
p→ aE[X2t ].a = a2E[X2
t ].
Por lo tanto, σ2 p→ E[X2t ] − a2E[X2
t ] = σ2. Podemos notar que σ2 es un estimador consis-
tente de σ2 cuando T incrementa, lo cual se ve muy interesante tomando en cuenta que se
modifico la funcion de verosimilitud arriesgando no obtener las buenas propiedades cuando
utilizamos una verosimilitud completa.
La modificacion anterior a la funcion de verosimilitud compuesta es solo una de tantas que se
podrıan proponer, la funcion de verosimilitud que se obtiene es llamada funcion de verosimil-
itud pairwise y es una forma de verosimilitud compuesta.
La estimacion por maxima verosimilitud muchas veces requiere la especificacion completa de
la variable aleatoria observada. Si la distribucion correcta es algunas veces otra de la que
asumimos, entonces la funcion de verosimilitud estarıa mal especificada y las propiedades
Pruebas estadısticas 16
deseables de los estimadores podrıan no mantenerse. Otro escenario que se nos podrıa pre-
sentar serıa el hecho de que la funcion de verosimilitud es demasiado complicada como ya se
menciono anteriormente y serıa practicamente imposible trabajar con ella, entonces bajo este
esquema tendrıamos que buscar una alternativa para calcular o aproximar la estimacion. En
el siguiente capıtulo proponemos una alternativa al metodo de maxima verosimilitud llamada
verosimilitud compuesta.
CAPITULO 2
VEROSIMILITUD COMPUESTA
2.1. Introduccion
En este capıtulo se revisan conceptos fundamentales para el conocimiento y desarrollo de
lo que es llamado verosimilitud compuesta. Se exponen las caracterısticas fundamentales y
las principales propiedades que nos hacen pensar en una alternativa potencial cuando nos
enfrentamos a ciertos tipos de problemas con el metodo de maxima verosimilitud.
La motivacion para el uso de cualquier version de verosimilitud compuesta es usualmente
computacional: para evitar, calcular, o en algunos casos, modelar la distribucion conjunta de
un posible vector de respuestas con dependencias en altas dimensiones.
2.2. Definicion de verosimilitud compuesta
Considere un vector aleatorio m-dimensional X, con funcion de densidad de probabilidad
f(x;θ), para algun vector de parametros desconocido θ ∈ Θ. Denote por A1, ...,AK a
un conjunto de eventos marginales o condicionales con verosimilitudes asociadas Lk(θ;x)∝
f(x ∈ Ak;θ). Siguiendo Lindsay (1988), una verosimilitud compuesta es el producto ponde-
Definicion de verosimilitud compuesta 18
rado
Lc(θ;x) =K∏k=1
Lk(θ;x)wk ,
donde wk son pesos no negativos a ser escogidos.
Aunque la definicion anterior permite combinaciones de densidades marginales y condi-
cionales (Cox y Reid, 2004), las verosimilitudes compuestas se distinguen tıpicamente en sus
versiones marginales y condicionales.
2.2.1. Verosimilitudes compuestas condicionales
Tal vez el precedente de la verosimilitud compuesta es la pseudo-verosimilitud propuesta
por Besag (1974; 1975) en el contexto de datos espaciales. Esta pseudo-verosimilitud es el
producto de densidades condicionales de una sola observacion en un sitio dado valores de sus
sitios vecinos,
Lc(θ;x) =m∏r=1
f(xr| xs : s es vecino de r ;θ).
Variantes mas recientes de la propuesta de Besag involucran bloques de observaciones sobre
eventos condicionales.
Huang y ogata (2002) generalizaron la pseudo-verosimilitud de Besag y propusieron la
pseudo-verosimilitud generalizada para procesos espaciales. Sea g(r) un grupo de sitios ad-
yacentes para cada sitio r y xg(r) := xl : l ∈ g(r) y xg(r) := xl : l /∈ g(r) el conjunto de
variables aleatorias dentro y fuera del grupo de sitios adyacentes g(r), respectivamente. La
pseudo-verosimilitud generalizada se define como
Lg(θ;x) =m∏r=1
f(xg(r)|xg(r);θ)1/|g(r)|,
donde |g(r)| denota en numero de sitios en el conjunto g(r).
Definicion de verosimilitud compuesta 19
Liang (1987) estudio verosimilitudes compuestas del tipo
Lc(θ;x) =m−1∏r=1
m∏s=r+1
f(xr|xr + xs;θ)
y las aplico a estudios de control estratificados. Trabajo adicional sobre este mismo tema
puede ser encontrado en Hanfelt (2004), Wang y Williamson (2005) y Fujii y Yanagimoto
(2005).
Molenberghs y Verbeke (2005) estudiaron verosimilitudes compuestas condicionales en el
contexto de estudios longitudinales y Mardia et al. (2008) en bioinformatica, construyendo
verosimilitudes compuestas juntando densidades condicionales de la forma
Lc(θ;x) =m∏r=1
m∏s=r+1
f(xr|xs;θ),
o con densidades condicionales completas
Lc(θ;x) =m∏r=1
f(xr|x(−r);θ),
donde x(−r) denota el vector de todas las observaciones menos xr.
2.2.2. Verosimilitudes compuestas marginales
La verosimilitud compuesta marginal mas simple es la pseudo-verosimilitud construida bajo
el supuesto de independencia,
Lind(θ;x) =m∏r=1
f(xr;θ)
a veces denominada en la literatura como verosimilitud de independencia (Chandler y Bate,
2007). La verosimilitud de independencia solo permite inferencia sobre parametros marginales.
Si los parametros relacionados a la dependencia tambien son de interes, entonces es necesario
Estimadores de maxima verosimilitud compuesta 20
modelar bloques de observaciones, como en la verosimilitud por pares (Cox y Reid, 2004;
Varin, 2008)
Lpar(θ;x) =m−1∏r=1
m∏s=r+1
f(xr,xs;θ),
y en sus extensiones construidas de conjuntos de observaciones mas grandes (Caragea y
Smith, 2007).
Para respuestas continuas simetricas con inferencia enfocada en la dependencia de la
estructura, Curriero y Lele (1999) y Lele y Taper (2002) proponen verosimilitudes compuestas
marginales basadas en diferencias por pares,
Ldif (θ;x) =m−1∏r=1
m∏s=r+1
f(xr − xs;θ). (2.1)
2.2.3. Terminologıa
La verosimilitud compuesta ha sido referenciada con diferentes nombres, incluyendo la pseudo-
verosimilitud condicional (Besag, 1974), pseudo-verosmilitud generalizada (Huang y Ogata,
2002), pseudo-verosimilitud (Molenberghs y Verveke, 2005), verosimilitud aproximada (Stein,
Chi y Welty, 2004) y quasi-verosimilitud (Hjort y Omre, 1994; Glasbey, 2001; Hjort y Varin,
2008). En series de tiempo, las verosimilitudes compuestas marginales son comunmente lla-
madas verosimilitudes de datos divididos. En la literatura psicometrica, metodos basados
sobre la verosimilitud compuesta son llamados metodos de informacion limitados.
2.3. Estimadores de maxima verosimilitud compuesta
El estimador de maxima verosimilitud compuesta θc localiza el maximo de la verosimilitud
compuesta, o equivalentemente de la log-verosimilitud compuesta
Estimadores de maxima verosimilitud compuesta 21
c`(θ;x) =K∑k=1
`k(θ;x)wk
donde `k(θ;x) = logLk(θ;x).
En problemas estandar θc puede ser encontrado resolviendo la funcion score compuesta
uc(θ;x) = ∇θc`(θ;x)
la cual es una combinacion lineal de los scores asociados con cada termino log-verosımil
`k(θ;x) .
El estimador de maxima verosimilitud compuesta (EMVC) se define como
θc = arg supθc`(θ;x)
donde c`(θ;x) =∑K
k=1 c`(θ;xi).
Las verosimilitudes compuestas se pueden ver como verosimilitudes especificadas incorrec-
tamente, donde la especificacion incorrecta ocurre debido a que se trabaja bajo la suposicion
de independencia entre los terminos de verosimilitud que forman la verosimilitud compuesta.
El hecho de que la verosimilitud compuesta no sea una funcion de verosimilitud valida conduce
a que no se satisface la segunda identidad de Bartlett y se necesita distinguir entre la matriz
de sensibilidad
H(θ) = Eθ −∇θuc(θ;X) =
∫−∇θuc(θ;x) f(x;θ)dx
y la matriz de variabilidad
J(θ) = varθ uc(θ;X) = Euc(θ;X)uTc (θ;X)
,
Estimadores de maxima verosimilitud compuesta 22
y la informacion de Fisher necesita ser sustituida por la matriz de informacion de Godambe
(Godambe, 1960)
G(θ) = H(θ)J(θ)−1H(θ), (2.2)
tambien conocida como la matriz de informacion “sandwich”. Si c`(θ) fuera una funcion
log-verosimilitud valida entonces G = H = I, donde I(θ) = varθ ∇ log f(X; θ) es la
informacion esperada de Fisher. Una ecuacion de estimacion uc(θ;x) que satisface H(θ) =
J(θ) para toda θ se conoce como informacion insesgada (Lindsay, 1982).
Diferenciando la ecuacion score compuesta; E uc(θ;X) = 0, con respecto a θ, tenemos
E ∇θuc(θ;X)+ Eu(θ;X)uTc (θ;X)
= 0
donde u(θ;X) es la funcion score de la verosimilitud completa. Entonces,H(θ)=cov u(θ;X)
uTc (θ;X)
y la informacion de Godambe G(θ) puede tambien ser escrita como
G(θ) = covu(θ;X)uTc (θ;X)
varθ
uTc (θ;X)
−1covuc(θ;X)uT (θ;X)
.
La version multivariada de la desigualdad de Cauchy-Schwarz implica que
I(θ) = varθ u(θ;X) ≥ G(θ),
esto significa que la funcion de verosimilitud completa es mas eficiente que cualquier otra
funcion de verosimilitud compuesta (Lindsay, 1988, Lema 4A).
2.3.1. Teorıa asintotica
En el caso de n observaciones independientes e identicamente distribuidas X1, ..., Xn del
modelo f(x; θ) sobre Rm y n −→∞ con m fijo, algunos resultados asintoticos son disponibles
Estimadores de maxima verosimilitud compuesta 23
en Kent (1982), Lindsay (1988), y Molenberhs y Verbeke (2005, Cap. 9). Puesto que
Lc(θ;x) =n∏i=1
Lc(θ;xi), c`(θ;x) =n∑i=1
c`(θ;xi),
y bajo condiciones de regularidad sobre las log-densidades componentes, se tiene un teore-
ma del lımite central para el estadıstico score de la verosimilitud compuesta, dando lugar
al resultado de que el estimador de maxima verosimilitud compuesta, θc, sea distribuido
asintoticamente normal,√n(θc − θ)
d→ Np
0, G−1(θ)
donde Np(µ; Σ) es la distribucion normal p-dimensional con media y varianza como se indican,
y G(θ) es la matriz de informacion de Godambe en una sola observacion, definida en (2.2).
La razon de G(θ) a la informacion esperada de Fisher I(θ) determina la eficiencia asintotica
de θc relativo al estimador de maxima verosimilitud del modelo completo. Si θ es un escalar,
esto puede ser determinado o graficado sobre el rango de valores de θ; ver, por ejemplo, Cox
y Reid (2004, Fig. 1).
Suponga que el interes es sobre un subvector q−dimensional ψ del parametro θ = (ψ, τ ).
Versiones de verosimilitud compuesta para los estadısticos de Wald y score para probar
H0 : ψ = ψ0 son facilmente construidos y tienen la distribucion asintotica usual χ2q, ver
Molenberghs y Verbeke (2005). La version del estadıstico de Wald tiene la siguiente forma
We = n(ψc −ψ0)TGψψ(θc)(ψc −ψ0),
donde Gψψ es la submatriz q × q de la informacion de Godambe correspondiente a ψ.
La version del estadıstico score tiene la siguiente forma
Wu =1
nuψ ψ0, τ c(ψ0)T HψψGψψH
ψψuψ ψ0, τ c(ψ0) , (2.3)
Estimadores de maxima verosimilitud compuesta 24
donde Hψψ es la submatriz q × q de la inversa de H(θ) correspondiente a ψ y H =
H ψ0, τ c(ψ0). Como en inferencia con verosimilitud ordinaria, We y Wu sufren de limi-
taciones practicas: We no es invariante a la reparametrizacion, mientras que Wu puede ser
numericamente inestable. Ademas, se necesitan estimaciones de las matrices de variabilidad
y sensibilidad H(θ) y J(θ). Algunas veces estas pueden ser evaluadas explıcitamente, sin em-
bargo, es mas comun usar estimaciones empıricas. Como H(θ) es una media, su estimacion
empırica es sencilla, pero la estimacion empırica de J(θ) requiere alguna replicacion interna.
El estadıstico de razon de verosimilitud compuesta tendrıa la siguiente forma
W = 2c`(θc;x)− c`(ψ0, τ c(ψ0))
d→
q∑j=1
λjZ2j ,
donde Z1, ..., Zq son variables aleatorias normales independientes y λ1, ..., λq son los valores
propios de la matriz (Hψψ)−1Gψψ. Este resultado puede ser derivado bajo el esquema general
de verosimilitudes especificadas incorrectamente, ver Kent (1982) y White (1994).
Geys, Molenberghs y Ryan (1999) proponen el estadıstico de razon de verosimilitud com-
puesta ajustado W ′ = W/λ con una distribucion aproximada χ2q, donde λ denota el promedio
de los valores propios λj; Rotnitzky y Jewell (1990) sugieren esto para la verosimilitud de
independencia. La media de W ′ coincide con la de su distribucion asintotica χ2q, pero difiere
de sus momentos de orden superior. Una mejor solucion es provista en Satterthwaite (1946)
por un ajuste W ′′ = νW/(qλ) con distribucion aproximada χ2ν , donde el re escalamiento y
los grados de libertad efectivos ν = (∑q
j=1 λj)2/∑q
j=1 λ2j son escogidos tal que la media y
la varianza de W ′′ coinciden con su distribucion aproximada (Varin, 2008; Lindsay, Pilla y
Basak, 2000).
Chandler y Bate (2007) proponen un tipo diferente de ajuste para la verosimilitud de in-
dependencia: esencialmente extendiendo la log-verosimilitud compuesta en el eje θ sobre θc
para asegurar, al menos aproximadamente, que la segunda identidad de Bartlett se mantiene y
ası que la aproximacion usual χ2q puede ser usada. Re escalamiento vertical es otra posibilidad,
discutida ampliamente en Chandler y Bate (2007, Sec. 6) y extendida a la verosimilitud com-
Estimadores de maxima verosimilitud compuesta 25
puesta en Pace, Salvan y Sartori (2011). En el caso de parametros escalares, el re escalamiento
vertical es lo mismo que dividir el estadıstico de razon de log-verosimilitud compuesta por
J−1H.
Aproximaciones saddlepoint para formas cuadraticas son derivadas en Kuonen (1999) y
parecen directamente aplicables a W .
La simplicidad computacional de las funciones de verosimilitud compuesta en tıpicas situa-
ciones permiten usar el bootstrap parametrico. Esto tiene la ventaja tambien de trabajar en
conjuntos no estandar, tales como cuando el parametro bajo la hipotesis nula se encuentra
en el lımite del espacio parametrico (Bellio y Varin, 2005), pero tiene el inconveniente de
requerir la especificacion completa de un modelo conjunto para los datos, perdiendo ası en
la robustez del modelo.
Analogamente existe un criterio de informacion Akaike (AIC) y un criterio de informacion
bayesiana (BIC) para modelos de seleccion para la verosimilitud compuesta. El criterio de
informacion Akaike tiene la siguiente forma
AIC = −2c`(θc;x) + 2 dim(θ)
y el criterio de informacion bayesiana serıa
BIC = −2c`(θc;x) + dim(θ) log n,
donde dim(θ) es un numero efectivo de los parametros estimados de la matriz de sensibil-
idad y la informacion de Godambe: dim(θ) = tr H(θ)G(θ)−1. La derivacion formal de
esos criterios de informacion pueden ser encontrados en Varin y Vidoni (2005) para el AIC
compuesto y en Gao y Song (2010) para el BIC compuesto.
Estos criterios pueden ser utilizados para modelar promedios (Claeskens y Hjort, 2008) o
para la seleccion de ajuste de parametros en metodos de disminucion. Ver Gao y Song (2010)
para ejemplos de pena de Lasso con verosimilitudes compuestas marginales.
Estimadores de maxima verosimilitud compuesta 26
Tambien es de interes considerar el caso donde n es fijo y m incrementa, como en el caso
de una sola (n = 1) serie de tiempo grande o un conjunto de datos espacial. En este caso
la teorıa asintotica depende de la disponibilidad de la replicacion interna: por ejemplo en
un modelo autoregresivo de orden pequeno, hay suficiente independencia en una sola serie
grande para obtener un resultado lımite central.
La varianza asintotica de la verosimilitud por pares y una version modificada de esta, fue
tratada en Cox y Reid (2004) usando expansiones de series de Taylor. Ya que la validez de
esas expansiones dependen de la consistencia de θ, la cual no se mantiene en general para
m −→ ∞, el argumento es puramente informal y un tratamiento mas riguroso es necesario.
Cox y Reid (2004) tambien sugieren que esto puede ser posible al escoger a 6= 0 en la log-
verosimilitud compuesta `c(θ) = `par(θ) − am`ind(θ) para asegurar la consistencia cuando
m −→∞ para n fijo.
2.3.2. Aplicaciones de la verosimilitud compuesta
2.3.2.1. Campos aleatorios Gaussianos
Modelos geoestadısticos para grandes conjuntos de datos son cada vez mas comunes, particu-
larmente con el uso de metodos de coleccion automatica tales como la sensacion remota. En
este contexto, los metodos de verosimilitud compuesta para llevar a cabo inferencia aproxi-
mada son muy atractivos. Un modelo tıpico en aplicaciones geoestadısticas es el de un campo
aleatorio Gaussiano X = X(c) : c ∈ C ⊂ R2 con media µ(c) y matriz de covarianzas Σ(θ)
cuyas entradas reflejan la correlacion espacial; Cressie (1993) proporciona varios ejemplos
de funciones de correlacion espacial parametricas. La estimacion clasica del parametro θ en
geoestadıstica se basa en varios metodos de ajuste de curvas al variograma muestral (Cressie,
1993). Estos metodos han sido fuertemente criticados por su considerable arbitrariedad en la
sintonıa de los algoritmos de ajuste y los estimadores resultantes son a menudo ineficientes
(Diggle y Ribeiro, 2007, Sec. 6.3). La estimacion por maxima verosimilitud serıa mas efi-
ciente, pero requiere la inversion de la matriz de covarianzas Σ(θ), usualmente con un costo
Estimadores de maxima verosimilitud compuesta 27
computacional de orden O(m3). Tal costo es prohibitivo en muchos conjuntos de datos espa-
ciales o espacio temporales de la actualidad.
Sea xr = x(cr) la observacion del proceso X en la localidad cr. Apoyandose en el tra-
bajo de Besag (1974), Vecchia (1988) propone aproximar la verosimilitud completa con la
verosimilitud compuesta condicional
Lcc(θ;x) = f(x1;θ)m∏r=2
f(xr|Br;θ),
donde Br es un subconjunto de xr−1, ..., x1 elegidos de modo que sea posible el computo
de Lcc. Vecchia (1988) sugiere restringir Br a un numero de vecinos de xr. El uso de esta
verosimilitud condicional compuesta es ilustrado en Vecchia (1988) en el analisis espacial de
niveles de agua en 93 pozos de observacion de un acuıfero en el valle Saratoga en Wyoming.
Stein, Chi y Welty (2004) extienden la propuesta de Vecchia y la usan para aproximar
la funcion de verosimilitud restringida. Estos autores muestran que la eficiencia estadıstica
puede mejorarse usando bloques de observaciones en lugar de observaciones individuales,
Lcc(θ;x) = f(z1;θ)B∏b=2
f(zb|B´b;θ),
donde z1, ..., zB son B bloques de datos y B´b es un subconjunto de zb−1, ..., z1. Este metodo
de verosimilitud restringida aproximado es usado en Stein, Chi y Welty (2004) para analizar
un conjunto de datos sobre 13000 mediciones de niveles de clorofila en el lago Michigan. Las
mediciones fueron hechas en un patron altamente irregular, lo que crea algunos retos en la
eleccion de los conjuntos condicionantes. En tal estudio se encontro que algunas observaciones
distantes en los conjuntos condicionantes conducen a una notable mejorıa en la eficiencia de
los estimadores de maxima verosimilitud compuesta.
Algunas dificultades surgen con las verosimilitudes compuestas de Stein, Chi y Welty
(2004) al seleccionar el orden de observacion y los conjuntos condicionantes Bb y B´b. Para
superar tales complicaciones, en un par de artıculos de Caragea y Smith (2006, 2007) se
Estimadores de maxima verosimilitud compuesta 28
proponen tres diferentes aproximaciones de la verosimilitud, todas basadas en dividir los datos
en bloques. El primer metodo, “la verosimilitud de grandes bloques”, consiste en estimar θ
a partir de la densidad conjunta de las medias de bloques. El segundo metodo es denotado
como “bloques pequenos” y es la verosimilitud compuesta marginal formada por el producto
de densidades para todas las observaciones en cada bloque,
Lmc(θ;x) =B∏b=1
f(zb;θ),
donde z1,, ..., zB son B bloques de los datos. Ası, mientras que la verosimilitud de grandes blo-
ques captura las propiedades asintoticas del proceso, ignora la dependencia dentro de bloques.
Por el contrario, el metodo de bloques pequenos hace lo opuesto. Un compromiso propuesto
entre ambos metodos, conocido como un metodo hıbrido, consiste en usar la verosimilitud de
grandes bloques multiplicada por la verosimilitud compuesta condicional formada por el pro-
ducto de densidades condicionales de las observaciones dentro de los bloques, condicionando
sobre la media del bloque. Estudios de eficiencia indican un pobre desempeno del metodo de
grandes bloques, mientras que los metodos hıbrido y de bloques pequenos trabajan similar-
mente con alta eficiencia. Caragea y Smith (2006) ilustran el buen desempeno de los ultimos
dos metodos en la estimacion espacial de tendencias en niveles de lluvia a traves de la region
centro-sur de los Estados Unidos.
2.3.2.2. Extremos espaciales
El aumento en eventos ambientales de alto riesgo conduce al incremento del interes en la
modelacion estadıstica de extremos espaciales. Un enfoque flexible a este problema es pro-
visto por los modelos “max-stable” obtenidos de campos aleatorios Gaussianos subyacentes
construidos usando un trabajo no publicado de Smith (1990). A pesar de las propiedades
atractivas de estos modelos, tanto la inferencia clasica como la Bayesiana son impracticas de-
bido al problema de dimensionalidad con el computo de la verosimilitud, ver Davison y Gho-
lamrezaee (2009). Actualmente, solo expresiones para las densidades marginales bivariadas
Estimadores de maxima verosimilitud compuesta 29
han sido derivadas. Ası, la inferencia a traves de la verosimilitud por pares es naturalmente
considerada como un sustituto para el analisis imposible con la verosimilitud ordinaria en
Davison y Gholamrezaee (2009) y Padoan, Ribatet y Sisson (2010) con aplicaciones a tem-
peraturas maximas en Suiza y precipitacion maxima en los Estados Unidos, respectivamente.
Las computaciones en estos artıculos son llevadas a cabo con el paquete SpatialExtremes
del lenguaje R por Ribatet (2009), el cual parece ser el primer software disponible publica-
mente para implementar metodos de verosimilitud compuesta.
Un enfoque relacionado es seguido por Smith y Stephenson (2009), donde se usa la
verosimilitud por pares en lugar de la verosimilitud ordinaria intratable para inferencia
Bayesiana en procesos espaciales “max-stable”. Tal enfoque es ilustrado a traves del analisis
de datos de precipitacion maxima anual en el sur-este de Inglaterra.
2.3.2.3. Efectos aleatorios serialmente correlacionados
En estudios longitudinales, modelos con efectos aleatorios son elecciones populares para mo-
delar heterogeneidad no observada. En estos modelos los datos se modelan como variables
condicionalmente independientes sobre un efecto aleatorio del sujeto, usualmente asumidos
constantes para todas las mediciones.
Considere conteos longitudinales Xir observados en la ocasion r = 1, ..,mi para el sujeto
i = 1, .., n. Este tipo de datos pueden ser naturalmente modelados como variables condi-
cionales Poisson independientes
Xir|Ui ∼ PoUi exp(yTirβ)
donde Ui es un efecto aleatorio, yir es un vector de covariables, y β son coeficientes de
regresion desconocidos. Una suposicion comun es que U1, ..., Un son variables Gamma inde-
pendientes con media 1. En correspondencia con esto, la distribucion marginal de Xir es
binomial negativa.
Para incluir dependencia serial, Henderson y Shimakura (2003) sugieren extender el mo-
Estimadores de maxima verosimilitud compuesta 30
delo anterior asumiendo diferentes efectos aleatorios Gamma distribuidos Uir para cada medi-
cion,
Xir|Uir ∼ PoUir exp(yTirβ)
especificando la distribucion conjunta de Uir para describir la dependencia serial. Por ejemplo,
Henderson y Shimakura (2003) proponen una dependencia autoregresiva del tipo
corr(Uir, Ujs) =
|r−s| si i = j
0 si i 6= j.
Desafortunadamente, una mayor flexibilidad del modelo en la formulacion anterior es pa-
gada en terminos de complejidad computacional. La funcion de verosimilitud involucra un
numero de terminos creciendo exponencialmente con series de longitud mi. El computo de la
verosimilitud es impractico, excepto en bajas dimensiones. Por tanto, Henderson y Shimakura
(2003) proponen que tal inferencia sea basada en la verosimilitud por pares
Lpar(θ;x) =n∏i=1
1
mi − 1
mi−1∏r=1
m1∏s=r+1
f(xir, xis;θ).
Los pesos 1/(mi − 1) son usados para concordar con la verosimilitud ordinaria en el caso
de independencia, como se sugiere en LeCessie y van Houwelingen (1994). Henderson y Shi-
makura (2003) ilustran inferencia a traves de la verosimilitud por pares para el modelo de
arriba con el analisis de un estudio clınico sobre el numero de dosis de un analgesico tomado
por pacientes de un hospital por intervalos de tiempo sucesivos despues de una cirugıa ab-
dominal.
Un desarrollo adicional al trabajo de Henderson y Shimakura (2003) es proveıdo por Fioc-
co, Putter y van Houwelingen (2009), quienes modifican el proceso Gamma autoregresivo Uir
para mejorar la estabilidad numerica cuando se involucran conteos grandes. Una motivacion
similar a las anteriores subyacen en el trabajo de Varin y Czado (2010), quienes sugieren
un modelo probit mixto autorregresivo para datos longitudinales ordinarios y binarios. La
respuesta Xir es vista como una version censurada de una variable continua no observada
Estimadores de maxima verosimilitud compuesta 31
X∗ir,
Xir = xir ←→ αxir−1 < X∗ir ≤ αyir , xir ∈ 1, ..., h
donde −∞ ≡ α0 < α1 < ... < αh−1 < αh ≡ ∞ son parametros de umbral apropiados.
La variable no observada X∗ir es modelada con un modelo normal lineal mixto
X∗ir = yTirβ + Ui + εir,
donde U1, ..., Un son n efectos aleatorios independientes distribuidos normalmente con media
0 y varianza σ2. Para tomar en cuenta la dependencia serial, se asume que los errores εir son
generados de un proceso autoregresivo de orden uno,
εir = ρεir−1 + (1− ρ2)1/2ηir
donde ηir son innovaciones normales estandar independientes. En consecuencia, la funcion
de verosimilitud es el producto de n probabilidades normales rectangulares de dimensiones
m1, ...,mn. Con la excepcion de estudios longitudinales con un numero pequeno de mediciones
mi, la evaluacion de la verosimilitud requiere de metodos Monte Carlo computacionalmente
tardados con posibles inestabilidades. Por tanto, Varin y Czado (2010) proponen el uso de la
inferencia a traves de la verosimilitud por pares basada en pares de observaciones menores
que q unidades aparte,
L(q)pair(θ;x) =
n∏i=1
∏r,s:|tir−tis|≤q
f(xir, xis;θ),
donde tir es el tiempo de observacion r sobre el sujeto i. Las probabilidades bivariadas
f(xir, xis;θ) son facilmente computadas con metodos de cuadratura determinıstica muy pre-
cisa disponibles en software estadıstico estandar, evitando ası, la necesidad de simulaciones.
Tal estudio es motivado por el analisis de un estudio longitudinal sobre los determinantes
de la severidad de un dolor de cabeza: los datos consisten de diarios de severidad de dolor
compilados por los pacientes cuatro veces al dıa a casi un ano de mediciones consecuti-
Estimadores de maxima verosimilitud compuesta 32
vas; el resultado es la severidad del dolor de cabeza medida en una escala ordinal con seis
niveles. Datos de covariables incluyen informacion personal y clınica, ademas de condiciones
climaticas.
2.3.2.4. Efectos aleatorios espacialmente correlacionados
Las dificultades numericas en el caso de efectos aleatorios correlacionados en serie incre-
mentan con efectos aleatorios espacialmente correlacionados. Considerar un modelo lineal
generalizado con predictor lineal
g(E(X(c))) = y(c)Tβ + U(c), c ∈ C ⊂ R2
donde g es una funcion liga adecuada y U(c) : c ∈ C ⊂ R2 es la media estacionaria de un
campo aleatorio Gaussiano. Modelos de este tipo son denominados modelos lineales gener-
alizados geoestadısticos en Diggle y Ribeiro (2007). Dado las observaciones en m localiza-
ciones c1, ..., cm, la funcion de verosimilitud es expresada en terminos de una sola integral
m-dimensional es,
L(θ;x) =
∫R2
m∏r=1
f x(cr)|u(cr);θ f u(c1), ..., u(cm);θ du(c1)...du(cm),
la cual puede tener una aproximacion difıcil para m moderado. Existen soluciones que son
tıpicas, como aquellas basadas en algoritmos de simulacion, tales como el algoritmo Monte
Carlo EM y los metodos Monte Carlo vıa cadenas de Markov, ver Diggle y Ribeiro (2007).
Para grandes conjuntos de datos, los metodos de simulacion vienen a ser demasiado deman-
dantes y ası la verosimilitud por pares representa una alternativa efectiva. Esto fue estudiado
primeramente por Heagerty y Lele (1998) para datos binarios con liga probit. Ellos pro-
pusieron una verosimilitud pairwise formada por pares de observaciones con no mas de q
unidades aparte,
Lqpar(θ;x) =∏
r,s:‖cr−cs‖2≤qf x(cr), x(cs); θ .
Estimadores de maxima verosimilitud compuesta 33
Heagerty y Lele (1998) usaron estas ideas para el modelamiento espacial de defoliacion
de la polilla gitana en Massachusetts.
2.3.2.5. Modelos mixtos conjuntos
Efectos aleatorios correlacionados son usados para modelar perfiles longitudinales multivari-
ados. Sea (X(1)ir , ..., X
(d)ir )T un vector aleatorio de d resultados para el sujeto i = 1, ..., n en
la ocasion r = 1, ...,mi. Una posible estrategia para modelar datos de este tipo consiste en
asumir un modelo mixto para cada resultado y entonces modelar la asociacion entre los re-
sultados con una matriz de covarianzas adecuada para los efectos aleatorios. Suponer por
facilidad de exposicion, un modelo de intercepto aleatorio generalizado para cada resultado,
gE(X
(v)ir )
= yTirβ + U(v)i , v = 1, ..., d
donde U(v)i es un efecto aleatorio especıfico para el resultado v y sujeto i, (i = 1, ..., n). Varios
modelos mixtos univariados pueden ser combinados asumiendo una distribucion multivariada
normal d−dimensional para todos los efectos aleatorios, U(1)i , ..., U
(d)i , para un solo sujeto
(i = 1, ..., n).
Con la asuncion de independencia entre los diferentes sujetos, la verosimilitud es
L(θ;x) =n∏i=1
Li(θ;x(1)i , ...,x
(d)i ),
donde x(v)i = (x
(v)i1 , ...,x
(v)imi
)T indica el vector de todas las observaciones del resultado v para
el sujeto i. Cuando la dimension d de los resultados incrementa, el numero de parametros de
efectos aleatorios(d2
)+ d, crece cuadraticamnete, haciendo la maximizacion de la verosimili-
tud rapidamente fuera de cualquier alcance en el caso de modelos normales lineales mixtos
donde la verosimilitud tiene una forma analıtica.
Molenberghs y Verbeke (2005, Sec. 25) proponen aliviar esas dificultades computacionales
por el metodo de “ajuste pairwise”. Considerar la verosimilitud compuesta marginal constru-
Estimadores de maxima verosimilitud compuesta 34
ida de todos los pares de resultados
Lmc(θ1,2, ...,θd−1, d;x) =d−1∏v=1
d∏w=v+1
L(θv,w;x(v),x(w)), (2.4)
donde L(θv,w;x(v),x(w)) es la verosimilitud basada solo sobre el resultado v y w. Aquı se
asume que los diferentes pares de parametros especificados son asumidos, esto es, θv,w es un
subconjunto de θ a la distribucion asumida de (X(v),X(w)). Esta parametrizacion separa-
da es necesaria, ya que permite distinta maximizacion para cada termino L(θv,w;x(v),x(w))
formando la verosimilitud compuesta (2.4), y ası resolver las dificultades computacionales
asociadas con la maximizacion conjunta.
Mas detalles del metodo de ajuste pairwise puede ser encontrado en una serie de artıculos
por S. Fieuws y sus colegas, con aplicaciones a perfiles longitudinales multivariados de um-
brales de audicion (Fieuws and Verbeke (2006); Fieuws, Verbeke, and Molenberghs (2007)),
cuestionarios binarios sobre funcionalidad psico-congnitiva (Fieuws et al. (2006), Fieuws, Ver-
beke, and Molenberghs (2007)) y analisis de muchos indicadores bioquımicos y fisiologicos
para fallas de injertos renales (Fieuws et al. (2007)).
2.3.2.6. Matrices de correlacion de variables con el tiempo
Engle, Shephard, y Sheppard (2009) proponen metodos de verosimilitud compuesta para el
manejo de riesgos con portafolios de alta dimensionalidad. Considere un vectorm−dimensional
de log-retornos xt observados en los tiempos t = 1, ..., T. El modelo de manejo de riesgos
asume que Xt es una secuencia de diferencias Martingala
E(Xt|Ft−1) = 0, Cov(Xt|Ft−1) = Ht,
donde Ft−1 es la informacion hasta el tiempo t− 1 y Ht es la matriz de covarianza variante
con el tiempo. Modelos propuestos para Ht son parametrizados en terminos de parametros
dinamicos de interes θ y de parametros de ruido λ. Inferencia estandar es basada en un
Estimadores de maxima verosimilitud compuesta 35
enfoque de dos etapas. Primero, los parametros de ruido son estimados usando un metodo
de momentos. Luego, los parametros de interes son obtenidos maximizando una verosimil-
itud incorrectamente especificada construida bajo asunciones de multinormalidad con los
parametros de ruido mantenidos fijos en sus estimaciones basadas en momentos.
Existen dos fuentes de dificultad con el metodo de ajuste de arriba. Primero, el metodo
necesita la inversion de T matrices de correlacion Ht, donde cada una requiere O(m3) op-
eraciones. Segundo, aun si estas inversiones fueran posibles, la precision de los estimadores
resultantes para θ fallarıa rapidamente debido a que la dimension de los parametros de ruido
crece conforme el numero de activos K se incrementa.
Con el fin de superar estas dificultades, Engle, Shephard, y Sheppard (2009) investigan el
uso de verosimilitudes compuestas marginales formadas al sumar log-verosimilitudes (incor-
rectamente especificadas) de subconjuntos de activos. Este enfoque resuelve las dificultades
numericas relacionadas a la inversion de matrices de alta dimensionalidad. El problema en el
incremento del numero de parametros de ruido es abordado al usar para los parametros de
ruido especıficos a cada activo y asumiendo un conjunto comun de parametros a todos los
activos; estos parametros comunes son estimados con verosimilitud compuesta.
2.3.2.7. Modelos de regresion marginal con datos faltantes
El analisis estadıstico de datos longitudinales es complicado debido a la potencial ocurencia de
respuestas faltantes. El popular metodo de ecuaciones de estimacion generalizadas (GEEs)
ideado por Liang y Zeger (1986) provee una inferencia valida bajo la suposicion de datos
faltantes ignorables (faltantes completamente al azar). Los problemas surgen cuando tal
suposicion no puede ser asegurada. Si la asuncion mas debil de faltantes al azar es valida,
entonces GEEs pueden todavıa usarse con el uso de pesos de probabilidad inversa, como en
Robins (1995). Una dificultad con esta estrategia es que requiere de la especificacion correcta
del proceso de datos faltantes, algo que puede ser imposible en la practica. Alternativamente,
uno puede basar la inferencia en la verosimilitud observada. Sin embargo, esta estrategia sufre
de falta de robustez ya que se basa en la especificacion correcta de la distribucion conjunta
Estimadores de maxima verosimilitud compuesta 36
de todas las respuestas observadas. La inferencia con verosimilitud compuesta para regresion
marginal en presencia de datos faltantes no ignorables se explica a continuacion.
Si solo parametros en marginales univariadas son de interes, Troxel, Lipsitz y Harrington
(2003) sugieren basar la inferencia bajo asunciones de faltantes al azar en la verosimilitud de
independencia
Lind(β,γ;x; r) =n∏i=1
mi∏r=1
f(xir, oir;β,γ)0ir
∫x
f(xir, oir;β,γ)dxir
1−oir
=n∏i=1
mi∏r=1
f(xir;β)πir(γ)0ir
[∫x
f(xir;β) 1− πir(γ) dxir]1−oir
donde β son los parametros de regresion marginal, oir indica si la observacion r sobre el sujeto
i ha sido observada o no y πir(γ) es la probabilidad de haberla observado modelada como
una funcion del parametro γ. Esta verosimilitud de independencia requiere ası solamente
la correcta especificacion de las marginales univariadas f(xir;β) y las probabilidades de
observacion πir(γ). Este enfoque es aplicado en Troxel, Lipsitz y Harrington (2003) para la
evaluacion de quimioterapia coadyuvante despues de cirugıa en un estudio longitudinal de
430 pacientes de cancer de pecho con hasta 37 % de respuestas faltantes. Ver tambien Parzen
et al. (2006) para otra ilustracion usando datos del bien conocido estudio longitudinal de las
Seis Ciudades sobre los efectos sobre la salud de la polucion del aire.
En situaciones donde la asociacion entre las respuestas es sustancial, la verosimilitud de
independencia puede conducir a inferencias sensibles, pero ineficientes sobre los regresores
β. Para tales situaciones, Paerzen et al. (2007) sugieren incorporar informacion acerca de la
dependencia cambiando a la verosimilitud por pares
Lpair(β,α,γ;x, o) = L1 × L2 × L3 × L4
Estimadores de maxima verosimilitud compuesta 37
con
L1 =n∏i=1
m1−1∏r=1
mi∏s=r+1
f(xir, xis, oir, ois;β,α,γ)oirois ,
L2 =n∏i=1
m1−1∏r=1
mi∏s=r+1
∫x
f(xir, xis, oir, ois;β,α,γ)dxir
(1−oir)ois
,
L3 =n∏i=1
m1−1∏r=1
mi∏s=r+1
∫x
f(xir, xis, oir, ois;β,α,γ)dxir
oir(1−ois)
,
L4 =n∏i=1
m1−1∏r=1
mi∏s=r+1
∫x
∫x
f(xir, xis, oir, ois;β,α,γ)dxirdxis
(1−oir)(1−ois)
,
donde α es un vector de parametros de asociacion involucrados en la distribucion conjunta
de un par de respuestas. Esta verosimilitud por pares es contrastada en Parzen et al. (2007)
con la verosimilitud de independencia previamente descrita en Troxel, Lipsitz y Harrington
(2003), nuevamente con el analisis de datos del estudio de las Seis Ciudades. Los resultados
muestran ventajas de modelar tambien la dependencia entre respuestas.
Si bien la verosimilitud por pares puede mejorar la eficiencia en la estimacion en com-
paracion con la verosimilitud de independencia, esto viene con el costo de la especificacion
correcta de las marginales bivariadas tanto de respuestas como de indicadores de ausencia.
En particular, la especificacion del mecanismo de datos faltantes aun solamente para pares es
un aspecto crıtico. Yi, Zeng y Cook (2009) muestran como superar esto. Ellos asumen, que
dado cualquier par de respuestas (xij, xik) y covariables yi, el proceso de datos faltantes no
contiene informacion sobre los parametros β y α. Con esta suposicion, la inferencia puede
ser basada en la verosimilitud por pares construida solamente de los pares observados de
respuestas,
Lpair(β,α;x) =n∏i=1
mi−1∏r=1
mi∏s=r+1
f(xir, xis;β,α)oirois ,
lo cual no requiere la especificacion de un proceso de distribucion de datos faltantes. Yi, Zeng
y Cook (2009) muestran que esto conduce a una ecuacion de estimacion insesgada y ası a
inferencia consistente para (β,α), sin asumir el mecanismo de faltantes al azar.
Estimadores de maxima verosimilitud compuesta 38
2.3.3. Eficiencia relativa
La aparente alta eficiencia de los metodos de verosimilitud compuesta en muchas aplicaciones
ha contribuido a un incremento del interes y en la literatura sobre estos metodos. Tres tipos
posibles de comparaciones de eficiencia son: (i) eficiencia asintotica computada por una cal-
culacion analıtica de G(θ) y comparacion con la informacion de Fisher I(θ), (ii) eficiencia
asintotica estimada usando simulacion basada en estimaciones de G(θ) y I(θ), y (iii) eficien-
cia empırica usando simulacion basada en estimaciones de var(θc) y var(θ). La primera da la
interpretacion mas clara, aunque bajo la asuncion de un modelo “asintotico ideal”, mientras
que la tercera esta mas cercana que es lo que puede obtenerse con tamanos de muestras
finitas. Una desventaja de los estudios basados en simulacion es que muchos aspectos del
modelo deben ser especificados con anticipacion, de modo que la relevancia de los resultados
sobre otros modelos ligeramente diferentes, no es siempre clara. Cuando θ es un vector, un
resumen global de la comparacion de G(θ) con I(θ) puede computarse usando la razon de los
determinantes, pero es mas comun comparar los componentes diagonales correspondientes a
los parametros en particular.
En casos excepcionales, los estimadores de verosimilitud compuesta por pares son to-
talmente eficientes e incluso identicos a los estimadores de maxima verosimilitud. Mardia,
Hughes y Taylor (2007) muestran que los estimadores de verosimilitud compuesta condicional
son identicos a los estimadores de maxima verosimilitud en el caso de la distribucion normal
multivariada con medias y covarianzas arbitrarias y Zi (2009) da el mismo resultado para la
verosimilitud compuesta por pares.
Mardia et al. (2009) proveen una explicacion para esto, mostrando que los estimadores
de verosimilitud compuesta condicional son altamente eficientes en familias exponenciales
que tienen cierta propiedad de cerradura bajo la formacion de subconjuntos. Bajo restric-
ciones adicionales, los estimadores de verosimilitud compuesta marginal son tambien to-
talmente eficientes. Un caso especial interesante es la distribucion normal multivariada equi-
correlacionada: un solo vector de observacion tiene media µ y matriz de covarianzas σ2 (1− ρ)I
Estimadores de maxima verosimilitud compuesta 39
+ρ11T
, donde I es la matriz identidad de dimension m y 1 es un vector de m 1´s. Con µ
y σ desconocidos, tanto los estimadores de maxima verosimilitud compuesta por pares como
los estimadores de maxima verosimilitud compuesta condicional completa y por pares son
identicos al estimador de maxima verosimilitud. Si µ es fijo, se cumplen los mismos resulta-
dos, pero si σ2 es fijo, entonces las estimaciones de verosimilitud compuesta para ρ no son
totalmente eficientes.
La distribucion exponencial cuadratica fue propuesta como un modelo para datos binarios
multivariados en Cox (1972) e inferencia para este modelo fue desarrollada en Zhao y Prenc-
tice (1990). Como se ha senalado en Cox y Reid (2004) su funcion de verosimilitud es igual a
la funcion de verosimilitud por pares para datos binarios generados por un modelo de liga pro-
bit. Esto provee un simple ejemplo donde la verosimilitud por pares es totalmente eficiente.
Las tablas de contingencia de doble entrada tambien tienen estimadores de verosimilitud por
pares iguales a los estimadores de maxima verosimilitud (Mardia et al., 2009).
Hjort y Varin (2008) tambien estudian a detalle propiedades de las verosimilitudes com-
puestas condicionales y marginales en una clase de modelos simplificados. En su caso, ellos
restringen la atencion a modelos de cadenas de Markov y tanto el analisis teorico y un calculo
detallado proveen una fuerte evidencia de que la verosimilitud compuesta marginal es eficiente
y robusta y preferible a la inferencia basada en la verosimilitud compuesta condicional. En
su caso la verosimilitud completa esta dada por
`(θ;x) =∑a,b
xa,b log pa,b(θ),
donde xa,b es el numero de transiciones de a a b, pa,b(θ) es la funcion de transicion de
probabilidad estacionaria y a, b oscilan entre el numero de estados en la cadena de Markov.
Este es un modelo de la familia exponencial curva, de tal modo que la teorıa de Mardia et
al. (2009) no aplica. La funcion de log-verosimilitud por pares es
c`(θ;x) =∑a,b
xa,b log pa,b(θ) +∑a
xa+ log pa(θ), (2.5)
Estimadores de maxima verosimilitud compuesta 40
donde xa+ =∑
b xa,b y pa(θ) es la probabilidad de equilibrio de que la cadena este en el estado
a. La ecuacion (2.5) es interpretada en Hjort y Varin (2008) como una log-verosimilitud pe-
nalizada, con una funcion de penalizacion que es especificada adecuando con la distribucion
de equilibrio. Esto provee una explicacion diferente de la eficiencia y robustez de la inferencia
basada en la verosimilitud por pares.
En modelos para datos agrupados, donde observaciones xir, r = 1, ...,mi, dentro del grupo
i-th estan correlacionadas, la eficiencia relativa asintotica a menudo puede ser determinada
obteniendo expresiones analıticas para G(θ) y J(θ). Dentro de este contexto, se dispone de es-
tudios extensivos de eficiencia relativa asintotica y existe tambien una literatura sobre la elec-
cion de las ponderaciones, usualmente relacionada con el tamano del grupo, para lograr una
eficiencia optima. Para la verosimilitud por pares, Joe y Lee (2009) investigan la eleccion de
ponderaciones en detalle para datos agrupados y muestran que la mejor eleccion de pondera-
ciones depende de la fuerza de la dependencia dentro de los grupos. Los modelos investigados
analıticamente son el normal multivariado, donde se pueden hacer comparaciones directas
con el estimador de maxima verosimilitud y el binario multivariado, creado dicotomizando
observaciones normales multivariadas. Las ponderaciones 1/(mi − 1), recomendadas en Kuk
y Nott (2000), LeCessie y Houwelingen (1994) y Zhao y Joe (2005), son apropiadas para
el caso lımite de independencia entre los grupos, pero las ponderaciones 1/ mi(mi − 1)
son optimas para los casos de dependencia muy fuertes. Un compromiso sugerido en Joe
y Lee (2009) es 1/ [(mi − 1) 1 + 0.5(mi − 1)], los cuales funcionan bien para un rango de
parametros y modelos. La mayorıa de las aplicaciones hasta ahora sin embargo han usado
las ponderaciones mas simples 1/(mi − 1). Joe y Lee (2009) tambien muestran que la mejor
eleccion de ponderaciones depende del parametro a ser estimado, proporcionando detalles
adicionales sobre resultados previos de Kuk y Nott (2000) y otros de que la verosimilitud por
pares sin ponderacion puede ser preferible para inferencia acerca de parametros de asociacion,
mientras que el ponderar mejora la estimacion de los parametros en la media.
Robustez 41
2.4. Robustez
Muchos autores se refieren a la inferencia basada en la verosimilitud compuesta como robus-
ta, ya que la verosimilitud compuesta requiere solamente de asunciones del modelo para las
densidades marginales o condicionales de bajas dimensiones y no una especificacion detallada
de la distribucion conjunta completa. Ası si existen varias distribuciones conjuntas con las
mismas distribuciones marginales o condicionales de bajas dimensiones, la inferencia es la
misma para todos los miembros de esa familia.
Un numero pequeno de artıculos investigan la robustez en mas detalle, usualmente a
traves de simulaciones de un modelo incorrectamente especificado. Por ejemplo, Lele y Ta-
per (2002) investigan el comportamiento de θc de la verosimilitud basada en diferencias
entre pares, (2.1), en su caso un modelo de efectos aleatorios de una sola vıa, asumiendo
primero normalidad de la distribucion de los efectos aleatorios y luego simulando los efec-
tos aleatorios bajo distribuciones no normales. Estos autores concluyen que los estimadores
de maxima verosimilitud compuesta y los estimadores de maxima verosimilitud restringida
(REML) de los componentes de varianza se comportan similarmente bajo un modelo in-
correctamente especificado. La verosimilitud REML es la funcion de verosimilitud para la
distribucion marginal de los residuales, la cual para modelos de la teorıa normal es la misma
que la verosimilitud basada en las diferencias entre pares. Wang y Williamson (2005) pre-
sentan simulaciones de datos binarios agrupados dispersos bajo un modelo para el cual la
estructura de correlacion esta incorrectamente especificada y sus resultados tambien indican
que los metodos de verosimilitud compuesta continuan teniendo una alta eficiencia.
En el analisis de datos longitudinales no es inusual tener observaciones faltantes y la
modelacion en este caso puede ser importante para inferencias validas. Esto es considerado
en detalle en Parzen et al. (2007) y nuevamente en Yi, Zeng y Cook (2009). El hecho de que
algunas versiones de verosimilitud compuesta sean en verdad robustas a la especificacion del
mecanismo de datos faltantes es otra caracterıstica muy atractiva de la verosimilitud com-
puesta.
Identificabilidad 42
La inversa de la informacion de Godambe, G(θ), es a menudo denominada como la es-
timacion robusta de la varianza, ya que es computada bajo el supuesto de que el modelo
esta incorrectamente especificado y los modelos de verosimilitud compuesta son por defini-
cion incorrectamente especificados. Sin embargo el uso de G−1(θ) como un estimador de la
varianza, no garantiza, por ejemplo, de que el estimador de verosimilitud compuesta tenga
una eficiencia alta bajo un rango de modelos consistente con la verosimilitud compuesta.
Liang y Qin (2000) usan una version especializada de la verosimilitud compuesta condi-
cional para un numero de modelos de regresion no estandar, donde puede requerirse la mod-
elacion de la distribucion para las variables explicativas. Sus simulaciones abordan la robustez
a la especificacion incorrecta de este aspecto de la modelacion, notando que el estimador de
maxima verosimilitud compuesta continua teniendo un sesgo pequeno, pero de algun modo
una varianza mas grande, bajo esta especificacion incorrecta.
Finalmente, Kent (1982) llama estadıstica de razon de lgo-verosimilitudes W robusta si
su distribucion asintotica fuera χ2p y discute una clase especial de modelos de la familia expo-
nencial que garantiza este resultado al mostrar que las ecuaciones score son de informacion
insesgada. Esta lınea de argumentos es adicionalmente desarrollada en Mardia et al. (2009).
2.5. Identificabilidad
No esta claro si los metodos de verosimilitud compuesta proporcionan resultados utiles si no
existe distribucion conjunta compatible con las densidades componentes usadas para constru-
ir la verosimilitud compuesta. En el caso de que la verosimilitud compuesta sea construida
de distribuciones condicionales, el teorema de Hammersley-Clifford especifica cuando existe
una distribucion conjunta genuina consistente con estas distribuciones condicionales, lo cual
fue usado en Besag (1974, 1975) en su desarrollo de la pseudo-verosimilitud para datos es-
paciales. Este asunto es perseguido en Wang y Ip (2008), donde se define la nocion clave de
interacciones y se enfatiza su papel clave en asegurar la compatibilidad de las distribuciones
conjuntas y condicionales; ver tambien Arnold, Castillo y Sarabia (2001).
Identificabilidad 43
No exıste un resultado analogo para la verosimilitud compuesta marginal, aunque es posi-
ble que haya una conexion con la teorıa de construccion de verosimilitudes conjuntas usando
copulas. Varios artıculos sobre el uso de la verosimilitud compuesta marginal usan una con-
struccion de copulas (Bhat, Sener y Eluru (2010); Tibaldi et al. (2004); Andersen (2004))
pero muchas aplicaciones de la verosimilitud compuesta marginal no lo hacen. Por ejemplo,
el desarrollo de la verosimilitud compuesta para extremos espaciales usa marginales por pares
como una aproximacion a una distribucion conjunta genuina.
Podemos, sin embargo, considerar la divergencia Kullback-Leibler compuesta,
CKL(g, f ;θ) =K∑K=1
wkEg log g(x ∈ Ak − log f(x ∈ Ak;θ))
que consiste de una combinacion lineal de divergencias Kullback-Leibler para cada termi-
no de la verosimilitud compuesta. Bajo algunas condiciones de regularidad el estimador de
maxima verosimilitud compuesta θ es consistente para el valor del parametro que minimiza
CKL e inferencia para este pseudo-parametro puede ser util para aplicaciones particulares.
Podrıamos tambien ver la ecuacion de estimacion de la verosimilitud compuesta como una
especificacion razonable del conocimiento acerca de parametros de distribuciones marginales
de baja dimensionalidad, en el espıritu de las ecuaciones de estimacion generalizadas; ver
Varin (2008). Esto puede ser especialmente verdadero para estimar parametros en la funcion
media.
Joe y Lee (2009) de paso senalan que a menos que los componentes de verosimilitud en la
construccion de una verosimilitud compuesta sean “lo suficientemente ricos para identificar el
parametro”, el estimador de verosimilitud compuesta no sera consistente. Presumiblemente,
si existe una distribucion conjunta completa en la cual los parametros de los componentes
sean (subvectores de los) parametros de la distribucion conjunta completa, esto garantiza
identificabilidad. Sin embargo parece posible que los parametros de las densidades compo-
nentes pudieran ser identificables bajo condiciones mas debiles.
Aspectos computacionales de la verosimilitud compuesta 44
2.6. Aspectos computacionales de la verosimilitud com-
puesta
2.6.1. Errores estandar de los estimadores de maxima verosimili-
tud compuesta
El calculo de errores estandar e intervalos de confianza requiere de la estimacion de la matriz
de Godambe y sus componentes. Nuevamente, es util distinguir entre el caso de n grande
con m fija y viceversa. El primer caso es mas simple con estimaciones muestrales facilmente
computadas de las matrices de sensibilidad y variabilidad. La estimacion muestral de la
matriz de sensibilidad esta dada por
H(θ) = − 1
n
n∑i=1
∇uc(θc;xi),
donde uc(θ;xi) = ∇c`(θ;xi). El calculo de las Hessianas puede ser evitado aprovechando
la segunda identidad de Bartlett, la cual permanece valida para cada termino individual de
verosimilitud que forma la verosimilitud compuesta. Esto produce la estimacion alternativa
H(θ) =1
n
n∑i=1
m∑r=1
uc(θc;xir)uc(θc;xir)T .
La estimacion muestral de la matriz de variabilidad es expresada por el producto externo de
las scores compuestas calculadas en θc
J(θ) =1
n
n∑i=1
uc(θc;xi)uc(θc;xi)T .
Las estimaciones empıricas de arriba de H y J pueden ser imprecisas cuando n no es sufi-
cientemente grande comparado con la dimension de θ. Esto es bien conocido en la literatura
longitudinal donde los metodos de re muestreo, tales como jackknife o bootstrap, son en
Aspectos computacionales de la verosimilitud compuesta 45
ocasiones usados para obtener estimaciones mas robustas de la matriz de covarianzas de θc;
ver por ejemplo Lipsitz, Dear y Zhao (1994). La matriz de covarianzas jackknife esta dada
por
varjack(θc) =n− 1
n
n∑i=1
(θ(−i)c − θc)(θ
(−i)c − θc)T ,
donde θ(−i)c es el estimador de verosimilitud compuesta de θ con xi eliminado. Zhao y Joe
(2005) usan varjack para la estimacion de los errores estandar de los estimadores de maxima
verosimilitud por pares con datos agrupados. Una ventaja adicional posible del metodo de
jackknife es la posibilidad de obtener una correccion por sesgo aproximada de θc. En ciertas
aplicaciones la computacion del conjunto de θ(−i)c puede ser excesivamente costosa y puede
ser conveniente considerar una aproximacion de primer orden donde θ(−i)c sea aproximado
con una sola etapa del algoritmo de Newton-Raphson.
El caso mas difıcil es cuando m es grande para un n fijo, con la situacion extrema de
n = 1 cuando una sola serie de tiempo o proceso espacial es observado. Mientras la estimacion
muestral de la matriz de sensibilidad H tiene una forma usual, las dificultades surgen para
la matriz de variabilidad J . Una estimacion muestral de la ultima es posible solamente si
los datos pueden ser agrupados en replicaciones pseudo-independientes. Considerando un
proceso espacial o temporal con buenas propiedades de mezclado, una estimacion muestral
de J puede ser obtenida dividiendo la region bajo estudio en subregiones tratadas como
aproximadamente independientes:
Jws(θ) =1
B
B∑b=1
|Sb|uc(θc;x ∈ Sb)uc(θc;x ∈ Sb)T ,
donde S1, ...,SB son B subregiones sobrepuestas posibles y |S| denota la dimension del con-
junto S. Heagerty y Lele (1998) llaman a este metodo submuestreo por ventanas y lo usan
para inferencia con verosimilitud por pares con datos binarios espaciales. Para mas detalles
y orientacion sobre la eleccion de las subregiones, refierase a Lumley y Heagerty (1999).
Cuando las condiciones para asegurar la validez del submuestreo por ventanas u otras
estimaciones empıricas no son satisfechas, la estimacion de J debe ser hecha bajo las asun-
Aspectos computacionales de la verosimilitud compuesta 46
ciones del modelo. En ciertos contextos, puede ser posible computar J explıcitamente. Por
ejemplo, en el caso de la verosimilitud por pares, la estimacion de J basada en el modelo
tıpicamente requiere la estimacion de esperanzas de 4 dimensiones. Cuando es facil simular
datos del modelo completo, simulaciones Monte Carlo pueden ser usadas ya sea para estimar
la matriz J con
Jmc(θ) =1
B
B∑b=1
uc(θc;x(b))uc(θc;x
(b))T ,
donde x(1), ..., x(B) son elecciones independientes del modelo ajustado, o por estimacion di-
recta de la matriz de covarianzas de θc del ajuste repetido de los datos simulados.
2.6.2. Algoritmo EM para la verosimilitud compuesta
El algoritmo EM (Dempster, Laird y Rubin, 1997) y sus variantes son metodos populares
para obtener estimadores de maxima verosimilitud en un numero de situaciones. Ejemplos
incluyen datos faltantes, datos censurados, variables latentes, modelos de mezclas finitas y
modelos ocultos de Markov. Ver el libro de McLachlan y Krishnan (2008) para larga pre-
sentacion.
El algoritmo EM puede ser facilmente extendido para la maximizacion de verosimilitudes
compuestas. Esto puede ser util para modelos donde la etapa de esperanza involucra inte-
gracion en altas dimensiones, haciendo ası impractico el uso del algoritmo estandar EM. El
primer ejemplo del algoritmo compuesto EM parece ser el algoritmo EM por pares propuesto
por Liang y Yu (2003) en tomografıa de redes, ver tambien Castro et al. (2004). Varin, Hφst
y Skare (2005) consideran una version aproximada del mismo algoritmo para inferencia en
modelos lineales generalizados espaciales mixtos. Gao y Song (2011) discuten propiedades de
un algoritmo EM general para la verosimilitud compuesta marginal y dan una ilustracion de
la version por pares para modelos ocultos de Markov multivariados.
En este caso se resume brevemente el algoritmo EM por pares. Sea y1, ..., ym los datos
completos y x1, ..., xm los datos observados. Denote por θ(0) un valor inicial para θ. Dado
θ(h), la iteracion en la etapa h del algoritmo EM por pares, la siguiente iteracion θ(h+1) es el
Aspectos computacionales de la verosimilitud compuesta 47
valor tal que
Q(θ(h+1)|θ(h)) ≥ Q(θ|θ(h)), para cualquier θ ∈ Θ,
donde Q(θ|θ(h)) es la suma de las probabilidades condicionales bivariadas
Q(θ|θ(h)) =m−1∑r=1
m∑s=r+1
E
log f(yr, ys;θ)|xr, xs;θ(h−1).
Como se muestra en detalle por Gao y Song (2011), es facil probar que este algoritmo com-
parte las tres propiedades clave del algoritmo EM estandar, esto es
[I] la propiedad de ascenso
Lpar(θ(h+1);x) ≥ Lpar(θ(h);x), h = 1, 2, ...
[II] convergencia a un punto estacionario de la funcion objetivo y
[III] tasa de convergencia dependiendo de la curvatura de la funcion objetivo.
2.6.3. Integracion en bajas dimensiones versus integracion en altas
dimensiones
En muchas aplicaciones, la motivacion para inferencia a traves de la verosimilitud compuesta
es sustituir la integracion complicada en altas dimensiones involucrada en las verosimilitudes
completas con integrales en bajas dimensiones. Estas ultimas a menudo pueden ser calcu-
ladas usando reglas de cuadratura determinısticas precisas. Por ejemplo, Bellio y Varin (2005)
aproximan integrales involucradas en modelos de regresion logısticos con efectos aleatorios
usando mezclas de escala normal y reglas de cuadratura bivariadas.
En contraste, las integrales en altas dimensiones tıpicamente requieren metodos de sim-
ulacion Monte Carlo con varias dificultades potenciales. Primero, el tiempo computacional
puede ser demasiado grande para propositos practicos. Segundo, el error de simulacion puede
Aspectos computacionales de la verosimilitud compuesta 48
ser sustancial y difıcil de evaluar, haciendo la optimizacion de la verosimilitud aproximada
muy problematica. Una tercera razon preocupante se refiere a la reproducibilidad de los re-
sultados, especialmente para audiencias no tecnicas.
Una posible ventaja de la maxima verosimilitud simulada versus los metodos de maxi-
ma verosimilitud compuesta es la posibilidad de basar la inferencia en resultados asintoticos
estandar, sin necesidad de computar la mas complicada informacion de Godambe o modificar
la distribucion chi-cuadrada de la prueba de razon de verosimilitud. Sin embargo, muchos
autores sugieren tambien el uso de la informacion de Godambe para la maxima verosimilitud
simulada para tomar en cuenta el error de simulacion debido al uso de un numero finito de
extracciones; ver por ejemplo McFadden y Train (2000). Ası, la simplicidad potencial de la
inferencia a traves de maxima verosimilitud se pierde usando simulaciones para aproximar
la verosimilitud. Para una comparacion entre la maxima verosimilitud simulada basada en
reglas quasi-Monte Carlo y la verosimilitud por pares para modelos probit ordinales ver Bhat,
Varin y Ferdous (2010).
2.6.4. Dificultades combinatorias
Otra motivacion computacional para preferir el metodo de verosimilitud compuesta es la
dificultad combinatoria asociada con algunos analisis tipo verosimilitud basados en datos
completos. Ejemplos de esto incluyen el computo de la verosimilitud parcial (Cox, 1975) para
el modelo de riesgo proporcional cuando el numero de eventos es grande y el computo de
la verosimilitud condicional para estudios de caso-control con un numero grande de casos.
Otras dificultades combinatorias surgen cuando el computo de la distribucion conjunta de
los datos requiere el condicionamiento sobre los estadısticos de orden, involucrando ası m!
permutaciones, donde m es el tamano de la muestra (Kalbfleisch, 1978). Mientras que la difi-
cultad del computo de integrales en altas dimensiones conduce naturalmente a las verosimil-
itudes compuestas marginales, el evitar estas dificultades combinatorias conducen al uso de
verosimilitudes compuestas condicionales, como en Liang (1987) y Liang y Qin (2000).
CAPITULO 3
MODELOS ESPACIALES SOBRE LATTICES
3.1. Introduccion
En problemas espaciales, la estructura probabilıstica de los datos suele representar depen-
dencias muy complejas, ademas de la presencia potencial de una alta dimensionalidad. Por
consecuencia, esta es una de las areas donde los metodos de verosimilitud compuesta han
adquirido una gran relevancia.
Aplicaciones potenciales de los modelos espaciales ocurren en ecologıa, epidemiologıa, agri-
cultura, genetica, etc. Hay ocasiones donde tenemos que considerar un sistema arbitrario, que
consiste de un conjunto finito de sitios, cada uno de los cuales tienen asociado una variable
aleatoria univariada. En muchas aplicaciones, los sitios representaran puntos o regiones en
un plano Euclidiano y probablemente estaran sujetos a una estructura en lattice.
Hay muchas situaciones donde podemos encontrar esquemas espaciales. No obstante, para
la especificacion de procesos espaciales estocasticos, necesitamos introducirnos a la teorıa de
los campos aleatorios de Markov.
Campos aleatorios de Markov 50
3.2. Campos aleatorios de Markov
Un campo aleatorio se puede definir como un proceso estocastico multidimiensional, es decir
una familia de variables aleatorias indexadas en mas de una dimension. En la siguiente
subseccion analizamos algunas propiedades de los procesos de Markov unidimensionales y
luego generalizamos a mas dimensiones.
3.2.1. Cadenas de Markov
Una cadena de Markov finita es una sucesion de variables aleatorias Xt con t = 1, ..., N tal
que se cumple la siguiente propiedad:
P (Xt = xt | Xk = xk ∀ k < t) = P (Xt = xt | Xt−1 = xt−1)
donde xt es el valor que toma la variable Xt, la cual pertenece a un conjunto discreto finito.
Lo que quiere decir, que las probabilidades condicionales sobre todos los valores anteriores
depende solo del valor de la variable anterior mas reciente.
En una cadena de Markov quedan determinadas todas las probabilidades si se tienen
las probabilidades de transicion P (Xt = xt | Xt−1 = xt−1) para t = 1, ..., N y ademas la
probabilidad inicial P (X0 = x0). Esto lo podemos notar a partir de la expresion para la
probabilidad conjunta de las variables
P (X0, X1, ..., XN) = P (XN | XN−1)P (XN−1 | XN−2)...P (X1 | X0)P (X0) (3.1)
Por definicion, la probabilidad condicional se puede escribir de la siguiente forma:
P (Xt | Xk ∀ X 6= t) =P (X0, X1, ..., XN)∑XtP (X0, X1, ..., XN)
donde en el denominador se suma sobre todos los valores que puede asumir Xt.
Campos aleatorios de Markov 51
Ahora, usando (3.1) se obtiene
P (Xt | Xk ∀ k 6= t) =P (XN | XN−1)...P (Xt+1 | Xt)P (xt | Xt−1)...P (X1 | X0)P (X0)∑XtP (XN | XN−1)...P (Xt+1 | Xt)P (Xt | Xt−1)...P (X1 | X0)P (X0)
=P (Xt+1 | Xt)P (Xt | Xt−1)∑XtP (Xt+1 | Xt)P (Xt | Xt−1)
Entonces tenemos lo siguiente:
P (Xt | Xk ∀ k 6= t) = P (Xt | Xt−1, Xt+1). (3.2)
Para los extremos tendrıamos
P (XN | Xk ∀ k 6= N) = P (XN | XN−1) (3.3)
y
P (X0 | Xk ∀ k 6= 0) = P (X0 | X1) (3.4)
Todo proceso Xt con t = 1, ..., N que cumpla con las condiciones dadas en (3.2), (3.3)
y (3.4) se define como un proceso estocastico Markoviano bilateral.
Se define como sistema de vecinos ∆ a la coleccion de vecindades asociadas a cada variable
del proceso. Es decir,
∆ = δ0, ..., δN
donde δt se define como:
δt =
Xt−1, Xt+1 si 0 < t < N
X1 si t = 0
XN−1 si t = N
Y por lo tanto se puede escribir (3.2), (3.3) y (3.4) en una sola ecuacion
P (Xt | Xk ∀ k 6= t) = P (Xt | δt) (3.5)
Campos aleatorios de Markov 52
3.2.2. Generalizacion en dos dimensiones
Dado el conjunto de variables aleatorias X = Xij | i, j = 1, ..., N cuyos elementos pueden
asumir los valores del conjunto S = 0, 1, ..., L, debe definirse el sistema de vecinos ∆ =
δij | i, j = 1, ..., N.
Ası X es un campo aleatorio de Markov si se cumple que
P (Xij | Xk,l ∀ (i, j) 6= (k, l)) = P (Xi,j | δi,j) (3.6)
Estas probabilidades condicionadas son llamadas caracterısticas locales y determinan un
campo aleatorio de Markov.
Como ejemplo, se puede considerar el sistema de vecinos de primer orden
δij =X(i−1,j), X(i+1,j), X(i,j−1), X(i,j+1)
(3.7)
para i 6= 0, i 6= N , j 6= 0 y j 6= N , es decir, para las posiciones que no se encuentran
en la frontera del campo, los vecinos son las variables contiguas en sentido horizontal y
vertical. Para las variables de la frontera, es posible asumir distintos criterios que completen
la definicion del sistema de vecinos.
Un criterio muy utilizado para determinar los vecinos de las variables de la frontera es
considerar que el campo forma un “torus” y por lo tanto, se definen los vecinos de una variable
a traves de (3.7) con la salvedad de que las sumas y restas en los subındices se efectuan en
modulo N . En forma mas general, el esquema dado por (3.7) puede considerarse sistema de
vecinos de orden p (Figura 3.1).
Es decir, que si δpi,j representa los vecinos de la variable en la posicion (i, j) en el esquema de
orden p, entonces se tiene lo siguiente:
Campos aleatorios de Markov 53
X X X X
(a)orden1 (b) orden2 (c) orden3 (d)orden4
Figura 3.1: Diferentes estructuras de vecindades
δ1i,j = Xi−1,j, Xi+1,j, Xi,j−1, Xi,j+1
δ2i,j = Xi−1,j, Xi+1,j, Xi,j−1, Xi,j+1, Xi−1,j−1, Xi−1,j+1, Xi+1,j−1, Xi+1,j+1
δ3i,j = Xi−1,j, Xi+1,j, Xi,j−1, Xi,j+1, Xi−1,j−1, Xi−1,j+1, Xi+1,j−1, Xi+1,j+1, Xi−2,j, Xi+2,j, Xi,j−2, Xi,j+2...
etc.
3.2.3. Campos aleatorios de Gibbs
Se considera un campo aleatorio X = Xij | i, j = 0, ..., N y un sistema de vecinos sobre
dicho campo ∆ = δi,j | i, j = 1, ..., N.
Se define como potencial U sobre el campo X a la familia de funciones UA con A ∈X,
donde cada UA toma un valor real y depende solamente de las variables incluidas en A.
La energıa de un potencial U se obtiene sumando sobre los potenciales de todos los subcon-
juntos de X, es decir
HU =∑A∈χ
UA
Campos aleatorios de Markov 54
Un campo aleatorio de Gibbs con potencial U es aquel cuya probabilidad conjunta del campo
es
P (X) =1
Zexp HU
donde X es un vector que contiene las variables del campo y Z es la constante normalizadora
tal que se cumpla que∑X P (X) = 1.
Se define como clique a todo conjunto de sitios que consiste de un solo sitio c ∈X o sitios
c donde, para cada elemento de C, se cumple que este es vecino del resto de los elementos
de ese conjunto. Es decir, dados cualesquiera Xi,j, Xk,l ∈ C con (i, j) 6= (k, l) se cumple que
Xk,l ∈ δi,j.
Figura 3.2: Tipos de cliques para un sistema de orden 1.
Figura 3.3: Tipos de cliques para un sistema de orden 2
En las figuras 3.2 y 3.3 se muestra, para los sistemas de vecinos de orden 1 y 2 que se
consideraron anteriormente, las configuraciones de las variables del campo con las cuales se
obtienen todos los cliques.
Cuando el potencial U es tal que UA = 0 ∀A /∈ C, donde C es el conjunto de todos los
cliques de un campo, se dice que tal potencial es un potencial de vecinos. Cuando se tiene
este caso, la energıa se obtiene sumando sobre todos los potenciales asociados a los cliques.
Campos aleatorios de Markov 55
Entonces la probabilidad conjunta serıa:
P (X) =1
Zexp
∑c∈C
UC
Todas las probabilidades en un campo de Gibbs, quedan determinadas por el sistema de
vecinos y los potenciales asociados a los cliques.
Usando la definicion de probabilidad condicional, las caracterısticas locales para un Cam-
po de Markov se pueden escribir como
P (Xi,j | δi,j) =P (X)∑Xi,j
P (X). (3.8)
Como P (X) es una distribucion de Gibbs, la ecuacion anterior se puede escribir como
P (Xi,j | δi,j) =exp HU∑Xi,j
exp HU(3.9)
donde HU es la energıa y se obtiene sumando los potenciales asociados a todos los cliques.
Si dividimos HU en dos terminos, digamos los cliques que contienen a Xi,j, HA, y a HB
como los cliques que no lo contienen, entonces la ecuacion (3.9) puede ser escrita como
P (Xi,j | δi,j) =exp
∑AHA∑
Xi,jexp
∑AHA
La equivalencia entre campos de Gibbs y campos de Markov es muy importante ya que
permite definir unıvocamente un campo aleatorio de Markov a traves de los potenciales de
Gibbs.
3.2.4. Funcion negpotencial y teorema de Hammersley-Clifford
Como ya mencionamos anteriormente, existe una conexion entre los campos aleatorios de
Markov y los campos aleatorios de Gibbs. El teorema que establece formalmente tal conexion
Campos aleatorios de Markov 56
se conoce como teorema de Hammersley-Clifford (1971). Antes de enunciar este teorema, se
requiere hacer una revision de algunos resultados y conceptos importantes para la construc-
cion de la verosimilitud de una especificacion condicional.
Considere un conjunto de variables aleatorias discretas X1, X2, ..., Xn definidas en los
sitios 1, 2, .., n, respectivamente. Haremos la siguiente asuncion importante: si x1, x2, ..., xn
pueden ocurrir individualmente en los sitios 1, 2, .., n, repectivamente, entonces pueden ocu-
rrir conjuntamente. Formalmente, si P (xi) > 0 para cada i, entonces P (x1, x2, ..., xn) > 0. Sin
perdida de generalidad, asuma que cero puede ocurrir en cada sitio, es decir 0 ∈ Ω. Donde
Ω ≡ x : P (x) > 0. Esto asegura, que bajo la condicion de positividad, una realizacion de
ceros es posible. Ası, P (0) > 0 y entonces legıtimamente definimos
Q(x) = log P (x)/P (0) .
El conocimiento de Q(·) es equivalente al conocimiento de P (·), puesto que
P (x) = exp(Q(x))/∑t∈Ω
exp(Q(t))
en el caso discreto. La funcion analoga en el caso continuo se obtiene reemplazando P (·) por
la fdp f(·) y∑
con∫
. En la literatura sobre mecanica estadıstica (e.g., Ruelle, 1969), −Q
juega el rol de una funcion de energıa potencial y el termino normalizador∑t∈Ω exp(Q(t))
es llamado funcion de particion. En el contexto espacial, ver por ejemplo Cressie (1993, Pag.
415), a Q se le conoce como la funcion negpotencial. En adelante nos referiremos a Q
como la funcion negpotencial.
La funcion negpotencial Q satisface las siguientes dos propiedades
(i)P (xi| xj : j 6= i)P (0i| xj : j 6= i)
=P (x)
Pr(xi)= exp(Q(x)−Q(xi)).
donde 0i denota el evento Xi = 0 y xi = (x1, ..., xi−1, 0, xi+1..., xn).
Generacion de un campo aleatorio de Markov 57
(ii) De Besag (1974), Q puede ser expandida unicamente sobre Ω de la siguiente forma
Q(x) =∑
1≤i≤n
xiGi(xi) +∑1≤i<
∑j≤n
xixjGi,j(xi, xj) +∑1≤i<
∑j<k
∑≤n
xixjxkGi,j,k(xi, xj, xk)
+...+ x1x2...xnG1,2,...,n(x1, x2, ..., xn). (3.10)
Una demostracion de las propiedades (i) y (ii) puede verse en Cressie (1993, Pag.416).
Recuerde que P (x) (o f(x)) es proporcional a exp(Q(x)). Ya que la funcion de vero-
similitud es P (x), expresada como una funcion de los parametros del proceso aleatorio, es
claro que encontrar la constante de proporcionalidad como una funcion (en forma cerrada) de
esos parametros es importante. Esto no es siempre posible. Sin embargo, existe un resultado
disponible muy poderoso con respecto a la forma que debe tomar la funcion Q:
Teorema de Hammersley-Clifford (Hammersley y Clifford, 1971). Suponer que X
es distribuido acorde a un campo aleatorio de Markov sobre Ω que satisface la condicion de
positividad. Entonces la funcion negpotencialQ(·) dada por (3.10) debe satisfacer la siguiente
propiedad
Si los sitios i, j, ..., s no forman un clique, entonces Gi,j,...,s ≡ 0.
donde los cliques son definidos por la estructura de vecindades δ1, ..., δn.
3.3. Generacion de un campo aleatorio de Markov
3.3.1. El Muestreador de Gibbs
Actualmente, uno de los topicos mas activos en la estadıstica computacional es la inferencia
de la simulacion iterativa, especialmente el algoritmo de Metropolis y el muestreador de Gibbs
(Metropolis y Ulam, 1949; Metropolis et al., 1953; Hasting, 1970; Geman y Geman, 1984;
y Gelfand et al., 1990). La idea esencial de la simulacion iterativa es tomar valores de una
Generacion de un campo aleatorio de Markov 58
variable X de una secuencia de distribuciones que convergen, como iteraciones continuas,
a la distribucion objetivo deseada de X. Para inferencia sobre X, la simulacion iterativa es
tıpicamente menos eficiente que la simulacion directa, la cual es simplemente elegir de la
distribucion objetivo, pero la simulacion iterativa es aplicable a un amplio rango de casos.
El muestreador de Gibbs es un metodo para producir muestras de una distribucion. Es
particularmente usado cuando se muestrea de una distribucion de Gibbs y las muestras re-
sultantes forman un campo aleatorio de Markov.
Como vimos anteriormente un campo de Gibbs con potencial U tiene una probabilidad con-
junta
P (X) =1
Zexp HU (3.11)
Tambien vimos que podemos escribir una distribucion de Gibbs como sigue
P (Xi,j | δi,j) =exp HU∑Xi,j
exp HU. (3.12)
El algoritmo del muestreador de Gibbs esta basado en el teorema de Relajacion de Gelman
y Geman (1984). Este teorema establece que, independientemente de la configuracion inicial
y la secuencia en la cual los sitios son visitados para el reemplazo, a condicion de que todos
los sitios son visitados infinitas veces, la distribucion de la secuencia, X(t)t≥1, producida
por el muestreador de Gibbs, converge a la distribucion de Gibbs (3.11).
El muestreador de Gibbs puede ser esbozado en los siguientes pasos para simular un valor
de una distribucion conjunta P (x1, ..., xn) como en (3.11):
1. Determinar un conjunto de valores iniciales
x(0)1 , ..., x(0)
n ∈ Ω.
Generacion de un campo aleatorio de Markov 59
2. Generar un valor x(1)1 de la densidad condicional
P (x1|x(0)2 , ..., x(0)
n ).
3. Generar un valor x(1)2 de la densidad condicional
P (x2|x(1), x(0)3 , ..., x(0)
n ).
4. Generar un valor x(1)3 de la densidad condicional
P (x3|x(1), x(1)2 , x
(0)4 , ..., x(0)
n ).
5. Continuar la progresion de arriba hasta que un valor de x(1)n ha sido generado para la
ultima variable aleatoria de,
P (xn|x(1), x(1)2 , ..., x
(1)n−1),
la cual ahora resulta en un nuevo valor x(1)1 , ..., x
(1)n .
6. Reeemplazar x(0)1 , ..., x
(0)n con x
(1)1 , ..., x
(1)n y regresar al paso 2.
7. Repetir un gran numero de veces M, resultando en el valor
x(M)1 , ..., x(M)
n ,
la cual es una sola observacion de la densidad conjunta o funcion masa P (x1, ..., xn).
3.3.2. Criterio de convergencia
El muestreo de Gibbs, el algoritmo de Metropolis y metodos similares para la simulacion
iterativa son usados para resumir distribuciones multivariadas. Muchos autores han aborda-
Generacion de un campo aleatorio de Markov 60
do el problema de tomar inferencias de la simulacion iterativa, incluyendo a Ripley (1987),
Gelfand y Smith (1990), Geweke (1992) y Raftery y Lewis (1992) en la reciente literatura
estadıstica. El uso practico de los metodos de simulacion iterativa pueden ser complicado ya
que despues de cualquier numero finito de iteraciones, la distribucion intermedia es usada
para tomar x entre la distribucion inicial y la distribucion objetivo. Como Gelman y Rubin
(1992) demostraron para un modelo sobre lattices Ising, el cual es una aplicacion estandar de
la simulacion iterativa (Kinderman y Snell, 1980), generalmente no es posible monitorear la
convergencia de una simulacion iterativa de una sola secuencia (i.e, una caminata aleatoria).
La dificultad basica es que la caminata aleatoria puede permanecer para muchas iteraciones
en una region altamente influenciada por la distribucion inicial. Este problema puede ser
especialmente agudo cuando se examina una baja dimension de la variable aleatoria multidi-
mensional que esta siendo simulada y puede ocurrir incluso cuando la distribucion objetivo
es univariada y unimodal, como en el ejemplo de Gelman y rubin (1992).
Gelman y Rubin (1992) proponen un metodo para probar convergencia en dos partes
principales: Crear una distribucion aproximada sobredispersa de la cual tomar multiples val-
ores iniciales para multiples secuencias iteradas y usar las multiples secuencias para obtener
inferencias de la distribucion objetivo.
Comenzamos creando una aproximacion con una distribucion que sea sobredispersa de
la cual obtenemos multiples valores iniciales. Encontramos tal distribucion en tres pasos.
Primero, localizamos las regiones de alta densidad de la distribucion objetivo (multivariada)
de X para asegurar que nuestros valores iniciales para la simulacion iterativa no pierda total-
mente regiones importantes de la distribucion objetivo. Segundo, creamos una aproximacion
sobredispersa, tal que la distribucion inicial cubra la distribucion objetivo en el mismo senti-
do que una distribucion aproximada por muestreo por rechazo deberıa cubrir la distribucion
exacta. Tercero, reducimos las elecciones de la distribucion aproximada que tengan relativa-
mente menor densidad bajo la distribucion objetivo.
Para realizar la inferencia de secuencias simuladas procedemos en siete pasos:
Primero, independientemente simulamos m ≥ 2 secuencias, cada una de longitud 2n, con
Generacion de un campo aleatorio de Markov 61
puntos iniciales tomadas de una distribucion sobredispersa. Para disminuir el efecto de la
distribucion inicial, descartamos las primeras n iteraciones de cada secuencia y enfocamos la
atencion en las ultimas n.
Segundo, para cada parametro escalar de interes, se calcula
B/n = la varianza entre las m secuencias de medias, xi., cada una basada en los n valores
de x, B/n =∑m
i=1(xi. − x..)2/(m− 1); y
W = el promedio de las m varianzas entre secuencias, s2i , cada una basado en n−1 grados
de libertad, W =∑m
i=1 s2i /m.
Si solo una secuencia es simulada, B no puede ser calculado.
Tercero, estimamos la media objetivo, µ =∫xP (x)dx, por µ, la media muestral de los
mn valores simulados de x, µ = x...
Cuarto, estimamos la varianza objetivo, σ2 =∫
(x− µ)2P (x)dx, por un promedio pon-
derado de W y B, es decir,
σ2 =n− 1
nW +
1
nB, (3.13)
la cual sobreestima σ2, asumiendo que la distribucion inicial es apropiadamente sobredisper-
sada, pero es insesgada para σ2 bajo estacionariedad, (i.e, si la distribucion inicial es igual
a la distribucion objetivo) o el lımite n → ∞. Mientras tanto, para cualquier n finito, W
deberıa ser menos que σ2 porque las secuencias individuales no tienen tiempo para recorrer
todo el rango de la distribucion objetivo y como un resultado, habra menos variabilidad; en
el lımite cuando n→∞, la esperanza de W se aproxima a σ2.
Quinto, estimar lo que es conocido sobre x. Podemos mejorar la estimacion optima
(i.e., demasiado precisa) de la distribucion objetivo N(µ, σ2) permitiendo la variabilidad
de la muestra de las estimaciones, µ y σ2. El resultado es una aproximacion a la distribu-
cion t de Student para x con centro µ, escala√V =
√σ2 +B/mn y grados de libertad
df = 2V 2/var(V ), donde
var(V ) =
(n− 1
n
)21
mvar(s2
i ) +
(m+ 1
mn
)22
m− 1B2 + 2
(m+ 1)(n− 1)
mn2
.n
m[ ˆcov(s2
i , x2i.)− 2x.. ˆcov(s2
i , xi.)], (3.14)
Generacion de un campo aleatorio de Markov 62
y donde las varianzas estimadas y covarianzas son obtenidas de los m valores muestrales de
xi. y s2i ; df →∞ cuando n→∞.
Sexto, monitorear la convergencia de la simulacion iterativa estimando el factor por el
cual el parametro de escala de la distribucion para x podrıa ser reducido si las simulaciones
fueron seguidas en el lımite n → ∞. Esta reduccion potencial de la escala es estimada por√R =
√(V /W )df/(df − 2), el cual declina a 1 cuando n → ∞. R es la razon de la actual
varianza estimada, V , la varianza entre las secuencias, W , con un factor para tener en cuenta
la varianza extra de la distribucion de Student. Si la reduccion de la escala es alta, entonces
tenemos razones para creer que el procedimiento con simulaciones adicionales pueden mejorar
nuestra inferencia sobre la distribucion objetivo.
Septimo, una vez que R esta cercano a 1 para todos los escalares estimados de interes, es
tıpicamente deseable resumir la distribucion objetivo para un conjunto de simulaciones con
el fin de detectar caracterısticas normales de la distribucion objetivo. Los valores simulados
de las ultimas mitades de las secuencias simuladas proveen tales comparaciones.
CAPITULO 4
EL MODELO CONDICIONAL POISSON
WINSORIZADO
4.1. Introduccion
En muchas areas encontramos datos en donde existen razones fısicas para creer que el valor de
la respuesta en localidades vecinas tiene una influencia directa en el valor de la respuesta en
una localidad en particular. Para modelar tales escenarios, los campos aleatorios de Markov, la
familia de auto-modelos propuestos por Besag (1974) en particular, son una opcion apropiada.
Si las respuestas observadas son conteos, se puede hacer uso del auto-modelo Poisson.
El auto-modelo Poisson es un modelo natural para modelar datos que consisten de
pequenos conteos y pueden exhibir dependencia, frecuentemente dependencia espacial. Sin
embargo, no es posible modelar dependencia positiva con un auto-modelo Poisson regular.
Para modelar dependencias positivas en conteos multivariados se hace uso del modelo condi-
cional Poisson Winsorizado (Kaisser y Cressie, 1977). De hecho, este modelo puede ser usado
para incorporar dependencia positiva o negativa entre las variables. Es importante ver como
surge este tipo de auto-modelo para posteriormente trabajar con el mismo.
El auto-modelo Poisson 64
4.2. El auto-modelo Poisson
Para considerar la formulacion del auto-modelo Poisson sea si una localidad fısica en una
region geografica de interes y sea Z ≡ si : i = 1, ..., n un lattice finito (regular o irregu-
lar) definido por estos sitios. El proceso aleatorio asociado con estas localidades geograficas
sera denotado como X ≡ X(si) : si ∈ Z. Los auto-modelos son formulados sobre la base de
un campo aleatorio de Markov definido por la especificacion de una vecindad para cada com-
ponente de X. Como ya mencionamos anteriormente, un sitio sj es un vecino de un sitio si si
la distribucion condicional de X(si) dado X(sk) : k 6= i depende funcionalmente del valor
de X(sj). Por ejemplo, para variables aleatorias discretas, la funcion masa de probabilidad
de X(si) condicional sobre sus vecinos serıa
p(x(si)|x(Ni))) ≡ p(x(si)| x(sj) : sj ∈ Ni)
dondeNi ≡ sj : sj es vecino de si. Un auto-modelo Poisson resulta de especificar que todos
los componentes de X tienen fmps condicionales Poisson. La cantidad que conecta al modelo
especificado condicionalmente con la verosimilitud conjunta de X se conoce como “funcion
negpotencial” y puede definirse como Q(x) ≡ log Pr(x)/Pr(0) donde 0 denota un vector
de ceros de longitud n y x ∈ Ω. Si uno puede calcular Q(·), la fmp conjunta de X se obtiene
como
f(x) =exp Q(x)∑t∈Ω exp Q(t)
(4.1)
El metodo existente para construir un auto-modelo Poisson y cualquier otro auto-modelo
depende de las siguientes dos asumsiones (Besag, 1974):
1.- La estructura de probabilidad del sistema depende solo de las contribuciones de cliques
conteniendo no mas de dos sitios, de modo que Q(·) se puede escribir como
Q(x) =∑
1≤i≤n
x(si)Gi(x(si)) +∑1≤i<
∑j≤n
x(si)x(sj)Gij(x(si), x(sj)), (4.2)
El auto-modelo Poisson 65
donde Gij(·, ·) es cero si sj no es un elemento del conjunto Ni. Esta restriccion sobre los
lımites de la sumatoria en el termino de interaccion surge del teorema de Hammersley
y Clifford visto en el capıtulo anterior. Este teorema indica la forma en la cual puede
ser construida la funcion negpotencial directamente de la especificacion de las fmps
condicionales.
2.- La distribucion de probabilidad condicional asociada con cada uno de los sitios pertenece
a la familia de distribuciones exponenciales, tal que
p(x(si)|x(Ni)) = exp Ai(x(Ni))Bi(x(si))−Di(x(Ni)) + Ci(x(si)) (4.3)
Como consecuencia de las asunciones 1 y 2, en Besag (1974) se muestra que las funciones
A(·) deben satisfacer
Ai(x(Ni)) = αi +n∑j=1
ηijBj(x(sj)), (4.4)
donde ηij = ηji para todo i y j, y ηij = 0 si sj no esta en la vecindad Ni. Una especificacion
estandar Poisson para la fmp condicional resulta de tomar Bi(x(si)) = x(si), Di(x(Ni)) =
exp Ai(x(Ni)), y Ci(x(si)) = − log(x(si)!). Ahora, Cressie (1993, p.416) demuestra que los
terminos de la ecuacion (4.2) pueden escribirse como funciones de las fmp condicionales,
x(si)Gi(x(si)) = log
p(x(si)|0(Ni))
p(0(si)|0(Ni))
(4.5)
y
x(si)x(sj)Gij(x(si), x(sj)) = log
p(x(si)|x(sj),0(N
(−j)i ))p(0(si)|0(Ni))
p(0(si)|x(sj),0(N(−j)i ))p(x(si)|0(Ni))
(4.6)
donde N(−j)i = x(sk) : sk ∈ Ni, k 6= j. En este contexto de dependencia por pares, el resul-
tado dice que cualquier especificacion de las fmps condicionales p(x(si)|x(Ni)) : i = 1, ..., n
tal que los terminos resultantes para x(si)xsjGij(x(si), x(s) son simetricos en i y j, conducen
a un unico y bien definido modelo de probabilidad conjunta para X, siempre que la condicion
El auto-modelo Poisson Winsorizado 66
de sumabilidad se cumpla, esto es, siempre que
∑t∈Ω
exp Q(t) <∞. (4.7)
Si este es el caso, la fmp conjunta y la verosimilitud estan disponibles a traves de las ecua-
ciones (4.1) y (4.2).
Usando las ecuaciones (4.2)-(4.6) es facil verificar que la funcion negpotencial para el
modelo Poisson regular es
Q(x) =∑
1≤i≤n
[αix(si)− log x(si)!] +∑1≤i<
∑j≤n
ηijx(si)x(sj) (4.8)
donde ηij = ηji y ηij = 0 si sj no esta en la vecindad Ni. El soporte conjunto Ω para este
modelo es el producto cartesiano n-veces del conjunto de enteros no negativos. Ahora como
un resultado de la condicion de sumabilidad (4.7) aplicado a Q(·) dado por (4.8), vemos que
la suma∑
t∈Ω exp Q(t) es infinita si cualquiera de los ηij es positivo. Ası, para un auto-
modelo Poisson bien definido, debemos tener ηij ≤ 0 para todo i y j, lo cual especifica que
el modelo debe contener solamente relaciones de dependencia negativa entre los elementos
de X. Esto puede representar un problema si creemos que nuestro fenomeno de estudio
exhibe dependencia espacial positiva. A continuacion, se presenta un modelo que sı permite
la modelacion de dependencias positivas entre los componentes de X.
4.3. El auto-modelo Poisson Winsorizado
El auto-modelo con distribuciones condicionales Poisson Winsorizadas (Kaiser y Cressie,
1997) provee una estructura valida y util donde podemos considerar dependencias positi-
vas entre los elementos de X. Enseguida, se presenta como surge la distribucion Poisson
Winsorizada y posteriormente su formulacion en el contexto espacial.
El auto-modelo Poisson Winsorizado 67
4.3.1. Distribucion Poisson Winzorizada
Consideramos una variable aleatoria Z con soporte sobre los enteros no negativos y un valor
entero fijo 0 ≤ R <∞. Una version truncada de Z resulta de definir la variable aleatoria
X = ZI(Z ≤ R) +RI(Z > R), (4.9)
donde I(·) denota la funcion indicadora. La truncacion descrita por (4.9) es a veces llamada
Winsorizacion (Galambos, 1988) y convierte Z con soporte infinito a X con soporte en el
conjunto 0, 1, ..., R.
Ahora si consideramos una variable aleatoria Poisson Z con fmp
f(z;λ) =λz
z!exp(−λ)
con λ > 0 y z ∈ 0, 1, ..., , entonces la fmp de la variable aleatoria Poisson Winzorizada X
definida en (4.9) esta dada por
p(x;λ,R) =
λx
x!exp (−λ)
I(x ≤ R− 1) +
1−
R−1∑t=0
λt
t!exp(−λ)
I(x = R)
Ahora, de la formula de Taylor para exp(λ), tenemos que
R−1∑t=0
λt
t!= exp(λ)− λR
R!exp (ψ) para algun 0 < ψ < λ
Por lo tanto,
p(x;λ,R) =
λx
x!exp (−λ)
I(x ≤ R− 1) +
λR
R!exp(ψ − λ)
I(x = R) (4.10)
donde (ψ − λ) < 0.
El auto-modelo Poisson Winsorizado 68
4.3.2. Formulacion espacial de la distribucion Poisson Winzorizada
Primeramente, debemos notar que la fmp Poisson Winsorizada (4.10) puede ser escrita en
la forma exponencial canonica como
p(x;λ,R) = exp xθ −D(θ)− log(x!) (4.11)
donde θ ≡ log(λ) y 0 < ψ < exp(θ),
D(θ) ≡
exp(θ) si x ≤ R− 1
exp(θ)− ψ si x = R
Escribiendo la fmp condicional de cada componente de X en esta forma obtenemos
p(x(si)|x(Ni)) = exp Ai(x(Ni))x(si)−Di(x(Ni))− log(x(si)!) (4.12)
donde
D(x(Ni)) =
exp(Ai(x(Ni))) si x(si) ≤ R− 1
exp(Ai(x(Ni)))− ψ si x(si) = R
y 0 < ψi < exp Ai(x(Ni)).
Para fmp condicionales Poisson Winsorizada (4.12), donde los valores de los parametros
αi y ηij no estan sujetos a alguna restriccion excepto que sean reales, tambien que
ηij = ηji y que ηij = 0 si sj no esta en la vecindad Ni, entonces, un modelo valido es obtenido
cuando
Ai(x(Ni)) = αi +n∑j=1
ηijx(sj) (4.13)
La validacion del modelo se verifica a traves de la substitucion de (4.12) en la ecuacion (4.6).
Haciendo uso de las ecuaciones (4.2), (4.5) y (4.6), la funcion negpotencial resulta en
Q(x) =∑
1≤i≤n
αix(si)− log x(si)!+∑1≤i<
∑j≤n
ηij x(si)x(sj) (4.14)
Modelo condicional Poisson Winsorizado centrado 69
4.4. Modelo condicional Poisson Winsorizado centrado
La forma en la expresion (4.13) sugiere que las diferencias en las esperanzas marginales entre
las X(si) podrıan ser modeladas a traves de los terminos αi y la dependencia estadıstica
podrıa ser modelada a traves de los parametros ηij. Sin embargo, no es claro en (4.13) si
las αi solo afectaran esperanzas, o dado αi fijo, las ηij solo afectaran dependencias. Una
parametrizacion equivalente a (4.13) y que permite que las esperanzas marginales sean ais-
ladas se obtiene como
Ai(x(Ni)) = αi +n∑j=1
ηij x(sj)− exp(αj) (4.15)
la parametrizacion anterior es llamada parametrizacion centrada debido a que la suma se
hace sobre los (x(sj)−exp(αj)) donde las esperanzas condicionales E X(si) son monotonas
crecientes en las funciones del parametro natural Ai(x(Ni)), sin embargo αi no corresponde
al valor esperado condicional o marginal.
Para conseguir una parametrizacion general para los modelos con familia exponencial
que aıslen las esperanzas marginales y permita parametros de dependencia que afecten solo
a varianzas y covarianzas para esperanzas fijas, primero, definimos una funcion τ−1(·) que
mapee valores esperados dentro de los parametros naturales de una familia exponencial y que
satisfaga la estructura de la expresion (4.13). La forma alternativa para (4.15) considerando
esta condicion, tendrıa la forma
Ai(x(Ni)) = τ−1(λi) +∑sj∈Ni
ηij x(sj)− λj) (4.16)
donde ηij = ηji. Un modelo de independencia resultarıa de tomar ηij = 0 tal que τ−1(λi)
representa el parametro natural del modelo sin dependencia estadıstica. Furukawa (2004)
demostro que bajo algunas restricciones adecuadas de la magnitud de ηij, la parametrizacion
(4.16) produce un λi cercano a la media marginal de X(si), i = 1, ..., n. La expresion propu-
esta captura la dependencia estadıstica por medio de ηij.
Modelo condicional Poisson Winsorizado centrado 70
En nuestro estudio consideramos una version reducida de la parametrizacion en (4.16)
en la cual τ−1(·) = log(·) = κ y ηij = η para todo i, j. Ası, tendrıamos la siguiente
parametrizacion
Ai(x(Ni)) = κ+∑sj∈Ni
η x(sj)− exp(κ) (4.17)
Considerando que el numero de vecinos es distinto para cada sitio y teniendo a η como
parametro de dependencia global, nuestra Q tendrıa la siguiente forma:
Q(x) =∑
1≤i≤n
κx(si)− log x(si)!+∑1≤i<
∑j≤n
ηx(si)x(sj)− η exp(κ)∑
1≤i≤n
x(si)wi (4.18)
4.4.1. Estimacion por maxima verosimilitud
En esta seccion mostramos porque la maxima verosimilitud puede ser muy difıcil de imple-
mentar en la forma usual para el modelo condicional Poisson Winsorizado y para la mayorıa
de auto-modelos. Esto es cierto incluso para conjuntos de datos de tamano moderado y el
principio se mantiene para muchas estructuras de datos espaciales.
Sean x(si) : si ∈ Z los valores que se asumen en el campo aleatorio donde Z es el
conjunto de localidades donde fueron observados nuestros datos y |Z| el numero total de
observaciones. Por ejemplo, podrıamos considerar datos dispuestos sobre un lattice regular
10× 10, lo cual produce 100 localidades disponibles. Ahora, para cada localidad si definimos
la estructura de vecindades Ni, donde Ni representa a los cuatro vecinos mas cercanos de la
localidad si. Ya que definimos nuestro sistema de vecinos fijamos un valor de Winsorizacion,
por ejemplo, R = 10, lo que quiere decir que lo valores posibles de x(si) son 0, 1, ..., 10.
Suponga que los datos x(si) : si ∈ Z fueron generados por un auto-modelo Poisson Win-
sorizado como en (4.12) con parametrizacion definida como en (4.17).
El objetivo es estimar los parametros κ y η y hacer inferencia sobre estos parametros. De
Modelo condicional Poisson Winsorizado centrado 71
lo visto anteriormente la probabilidad conjunta puede ser escrita como
p(x) =exp(Q(x))∑t∈ξ exp(Q(t))
donde Q es la funcion negpotencial dada por (4.18). Por lo tanto nuestra funcion de verosi-
militud tendrıa la siguiente forma
L(κ, η) = exp
(κ∑
1≤i≤n
x(si)−∑
1≤i≤n
log x(si)!+ η∑1≤i<
∑j≤n
x(si)x(sj)− η exp(κ)∑
1≤i≤n
x(si)wi
)
/∑
t1,...,tn
exp
(κ∑
1≤k≤n
tk(sk)−∑
1≤k≤n
log tk(sk)!+ η∑
1≤k<
∑l≤n
tk(sk)tl(sl)− η exp(κ)∑
1≤k≤n
tk(sk)wk
)
Podemos notar que la suma en el denominador se suma sobre todas las configuraciones
posibles de los datos. Es este denominador lo que se conoce como constante normalizadora
y es precisamente lo que causa una gran dificultad al tratar de computar la verosimilitud.
Por ejemplo, en el caso de un conjunto de datos de tamano 100; esto es |Z| = 100, el
numero de terminos en la suma del denominador serıa igual a 11100 =1.378061e+104 para
un valor de Winsorizacion R=10. Esto demandarıa un esfuerzo computacional excesivo en
el computo de la constante normalizadora para calcular la verosimilitud. Sin embargo, es
posible implementar el metodo de maxima verosimilitud vıa metodos Monte Carlo.
4.4.2. Maxima verosimilitud vıa Monte Carlo
Ya que llevar a cabo la estimacion por maxima verosimilitud exacta es muy costosa o practi-
camente imposible, consideramos la maxima verosimilitud vıa Monte Carlo. Muchos autores
han usado los metodos de Monte Carlo para aproximar el estimador de maxima verosimili-
tud. Primero ilustramos el algoritmo en general y entonces describimos la forma que tomarıa
nuestro nuestro modelo ocupando los metodos Monte Carlo.
Modelo condicional Poisson Winsorizado centrado 72
Sea µ una medida y t una funcion vectorial (juntas en el mismo espacio); entonces
c(θ) =
∫exp 〈t(x), θ〉 dµ(x) (4.19)
es la transformada de Laplace de la medida t(µ), y las funciones
fθ(x) =1
c(θ)exp 〈t(x), θ〉
son densidades de probabilidad con respecto a µ constituyendo una familia exponencial con
θ y t como parametros canonicos (〈t, θ〉 denota el producto interno∑
i tiθi de los vectores
t y θ). A c suele llamarse transformada de Laplace de la familia exponencial. Sin embargo,
nosotros la conocemos como “funcion particion” o “constante normalizadora”.
Como ya lo mostramos anteriormente es esta constante normalizadora la que no puede ser
calculada directamente, entonces, utilizamos los metodos Monte Carlo, los cuales se describen
a continuacion.
Sea Pψ la medida que tiene densidad fψ con respecto a µ. Entonces la ecuacion (4.19)
puede ser escrita como
c(θ) = c(ψ)
∫exp 〈t(x), θ − ψ〉 dPψ(x) (4.20)
la cual es una pequena variacion en la funcion generadora de momentos del estadıstico
canonico t(X) inducido por PΨ
Mψ(τ) =
∫exp 〈t(x), τ〉 dPψ(x) =
c(ψ + τ)
c(ψ).
El punto de la ecuacion (4.20) es expresar a c como una integral con respecto a una
distribucion de probabilidad, haciendo los metodos Monte Carlo aplicables. Como c(ψ) no
es conocida, la ecuacion (4.20) determina c a traves de una constante de proporcionalidad.
Los metodos Monte Carlo vıa cadenas de Markov (Hastings, 1970), tal como el algoritmo
de Metropolis (Metropolis et al., 1953) y el muestreo de Gibbs (Geman y Geman, 1984),
Modelo condicional Poisson Winsorizado centrado 73
pueden ser usadas para simular una cadena ergodica de Markov X1, ..., Xn la cual tiene una
distribucion de equilibrio Pψ. Muestras de una realizacion de la cadena, aunque ninguna sea
independiente e identicamente distribuida a Pψ, pueden ser usadas por metodos Monte Carlo
al igual que muestras independientes de Pψ.
Sea Ti = t(Xi); entonces para cualquier θ fijo
dn(θ) =1
n
n∑i
exp 〈Ti, θ − ψ〉 −→ d(θ) =c(θ)
c(ψ)casi seguramente (4.21)
por el teorema ergodico. La log-verosimilitud dado la observacion x puede ser escrita como
lx(θ) = log fθ(x) + log c(ψ) = 〈t(x), θ〉 − log d(θ)
y su aproximacion serıa
ln,x(θ) = 〈t(x), θ〉 − log dn(θ).
Entonces para cualquier θ fijo
ln,x(θ) −→ lx(θ) casi seguramente (4.22)
debido a la expresion (4.21). Entonces, como una union contable de conjuntos nulos es un
conjunto nulo, la expresion (4.22) se mantiene para cualquier θ en un conjunto contable y
por lo tanto para cualquier conjunto denso.
La aproximacion para nuestro modelo se describe a continuacion:
log L(κ, η)+ log g(ψ) = κ∑
1≤i≤n
x(si)−∑
1≤i≤n
log x(si)!+ η∑1≤i<
∑j≤n
x(si)x(sj)
−η exp(κ)∑
1≤i≤n
x(si)wi − d(κ, η)
donde g(ψ) es el denominador en ψ y d(κ, η) = g(κ, η)/g(ψ). Entonces podemos aproximar
Alternativas a la estimacion por maxima verosimilitud 74
d(κ, η) con
dn(κ, η) =1
M
M∑l=1
exp
(κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
)/m(ψ; tl)
donde dn(κ, η) se aproxima a d(κ, η) cuando M → ∞. Ası el termino g(ψ) puede tomarse
como una constante y el maximizador de
κ∑
1≤i≤n
x(si)−∑
1≤i≤n
log x(si)!+ η∑1≤i<
∑j≤n
x(si)x(sj)− η exp(κ)∑
1≤i≤n
x(si)wi − dn(κ, η)
se aproxima al estimador de maxima verosimilitud (EMV) cuando M → ∞. Tomando en
cuenta lo anterior nuestro objetivo serıa maximizar lo siguiente:
lM(κ, η) = κ∑
1≤i≤n
x(si)−∑
1≤i≤n
log x(si)!+ η∑1≤i<
∑j≤n
x(si)x(sj)− η exp(κ)∑
1≤i≤n
x(si)wi
− log
1
M
M∑l=1
exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]/m(ψ; tl)
4.5. Alternativas a la estimacion por maxima verosimil-
itud
4.5.1. Pseudo-verosimilitud
Debido a la dificultad de evaluar la constante normalizadora, el estimador de maxima verosimil-
itud (EMV) no es numericamente disponible o necesita un calculo muy intensivo. Por esto y
otras razones, Besag (1975) propuso el estimador de maxima pseudo-verosimilitud (EMPV)
Alternativas a la estimacion por maxima verosimilitud 75
el cual maximiza el producto directo de probabilidades condicionales o densidades de proba-
bilidad condicionales de la variable en cada sitio respecto al resto de los sitios.
Para un conjunto de datos x(s1), x(x2), ..., x(xn) con densidades (o funcion masa de proba-
bilidad) condicionales
Lp(θ;x) =n∏i=1
fθ(x(si)| x(sj) : j 6= i)
Muchos investigadores han probado que bajo condiciones apropiadas el EMPV es consis-
tente y distribuido asintoticamente normal alrededor del parametro verdadero para muestras
grandes en varios procesos espaciales (Jensen y Mφller (1991); Comets (1992); Guyon y
Kunsch (1992); Jensen y Kunsch (1994); Guyon (1995); Mase (1995); etc.). Ademas, es apli-
cable a un amplio rango de modelos. Por ejemplo, Besag (1986) lo aplico a la restauracion
de imagenes y Goulard et al. (1996) lo aplico a procesos puntuales marcados de Gibbs. Sin
embargo, tambien se ha mostrado que el EMPV no es eficiente comparado con el EMV (Be-
sag (1997); Geyer (1991); Geyer y Thompson (1992); Guyon y Kunsch (1992); Diggle et al.
(1994); Huang y Ogata (1999); etc.). De acuerdo a esos estudios, el EMPV es tan bueno como
el EMV cuando exıste una interaccion debil, pero la diferencia entre estos dos es sustancial
cuando la interaccion viene a ser fuerte.
4.5.2. Pseudo-verosimilitud generalizada
Debido a la baja eficiencia de la pseudo-verosimilitud para observaciones altamente correla-
cionadas, Huang y Ogata (2002) propusieron la pseudo-verosimilitud Generalizada.
Con el fin de generalizar la pseudo-verosimilitud, definimos un grupo g(i) de sitios adya-
centes a cada sitio i, y definimos a xg(i) := xk : k ∈ g(i) y xg(i) := xk : k /∈ g(i) el conjunto
de variables aleatorias dentro y fuera del grupo de sitios adyacentes g(i), respectivamente.
La pseudo-verosimilitud generalizada (PVG) para el proceso espacial x esta definida por
el producto de probabilidades condicionales (o densidades) de la variable aleatoria xg(i) sobre
Alternativas a la estimacion por maxima verosimilitud 76
el resto de las variables aleatorias xg(i), que es,
Lg(θ;x) =I∏i=1
fθ(xg(i)|xg(i))1/|g(i)| =I∏i=1
fθ(xg(i)|xg(i))1/|g(i)|
donde |g(i)| denota el numero de sitios en el conjunto g(i). Maximizando la PVG o su loga-
ritmo
lg(θ;x) =I∑i=1
|g(i)|−1 log fθ(xk : k ∈ g(i)|xk : k /∈ g(i))
con respecto a θ se obtiene el estimador de maxima PVG (EMPVG). Cuando g(i) = i,
el EMPVG no es sino el EMPV de Besag. Ahora cuando g(i) es el conjunto de todos los
sitios para cualquier i, entonces el EMPVG es el EMV. Como |g(i)| se hace mas grande,
el desempeno del EMPVG se espera que este mas cerca al EMV, pero la complejidad del
calculo incrementara exponencialmente en |g(i)|. Si las variables de un campo aleatorio son
independientes, entonces lg(θ;x) = lp(θ;x) = l(θ;x), ası todas las estimaciones de arriba
vienen a ser las mismas.
En este caso consideramos que el modelo esta dado por una funcion de energıa U(x; θ)
vista en el capıtulo 3 la cual puede reescribirse como Ui(xg(i),xg(i); θ) para cada sitio i. En-
tonces tenemos
fθ(xg(i)|xg(i)) =exp
−Ui(xg(i),xg(i); θ)
∫exp −Ui(y,xg(i); θ)µ(dy)
Cuando U(x; θ) es una funcion lineal del parametro θ: U(x; θ) = θtV (x) donde θt indica la
transpuesta de un vector fila y V (x) es un vector de la misma dimension de θ, es facil ver
que logfθ(xg(i)|xg(i)) es concava en θ por el mismo argumento dado en Guyon ((1995),§5.1.1)
para la verosimilitud y para la pseudo-verosimilitud, por lo tanto la PVGlg(θ;x) es una fun-
cion finita para funciones concavas. Esto asegura la unicidad del EPMVG si este existe, y la
Alternativas a la estimacion por maxima verosimilitud 77
convergencia de los algoritmos del gradiente usados en la optimizacion del problema.
En el caso de un campo aleatorio de Markov, la probabilidad condicional f(xj, j ∈
g(i)|todos los valores de los sitios restantes) solo depende de xg(i) y tambien de los val-
ores en los sitios del conjunto frontera de g(i)c a g(i) asociadas con la propiedad Markoviana;
especıficamente, denotada como ∂g(i). Entonces tenemos que f(xg(i)|xg(i)) = f(xg(i)|x∂g(i)).
Huang y Ogata (2002) trabajaron el modelo Ising y el modelo auto-normal para el EMV y
EMPV, mostrando sus varianzas asintoticas y sus valores de eficiencia relativa del EMV como
funciones de correlaciones entre variables vecinas. Para mostrar la superioridad del EMPVG
sobre el EMPV calcularon los valores de eficiencia de todos los estimadores que propusieron
para los dos modelos mencionados anteriormente.
CAPITULO 5
ESTUDIO DE SIMULACION PARA EL MODELO
POISSON WINSORIZADO
En nuestro estudio de simulacion, el modelo condicional Poisson Winsorizado se considera
sobre un lattice cuadrado N ×N con N = 10. Ası, nuestro lattice regular espacial consta de
100 sitios definidos como si ≡ (ui, vi) donde ui ∈ 1, ..., 10 denota la coordenada horizontal
y vi ∈ 1, ..., 10 la coordenada vertical para una observacion. Se asumira una estructura
de vecindades de primer orden. Esto es, la vecindad para la localidad si esta definida como
Ni ≡ sh : sh ∈ (ui + 1, vi), (ui − 1, vi), (ui, vi + 1), (ui, vi − 1), donde (u, v) ≡ ∅ si u /∈
1, ..., 10 o v /∈ 1, ..., 10. El valor de Winsorizacion fue fijado en R=10. El lattice se
visualiza como sigue,
ui
1
1
2 3 4 5 6 7 8 9 10
2
3
4
5
vi6
7
8
9
10
Figura 5.1: Lattice regular 10×10
79
Primeramente, con el objeto de monitorear la convergencia de las simulaciones produci-
das por el muestreador de Gibbs simulamos observaciones del modelo condicional Poisson
Winsorizado con κ =1.099 y η =0.01. El criterio de convergencia utilizado fue el metodo de
Gelman y Rubin (1992). En este caso, se generaron 400 iteraciones descartando las primeras
200 y tomando en cuenta las ultimas t=200 para disminuir el efecto de la distribucion inicial.
Se realizaron simulaciones para cada uno de 6 sitios distintos (1, 25, 35, 55, 80, 100).
(a) sitio 1 (b) sitio 100
Figura 5.2: Grafica de convergencia del muestreador de Gibbs para sitios 1 y 100.
(a) sitio 35 (b) sitio 80
Figura 5.3: Grafica de convergencia del muestreador de Gibbs para sitios 35 y 80.
80
(a) sitio 25 (b) sitio 55
Figura 5.4: Grafica de convergencia del muestreador de Gibbs para sitios 25 y 55.
Note que la velocidad de convergencia de la simulacion es mas lenta para sitios que se en-
cuentran en las orillas del lattice, esto es, sitios con menos de 4 vecinos. Ademas, note que
la velocidad de convergencia es mayor para sitios con tres vecinos (35 y 80) que para sitios
con solo dos vecinos (1 y 100). Sin embargo, note que en general la convergencia es rapida
ya que para t = 100 se han estabilizado practicamente las graficas en todos los sitios.
Se consideraron en el estudio tres tipos de verosimilitud compuesta: 1) la pseudo-verosimilitud
de Besag (1975), 2) la pseudo-verosimilitud generalizada de Huang y Ogata (2002) para gru-
pos adyacentes de tamano 2 y 3) la pseudo-verosimilitud generalizada de Huang y Ogata
(2002) para grupos adyacentes de tamano 5. En el caso de la pseudo-verosimilitud general-
izada de Huang y Ogata, los dos tipos de grupos adyacentes definidos para cada sitio fueron:
1.- g2(u, v) = (u, v), (u, v + 1) ;
2.- g5(u, v) = (u, v), (u, v ± 1), (u± 1, v) ;
En el caso de sitios localizados en los bordes del lattice, las definiciones de los grupos 1 y 2
se ajustan a la condicion de que (u, v) ≡ ∅ si u /∈ 1, ..., 10 o v /∈ 1, ..., 10. Se generaron
500 realizaciones del campo aleatorio de Markov con distribuciones condicionales Poisson
Winsorizadas de la forma (4.12) con parametro de Winsorizacion R=10 para valores de
81
κ =1.099 y valores de η =(0.01,0.02,...,0.05). Sea θ = (κ, η). En cada realizacion del proceso
se computaron tres estimadores de θ: el estimador de maxima pseudo-verosimilitud (EMPV)
de Besag (denotado por (θp)), el estimador de maxima pseudo-verosimilitud generalizada
(EMPVG) de Huang y Ogata para grupos adyacentes de tamano 2 (denotado por (θ2)) y el
estimador de maxima pseudo-verosimilitud generalizada (EMPVG) de Huang y Ogata para
grupos adyacentes de tamano 5 (denotado por (θ5)). Las Figuras 5.5 y 5.6 muestran los
valores de los tres estimadores propuestos para κ (Figura 5.5) y η (Figura 5.6) computados
de 500 simulaciones del proceso con valores de parametros κ =1.099 y η =0.01.
Figura 5.5: Valores de 500 estimaciones de κ simulados de un modelo condicionalPoisson Winsorizado con θ = (κ, η) =(1.099,0.01) y R=10. κ-p representa valoresdel EMPV de Besag, κ-2 son valores del EMPVG de Huang y Ogata para gruposadyacentes de tamano 2 y κ-5 son valores del EMPVG de Huang y Ogata paragrupos adyacentes de tamano 5.
82
Figura 5.6: Valores de 500 estimaciones de η simulados de un modelo condicionalPoisson Winsorizado con θ = (κ, η) =(1.099,0.01) y R=10. η-p representa valoresdel EMPV de Besag, η-2 son valores del EMPVG de Huang y Ogata para gruposadyacentes de tamano 2 y η-5 son valores del EMPVG de Huang y Ogata paragrupos adyacentes de tamano 5.
Note que tanto para estimaciones de κ como de η las estimaciones con el EMPV de Besag
son las mas inestables de los tres estimadores. Note tambien que las estimaciones producidas
con el EMPVG con grupos adyacentes de tamano 5 son los menos dispersos.
Los 3 estimadores fueron comparados con respecto a su error cuadrado medio, sesgo y
error estandar cuyas formulas de calculo se presentan a continuacion:
Error Cuadrado Medio (e.c.m) = Eθ0(θ − θ0)2. Estimado por:
∑Mi=1(θi − θ0)2
M(5.1)
Sesgo (sesgo) = Eθ0(θ − θ0). Estimado por:
∑Mi=1(θi − θ0)
M(5.2)
83
Error estandar (e.e) = (Eθ0(θ − Eθ0(θ))2)1/2. Estimado por
(∑M1 (θi − θM)2
M − 1
)1/2
(5.3)
donde M es el numero de simulaciones que generamos con el muestreo de Gibbs, θM =∑Mi=1 θi/M , θ0 ≡ (κ0, η0)T representa el valor verdadero del parametro θ ≡ (κ, η)T , Eθ0(·)
denota la esperanza bajo θ0, el escalar θ0 denota ya sea κ0 o a η0 y θ representa el estimador
de θ.
Los Cuadros 5.1 y 5.2 muestran las estimaciones del error cuadrado medio (5.1), sesgo
(5.2) y error estandar (5.3) para estimadores de κ y η, respectivamente. Estas estimaciones
son basadas en M = 500 realizaciones del proceso condicional Poisson Winsorizado con
κ =1.099 y η =(0.01,0.02,...,0.05). Estos mismos resultados se muestran graficamente en las
Figuras 5.7, 5.8 y 5.9.
Cuadro 5.1: Errores cuadrados medios (e.c.m), sesgos (sesgo) y errores estandar(e.e) (×102) para estimadores del parametro η. ηp representa el EMPV de Besag,η2 y η5 representan los EMPVG de Huang y Ogata para grupos adyacentes detamanos 2 y 5, respectivamente.
η κ ηp η2 η5
0.01 1.099 e.c.m 0.06300 0.05590 0.04992sesgo 1.82660 1.72965 1.61405e.e 1.72331 1.6137 1.54656
0.02 1.099 e.c.m 0.03849 0.03590 0.03122sesgo 1.11808 1.03191 0.93441e.e 1.61384 1.59074 1.50136
0.03 1.099 e.c.m 0.03423 0.03005 0.02508sesgo 0.76001 0.61972 0.54531e.e 1.68880 1.62064 1.48853
0.04 1.099 e.c.m 0.03356 0.03024 0.02611sesgo 0.26113 0.15231 0.03476e.e 1.81511 1.73418 1.61730
0.05 1.099 e.c.m 0.03201 0.03175 0.02733sesgo -0.23824 -0.35640 -0.46921e.e 1.77499 1.74760 1.58694
84
Cuadro 5.2: Errores cuadrados medios (e.c.m), sesgos (sesgo) y errores estandar(e.e) (×102) para estimadores del parametro κ. κp representa el EMPV de Besag,κ2 y κ5 representan los EMPVG de Huang y Ogata para grupos adyacentes detamanos 2 y 5, respectivamente.
η κ κp κ2 κ5
0.01 1.099 e.c.m 0.64512 0.63522 0.24095sesgo -0.40623 -0.35203 -0.88005e.e 8.02969 7.97031 4.83397
0.02 1.099 e.c.m 0.52629 0.40622 0.41150sesgo -0.83475 -1.02493 -0.76975e.e 7.21365 6.29696 6.37490
0.03 1.099 e.c.m 0.95437 0.82248 0.51345sesgo -0.58018 -0.71765 -0.90119e.e 9.76174 9.04971 7.11583
0.04 1.099 e.c.m 1.24579 1.30893 0.84393sesgo -0.09299 -0.13063 -0.64916e.e 11.17229 11.45156 9.17281
0.05 1.099 e.c.m 1.59498 1.52284 0.86427sesgo 0.83328 0.90664 0.26438e.e 12.61435 12.31934 9.30218
(a) (b)
Figura 5.7: Estimaciones del error cuadrado medio (e.c.m) para estimadores delos parametros κ (b) y η (a) (×102) para 500 realizaciones del proceso con valoresde parametros, κ =1.099 y η =(0.01,0.02,...,0.05). p representa al EMPV de Besagy 2 y 5 representan los EMPVG de Huang y Ogata para grupos adyacentes detamanos de 2 y 5, respectivamente.
85
(a) (b)
Figura 5.8: Estimaciones del sesgo (sesgo) para estimadores de los parametros κ(b) y η (a) (×102) para 500 realizaciones del proceso con valores de parametros,κ =1.099 y η =(0.01,0.02,...,0.05). p representa al EMPV de Besag y 2 y 5 repre-sentan los EMPVG de Huang y Ogata para grupos adyacentes de tamanos de 2 y5, respectivamente.
(a) (b)
Figura 5.9: Estimaciones del error estandar (e.e) para estimadores de los pa-rametros κ (b) y η (a) (×102) para 500 realizaciones del proceso con valores deparametros, κ =1.099 y η =(0.01,0.02,...,0.05). p representa al EMPV de Besag y 2y 5 representan los EMPVG de Huang y Ogata para grupos adyacentes de tamanosde 2 y 5, respectivamente.
86
El Cuadro 5.1 y Figura 5.7 (a) muestran que el estimador de η con las mejores propiedades
es el EMPVG de Huang y Ogata con grupos adyacentes de tamano 5 (η5), ya que se observa
que este estimador tiene los menores errores cuadrados medios de los tres estimadores para
los valores considerados del parametro de dependencia η. Note ademas, que η5 tambien tiene
los valores mas pequenos en sesgo y error estandar para todos los valores de η. Por otra parte,
el Cuadro 5.1 y Figura 5.7 (a) muestran que el peor de los tres estimadores del parametro
η es el EMPV de Besag (ηp) ya que es el que presenta los valores mas grandes del error
cuadrado medio, error estandar y sesgo. Note que el EMPVG de Huang y Ogata para grupos
adyacentes de tamano 2 (η2) es ligeramente mejor que el EMPV de Besag en cuanto a error
cuadrado medio, sesgo y error estandar. Sin embargo, note las diferencias en cuanto a error
cuadrado medio, sesgo y error estandar entre el EMPVG de Huang y Ogata para grupos
adyacentes de tamano 5 y el EMPVG de Huang y ogata para grupos adyacentes de tamano
2 son mas notables que las diferencias entre el EMPV de Besag y el EMPVG de Huang y
Ogata para grupos adyacentes de tamano 2.
El Cuadro 5.2 simplemente muestra algo similar, pero ahora para los valores estimados
de κ, esto es, el mejor estimador de κ con las mejores propiedades es el EMPVG de Huang
y Ogata con grupos adyacentes de tamano 5 (κ5), ya que este estimador tiene los menores
errores cuadrados medios Figura 5.7 (b). Lo mismo ocurre para el sesgo Figura 5.8 (b) y los
errores estandar Figura 5.9 (b). Sin embargo, algo singular ocurre para los estimadores de
κ, y es que conforme η aumenta, las diferencias en cuanto a error cuadrado medio, sesgo y
error estandar tienden a incrementarse sustancialmente como se muestra en las Figuras 5.7
(b), 5.8 (b) y 5.9 (b). Otra diferencia es que el sesgo no tiene un patron bien definido Figura
5.8 (b), sin embargo cuando η =0.05 el EMPVG es mejor.
CAPITULO 6
APLICACION DE LA VEROSIMILITUD
COMPUESTA A UN CONJUNTO DE DATOS
REALES
En esta seccion se ilustra el uso de la verosimilitud compuesta con un conjunto de datos reales.
Los datos consisten de conteos de acaros de un trozo de material habitat de dimensiones 8 x
8 x 1 pulgadas. Sobre la superficie expuesta de este material se sobrepuso una rejilla de 64
cuadrados de dimensiones 1 x 1 pulgadas. Se procedio a extraer y contar el numero de acaros
por cada uno de los 64 cuadrados de la rejilla. Los datos se reproducen abajo, mostrando la
distribucion espacial de estos pequenos conteos.
u
2 1 2 1 0 0 1 2
1 1 1 1 3 4 1 4
0 1 0 2 2 1 3 1
0 0 0 3 3 0 1 2v
2 1 0 1 1 1 0 0
1 1 0 1 2 1 0 1
0 3 1 0 1 3 3 3
0 0 0 0 1 5 0 1
Figura 6.1: Distribucion espacial del numero de acaros.
88
Hairston, Hill y Ritte (1971) analizaron estos datos con tamanos de cuadrado variables, a
traves de la agrupacion de cuadrados adyacentes de 1 x 1 pulgadas, computando en cada
caso un ındice de agregacion. En nuestro caso, analizaremos estos datos como provenientes
de un lattice espacial regular con 64 sitios (localidades) definidos como si ≡ (ui, vi), donde
ui ∈ 1, ..., 8 denota la coordenada horizontal y vi ∈ 1, ..., 8 denota a la coordenada
vertical para una observacion. Las vecindades se definieron en base a la estructura de los
“cuatro vecinos mas cercanos”.
Se ajusto a estos datos un modelo condicional Poisson Winsorizado de la forma dada
en (4.12). La media de los datos fue 1.21875 y el valor de Winsorizacion se fijo en R=8.
De este modo, el valor de Winsorizacion es al menos 3 veces el valor promedio de los datos
como se requiere. El Cuadro 6.1 y la Figura 6.2 muestran los resultados de estimacion para
los parametros κ y η usando los metodos de maxima pseudo-verosimilitud de Besag (1974)
y el metodo de maxima pseudo-verosimilitud generalizada de Huang y Ogata (2002) para
grupos adyacentes de tamanos 2 y 5. Con el fin de comparar estos metodos de verosimilitud
compuesta con respecto al valor de la log-verosimilitud en las diferentes estimaciones de κ
y η, se implemento el metodo de maxima verosimilitud Monte Carlo (Geyer y Thompson,
1992).
Cuadro 6.1: Estimacion de κ y η y valor de la log-verosimilitud Monte Carlopara los metodos de verosimilitud compuesta con el modelo condicional PoissonWinsorizado aplicados a loa datos de acaros.
Metodo de estimacion κ η Valor de la log-verosimilitud
Pseudo-verosimilitud de Besag 0.14348239 0.09286893 -92.53588
Pseudo-verosimilitud generalizada 0.21587425 0.08070175 -92.59402grupos tamano 2
Pseudo-verosimilitud generalizada 0.15694479 0.09123772 -92.5297grupos tamano 5
Verosimilitud Monte Carlo 0.1403073 0.1000601 -92.51275
89
Figura 6.2: Grafica de contorno de los valores de la funcion log-verosimilitudMonte Carlo para el modelo condicional Poisson Winsorizado ajustado a los datosde acaros. Los puntos “M”,“p”, “2”, “5representan las estimaciones de κ y η bajo losmetodos de maxima verosimilitud Monte Carlo, maxima pseudo-verosimilitud deBesag, maxima pseudo-verosimilitud generalizada de Huang y Ogata para gruposadyacentes de tamano 2 y maxima pseudo-verosimilitud generalizada de Huang yOgata para grupos adyacentes de tamano 5, respectivamente.
Los resultados del Cuadro 6.1 muestran que las estimaciones de κ y η producidas por
los metodos de pseudo-verosimilitud de Besag y pseudo-verosimilitud generalizada de Huang
y Ogata para grupos de tamano 5 son las mas cercanas a las estimaciones producidas por
el metodo de maxima verosimilitud Monte Carlo. Esto tambien se manifiesta al observar la
columna de valores de la log-verosimilitud Monte Carlo del Cuadro 6.1 y la grafica de contorno
mostrada en la Figura 6.2. Note que los valores de la log-verosimilitud que corresponden a
las estimaciones producidas por la pseudo-verosimilitud de Besag y la pseudo-verosimilitud
generalizada de Huang y Ogata para grupos de tamano 5 son las mas cercanas al valor
maximo alcanzado por tal funcion.
CAPITULO 7
CONCLUSIONES
De la presente investigacion se desprende una serie de conclusiones que nos permiten pensar
en la verosimilitud compuesta como una alternativa de gran potencial dentro de la estadıstica
moderna. Al estudiar los metodos de verosimilitud compuesta pudimos darnos cuenta que sus
aplicaciones se extienden a una amplia variedad de fenomenos. Cabe senalar que al aplicar
algun metodo de verosimilitud compuesta debemos tomar en cuenta las implicaciones teoricas
y practicas que esto nos pueda traer como consecuencia. No obstante, habra ocasiones donde
no quedara mas alternativa que usar algun metodo de verosimilitud compuesta.
En esta tesis trabajamos con tres verosimilitudes compuestas diferentes: pseudo-verosimilitud
de Besag y las pseudo-verosimilitudes generalizadas para grupos adyacentes de tamanos 2 y
5 del metodo de MPVG de Huang y Ogata.
De nuestros estudios de simulacion y de datos reales con el modelo Poisson Winsorizado
podemos resaltar los siguientes puntos:
El desempeno del estimador de maxima verosimilitud siempre es mejor que cualquier
otro estimador producido por cualquier metodo de verosimilitud compuesta.
En casos donde el calculo del estimador de maxima verosimilitud se vuelve difıcil o
imposible, el estimador de maxima pseudo-verosmilitud de Besag y los estimadores de
maxima pseudo-verosmilitud generalizada de Huang y ogata ofrecen una alternativa
91
viable para la estimacion de parametros.
El desempeno del estimador de maxima pseudo-verosmilitud generalizada de Huang y
Ogata mejora conforme se incrementa el tamano de los grupos adyacentes usados para
construir la pseudo-verosimilitud generaliza.
El estimador de maxima pseudo-verosimilitud generalizada de Huang y Ogata tiene
generalalmente un mejor desempeno que el estimador de maxima pseudo-verosimilitud
de Besag, aun con grupos adyacentes de tamano 2.
Al aumentar el parametro de dependencia (η) en el modelo Poisson Winsorizado, el
estimador de maxima pseudo-verosimilitud de Besag se vuelve menos eficiente y las
diferencias en desempeno con el estimador de maxima pseudo-verosimilitud generaliza-
da de Huang y Ogata se hacen mas notables.
El tiempo de computo del estimador de maxima pseudo-verosimilitud generalizada de
Huang y Ogata se incrementa exponencialmente con el tamano de los grupos adya-
centes definidos en cada sitio para construir la funcion a ser maximizada. Sin embargo,
para grupos adyacentes de tamano 2, el calculo del estimador de maxima pseudo-
verosimilitud generalizada de Huang y Ogata es tan facil y rapido como el calculo de
maxima pseudo-verosimilitud de Besag.
APENDICE A. DERIVADAS PARCIALES DE LA FUN-
CION LOG VEROSIMILITUD PARA EL MODELO
POISSON WINSORIZADO
∂
∂κlM(κ, η) =
∑1≤i≤n
x(si)− η exp(κ)∑
1≤i≤n
x(si)wi −1
Ψ(κ, η)
∂
∂κΨ(κ, η)
donde
Ψ(κ, η) = log
1
M
M∑l=1
exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]/m(φ; tl)
y
∂
∂κΨ(κ, η) =
1
M
M∑l=1
exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]/m(φ; tl)
·
∑1≤i≤n
tl(si)− η exp(κ)∑
1≤i≤n
tl(si)wi
93
y para η
∂
∂ηlM(κ, η) =
∑1≤i<
∑j≤n
x(si)x(sj)− exp(κ)∑
1≤i≤n
x(si)wi −1
Ψ(κ, η)
∂
∂ηΨ(κ, η)
donde
∂
∂ηΨ(κ, η) =
1
M
M∑l=1
exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]/m(φ; tl)
·
∑1≤i<
∑j≤n
tl(si)tl(sj)− exp(κ)∑
1≤i≤n
tl(si)wi
y las segundas derivadas
∂2
∂κ2lM(κ, η) = −η exp(κ)
∑1≤i≤n
x(si)wi −Ψ(κ, η) ∂2
∂κ2Ψ(κ, η)−
[∂∂κ
Ψ(κ, η)]2
[Ψ(κ, η)]2
donde
∂2
∂κ2Ψ(κ, η) =
1
M
M∑l=1
exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]
·
[−η exp(κ)
∑1≤i≤n
tl(si)wi
]+
[ ∑1≤i≤n
tl(si)− η exp(κ)∑
1≤i≤n
tl(si)wi
]2
· exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]/m(φ; tl)
94
para η tendrıamos
∂2
∂η2lM(κ, η) = −
Ψ(κ, η) ∂2
∂η2Ψ(κ, η)−
[∂∂η
Ψ(κ, η)]2
[Ψ(κ, η)]2
donde
∂2
∂κ2Ψ(κ, η) =
1
M
M∑l=1
exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]
· [0] +
[∑1≤i<
∑j≤n
tl(si)tl(sj)− exp(κ)∑
1≤i≤n
tl(si)wi
]2
· exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]/m(φ; tl)
y por ultimo
∂
∂κ∂ηLM(κ, η) = − exp(κ)
∑1≤i≤n
x(si)wi −
Ψ(κ, η) ∂
∂κ∂ηΨ(κ, η)− ∂
∂ηΨ(κ, η) ∂
∂κΨ(κ, η)
[Ψ(κ, η)]2
donde
95
∂
∂κ∂ηΨ(κ, η) =
1
M
M∑l=1
exp
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)
−η exp(κ)∑
1≤i≤n
tl(si)wi
]
·
[− exp(κ)
∑1≤i≤n
tl(si)wi
]+
[∑1≤i<
∑j≤n
tl(si)tl(sj)− exp(κ)∑
1≤i≤n
tl(si)wi
]
·
[κ∑
1≤i≤n
tl(si)−∑
1≤i≤n
log tl(si)!+ η∑1≤i<
∑j≤n
tl(si)tl(sj)− η exp(κ)∑
1≤i≤n
tl(si)wi
]
·
[ ∑1≤i≤n
tl(si)/− η exp(κ)∑
1≤i≤n
tl(si)wi
]
BIBLIOGRAFIA
[1] Bellio, R. and Varin, C. (2005). A pairwise likelihood approach to generalized linear
models with crossed random effects. Stat. Model. 5, 217-227.
[2] Besag, J. (1972). Nearest-neighbour systems and the auto-logistic model for binary data.
Journal of the Royal Statistical Society, B, 34, 75-83.
[3] Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems. Journal
of the Royal Statistical Society, B, 36, 192-236.
[4] Besag, J. (1975). Statistical analysis of non-lattice data. Statistician, 24:179-195.
[5] Besag, J. (1977). Efficiency of pseudolikelihood estimation for simple Gaussian fields,
Biometrika, 64, 616-618.
[6] Besag, J. (1986). On the statistical analysis of dirty pictures (with discussion), Journal
of the Royal Statistical Society, B, 48, 259-302.
[7] Bhat, C. R., Varin, C. and Ferdous, N. (2010). A comparison of the maximum simulated
likelihood and composite marginal likelihood estimation approaches in the context of
the multivariate ordered response model system. Advances in Econometrics: Maximum
Simulated Likelihood Methods and Applications 26, (Edited by W. H. Greene). Emerald
Group Publishing Limited.
[8] Castro, R., Coates, M., Liang, G., Nowak, R. and Yu, B. (2004). Network tomography:
recent developments. Statist. Sci. 19, 499-517.
BIBLIOGRAFIA 97
[9] Comets, F. (1992). On consistency of a class of estimators for exponential families of
Markov random fields on the lattice, Ann. Statist., 20, 455-468.
[10] Cox, D. R.(1975). Partial likelihood. Biometrika, 62, 269276.
[11] Cox, D. R. (1972). The analysis of multivariate binary data. Appl. Statist. 21, 113-120.
[12] Diggle, P. J., Fiksel, T., Grabarnik, P., Ogata, Y. , Stoyan, D. and Tanemura, M. (1994).
On parameter estimation for pairwise interaction poin processes, International Statistical
Review, 62, 99-117.
[13] Gao, X. and Song, P. X.-K. (2011). Composite likelihood EM algorithm with applications
to multivariate hidden Markov model. Statist. Sinica 21, ??-??.
[14] Gelman, A. and Rubin, D. B. (1992). Inference from iterative simulating using multiple
sequences. Statistical Science, 7, 457-511.
[15] Geyer, C. J. (1991). Markov chain Monte Carlo maximum likelihood. Computing Sci-
ence and Statistics: Proc. 23rd Symps. Interface (E. Keramidas, ed.) 156-163. Interface
Foundation.
[16] Geyer, C. J. and Thompson, E.A. (1992). Constraited Monte Carlo maximum likelihood
for dependent data. Journal of the Royal Statistical Society, B, 54, 657-699.
[17] Guyon, X. (1995). Random Fields on a Network: Modeling, Statistics and Applications,
Springer, New York.
[18] Guyon, X. and Kunsch, H. R. (1992). Asymptotic comparisonof estimators in the Ising
model, Stochastic Models, Statistical Methods, and Algorithms in Image Analysis, Lecture
Notes in Statist., 74, 177-198, Springer, Berlin.
[19] Hjort, N. and Varin, C. (2008). ML, PL, QL in Markov chain models. Scand. J. Statist.,
35, 64-82.
BIBLIOGRAFIA 98
[20] Huang, F. and Ogata, Y. (2002). Generalized pseudo-likelihood estimates for Markov
random fields on lattice. The Institute of Statistical Mathematics 54, 1-18.
[21] Jensen, J. L. and Kunsch, H. R. (1994). On asymptotic normality of pseudo likelihood
estimates for pairwise interaction processes, Ann, Inst. Statist. Math., 46, 475-486.
[22] Jensen, J. L. and Mφller, J. (1991). Pseudolikelihood for exponential family models of
spatial point processes, Ann, Appl. Probab., 1, 445-461.
[23] Joe, H. and Lee, Y. (2009). On weighting of bivariate margins in pairwise likelihood. J.
Multivariate Anal. 100, 670-685.
[24] Kaiser, M. S. (2007). Statistical dependence in Markov random field models. Department
of Statistics, Iowa State University.
[25] Kaiser, M. S. and Caragea P.C. (2007). Exploring dependence with data on spatial
lattices. Biometrics, 65, 857-865.
[26] Kaiser, M. S. and Cressie, N. (1997). Modeling Poisson variables with positive spatial
dependence. Statistics Probability Letters, 35, 423-432.
[27] Kaiser, M. S., Caragea, P. C. and Furukawa K. (2012). Centered parameterizations and
dependence limitations in Markov random field models. Journal of Statistical Planning
and Inference, 142, 1885-1863.
[28] Kalbfleisch, J. (1978). Likelihood methods and nonparametric tests. J. Amer. Statist.
Assoc. 73, 167-170.
[29] Kuk, A. and Nott, D. (2000). A pairwise likelihood approach to analyzing correlated
binary data. Statist. Probab. Lett. 47, 329-335.
[30] LeCessie, S. and van Houwelingen, J. C. (1994). Logistic regression for correlated binary
data. Appl. Statist. 43, 95-108.
BIBLIOGRAFIA 99
[31] Liang, K.-Y. (1987). Extended Mantel-Haenszel estimating procedurefor multivariate
logistic regression models. Biometrics, 43, 289-299.
[32] Liang, K.-Y. and Qin, J. (2000). Regression analysis under non-standard situations: a
pairwise pseudolikelihood approach. J. Roy. Statist. Soc. Ser. B 62, 773-786.
[33] Liang, G. and Yu, B. (2003). Maximum pseudo likelihood estimation in network tomog-
raphy. IEEE Trans. Signal Process. 51, 2043-2053.
[34] Lipsitz, S., Dear, K. and Zhao, L. (1994). Jackknife estimators of variance for param-
eter estimates from estimating equations with applications to clustered survival data.
Biometrics 50, 842-846.
[35] Mardia, K. V., Kent, J. T., Hughes, G. and Taylor, C. C. (2009). Maximum likelihood
estimation using composite likelihoods for closed exponential families. Biometrika 96,
975-982.
[36] Mase, S. (1995). Consistency of the maximum pseudo-likelihood estimator of continous
state space Gibbsian processes, Ann, Appl.Probab., 1, 445-461.
[37] Metropolis, N. and Ulam, S. (1949). The Monte Carlo Method. Journal of the American
Statistical Association 44, 335-341.
[38] McFadden, D. and Train, K. (2000). Mixed MNL models for discrete responses. J. Appl.
Econometrics 15, 447-470.
[39] McLachlan, G. and Krishnan, T. (2008). The EM Algorithm and Extensions. Second
Edition, Wiley, Hoboken, New Jersey.
[40] Molenberghs, G. and Verbeke, G. (2005). Models for Discrete Longitudinal Data.
Springer, New York.
[41] Varin, C. (2008). On composite marginal likelihoods. Adv. Statist. Anal., 92, 1-28.
BIBLIOGRAFIA 100
[42] Varin, C. and Czado, C. (2010). A mixed autoregressive probit model for ordinal longi-
tudinal data. Biostatistics 11, 127-138.
[43] Varin, C., Høst, G. and Skare, Ø. (2005). Pairwise likelihood inference in spatial gener-
alized linear mixed models. Comput. Statist. Data Anal. 49, 1173-1191.
[44] Varin, C. and Vidoni, P. (2005). A note on composite likelihood inference and model
selection. Boimetrika, 92, 519-528.
[45] Varin, C., Reid, N. and Firth, D. (2011). An overview of composite likelihood methods.
Statistica Sinica, 21, 0-0.
[46] Zhao, Y. and Joe, H. (2005). Composite likelihood estimation in multivariate data anal-
ysis. Canad. J. Statist. 33, 335-356.
[47] Zi, J. (2009). On some aspects of composite likelihood. PhD thesis, University of Toronto.
Andersen, E. (2004). Composite likelihood and two-stage estimation in family studies. Bio-
statistics 5, 15-30.
Arnold, B., Castillo, E. and Sarabia, J. (2001). Conditionally specified distributions: An
introduction. Statist. Sci. 16, 249-274.
Augustin, N. H., McNicol, J. and Marriot, C. A. (2004). Using the truncated auto-Poisson
model for spatially correlated count of vegetation. Journal of Agricultural, Biological, and
Environmental Statistics, 11, 1-23.
Bellio, R. and Varin, C. (2005). A pairwise likelihood approach to generalized linear models
with crossed random effects. Stat. Model. 5, 217-227.
Besag, J. (1972). Nearest-neighbour systems and the auto-logistic model for binary data.
Journal of the Royal Statistical Society, B, 34, 75-83.
Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems. Journal
of the Royal Statistical Society, B, 36, 192-236.
BIBLIOGRAFIA 101
Besag, J. (1975). Statistical analysis of non-lattice data. Statistician, 24:179-195.
Besag, J. (1977). Efficiency of pseudolikelihood estimation for simple Gaussian fields, Biometri-
ka, 64, 616-618.
Besag, J. (1986). On the statistical analysis of dirty pictures (with discussion), Journal of
the Royal Statistical Society, B, 48, 259-302.
Bhat, C. R., Sener, P. N. and Eluru, N. (2010). A flexible spatially dependent discrete choice
model: Formulation and application to teenagers weekday recreational activity participation.
Transportation Research Part B 44, 903-921.
Bhat, C. R., Varin, C. and Ferdous, N. (2010). A comparison of the maximum simulated
likelihood and composite marginal likelihood estimation approaches in the context of the
multivariate ordered response model system. Advances in Econometrics: Maximum Simu-
lated Likelihood Methods and Applications 26, (Edited by W. H. Greene). Emerald Group
Publishing Limited.
Caiafa, C. F. (1996). Procesos aleatorios bidimensionales: su aplicacion al procesamiento de
imagenes. Tesis Ingenierıa Electronica, Universidad de Buenos Aires.
Caragea, P. and Smith, R. L. (2006). Approximate likelihoods for spatial processes. Preprint.
Caragea, P. and Smith, R. L. (2007). Asymptotic properties of computationally efficient
alternative estimators for a class of multivariate normal models. J. Multivariate Anal., 98,
1417-1440.
Casella, G. and Berger, R. L. (2002). Statistical inference. Thomson Learning.
Castro, R., Coates, M., Liang, G., Nowak, R. and Yu, B. (2004). Network tomography: recent
developments. Statist. Sci. 19, 499-517.
Chandler, R. E. and Bate, S. (2007). Inference for clustered data using the independence
log-likelihood. Biometrika, 94, 167-183.
BIBLIOGRAFIA 102
Claeskens, G. and Hjort, N. (2008). Model Selection and Model Averaging, Cambridge Uni-
versity Press, Cambridge.
Comets, F. (1992). On consistency of a class of estimators for exponential families of Markov
random fields on the lattice, Ann. Statist., 20, 455-468.
Cressie, N. A. C. (1993). Statistics for spatial data. Wiley, New York.
Cox, D. R.(1975). Partial likelihood. Biometrika, 62, 269276.
Cox, D. R. (1972). The analysis of multivariate binary data. Appl. Statist. 21, 113-120.
Cox, D. R. and Reid, N. (2004). A note on pseudolikelihood constructed from marginal
densities. Biometrika, 91, 729-737.
Curriero, F. and Lele, S. (1999). A composite likelihood approach to semivariogram estima-
tion. J. Agric. Biol. Environ. Stat., 4, 9-28.
Davison, A. and Gholamrezaee, M. (2009). Geostatistics of extremes. Technical report, EPFL.
Preprint.
Dempster, A., Laird, N. and Rubin, D. (1977). Maximum likelihood from incomplete data
via the EM algorithm. J. Roy. Statist. Soc. Ser. B 39, 1-22.
Diggle, P. and Ribeiro, P. (2007). Model-based Geostatistics. Springer, New York.
Diggle, P. J., Fiksel, T., Grabarnik, P., Ogata, Y. , Stoyan, D. and Tanemura, M. (1994). On
parameter estimation for pairwise interaction poin processes, International Statistical Review,
62, 99-117.
Dillon, J. V. and Lebanon, G. (2010).Stochastic composite likelihood. Journal of Machine
Learning Reseach, 11, 2597-2633.
Engle, R. F., Shephard, N. and Sheppard, K. (2009). Fitting and testing vast dimensional
time-varying covariance models. Preprint.
BIBLIOGRAFIA 103
Fieuws, S. and Verbeke, G. (2006). Pairwise fitting of mixed models for the joint modeling
of multivariate longitudinal profiles. Biometrics 62, 424-431.
Fieuws, S., Verbeke, G., Boen, G. and Delecluse, C. (2006). High dimensional multivariate
mixed models for binary questionnaire data. Appl. Statist. 55, 449-460.
Fieuws, S., Verbeke, G., Maes, B. and Vanrenterghem, Y. (2007). Predicting renal graft
failure using multivariate longitudinal profiles. Biostatistics 9, 419-431.
Fieuws, S., Verbeke, G. and Molenberghs, G. (2007). Random-effects models for multivariate
repeated measures. Statist. Meth. Medical Res. 16, 387-397.
Fiocco, M., Putter, H. and van Houwelingen, J. C. (2009). A new serially correlated gam-
mafrailty process for longitudinal count data. Biostatistics 10, 245-257.
Fearnhead, P. and Donnelly, P. (2002). Approximate likelihood methods for estimating local
recombination rates. Journal of the Royal Statistical Society, B, 657-680.
Fujii, Y. and Yanagimoto, T. (2005). Pairwise conditional score functions: a generalization
of the Mantel-Haenszel estimator. J. Statist. Plann. Inference, 128, 1-12.
Furukawa, K. (2004). Development of Markov Random Field Models Based on Exponen-
tial Family Conditional Distributions, Unpublished PhD. dissertation, Iowa State University,
Ames, Iowa.
Gaetan, C. and Guyon, X. (2010). Spatial Statistics and Modeling. Springer.
Galambos, J. (1988). Truncation methods in probability theory. In:S. Kotz, N.L. Jhonson
(Eds.), Encyclopedia of Statistical Sciences, Wiley, New York, pp. 355-357.
Gao, X. and Song, P. X.-K. (2010). Composite likelihood Bayesian information criteria for
model selection in high dimensional data. J. Amer. Statist. Assoc., to appear.
Gao, X. and Song, P. X.-K. (2011). Composite likelihood EM algorithm with applications to
multivariate hidden Markov model. Statist. Sinica 21, ??-??.
BIBLIOGRAFIA 104
Gelman, A. and Rubin, D. B. (1992). Inference from iterative simulating using multiple
sequences. Statistical Science, 7, 457-511.
Geman, S. and Geman, D. (1984). Stochastic Relaxation, Gibbs Distributions and the Bayesian
Restoration of Images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6,
721-741.
Geyer, C. J. (1991). Markov chain Monte Carlo maximum likelihood. Computing Science and
Statistics: Proc. 23rd Symps. Interface (E. Keramidas, ed.) 156-163. Interface Foundation.
Geyer, C. J. (1992). Practical Markov chain Monte Carlo. Statistical Science, 7, 473-483.
Geyer, C. J. (1994). On the convergence of Monte Carlo maximum likelihood calculations.
Journal of the Royal Statistical Society, B, 56, 261-274.
Geyer, C. J. and Thompson, E.A. (1992). Constraited Monte Carlo maximum likelihood for
dependent data. Journal of the Royal Statistical Society, B, 54, 657-699.
Geys, H., Molenberghs, G. and Ryan, L. (1999). Pseudolikelihood modeling of multivariate
outcomes in developmental toxicology. J. Amer. Statist. Assoc. 94, 734-745.
Glasbey, C. (2001). Non-linear autoregressive time series with multivariate Gaussian mixtures
as marginal distributions. Appl. Statist., 50, 143-154.
Godambe, V. (1960). An optimum property of regular maximum likelihood estimation.
Ann.Math. Statist. 31, 1208-1211.
Gong, G. and Samaniego, F. J. (1981). Pseudo maximum likelihood estimation: theory and
applications. The Annals of Statistics, 9, 861-869.
Gourieroux, C., Monfort, A. and Trognon, A. (1984). Pseudo maximum likelihood methods.
Econometrica, 52, 681-700.
Gourieroux, C., Monfort, A. and Trognon, A. (1984). Pseudo maximum likelihood methods:
applications to Poisson models. Econometrica, 52, 701-720.
BIBLIOGRAFIA 105
Greene, W. H. (2002). Econometric analysis. Prentice Hall, New Jersey.
Goulard, M., Sarkka, A. and Grabarnik, P. (1996). Parameter estimationfor marked Gibbs
point processes through the maximum pseudolikelihood method, Scandinavian Journal of
Statistics, 23, 365-379.
Gu, M. G. and Zhu, H. (2001). Maximum likelihood estimation for spatial models by Markov
chain Monte Carlo stochastic approximation. Journal of the Royal Statistical Society, B, 63,
339-355.
Guyon, X. (1995). Random Fields on a Network: Modeling, Statistics and Applications,
Springer, New York.
Guyon, X. and Kunsch, H. R. (1992). Asymptotic comparisonof estimators in the Ising model,
Stochastic Models, Statistical Methods, and Algorithms in Image Analysis, Lecture Notes in
Statist., 74, 177-198, Springer, Berlin.
Hairston, N. G., Hill, R. and Ritte, U. (1971). The interpretation of aggregation patterns. In:
Patil, G.P., Pileou, E.C. and Waters, W.E. eds. Statistical Ecology 1: Spatial Patterns and
Statistical Distributions. Penn State Univ. Press, University Park.
Hammersley, J. M. and Clifford, P. (1971). Markov fields on finite graphs and lattices (un-
published).
Hanfelt, J. (2004). Composite conditional likelihood for sparse clustered data. J. Roy. Statist.
Soc. Ser., B 66, 259-273.
Hastings, W. K. (1970). Monte Carlo sampling methods using Markov chains and their
applications. Biometrika, 57, 97-109.
Heagerty, P. J. and Lele S. R. (1998). A composite likelihood approach to binary spatial data.
Journal of the American Statistical Association, 93, 1099-1111.
BIBLIOGRAFIA 106
Henderson, R. and Shimakura, S. (2003). A serially correlated gamma frailty model for lon-
gitudinal count data. Biometrika, 90, 335-366.
Hjort, N. and Omre, H. (1994). Topics in spatial statistics (with discussion, comments and
rejoinder). Scand. J. Statist., 21, 289-357.
Hjort, N. and Varin, C. (2008). ML, PL, QL in Markov chain models. Scand. J. Statist., 35,
64-82.
Huang, F. and Ogata, Y. (2002). Generalized pseudo-likelihood estimates for Markov random
fields on lattice. The Institute of Statistical Mathematics 54, 1-18.
Hughes, J., Haran, M. and Caragea, P. C. (2011). Autologistic models for binary data on a
lattice. Environmetrics, 22, 857-871.
Jackson, M. C. and Flagg, K. (2008). Simulating discrete spatially correlated Poisson data
on a lattice. International Journal of Pure and Applied Mathematics, 46, 137-154.
Jensen, J. L. and Kunsch, H. R. (1994). On asymptotic normality of pseudo likelihood esti-
mates for pairwise interaction processes, Ann, Inst. Statist. Math., 46, 475-486.
Jensen, J. L. and Mφller, J. (1991). Pseudolikelihood for exponential family models of spatial
point processes, Ann, Appl. Probab., 1, 445-461.
Joe, H. and Lee, Y. (2009). On weighting of bivariate margins in pairwise likelihood. J.
Multivariate Anal. 100, 670-685.
Kaiser, M. S. (2007). Statistical dependence in Markov random field models. Department of
Statistics, Iowa State University.
Kaiser, M. S. and Caragea P.C. (2007). Exploring dependence with data on spatial lattices.
Biometrics, 65, 857-865.
Kaiser, M. S. and Cressie, N. (1997). Modeling Poisson variables with positive spatial depen-
dence. Statistics Probability Letters, 35, 423-432.
BIBLIOGRAFIA 107
Kaiser, M. S., Caragea, P. C. and Furukawa K. (2012). Centered parameterizations and
dependence limitations in Markov random field models. Journal of Statistical Planning and
Inference, 142, 1885-1863.
Kalbfleisch, J. (1978). Likelihood methods and nonparametric tests. J. Amer. Statist. Assoc.
73, 167-170.
Kent, J. (1982). Robust properties of likelihood ratio tests. Biometrika 69, 19-27.
Kindermann, R. and Snell, J.L. (1980). Markov random fields and their applications. Amer-
ican Mathematical Society, 1.
Kroese, D. P., Taimre, T. and Botev, Z. (2011). Handbook of Monte Carlo methods. Wiley.
Kuk, A. and Nott, D. (2000). A pairwise likelihood approach to analyzing correlated binary
data. Statist. Probab. Lett. 47, 329-335.
Kuonen, D. (1999). Saddlepoint approximations for distributions of quadratic forms in normal
variables. Biometrika 86, 929-935.
LeCessie, S. and van Houwelingen, J. C. (1994). Logistic regression for correlated binary data.
Appl. Statist. 43, 95-108.
Lele, S. and Taper, M. (2002). A composite likelihood approach to (co)variance components
estimation. J. Statist. Plann. Inference, 103, 117-135.
Liang, K.-Y. (1987). Extended Mantel-Haenszel estimating procedurefor multivariate logistic
regression models. Biometrics, 43, 289-299.
Liang, K.-Y. and Qin, J. (2000). Regression analysis under non-standard situations: a pairwise
pseudolikelihood approach. J. Roy. Statist. Soc. Ser. B 62, 773-786.
Liang, G. and Yu, B. (2003). Maximum pseudo likelihood estimation in network tomography.
IEEE Trans. Signal Process. 51, 2043-2053.
BIBLIOGRAFIA 108
Liang, K.-Y. and Zeger, S. (1986). Longitudinal data analysis using generalized linear models.
Biometrika 73, 13-22.
Lindsay, B. G. (1982). Conditional score functions: some optimality results. Biometrika
69,503-512.
Lindsay, B. G. (1988). Composite likelihood methods. Contemporary Mathematics, 80, 220-
239.
Lindsay, B. G., Yi, G. Y. and Sun, J.. (2011). Issues and strategies in the selection of com-
posite likelihoods. Statistica Sinica, 21, 71105.
Lindsay, B. G., Pilla, R. S. and Basak, P. (2000). Moment-based approximations of distribu-
tions using mixtures: theory and application. Ann. Inst. Statist. Math. 52, 215-230.
Lipsitz, S., Dear, K. and Zhao, L. (1994). Jackknife estimators of variance for parameter
estimates from estimating equations with applications to clustered survival data. Biometrics
50, 842-846.
Lumley, T. and Heagerty, P. (1999). Weighted empirical adaptive variance estimators for
correlated data regression. J. Roy. Statist. Soc. Ser. B 61, 459-477.
Mardia, K. V., Hughes, G., Taylor, C. C. and Singh, H. (2008). A multivariate von Mises
distribution with applications to bioinformatics. Canadian Journal of Statistics, 36, 99-109.
Mardia, K. V., Kent, J. T., Hughes, G. and Taylor, C. C. (2009). Maximum likelihood
estimation using composite likelihoods for closed exponential families. Biometrika 96, 975-
982.
Mase, S. (1995). Consistency of the maximum pseudo-likelihood estimator of continous state
space Gibbsian processes, Ann, Appl.Probab., 1, 445-461.
Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. and Teller, E. (1953).
Equations of State Calculations by Fast Computing Machines. Journal of Chemical Physics,
BIBLIOGRAFIA 109
21, 1087-1092.
McFadden, D. and Train, K. (2000). Mixed MNL models for discrete responses. J. Appl.
Econometrics 15, 447-470.
McLachlan, G. and Krishnan, T. (2008). The EM Algorithm and Extensions. Second Edition,
Wiley, Hoboken, New Jersey.
Molenberghs, G. and Verbeke, G. (2005). Models for Discrete Longitudinal Data. Springer,
New York.
Pace, L., Salvan, A. and Sartori, N. (2011). Adjusting composite likelihood ratio statistics.
Statist. Sinica 21, ??-??.
Padoan, S., Ribatet, M. and Sisson, S. (2010). Likelihood-based inference for max-stable
processes. J. Amer. Statist. Assoc. 105, 263-277.
Parke, W. R. (1986). Pseudo maximum likelihood estimation: the asymptotic distribution.
The Annals of Statistics, 14, 355-357.
Parner, E. T. (2001). A Composite Likelihood Approach to Multivariate Survival Data.
Scandinavian Journal of Statistics, 28, 295-302.
Parzen, M., Lipsitz, S., Fitzmaurice, G., Ibrahim, J. and Troxel, A. (2006). Pseudo-likelihood
methods for longitudinal binary data with non-ignorable missing responses and covariates.
Statist. Medicine 25, 2784-2796.
Parzen, M., Lipsitz, S., Fitzmaurice, G., Ibrahim, J., Troxel, A. and Molenberghs, G. (2007).
Pseudo-likelihood methods for the analysis of longitudinal binary data subject to nonignor-
able non-monotone missingness. J. Data Sci. 5, 1-21.
Renard, D., Molenberghs, G. and Geys, H. (2004). A pairwise likelihood approach to estima-
tion in multilevel probit models. Comput. Statist. Data Anal., 44, 649-667.
Reid, N. (2000). Likelihood. Journal of the American Statistical Association, 452, 1335-1340.
BIBLIOGRAFIA 110
Reid, N. and Xu, X. (2011). On the robustness of maximum composite likelihood estimate.
Journal of Statistical Planning and Inference, 141, 3047-3054.
Ribatet, M. (2009). A Users Guide to the SpatialExtremes Package. EPFL, Lausanne, Switzer-
land.
Robins, J. (1995). Analysis of semiparametric regression models for repeated outcomes in the
presence of missing data. J. Amer. Statist. Assoc. 90, 106-121.
Rotnitzky, A. and Jewell, N. (1990). Hypothesis testing of regression parameters in semi-
parametric generalized linear models for cluster correlated data. Biometrika 77, 485-497.
Satterthwaite, F. E. (1946). An approximate distribution of estimates of variance compo-
nents.Biometrics Bulletin 2, 110-114.
Sherman, M., Apanasovich, T. V. and Carroll, R. J. (2006). On estimation in binary autol-
ogistic spatial models. Journal of Statistical Computation and Simulation, 76, 167-179.
Smith, E. and Stephenson, A. (2009). An extended Gaussian max-stable process model for
spatial extremes. J. Statist. Plann. Inference 139, 1266-1275.
Smith, R. (1990). Max-stable processes and spatial extremes. Unpublished.
Spitzer, F. (1971). Markov random fields and Gibbs ensembles. Amer. Math. Monthly, 78,
142-1 54.
Stein, M., Chi, Z. and Welty, L. (2004). Approximating likelihoods for large spatial data sets.
J. Roy. Statist. Soc. Ser., B 66, 275-296.
Stigler, S. M. (2007). The epic story of maximum likelihood. Statistic Science, 4, 598–620.
Tibaldi, F., Molenberghs, G., Burzykowski, T. and Geys, H. (2004). Pseudo-likelihood esti-
mation for a marginal multivariate survival model. Statist. Medicine 23, 924-963.
BIBLIOGRAFIA 111
Troxel, A., Lipsitz, S. and Harrington, D. (2003). Marginal models for the analysis of longitu-
dinal measurements with nonignorable non-monotone missing data. Biometrika 85, 661-672.
Varin, C. (2008). On composite marginal likelihoods. Adv. Statist. Anal., 92, 1-28.
Varin, C. and Czado, C. (2010). A mixed autoregressive probit model for ordinal longitudinal
data. Biostatistics 11, 127-138.
Varin, C., Høst, G. and Skare, Ø. (2005). Pairwise likelihood inference in spatial generalized
linear mixed models. Comput. Statist. Data Anal. 49, 1173-1191.
Varin, C. and Vidoni, P. (2005). A note on composite likelihood inference and model selection.
Boimetrika, 92, 519-528.
Varin, C., Reid, N. and Firth, D. (2011). An overview of composite likelihood methods.
Statistica Sinica, 21, 0-0.
Vecchia, A. V. (1988). Estimation and model identification for continuous spatial processes.
J. Roy. Statist. Soc. Ser. B 50, 297-312.
Wang, M. and Williamson, J. M. (2005). Generalization of the Mantel-Haenszel estimating
function for sparse clustered binary data. Biometrics, 61, 973-981.
Wang, Y. and Ip, E. (2008). Conditionally specified continuous distributions. Biometrika 95,
735-746.
White, H. (1994). Estimation, Inference and Specification Analysis. Cambridge University
Press, Cambridge.
Xu, X. (2012). Aspects of composite likelihood estimationand prediction. PhD thesis, Uni-
versity of Toronto.
Yi, G. Y., Zeng, L. and Cook, R. J. (2009). A robust pairwise likelihood method for incomplete
longitudinal binary data arising in clusters. Canad. J. Statist., to appear.
BIBLIOGRAFIA 112
Zhao, L. P. and Prenctice, R. L. (1990). Correlated binary regression using a quadratic
exponential model. Biometrika 77, 642-648.
Zhao, Y. and Joe, H. (2005). Composite likelihood estimation in multivariate data analysis.
Canad. J. Statist. 33, 335-356.
Zi, J. (2009). On some aspects of composite likelihood. PhD thesis, University of Toronto.