Series de Tiempo - Ramsés Mena

44
S ERIES T EMPORALES MAESTR ´ IA EN E STAD ´ ISTICA. IIMAS-UNAM RAMS ´ ES H. MENA 1. Presentaci´ on La teor´ ıa de series de tiempo o series temporales es la rama de la Estad´ ıstica que estudia de la dependencia entre obser- vaciones de un fen´ omeno aleatorio dadas en un conjunto de ´ ındices ordenados cronol ´ ogicamente, com´ unmente identificado como el “ tiempo ”. El objetivo de este curso es explorar los modelos elementales de dicha teor´ ıa tanto desde el punto de vista te´ orico como aplicado. De manera general el curso se divide en dos partes: 1. Clases te´ oricas en donde se presentan los distintos modelos y sus propiedades. 2. Sesiones de “ laboratorio ” en donde la finalidad es la implementaci´ on, en programas de c´ omputo, de los conceptos adquiridos en clase. Temario general: 1. Introducci´ on Conceptos b´ asicos de procesos estoc´ asticos Momentos y caracter´ ısticas descriptivas Transformaci´ on a estacionariedad 2. Modelos ARMA Modelos ARMA Modelos ARIMA Identificaci´ on, estimaci´ on y diagnosis Criterios de informaci´ on y contrastes de no estacionariedad y no invertibilidad Modelos multiplicativos Predicci´ on 3. Modelos GARCH Modelos GARCH Modelos ARMA-GARCH Identificaci´ on, estimaci´ on y diagnosis 4. Temas opcionales Modelos multivariados Modelos estacionarios con marginales dadas Calificaci´ on La calificaci´ on final del curso considerar´ a los siguientes puntos: 40 % Ex´ amenes 30 % Tareas y “ tareitas ” 1

description

Notas del curso de Maestría

Transcript of Series de Tiempo - Ramsés Mena

  • SERIES TEMPORALESMAESTRIA EN ESTADISTICA.IIMAS-UNAM

    RAMSES H. MENA

    1. Presentacion

    La teora de series de tiempo o series temporales es la rama de la Estadstica que estudia de la dependencia entre obser-vaciones de un fenomeno aleatorio dadas en un conjunto de ndices ordenados cronologicamente, comunmente identificadocomo el tiempo . El objetivo de este curso es explorar los modelos elementales de dicha teora tanto desde el punto devista teorico como aplicado. De manera general el curso se divide en dos partes:

    1. Clases teoricas en donde se presentan los distintos modelos y sus propiedades.

    2. Sesiones de laboratorio en donde la finalidad es la implementacion, en programas de computo, de los conceptosadquiridos en clase.

    Temario general:

    1. Introduccion

    Conceptos basicos de procesos estocasticosMomentos y caractersticas descriptivasTransformacion a estacionariedad

    2. Modelos ARMA

    Modelos ARMAModelos ARIMAIdentificacion, estimacion y diagnosisCriterios de informacion y contrastes de no estacionariedad y no invertibilidadModelos multiplicativosPrediccion

    3. Modelos GARCH

    Modelos GARCHModelos ARMA-GARCHIdentificacion, estimacion y diagnosis

    4. Temas opcionales

    Modelos multivariadosModelos estacionarios con marginales dadas

    Calificacion La calificacion final del curso considerara los siguientes puntos:

    40 % Examenes

    30 % Tareas y tareitas

    1

  • 30 % Proyecto Final

    Bibliografa recomendada

    Brockwell, P. and Davis, R. (1998). Time Series: Theory and Methods. Second Edition. Springer.Brockwell, P. and Davis, R. (2002). Introduction to Time Series and Forecasting. Springer.Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.Shumway, R. and Stoffer, D. (2000). Time Series Analysis and Its Applications. Springer.Chatfield, C. (2003). The Analysis of Time Series: An Introduction. Chapman and Hall.

    Software

    En la mayora del curso se utilizara el lenguaje R ( http://www.r-project.org ).Tambien se utilizara el programa ITSM utilizado en los libros de Brockwell y Davis arriba mencionados.

    Otros programas: OX (http://www.doornik.com ), MATLAB http://www.mathworks.comNota: La elaboracion de estas notas esta, en gran parte, basada en la bibliografa arriba citada.

    2

  • 2. Conceptos basicos de procesos estocasticos

    Definicion 1. Sea T un conjunto de ndices. Un proceso estocastico se define como un conjunto de variables aleatorias,{Xt}tT definidas en un espacio de probabilidad (,F ,P) y con valores en (E, E).

    Desde un punto de vista probabilstico lo ideal sera conocer la ley o distribucion que rige dicho conjunto de variablesaleatorias, digamos

    P(Xt1 ,Xt2 , . . . ,Xtn),para cualquier sub-conjunto de ndices t1, t2, . . . , tn T (distribuciones finito dimensionales). Por otro lado, suponer unaley para un conjunto de variables aleatorias, las cuales describen alguna caracterstica de interes de un fenomeno dado, es,en la mayora de los casos, difcil, muy restrictivo y poco realista.Definicion 2. Las distribuciones finito dimensionales correspondientes a un proceso estocastico {Xt}tT son las distribu-ciones de los vectores con dimension finita, Xt1 ,Xt2 , . . . ,Xtn , es decir

    Ft1,...,tn(A1, . . . , An) := P(Xt1() A1, . . . ,Xtn() An)donde ti T , Ai E , i = 1, . . . , n y n = 1, 2, . . . finito. Claramente, Ft1,...,tn(A1, . . . , An) denota una medida sobre(En, En).

    Cuando hablamos de la ley o distribucion de un proceso, comunmente nos referimos a la ley de probabilidad cuyasdistribuciones finito dimensionales toman una forma especifica.

    Si Ft1,...,tn(A1, . . . , An) es simetrica para cualquier permutacion de los ndices, esto es

    Ft1,...,tn(A1, . . . , An) = Ft1,...,tn(A1, . . . , An)

    y ademas se satisface

    Ft1,...,tn1,tn(A1, . . . , An1,E) = Ft1,...,tn1(A1, . . . , An1)

    para cualquier t1, . . . , tn y A1, . . . , An E , entonces se dice que F satisface las condiciones de consistencia de Kol-mogorov.

    Teorema 1. Supongase que E es un espacio metrico completo y separable. Si una familia de distribuciones finito dimen-sionales posee las condiciones de consistencia, entonces existe un proceso estocastico X tal que (??) se mantiene para todon N+ finito, t1, . . . , tn T y A1, . . . , An E.Ejemplo 1. (Procesos Gaussianos) Supongamos que T = E = R y consideremos las funciones : R R y : R2 R,esta ultima simetrica y positiva definida en R. Es decir, para cualesquiera vectores (t1, . . . , tn) y (c1, . . . , cn) con ci Ry cualquier n N

    ni=1

    nj=1

    cicj (ti, tj) 0.

    Definamos

    Ft1,...,tn(A1, . . . , An) =A1

    An

    Nn(x;,) dx1 dxn

    =

    A1

    An

    |2| 12 exp{12(x )1(x )

    }dx1 dxn,

    donde x = (x1, . . . , xn) y Nn(x;,) denota la densidad de una distribucion normal n-dimensional con vector de medias := {(ti); i = 1, . . . , n} y matriz de covarianzas

    := {(ti, tj); i, j = 1, . . . , n} .Se puede ver facilmente que ambas, la forma cuadratica (x )1(x ) y el determinante || son invariantes bajopermutaciones de x y (t1, . . . , tn). Mas aun, la distribucion marginal de dimension (n 1) resultante de (??) es normalmultivariada. Por lo tanto las condiciones de consistencia se satisfacen y por el teorema de existencia de Kolmogorovexiste un proceso estocastico conocido como proceso Gaussiano en R.

    3

  • La teora de la Estadstica provee un conjunto de tecnicas, las cuales dado un conjunto de observaciones y bajo ciertossupuestos, ayudan a escoger una ley de probabilidad adecuada en una gran variedad de aplicaciones.

    Un ejemplo de estas tecnicas se da en el enfoque clasico de inferencia estadstica, en donde un conjunto de observa-ciones se modelan a traves de variables aleatorias independientes e identicamente distribuidas (iid). En este caso la ley deun conjunto de variables aleatorias esta dada mediante el producto

    P(Xt1 ,Xt2 , . . . ,Xtn) =ni=1

    P(Xti )

    En la estadstica clasica la ley asociada, usualmente esta indexada por un conjunto de parametros , el cual debede ser estimado o acotado dado un conjunto de observaciones. Sin embargo, tanto el supuesto de independencia entre lasvariables aleatorias como el supuesto de igualdad en sus distribucion limitan el espectro de las posibles aplicaciones dedicho enfoque. Tal es el caso de datos provenientes de un fenomeno aleatorio el cual se observa en repetidas ocasiones atraves del tiempo y en el cual la dependencia entre observaciones juega un papel esencial.

    Gran parte de los metodos estadsticos, e.g. analisis multivariado, analisis de regresion, disenos de experimentos yestadstica Bayesiana entre otros, estan confinados al estudio de dependencia entre variables aleatorias.

    En cuanto a la teora de procesos estocasticos se refiere existen varias disciplinas que dividen su estudio, e.g. mediantela imposicion de cierta estructura de dependencia. Por ejemplo, la teora de los procesos de Markov supone que el futuroes independiente del pasado dado el presente.

    Definicion 3. A un proceso {Xt}tT se le conoce como proceso de Markov si para cualquier funcion g y cualquier t, s Tcon t > s,

    E[g(Xt) | (Xu, 0 u s)] = E[g(Xt) | (Xs)]. (1)La ley de un proceso de Markov esta caracterizado por las probabilidades de transicion

    Ps,t(x,A) := P(Xt A | Xs = x)y su distribucion inicial (dx) := P(X0 dx).

    As pues, las distribuciones finito dimensionales de un proceso de Markov estan dadas porA1An

    (dx1)Pt1,t2(x1, dx2) Ptn1,tn(xn1, dxn)

    para todo t1, . . . , tn T .Si Ps,t(, ) depende del tiempo unicamente a traves de la diferencia t s. Es decir, Ps,t = P0,ts = Pts se dice que

    la probabilidad de transicion es homogenea en el tiempo. De la misma forma se dice que es homogenea en el espacio oinvariante ante traslaciones si Ps,t(x,A) = Ps,t(0, A x), donde Ax = {y x; y A}. El proceso, de Markov cuyasprobabilidades de transicion satisfacen algunas de estas caractersticas, hereda la nomenclatura correspondiente.

    Por otro lado, dentro de la misma teora de procesos estocasticos, existen al menos dos maneras de inducir dependenciaentre variables aleatorias: una es mediante suposiciones distribucionales acerca de la dinamica que regula el proceso, e.g.asumir una forma especifica para P, y la otra mediante una relacion o ecuacion estocastica que regula el comportamientode un proceso a traves del tiempo. Un ejemplo de esta ultima son las ecuaciones diferenciales estocasticas, las cualesjuegan un papel muy importante en modelos financieros. Por ejemplo el modelo de Cox-Ingersoll-Ross (CIR) para tasas deinteres dado mediante la ecuacion

    dXt = c(a Xt) dt + Xt dWt, X0 = x 0, (2)

    con ac > 2.En la practica, el estudio de procesos estocasticos se divide, esencialmente, por la naturaleza del conjunto T y el espacio

    (E, E) en donde las variables aleatorias en cuestion toman valores. Este ultimo normalmente conocido como espacio deestados.

    4

  • TC D

    Movimiento Browniano Procesos de Markov conC Procesos de Difusion espacio de estados gral.

    E Procesos de Levy Series de Tiempo

    D Cadenas de MarkovProcesos Poisson

    Cuadro 1. Algunas de las sub-teoras de procesos estocasticos, clasificadas en cuanto al tiempo , T , y su espacio de estados, E.

    El Cuadro 1, muestra algunas de las teoras mas importantes de procesos estocasticos, subdivididas en cuanto a suespacio de estados y a su naturaleza en el tiempo. Aunque esta clasificacion no es excluyente, e.g. se pueden tener seriesde tiempo con valores en un espacio discreto, nos da una idea de como son estudiadas en la literatura.

    Definicion 4. Una serie temporal es una sucesion de observaciones ordenadas y equidistantes cronologicamente sobre unacaracterstica de una unidad observable en diferentes momentos. A dicha sucesion de observaciones se le puede ver comouna realizacion de un proceso estocastico a tiempo discreto, esto es {xt; t = 1, 2, . . . , n}, donde xt := Xt(), fijo, .

    En la practica cuando observamos una serie de tiempo, e.g. el ndice diario de precios y cotizaciones, el proceso verdadero que rige dicha serie, no se conoce. La idea detras de la teora de series temporales es el estudio y construccionde modelos, {Xt}t=1, que nos ayuden a entender las caractersticas de dependencia (la dinamica) de la serie observada.

    Al igual que en el estudio de procesos estocasticos, los modelos para series temporales se pueden definir a traves deuna representacion estocastica o mediante suposiciones distribucionales acerca de las variables aleatorias que representanuna serie dada.

    A manera de ilustracion, considerese el modelo autoregresivo de orden uno (AR(1)), este modelo se puede definir atraves de una ecuacion dada por

    Xt = Xt1 + t, (3)

    donde tiid N(0, 2). De manera distribucional se podra definir el mismo modelo mediante una sucesion de variables

    aleatorias {Xt}t=1 con distribuciones condicionales Xt | Xt1 N(Xt1, 2), lo cual, bajo ciertos supuestos implicaraque las distribuciones finito dimensionales que caracterizan el proceso definido por (3) estan dadas por

    f(xt, xt1, . . . , x1) = (x1)

    t1i=1

    f(xi+1 | xi), (4)

    donde f(xt | xt1) = N(xt; xt1, 2) y () denota la funcion de densidad de una distribucion inicial. Observemos, sinembargo, que en este ejemplo no se ha identificado ni asumido ninguna distribucion inicial.

    Notacion. La funcion D(x; 1, 2, . . .), denotara la funcion de densidad (o masa, segun sea el caso) correspondiente auna variable aleatoria con distribucion X D(1, 2, . . .), e.g. N(, ), Ga(, ), Po() etc.

    2.1. Procesos estacionarios

    Una clasificacion de procesos estocasticos muy importante en el estudio de series de tiempo son los procesos esta-cionarios.

    Definicion 5. Un proceso estocastico {Xt} se dice que es estrictamente estacionario si sus distribuciones finito demen-sionales son invariantes ante traslaciones. Es decir,

    {Xt1 ,Xt2 , . . . ,Xtn} d= {Xt1+h,Xt2+h, . . . ,Xtn+h}, (5)para todo conjunto de indices, h, t1, t2, . . . , tn T .

    5

  • En el caso de un proceso de Markov, si existe una medida que satisfaga

    (A) =

    EPt(x,A)(dx) (6)

    para toda t T y A E entonces se dice que es una medida invariante. Si dicha medida es una medida de probabilidadentonces el correspondiente proceso de Markov es estrictamente estacionario.

    Definicion 6. Un proceso {Xt}tT se dice que es reversible en el tiempo si para todo t1, . . . , tn T se tiene

    {Xt1 ,Xt2 , . . . ,Xtn} d= {Xtn ,Xtn1 , . . . ,Xt1}. (7)La propiedad de reversibilidad en el tiempo es una propiedad de dependencia en las distribuciones conjuntas que, como

    veremos, no se detecta a traves de la funcion de autocorrelacion. En particular, se puede ver facilmente que sucesiones devariables iid y procesos Gaussianos estacionarios son reversibles en el tiempo.

    En el caso de un proceso de Markov homogeneo en el tiempo la propiedad de reversibilidad se verifica si para todoconjunto B,B E se tiene

    BPt(x,B

    )(dx) =

    B

    Pt(x,B)(dx). (8)

    Si un proceso es reversible en el tiempo entonces se tiene que

    P(Xt < Xt+r) = P(Xt > Xt+r) = 12, (9)

    lo cual indica que la probabilidad de subir y la probabilidad de bajar ocurren en la misma proporcion.Tarea: Considerese el proceso estocastico {Xt} dado por la ecuacion

    Xt = Xt1 +1 2 t, (10)

    donde 0 < < 1 y t N(0, 1).1. Es N(0, 1) una medida invariante para este proceso de Markov?

    2. Es {Xt} estrictamente estacionario? Cual es la forma de sus distribuciones finito dimensionales?3. Es el proceso reversible en el tiempo?

    4. Simula varias ( 100) realizaciones de tamano n. Como verificaras la propiedad de estacionariedad fuerte? Hint:L{X25, . . . ,X75} = L{X125, . . . ,X175}

    Suponer que un proceso es estrictamente estacionario es muy fuerte, razon por la cual gran parte de la literatura haoptado por suavizar dicho supuesto mediante el condicionamiento de momentos mas que el de toda la distribucioncomo se hace en (5). Para entender este punto mejor, primero necesitamos introducir la funcion de autocovarianza.Definicion 7. Sea {Xt}tT un proceso tal que Var(Xt) < para todo t T , entonces la funcion de autocovarianza(ACV) de {Xt}, denotada por X(, ), esta definida por

    X(r, s) = Cov(Xr,Xs)= IE[(Xr r)(Xs s)], (11)

    para toda s, t T y donde r := IE[Xr].Esta funcion es claramente una forma de medir la dependencia entre observaciones de la serie (o proceso) dadas en

    diferentes puntos del tiempo.

    Definicion 8. Un modelo para series temporales {Xt}tT se dice que es debilmente estacionario o estacionario de se-gundo orden si para toda r, s, t T se cumplen las siguientes condiciones

    6

  • (i) IE[|Xt|2] 1.

    Ejemplo 3. SeaXt =

    {Yt, si t es par;Yt + 1, si t es impar,

    donde {Yt} es una serie debilmente estacionaria. Aunque Cov(Xt+h,Xt) = Y (h), {Xt} no es debilmente estacionarioya que no tiene media constante.

    7

  • Ejemplo 4. Consideren la serie de la Figura 1 como las mediciones en el tiempo de un fenomeno de interes.

    0 50 100 150 200

    2

    1

    01

    2

    Figura 1: Serie simulada.

    Para describir a a dicha serie se propone el siguiente modelo

    Xt = Xt1 +1 2 t, (15)

    donde 0 < < 1 y t N(0, 1).Una forma de ver como el modelo captura la dinamica de los datos es a traves de la funcion de autocorrelacion.

    Primero, observemos la ACF muestral en la Figura 2, donde se puede apreciar que la autocorrelacion subyacente a losdatos tiende a desaparecer conforme el tiempo pasa.

    Por otro lado, se puede ver que la ACF correspondiente al modelo (15), esta dada por Corr(Xt,Xt+h) = h. Siestimamos el valor de (e.g. usando maxima verosimilitud), se puede ver que =0.49. As pues, se podra decir que elmodelo no es tan malo , ya que al menos la ACF(1) se ajusta bien.

    0 5 10 15 20

    0.

    20.

    00.

    20.

    40.

    60.

    81.

    0

    Figura 2: ACF de la serie en Figura 1. Los primeros cuatro valores son: 1, 0.492, 0.283, 0.231 y 0.073 respectivamente.

    Tarea: Calcular la ACF del modelo (15).

    8

  • 2.2. Cantidades Muestrales

    Como ya vimos anteriormente una forma de estudiar la dependencia en un modelo es a traves de los momentoscruzados . Sin embargo, cuando nos enfrentamos a datos provenientes de una serie de tiempo real dichas cantidades noestan directamente disponibles ya que en primera instancia no se ha asumido ningun modelo. As pues, para inferir el gradode dependencia subyacente a un conjunto de datos observados, {xi}ni=1, se pueden usar las cantidades muestrales dadas acontinuacion:

    Media muestral: x = 1nn

    t=1 xt

    ACV muestral: (h) = 1nn|h|

    t=1 (xt+|h| x)(xt x)ACF muestral: (h) = (h)/(0), n < h < n.

    2.3. Fuentes de variacion

    Los metodos comunes de la teora de series de tiempo buscan explicar la variabilidad de {xt} en funcion de terminoso componentes como lo son:

    Tendencias. Tpicamente se entiende como la tendencia de la serie al cambio sistematico en el nivel medio de la serie alargo plazo. Esto ultimo debe de ser tomado relativamente, es decir cuando se habla de tendencia se debe especificarel tamano de muestra. Ver Figura 3.

    Variacion cclica. Este componente se le asocia a comportamientos que se repiten periodicamente y son, en la mayora delos casos, faciles de interpretar. Por ejemplo, temperaturas, niveles pluviales, desempleo etc.

    Otros cambios cclicos. Estos cambios son igualmente comportamientos repetitivos, sin embargo su periodicidad no esclara. Por otro lado, desde cierto punto de vista son predecibles.

    Cambios aleatorios. Estos cambios, a diferencia de los anteriores, son aleatorios y por lo tanto surge la necesidad demodelar dicho cambio.

    5 10 15 20

    0.0

    e+00

    1.0

    e+08

    2.0

    e+08

    Figura 3: Poblacion (en millones) de EUA durante los anos 17901990. Fuente: Brockwell and Davis (2002).

    9

  • 3. Transformacion del modelo clasico a estacionaridad.

    El Ejemplo 4 muestra una serie relativamente facil de analizar, sin embargo las situaciones que se observan ensituaciones reales no son tan sencillas.

    0 20 40 60 80 100 120 140

    100

    200

    300

    400

    500

    600

    Figura 4: Numero de pasajeros en aerolneas internacionales: totales mensuales de enero de 1949 a Diciembre de 1960. Las cifrasreportadas estan en miles. Fuente: Box and Jenkins (1970).

    En la Figura 4 se observa la serie correspondientes al numero de pasajeros en en aerolneas internacionales. Se puede verclaramente que dicha serie exhibe cierta tendencia y cierta estacionalidad o ciclicidad.

    Estos datos se podran ver como la realizacion de un modelo de la forma

    Xt = mt + st + Yt, (16)

    donde mt y st son funciones deterministas que representan cierta tendencia y ciclicidad respectivamente y Yt denota un ruido aleatorio dado a traves de un proceso debilmente estacionario (ver Definicion 8). De manera ideal el componentede tendencia mt, se debe de comportar de una manera suave y sin cambios muy abruptos mientras que la funcion deciclicidad debera ser una funcion con periodo conocido d. Al modelo (16) se le conoce como el modelo clasico de seriesde tiempo.

    Parte del la tarea inicial de la teora de series de tiempo es la estimacion y extraccion de dichos componentes, mt y st,con la esperanza de que el componente de residuo o componente de ruido, Yt, resulte en una serie de tiempo estacionaria,y as modelar este ultimo mediante alguno de los modelos basicos de series de tiempo.

    4. Estimacion y eliminacion de tendencia en ausencia de estacionalidad

    En esta seccion exploraremos algunas tecnicas para remover la tendencia de un modelo sin componente cclico, es decirde la forma

    Xt = mt + Yt, (17)

    donde IE[Yt] = 01.1Si IE[Yt] 6= 0 entonces podemos reemplazar a mt por mt + IE[Yt] y a Yt por Yt IE[Yt].

    10

  • 4.1. Estimacion de mt por mnimos cuadrados

    Este metodo consiste en modelar, ajustar , una familia de funciones deterministas, por ejemplomt = a0 + a1 t+ a2 t

    2, (18)a los datos, escogiendo los parametros (a0, a1 y a2 en el ejemplo arriba) de tal forma que se minimize

    t

    (xt mt)2. (19)

    Ejemplo 5. Considerese la serie proveniente de la poblacion en EUA durante el periodo de 19701980. Ver Figura 3.Si suponemos un modelo de la forma (17) y modelamos la tendencia con una funcion cuadratica de la forma (18), losestimadores resultantes del procedimiento de mnimos cuadrados son a0 = 2.097911 1010 a1 = 2.334962 107 ya2 = 6.498591 103.

    Como consecuencia la idea sera analizar los residuales Yt = Xt mt, claro que no para cualquier serie dichoprocedimiento resultara en un proceso debilmente estacionario.

    Otras funciones, no polinomicas, que se usan comunmente son:

    La curva de Gompertz: mt = exp[ exp( t)], > 0La curva logstica: mt = a/(1 + bec t)

    Algunos de los metodos (algoritmos) de estimacion existentes en Analisis de Regresion se pueden adaptar para laestimacion de tendencias modeladas mediante funciones parametricas.

    Por ejemplo el modelo Xt = mt + Yt conmt = 0 + 1t+ + tp

    se podra pensar como una regresion en donde la variable dependiente es Xt, esto es Xt = zt + Yt, donde =(1, 2, . . . , p) y zt = (zt1 , zt2 , . . . , ztq ) = (1, t, . . . , tp). As pues, si se considerara Z = (z1, z2, , zn) como lamatriz de dimensiones n q compuesta de n muestras se tiene = (Z Z)1Z x donde x = (x1, . . . , xn)

    4.2. Metodo de diferenciacion

    Este metodo consiste en transformar los datos mediante el operador de diferencias,, definido porXt = Xt Xt1, (20)

    con la finalidad de que el modelo resultante sea debilmente estacionario. Por ejemplo veamos que sucedera si aplicamoseste operador a el modelo con tendencia lineal dado por:

    Xt = a0 + a1 t+ Yt,

    donde una ves mas suponemos que Yt es debilmente estacionario y IE[Yt] = 0. Tenemos

    Xt = a1 +Yt, (21)en donde se verifica que la tendencia ha sido removida.

    El operador de diferencias se puede aplicar varias veces, por ejemplo 2Xt = (Xt) = Xt 2Xt1 +Xt2.Tarea: Aplicar el operador de diferencias dos veces al modelo (17) con tendencia dada por (18).En general una tendencia polinomica de orden k se puede remover mediante la aplicacion del operador de diferencias

    k veces, es decir si Xt = mt + Yt donde mt =k

    j=0 ajtj y Yt un proceso estacionario con media cero, entonces

    kXt = k!ak +kYt, que es un proceso estacionario con media k!ak

    11

  • 4.3. Suavizamiento con filtros de promedios moviles finito

    Sea q un entero no-negativo y consideremos el promedio movil dado por

    Wt =1

    2q + 1

    qj=q

    Xtj (22)

    correspondiente al proceso {Xt} definido por (17). Entonces para q + 1 t n q,

    Wt =1

    2q + 1

    qj=q

    mtj +1

    2q + 1

    qj=q

    Ytj mt. (23)

    La approximation de arriba se vale si asumimos que mt es aproximadamente lineal sobre el intervalo [t q, t + q] y queel promedio de los errores sobre este intervalo tiende a cero. Entonces los promedios moviles proporcionan el siguienteestimador

    mt =1

    2q + 1

    qj=q

    Xtj , q + 1 t n q. (24)

    Dado que la serie no se observa para t < 0 o t > n, entonces no se puede usar (24) para t q o t > n q. Una manera demanipular esto en practica se puede hacer mediante Xt := X1 para t < 1 y Xt := Xn para t > n.

    Es de utilidad pensar en {mt} como el proceso obtenido de {Xt} despues de aplicarle un operador lineal o filtro lineal

    mt =

    j=

    ajXtj (25)

    con pesos aj = (2q + 1)1, q j q. En particular, a (24) se le conoce como un filtro low pass , en el sentido queremueve de la serie original las fluctuaciones con frecuencia alta, para as dejar un estimado de la tendencia con variacionlenta, {mt}.

    Se puede ver que el filtro (24) no solamente atenua el ruido, sino tambien permite tendencias lineales mt = c0 + c1tpasar sin se distorsionadas. Sin embargo, se debe de tener cuidado al seleccionar el valor de q ya que si este es muy grandey mt no es lineal, el proceso filtrado no sera un buen estimador de mt. Por otro lado se pueden disenar filtros (mediantela seleccion adecuada de los pesos {aj} en (25)) que son muy eficientes en el suavizamiento y pueden remover una granvariedad de funciones de tendencia.

    Tarea:(problema 1.11, B& D (ITSF)) Considerese el filtro MA con aj = (2q + 1)1, q j q.1. Si mt = c0 + c1t, muestra que

    qj=q ajmtj = mt.

    2. Si {Zt}t=0,1,2,... son v.a. independientes con media 0 y varianza 2, muestra que los promedios moviles At =qj=q ajZtj es pequeno para q grande en el sentido que EAt = 0 y Var(At) = 2/(2q + 1).

    Promedio movil de Spencer: El promedio movil de Spencer es un filtro que pasa polinomios de grado 3 sin distorsion .Los pesos correspondientes son: aj = 0 para |j| > 7, aj = aj para |j| 7 y

    [a0, a1, . . . , a7] =1

    320[74, 67, 46, 21, 3,5,6,3].

    Si se aplica este filtro a un proceso, Xt = mt + Yt, con mt = c0 + c1t+ c2t2 + c3t3 se obtiene7

    j=7 ajXtj mt.Suavizamiento exponencial: Para [0, 1], los promedios moviles mt, 1 = 1, . . . , n, definidos a traves de la recursion

    mt =

    {Xt + (1 )mt1, t = 2, . . . , n;X1, t = 1.

    (26)

    12

  • La recursion implica

    mt =

    t2j=0

    (1 )jXtj + (1 )tjX1,

    es decir un filtro de promedios moviles con pesos que decrecen exponencialmente (excepto por el ultimo termino).Nota: Al filtro lineal (25) se le puede ver como una convolucion ya que haciendo un cambio en el ndice de la sumatoria

    se tiene

    mt =

    j=

    ajXtj =

    k=

    atkXk = {aj} {Xk},

    donde denota convolucion. Ver la funcion filter , en el lenguaje estadstico R con la opcion convolution.

    5. Eliminacion de tendencia y ciclicidad

    Ahora consideremos un modelo dado de la forma (16), es decir

    Xt = mt + st + Yt, (27)

    con E[Yt] = 0, st+d = st yd

    j=1 sj = 0.

    5.1. Estimacion de la tendencia y ciclicidad

    Supongamos que observamos la serie {xt}nt=1. Un metodo para remover ambas, tendencia y ciclicidad, se da mediantela aplicacion de un filtro de promedios moviles construido de manera especial para eliminar el componente cclico. Si elperiodo, denotado por d, es par d = 2q, entonces se usa

    mt = (0.5xtq + xtq+1 + + 0.5xt+q)/d, (28)

    para q < t n q. Por otro lado si el periodo es impar d = 2q + 1, entonces se utiliza (22).El segundo paso es estimar el componente de ciclicidad. Para cada k = 1, . . . , d se calcula el promedio, wk, de las

    desviaciones{(xk+jd mk+jd), q < k + jd n q}.

    As pues, el componente de ciclicidad se estima mediante

    sk = wk 1d

    di=1

    wi, k = 1, . . . , d, (29)

    y sk = skd, k > d.Entonces los datos sin ciclicidad se pueden estimar mediante

    dt = xt st, t = 1, . . . , n. (30)

    Finalmente se re-estima la tendencia de los datos sin ciclicidad, {dt} mediante el uso de alguno de los metodos descritosen la clase anterior. As pues, los residuales se pueden estimar mediante

    Yt = xt mt st, t = 1, . . . , n. (31)

    Hacer ejemplo con los datos deaths usando ITSM: Transform >Classical.

    13

  • 5.2. Metodo de diferencias

    Al igual que en el modelo de sin ciclicidad (17), el metodo de diferencias se puede adaptar para eliminar o difuminar cierta ciclicidad subyacente a los datos. Considerese el operador de diferencias con rezago-d, definido como

    dXt := Xt Xtd. (32)

    Una aplicacion de este operador al modelo dado por (27, obtenemos

    dXt = mt mtd + Yt Ytd, (33)

    es decir se descompone en un componente de tendencia (mt mtd) y un componente de ruido (Yt Ytd). De igualforma, la tendencia se puede eliminar con alguno de los metodos descritos en la Seccion 4.

    Hacer ejemplo con los datos deaths usando ITSM: Transform >Difference, con lag 12. Para eliminar latendencia restante se puede aplicar el operador de diferencias una vez mas, es decir (12 xt).

    6. Transformacion de Box-Cox

    Otros factores que tambien pueden alterar la estacionariedad , as como la linealidad subyacente a una serie ob-servada, son cambios muy abruptos en la misma. En otras palabras, la variabilidad en los datos es muy caotica en ciertointervalo. Esto se traduce en un rompimiento al requisito de estacionariedad debil, e.g. X(h) ya no unicamente dependede la distancia de rezago h sino tambien del punto en el tiempo y por lo tanto la propiedad (iii) de la Definicion 8 no secumple.

    Una manera de suavizar dichos cambios es a traves de su transformacion logartmicazt = ln(xt),

    la cual tiende a suprimir fluctuaciones grandes. De manera mas general, otra posible transformacion esta dada mediante

    yt =

    {(xt 1)/, 6= 0lnxt, = 0.

    (34)

    Esta transformacion, conocida como la transformacion Box-Cox, tambien es usada para aproximar a normalidad.

    7. Residuales

    Como mencionamos anteriormente, el objetivo de las transformaciones a estacionariedad, es precisamente el de obteneruna serie, la cual no exhiba una tendencia o ciclicidad aparente con la finalidad de poder modelar este componente. Sinembargo, una vez ejercidas las tecnicas descritas anteriormente existen algunas consideraciones (o pruebas) que se debentomar en cuenta al analizar los residuales de dichas transformaciones.

    7.1. Dependencia

    La primera de estas pruebas, se refiere a la independencia entre los elementos de la serie dada por los residuales, {Yt}.Por ejemplo, si los datos fuesen iid, entonces el problema se resolvera facilmente mediante el uso de algunas caractersticascomo la media y la varianza subyacente a los residuales. Sin embargo, cuando se analizan series de tiempo, normalmenteexiste dependencia y se requiere de modelos mas elaborados como los que veremos en lo que resta del curso.

    Una manera de visualizar la dependencia en una serie (e.g. los residuales) es a traves de examinar graficamente lasdensidades correspondientes a {Xt,Xt+1}, {Xt,Xt+2}, . . . , {Xt,Xt+h} y ver si estas exhiben una dependencia evidente.En la Figura (5) se observa un ejemplo de estas densidades: tanto la correspondiente a los datos como la correspondientea un modelo ajustado. El dibujo en puntos representa la estimacion de la superficie dados los datos {x1, x2, . . . , xn1} vs.{x2, x3, . . . , xn}. Sin embargo, un diagrama de dispersion ( scatterplot ), nos puede dar una informacion similar.

    14

  • Tarea: Con el programa de R que se utilizo para simular la Figura 1, (la funcion SimAR1 dentro del archivoSimulaAR_1.R) generar tres muestras de tamano 100, 500, 1000 y dibujar el correspondiente diagrama de dispersion(xt vs xt+1) para cada una de ellas. Muestran alguna dependencia las series simuladas?

    0.050.1

    0.150.2

    0.250.3

    x0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    y

    0

    20

    40

    60

    80

    Figura 5: La densidad conjunta de {Xt = x,Xt+1 = y}. El dibujo en puntos denota los datos observados, y el dibujo en solido unmodelo (no-lineal) ajustado.

    Otra forma, tambien grafica, pero mas limitada es mediante el grafico de la ACF muestral (tambien conocido como cor-relograma). Ver Figura 2. Esta grafica, es claramente menos robusta ya que unicamente se considera la correlacion entrext y xt+h, h = 1, 2, . . .. Sin embargo, bajo el supuesto de estacionariedad debil, que domina los modelos mas comunes( clasicos ) y que veremos en el siguiente captulo, este metodo es relativamente bueno.

    En teora, para una muestra grande (n grande) la ACF correspondientes a una sucesion Y1, . . . , Yn de variables iid ycon varianza finita se distribuyen N(0, 1/n) aproximadamente. Por lo tanto si y1, . . . , yn es una realizacion de una sucesioniid, entonces alrededor del 95 % de las ACF muestrales deberan estar contenidas en el intervalo formado por 1.96/n.Muchos paquetes ya dibujan dichos intervalos de confianza. Ver Figura 2.

    En vez de checar si las autocorrelaciones caen dentro del intervalo, tambien se puede considerar la estadstica dada por

    Q = nh

    j=1

    2(j). (35)

    Tambien conocida como la prueba de portmanteau. Por el mismo resultado enunciado anteriormente, Q 2(h). Por lotanto se rechaza la hipotesis de iid al nivel si

    Q > 21(h).

    15

  • Algunos programas, en particular ITSM, utilizan una mejor aproximacion a la distribucion 2(h), conocida como la pruebade Ljung-Box y dada por la estadstica

    Q = n(n+ 2)

    hj=1

    2(j)/(n j). (36)

    7.2. Normalidad

    Otra caracterstica que comunmente se le asocia a los residuales, al menos bajo el enfoque clasico, es la normalidad deestos. Esto, usualmente se hace con la finalidad de conocer mas acerca de la ley que rige los datos que de resultar Gaussianapermite conclusiones mas fuertes, por ejemplo se podra hablar de un modelo estrictamente estacionario.Definicion 9. Sea Z = (Z1, Z2, . . . , Zn) un vector aleatorio. Se dice que Z se distribuye normalmente, Z Nn(,), si

    Nn(z;,) = |2|1

    2 exp

    {12(z )1(z )

    },

    donde z := (z1, . . . , zn), := (1, . . . , n) y

    := {ij ; i, j = 1, . . . , n}

    denota una matriz simetrica y positiva definida, conocida como la matriz de covarianzas ij .

    Sean Y(1) < Y(2) < < Y(n) las estadsticas de orden de una muestra aleatoria de la distribucion N(, 2). SiX(1) < X(2) < < X(n) son las estadsticas de orden de una muestra aleatoria de la distribucion N(0, 1) entonces

    IE[Y(j)] = + mj ,

    donde mj = IE[X(j)], j = 1, . . . , n. A la grafica de dispersion de los puntos (m1, Y(1)), . . . , (mn, Y(n)) se le conoce comoqq-plot Gaussiana. Si la suposicion de normalidad es correcta, la grafica de qq-plot Gaussiana debe ser aproximadamentelineal. Consecuentemente, el cuadrado de la correlacion entre los puntos (mi, Y(i)), i = 1, . . . , n debe de ser cercana auno. Entonces, el supuesto de normalidad se rechaza si el cuadrado del coeficiente de correlacion R2 es suficientementepequeno. Si aproximamos mi mediante 1((i 0.5)/n) entonces

    R2 =

    [ni=1(Y(i) Y )1( i0.5n )

    ]2n

    i=1 (Y(i) Y )2n

    i=1

    (1( i0.5n )

    )2 (37)7.3. Revesibilidad

    La propiedad de reversibilidad (ver Definicion 6) es una caracterstica comunmente asociada a series no lineales. Comoveremos posteriormente los modelos ARMA Gaussianos siempre son reversibles, por lo tanto es una caracterstica quedebe considerarse a la hora de asignar/decidir por un modelo.

    Una manera relativamente sencilla de probar si una serie dada es reversible se puede encontrar en Chen et al. (2000).Aqu damos una descripcion resumida del metodo.

    Primero notemos que si un proceso {Yt} es reversible entonces, para cada k = 1, 2, . . . , la distribucion de Zt,k :=Yt Ytk es simetrica alrededor del origen. As pues el metodo de Chen et al. (2000) consiste en probar la hipotesis

    hk() = E[sin(Xt,k)] = 0, R+ (38)

    Si g es una funcion que satisface0 g()d

  • Definamos la funcion g como

    g() =

    sin(x)g()d (40)

    lo cual, cambiando el orden de integracion, es equivalente a

    E(g(Xt,k)) :=

    g(x)dFXt,k (x) = 0. (41)

    Para probar la hipotesis (41), se utiliza la cantidad muestral

    g,k(xt,k) :=1

    T kT

    t=k+1

    g(xt,k), (42)

    donde {xt,k} representan las diferencias observadas. Bajo ciertas condiciones el teorema de limite central se satisface ypor lo tanto

    T k (g,k g,k)/g,k N(0, 1), (43)donde g,k = E[g(Xt,k)], y 2g,k = Var(g(Xt,k)). As pues, el estadstico de prueba es

    Cg,k =T k g,kg,k

    , (44)

    donde 2g,k es un estimador consistente de 2g,k :

    2g,k =1

    T kTk+1

    (g(xt,k) g,k)2 + 2T k

    Tk1=1

    ()T

    t=+1

    (g(t,k) g,k)(g(t,k) g,k),

    donde es una funcion kernel que asegura que 2g,k es no-negativo. Consideraciones practicas de esta prueba se puedenver en Chen et al. (2000).

    Aunque la propiedad de reversibilidad es muy importante en el analisis de series de tiempo, desgraciadamente nose ha dado la importancia que merece, razon por la cual la implementacion de pruebas, e.g. que contrasten la hipotesisde reversibilidad, no se encuentran implementadas en el software de estadstica comun. Sin embargo, es importanteconsiderar dicha propiedad cuando se analiza el residual {Yt}.

    Una forma emprica de ver si un proceso es reversible es a traves de las frecuencias de subida o bajada queocurren en la serie. Debido a la propiedad (9) correspondiente a procesos reversibles dichas frecuencias deberan seraproximadamente 0.5

    En conclusion, podramos pensar en los siguientes pasos iniciales para el analisis de series temporales

    Dibujar la serie y examinar las principales caractersticas de la serie, en particular identificar posibles(a) Componentes de tendencias(b) Componentes de ciclicidad(c) Cambios abruptos y/o observaciones aberrantes.

    Hacer las transformaciones necesarias para que los residuales sean lo mas estacionarios posibles.

    Hacer algunas pruebas de independencia (y de ser el caso normalidad) a los residuales resultantes.Hacer alguna prueba de reversibilidad, la cual nos podra indicar tambien la presencia de no linealidad.

    17

  • 8. Modelos para {Yt}

    En las Secciones 4 6 estudiamos algunas metodologas para trasformar un proceso {Xt} a un proceso estacionario,denotado como {Yt}. Ahora analizaremos una clase de modelos estacionarios para este componente que resulta de graninteres en las aplicaciones.

    Tal vez el modelo mas sencillo, es el modelo de ruido blancoDefinicion 10. Un proceso {t} se dice que es de ruido blanco con media 0 y varianza 2, denotado por

    {t} W(0, 2)si y solo si {t} tiene media 0 y funcion de covarianza

    (h) =

    {2, h = 00, h 6= 0. (45)

    Notemos que esta definicion de ruido blanco satisface las condiciones de un proceso debilmente estacionario, verDefinicion 8, y por lo tanto puede haber cierta dependencia de orden mayor a dos en dicho proceso. Cuando se tengaque t

    iid N(0, 2), se dice que {t} es un ruido blanco en el sentido estricto o Gaussiano. Lo anterior se debe a que lasdistribuciones finito dimensionales de la distribucion Gaussiana estan caracterizadas mediante sus primeros dos momentos,e.g. media y funcion de covarianzas, y por lo tanto estacionariedad debil se traduce a estacionariedad estricta.Tarea: Sea {t} un proceso de ruido blanco, demostrar que {dt} es estacionario de segundo orden.

    9. Modelos Autoregresivos (AR)

    Los modelos autoregresivos de orden p, AR(p), estan desarrollados con la idea de que el valor presente de una serie,yt, se puede explicar mediante las p observaciones pasadas del mismo, yt1, . . . , ytp. Es decir, el valor presente regresa,en cierta proporcion, a algunos de sus p valores previamente observados. En notacion

    Yt = 1 Yt1 + 2 Yt2 + + p Ytp + t, (46)donde 1, . . . , p son constantes y {t} un ruido blanco. La ecuacion (46) se puede ver como un modelo de regresion,donde Yt es regresado a su pasado en vez de a otras variables, como tpicamente se hace en analisis de regresion, deesto el prefijo auto . Por simplicidad, usualmente se supone que la media de {Yt} es 0, = 0, de no ser el caso, paraproseguir con un modelo de media 0, se puede reemplazar a los datos yt por yt .

    Otras maneras de denotar el proceso AR(p) es mediante

    Yt = Yt1 + t, (47)

    donde = (1, 2, . . . , p) yYt1 = (Y1, Y2, . . . , Yp). Esta notacion todava se asemeja mas a la encontrada en analisisde regresion con la diferencia de que en este caso la componente Yt1 tiene componentes aleatorios.

    Otra forma de denotar al proceso AR(p), mas comun en el lenguaje de series de tiempo, es mediante el operador deretraso, definido como

    Bj Yt = Ytj . (48)Esto es,

    (B)Yt = t, (49)donde

    (B) = 1 1 B 2 B2 pBp (50)se conoce como el operador autoregresivo o polinomio de rezago.

    18

  • 9.1. Caso AR(1)

    Considerese un modelo AR(1), entonces se tiene

    Yt = Yt1 + t = (Yt1 + t1) + t1= 2 Yt2 + t1 + t.

    .

    .

    = k Ytk +

    k1j=0

    j tj.

    Haciendo esto de manera iterativa y bajo el supuesto de que || < 1 y Var(Yt) < se tiene que lmk kYtk = 0 ypor lo tanto un proceso AR(1) se puede caracterizar mediante

    Yt =

    j=0

    j tj , (51)

    es decir, mediante los cambios aleatorios que ocurrieron en el presente y (todo) el pasado del proceso. A un proceso quesatisface (51) se le conoce como un proceso de promedios moviles infinito, MA()2. El resultado anterior es valido, enparticular, en el sentido de media cuadratica, lo cual se sigue del hecho

    lmk

    IE

    Yt k1

    j=0

    j tj,

    2 = lmk2k E(Y 2tk) = 0.

    Tambien se puede verificar que

    (h) = Cov(Yt+h, Yt) = IE

    j=0

    j t+hj

    (

    k=0

    k tk

    )

    =j=0

    k=0

    j k (h j + k) = 2j=0

    jj+h = 2 h

    j=0

    2j

    =2

    h

    1 2 , h 0, (52)

    donde la cuarta igualdad se sigue debido a que () 6= 0 si y solo si k = jh o j = h+k. Por lo tanto, dado que E[Yt] = 0,el proceso {Yt} es debilmente estacionario. La ACF correspondiente a un proceso AR(1) esta dado por

    (h) =(h)

    (0)= h.

    Por otro lado si || > 1 la serie en (51) no es convergente, sin embargo se podra modificar el mismo argumento paraobtener la serie

    Yt+1 = Yt + t+1 (53)en cuyo caso se tendra

    Yt = 1Yt+1 1t+1

    = 1(1Yt+2 1t+2) 1t+1.

    .

    .

    = k Yt+k k1j=1

    j t+j (54)

    2En la Seccion 10 se introduciran los procesos de promedios moviles.

    19

  • lo cual provee de una solucion estacionaria a una ecuacion del tipo Yt = Yt1 + t ya que |1| < . Este resultado,sugiere un modelo AR(1)

    Yt = j=1

    j t+j ,

    el cual claramente depende del futuro para predecir el futuro !, razon por la cual no es muy util en aplicaciones. As pues,en el estudio de series temporales se acostumbra suponer || < 1. Al modelo {Yt} resultante de dicha suposicion se leconoce como causal o independiente del futuro. Mas adelante se formalizara el concepto de causalidad.Tarea: Demostrar que si || = 1, en un proceso Yt = Yt1+t, no tiene solucion estacionaria. HINT: Supon que existeuna solucion estacionaria y utiliza la ecuacion de un AR(1) para derivar una expresion de la varianza de Ytn+1 Ytn1que contradiga el supuesto de estacionariedad (debil!)

    0 100 200 300 400 500

    4

    2

    02

    4

    0 100 200 300 400 500

    4

    2

    02

    4

    Figura 6: Simulacion del proceso a) Yt = 0.8 Yt1 + t y b)Yt = 0.8 Yt1,+t donde t N(0, 1).

    Las Figura 6 muestra simulaciones de procesos AR(1) con ruido blanco Gaussiano.

    Tarea: Como se ven las series simuladas de los modelos AR(1) con = 1 y = 1?. Utiliza R.Tarea: Como se ven las ACFs de los modelos simulados en la Figura 6? Justifica tu respuesta.

    10. Modelos de Promedios Moviles (MA)

    Como una alternativa a los modelos autoregresivos, se tienen a los modelos de promedios moviles de orden q, denotadospor MA(q) debido a su nombre en ingles. Este modelo asume que el valor presente de la serie, Yt, esta dado por unacombinacion lineal de ruidos blancos , es decir

    Yt = t + 1 t1 + 2 t2 + + q tq, (55)

    donde 1, 2, . . . , q son constantes y {t} denota el proceso de ruido blanco.De manera analoga a los procesos AR, los procesos MA tambien se pueden escribir mediante el uso del operador de

    retraso

    Yt = (B)t, (56)

    20

  • donde a(B) := 1 + 1 B + 2 B

    2 + + q Bq

    se le conoce como el operador de promedios moviles. A diferencia de los procesos AR, los procesos MA son estacionariospara cualquier valor de 1, 2, . . . , q.

    Se puede ver facilmente que la ACV y la ACF de un MA(1) estan dadas por

    (h) =

    (1 + 2)2, h = 0 2, h = 10, h > 1.

    (57)

    y

    (h) =

    {

    (1+2), h = 1

    0, h > 1.(58)

    respectivamente. Notemos que a diferencia de un AR(1) el proceso MA(1) unicamente esta correlacionado con su obser-vacion inmediata.

    Tarea: Simular un proceso MA(1) con =0.2, 5.

    11. Proceso de promedios moviles infinito

    Si {t} W(0, 2) entonces se dice que {Yt} es un proceso de promedios moviles de t si existe una sucesion{t}, con

    j=0 |j | q. De

    la misma forma vimos que el proceso AR(1) con || < 1 es un MA() si j = j , j = 0, 1, . . . , q.Como vimos en (51) un modelo AR(1) se puede escribir como un MA() cuando || < y esto se dedujo de un

    argumento recursivo. Sin embargo, dicho argumento se vuelve mas complejo cuando se quiere inspeccionar el caso generalde un AR(q), razon por la cual en la manipulacion de dichos modelos suele usarse los operadores (B) y (B). Por ejemplosi escribimos un modelo AR(1) como

    (1B)Yt = t,entonces una forma natural de invertir el modelo AR(1) es

    Yt = (1B)1 t.

    As pues la pregunta es, que significado se le da al operador (1 B)1? Una idea heurstica seria expandir (1 z)1,|z| < 1 en Taylor

    (1 z)1 =i=0

    zi,

    entonces bajo el supuesto que |B| < 1 en algun sentidoYt = (1 B)1t = (1 + B + 2B2 + )t

    =j=0

    jtj,

    21

  • es decir, el mismo resultado que se obtuvo anteriormente. En este ejemplo, ambos, el metodo recursivo y el metodo va losoperadores, conlleva un esfuerzo similar, sin embargo cuando el orden es mayor que uno el metodo va operadores resultaser mas viable. Por ejemplo, en el caso de un AR(2),

    (1 1B 2B)Yt = t,

    por lo que podramos encontrar 1 y 2 tales que

    (1 1B 2B) = (1 1B)(1 2B)

    Dichos valores satisfacen

    12 = 2 y 1 + 2 = 1 (59)

    Entonces, necesitamos invertir(1 1B)(1 2B)Yt = t,

    Yt = (1 1B)1(1 2B)1t =

    j=0

    j1Bj

    j=0

    j2Bj

    t

    Ahora,

    j=0

    j1Bj

    j=0

    j2Bj

    = 1 + (1 + 2)B + (21 + 12 + 22)B2 +

    =

    j=0

    (j

    k=0

    k1jk2

    )Bj

    De manera alternativa se podran encontrar a y b tales que

    1

    (1 1B)(1 2B) =a

    (1 1B) +b

    (1 2B) =a(1 2B) + b(1 1B)

    (1 1B)(1 2B)y

    a(1 2B) + b(1 1B) = 1por lo que a+ b = 1 y 2a+ 1b = 0 y por lo tanto

    b =2

    2 1 , a =1

    1 2Entonces podemos expresar al proceso como

    Yt =1

    1 2j=0

    j1tj +2

    2 1j=0

    j2tj =

    j=0

    (1

    1 2j1 +

    22 1

    j2

    )t

    12. Modelos ARMA

    En (46) y (55) se introdujeron los modelos autoregresivos con promedios moviles respectivamente en esta seccionexploraremos un modelo definido como la combinacion de estos dos. En algunas situaciones reales el ajustar un mod-elo AR(p) puede resultar en un orden de rezago, p, muy grande y por lo tanto en un numero grande de parametros,1, 2, . . . , p a estimar. Una manera de reducir este problema es mediante la combinacion de un proceso AR(p) (con prelativamente pequeno) y un proceso MA(q), el resultado se define como sigue

    22

  • Definicion 11. Un proceso, {Yt}, autoregresivo de promedios moviles de orden (p, q), denotado por ARMA(p, q), sedefine mediante la ecuacion

    Yt = 1Yt1+ + pYtp + t + 1t1 + + qtq (60)

    donde t W(0, 2).El proceso ARMA(p, q) tambien tiene una representacion en terminos del operador de retraso dada por

    (B)Yt = (B)t. (61)

    Al igual que en los procesos AR y MA un requerimiento importante de los procesos ARMA es que estos sean estacionarios.En la Seccion ( 9) vimos que un proceso AR(1) era estacionario si y solo si 6= 1, lo que es equivalente a que el polinomio(z) = 1 z 6= 0 para z = 1. La condicion analoga para un proceso ARMA(p, q) es (z) = 11 z 1 zp 6= 0,para todo numero complejo z con |z| = 1. Esta condicion tambien asegura que la solucion estacionaria resultante es unica.Definicion 12. Un proceso ARMA(p, q) definido por (61) es causal si existe una sucesion de constantes {j} tales que

    j=0 |j |

  • Demostracion. Ver Brockwell and Davis (1991,p. 84)Como consecuencia de la Proposicion 3, si Zt = (B)Yt entonces {Xt} es debilmente estacionario y

    z(h) =

    i=

    j=

    jiy(h i+ j). (64)

    Una pregunta de interes es determinar cuando un proceso ARMA(p, q) de la forma (B)Yt = (B)t se puede escribircomo una funcion causal de Yt en t, es decir,

    Yt = [(B)]1(B)t = (B)(B)t = (B)t.

    El siguiente teorema nos ayuda en este punto.

    Teorema 2. Sea {Yt} un proceso ARMA(p, q) y supongase que los polinomios y no tienen ceros en comun, entonces{Yt} es causal si y solo si (z) 6= 0 para todo z C , tal que |z| 1. Los coeficientes {j} en (62) estan determinadospor la relacion

    (z) =

    j=0

    j zj = (z)/(z), |z| 1. (65)

    Demostracion. En clase.Usando este Teorema se puede verificar que cuando () () no tienen ceros en comun y de estos ceros ninguno esta

    en el circulo unitario entonces el proceso {Yt} es la unica solucion estacionaria a la ecuacion ARMA.De la ecuacion (65) se pueden determinar los valores de {j} mediante

    (1 1 z 1 zp)(0 + 1 z + ) = 1 + 1 z + + q zq (66)

    Igualando los coeficientes de zj , j = 0, 1, . . . se tiene que

    1 = 0

    1 = 1 012 = 2 11 02

    .

    .

    .

    Las expresiones relevantes para obtener los pesos {j} son

    j j

    k=1

    j jk = j, j = 0, 1, . . . ,max(p, q + 1) (67)

    j =

    pk=1

    kjk, j = {0, 1, . . . ,max(p, q + 1)}c (68)

    donde 0 := 1, j := 0 para j > q, y j := 0 para j > p.

    Definicion 13. Un proceso ARMA(p, q) se dice que es invertible si existen constantes {j} tal que

    j=0 |j |

  • Si {Yt} es un proceso ARMA(p, q) con t =

    j=0 jxtj entonces se puede ver que la sucesion de {j} esta deter-minada por la recurrencia

    j +

    qjk=1

    kjk = j, j N0, (70)

    donde 0 := 1, k = 0 para (k > q) y j := 0 para j > p y j := 0 para j < 0.Ejemplo 6. Considerese el proceso ARMA(1, 1) dado por

    Yt 0.5Yt1 = t + 0.4t1, {t} W(0.2). (71)En este caso se tiene que (z) = 1 0.5 z tiene un cero en z = 2, lo cual esta afuera del crculo unitario. Por lo tanto,existe una unica solucion causal y estacionaria a la ecuacion (71).Tambien se puede ver que

    0 = 1

    1 = 0.4 + 0.5

    2 = 0.5(0.4 + 0.5)

    j = 0.5j1(0.4 + 0.5) j = 1, 2, . . .

    Por otro lado (z) = 1 + 0.4 z tiene un cero en 2.5 el cual tambien esta afuera del crculo unitario. En este caso, de laecuacion (70) se tiene que

    0 = 1

    1 = (0.4 + 0.5)2 = (0.4 + 0.5)(0.4)j = (0.4 + 0.5)(0.4)(0.4)j1 , j = 1, 2, . . .

    (72)Una manera de encontrar los valores de {j} y de {j} para las representaciones causal e invertible es mediante la

    teora de ecuaciones de diferencia lineales homogeneas. Es decir, ecuaciones del tipo (68)En clase vimos que la solucion general de dicha ecuacion se puede ver como

    n =

    ki=1

    ri1j=0

    ijnjni , n max(p, q + 1) p (73)

    donde las is denotan las races distintas con multiplicidad ri, del polinomio (z) = 0. Notemos que se debera de tenerki=1 ri = p. Los p numeros ij y los coeficientes j se determinan de manera unica por las max(p, q + 1) condiciones

    (67). Ver Seccion 3.6 del libro de B&D (1991).Ejemplo 7. Sea Yt = Yt1 14Yt2 + t + t1, con {t} W(0, 2). Este modelo puede ser escrito como (B)Yt =(B)t con (z) = 1 z + 14z2 y (z) = 1 + z. El polinomio

    (z) =

    (1 1

    2z

    )(1 1

    2z

    )

    tiene solo una raiz real de multiplicidad dos, z = 2, que esta fuera del crculo unitario. Mientras que (z) = 1 + z tieneuna sola raiz, z == 1, que es distinta a las del polinomio (z), y por lo tanto {Yt} es causal y puede escribirse comoYt = {(B)}1(B)t. Usando (68) se tiene que

    0 = 0 = 1

    1 = 1 + 10 = 2

    1 = 1j1 + 2j2 = 2j 2.

    25

  • Las dos primeras ecuaciones sirven como condiciones iniciales. La solucion general del polinomio P2(z) = 1 z + 14z2es, con = 2 y r = 2,

    j = c10j0j + c11j

    j = (c0 + c1j)2j .

    Usando las condiciones iniciales, obtenemos que c0 = 1 y c1 = 3, por lo que

    j = (1 + 3j)2j .

    De la misma manera si regresamos al modelo (71), del Ejemplo 6, podemos ver que la solucion general esta dada porj = c10

    j con 0 = 1 y 1 = 9/10. Si usamos la segunda condicion, se tiene que

    910

    = c101 c10 = 9

    10 =

    9

    4

    j = 94

    (52

    )j, j 1 y 0 = 1, (74)

    Es decir,

    j = 910

    (25

    )j1j N y 0 = 1.

    Tarea: Que sucede si se utiliza la primera en vez de la segunda condicion inicial.

    13. ACF ARMA

    Utilizando la Definicion 12 se puede ver que en caso de un proceso ARMA(p, q) la funcion de autocovarianza de {Yt}en (60) se puede escribir como

    (h) = Cov(Yt+h, Yt) = 2j=0

    j t+h, h 0, (75)

    donde los pesos js se pueden encontrar utilizando (65).De manera alternativa, en vez de utilizar la representacion causal, se podra proceder como lo hemos hecho anterior-

    mente, es decir

    (h) = Cov(Yt+h, Yt) = IE

    p

    j=1

    j Yt+hj +

    qj=0

    j t+hj

    Yt

    =

    pj=1

    j (h j) + 2q

    j=h

    j jh, (76)

    para h 0. La segunda igualdad se sigue del hecho de que

    IE(Yt+h t) = IE

    j=0

    j t+hj

    t

    = h 2. (77)

    De la expresion (76) se puede escribir la siguiente ecuacion recurrente para las autocovarianzas(h) 1(h 1) p(h p) = 0, (78)

    para h max(p, q + 1) y con condiciones iniciales

    (h)p

    j=1

    j(h j) = 2q

    j=h

    j jh, (79)

    para 0 h max(p, q + 1) y donde 0 := 1. Las ecuaciones correspondientes para determinar la ACF se encuentrandividiendo (78) y (79) por (0), es decir (h) = (h)/(0).

    26

  • Ejemplo 8. Supongase que se tiene un modelo ARMA(1, 1) causal, es decir Yt = Yr1 + t1 + t donde || < 1,entonces (78) se reduce a

    (h) (h 1) = 0, h = 2, 3, . . . ,de donde se puede ver que

    (h) = (h 1) = 2(h 2) = = h1(1).Por otro lado, de (79) se tiene que

    (h) (h 1) = 21

    j=h

    j jh

    y de (67) se ve que 0 = 1 y 1 = + . As pues, se tiene

    (0) = (1) + 2(1 + ( + ))

    (1) = (0) + 2.

    Resolviendo para (0) y (1) se obtiene

    (0) = 21 + 2+ 2

    1 2

    (1) = 2(1 + )(+ )

    1 2 .

    Por lo tanto,(h) = 2

    (1 + )(+ )

    1 2 h1. (80)

    Dividendo entre (0) se tiene que la ACF esta dada por

    (h) =(1 + )(+ )

    1 + 2+ 2h1, h 1. (81)

    En el caso de un proceso AR(p), es decir un ARMA(p, 0) se verifica facilmente, de la ecuacion (78) que la ACFesta determinada mediante la solucion a la siguiente ecuacion de diferencias

    (h) 1(h 1) p(h p) = 0, h p, (82)

    con las correspondientes condiciones iniciales.Tarea: Demostrar que la ACV de un proceso MA(q) esta dada por

    (k) =

    {2q

    j=0 jj+|k|, |k| q0, |k| > q, (83)

    donde 0 := 1 y j := 0 cuando j > q.

    14. Identificacion y PACF

    En la Definicion 11 se presentaron los procesos ARMA como una alternativa de modelos lineales. Un punto importanteen el ajuste de estos modelos es la identificacion del orden de los componentes tanto autoregresivo, p , como de promediosmoviles, q . En el caso de un proceso MA(q), la situacion se simplifica considerablemente ya que la ACF esta dada por

    (h) =

    qhj=0

    j j+h

    1+21++2q ,

    1 h q0 h > q,

    (84)

    27

  • 0 5 10 15 20 25

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Figura 7: ACF muestral de una realizacion simulada del proceso Yt = 0.8 t1 + 2.5 t2 + t, donde t N(0, 0.8).

    y por lo tanto se vale cero despues de q rezagos. Es decir si una vez eliminada la tendencia mt y la ciclicidad de los datos,decidimos modelar mediante un proceso MA(q) entonces una manera de identificar el orden es mediante el uso de la ACF.En la Figura (7) se presenta la ACF muestral correspondiente a una simulacion de un proceso MA(2). Claramente laACF se vuelve despreciable despues del rezago q = 2.

    En terminos de la ACF, la situacion en el caso de un proceso AR(p) no es tan clara ya que la autocorrelacion persisteincluso en aquellos rezagos mayores a p. Por ejemplo en la Figura 2 se presenta la ACF muestral de un modelo AR(1) endonde se ve una clara dependencia hasta el rezago tres y por lo tanto no nos da informacion contundente acerca del ordenverdadero. Una situacion similar ocurre para procesos ARMA.

    14.1. Funcion de autocorrelacion parcial PACF

    De forma ideal se busca una funcion que se comporte como la ACF de un MA(q), pero para modelos AR(p) yARMA(p, q). Una funcion que sirve de manera exitosa para modelos lineales esta dada por la funcion de autocorrelacionparcial (PACF).

    Para motivar la idea de esta funcion consideremos un modelo AR(1), Yt = Yt1 + t, entonces

    (2) = Cov(Yt, Yt2) = Cov(Yt1 + t, Yt2) = Cov(2Yt2 + t1 + t, Yt2) = 2(0),

    ya que por causalidad t2, t3, . . . son no correlacionados con t y t1. La correlacion entre Yt y Yt2 no es cero comolo sera para un MA(1) ya que Yt es dependiente de Yt2 a traves de Yt1.

    Una manera de romper la dependencia sobre Yt1 de forma parcial se puede hacer considerando la correlacion entreYtYt1 y Yt2Yt1, es decir la correlacion entre Yt y Yt2 removiendo la dependencia lineal sobre Yt1 de cadauno de ellos. De hecho para el ejemplo de arriba se tiene

    Cov(Yt Yt1, Yt2 Yt1)=Cov(t, Yt2 Yt1)=0En general la PACF de un proceso debilmente estacionario consiste en remover la mejor prediccion lineal de Yh

    basada en {Y1, Y2, . . . , Yh1}. Por tendencia lineal entiendaseY h1h = 1 Yh1 + 2 Yh2 + + h1 Y1, (85)

    donde las s estan escogidas de manera que IE(Yh Y h1h )2 sea minimizado. De forma analoga se define la mejorprediccion lineal de Y0 basada en {Y1, Y2, . . . , Yh1} denotada por

    Y h10 = 1 Y1 + 2 Y2 + + h1 Yh1. (86)

    28

  • Las ecuaciones (85) y (86) se pueden ver como las regresiones lineales de Yh sobre su pasado y Y0 sobre su futurorespectivamente.

    Definicion 14. La funcion de autocorrelacion parcial de un proceso debilmente estacionario esta definida mediante hh,h = 1, 2, . . . , donde

    hh :=

    {Corr(Y1, Y2), h = 1Corr(Yh Y h1h , Y0 Y h10 ), h 2.

    (87)

    Notemos que tanto Yh Y h1h como Y0 Y h10 no estan correlacionados con {Y1, Y2, . . . , Yh1} y debido a la esta-cionariedad subyacente a {Yt} la PACF,hh, es la correlacion entre Yt y Yth con la dependencia lineal en {Y1, Y2, . . . , Yh1}removida. En la practica los valores {hh} se pueden encontrar mediante las ecuaciones de Yule-Walker, definidas mas ade-lante en (88).

    As pues, si una vez hechas las transformaciones a estacionaridad se decide modelar mediante un proceso AR(p)entonces la PACF muestral se debera de eliminar para rezagos mayores a p. El Cuadro (1) describe el comportamientode la ACF y de la PACF para la diferentes opciones de modelos ARMA causales.

    AR(p) MA(q) ARMA(p, q)ACF persiste se corta en q persiste

    PACF se corta en p persiste persiste

    Cuadro 1: Comportamiento de la ACF y PACF en modelos ARMA causales

    0 5 10 15 20 25

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    5 10 15 20 25

    0.0

    0.2

    0.4

    0.6

    0.8

    Figura 8: ACF y PACF muestral de una realizacion simulada del proceso Yt = 0.8 Yt1 + t, donde t N(0, 1) y Y0 = 1.

    15. Funciones de autocorrelaciones admisibles

    En la seccion anterior vimos que las autocovarianzas y autocorrelaciones inherentes a una serie de tiempo juegan unpapel muy importante en la determinacion del modelo ARMA. Una de las preguntas fundamentales de la teora de seriesde tiempo es: Cuando un conjunto de numeros {1, 1, 2, . . .} corresponden a la ACF de un proceso ARMA?

    Claramente existen condiciones obvias como |j | 1, sin embargo no son suficientes. La otra condicion que se debede satisfacer es que la varianza sea positiva, e.g.

    Var(0xt + 1xt1 + ) 0 {0, 1, . . .}.

    29

  • Podramos escribir

    Var(0xt + 1xt1) = (0)[0 1][

    1 11 1

    ] [01

    ] 0.

    Entonces las matrices

    [1 11 1

    ],

    1 1 21 1 12 1 1

    ,

    deben de ser, todas, positivas semi-definidas. Claramente este es un requerimiento mas fuerte. Por ejemplo, el determinatede la segunda matrix debe de ser positivo (como tambien los determinantes de sus principales menores, lo cual implica que|1| 1 y |2| 1), entonces

    1 + 2212 221 0 (2 (221 1)(2 1)) 0

    Entonces

    2 (221 1) 0 2 221 1 1 2

    21

    1 21 1

    lo cual deja a los posibles valores de 1 y 2 en una region parabolica, ver Figura 9.

    1 y 2 viven aqu

    -1

    1

    0

    -1 0 11

    2

    Figura 9: Ejemplo de correlaciones admisibles.

    16. Estimacion

    Para modelos ARMA(p, q) causales e invertibles, la estimacion de los parametros 1, . . . , p, 1, . . . , q y 2 se puedehacer de varias formas, una vez dado el orden de p y q.

    30

  • 16.1. Metodo de momentos

    El metodo de momentos consiste en igualar los momentos poblacionales a los momentos muestrales para entoncesresolver para los parametros en terminos de los momentos muestrales. En el caso de un proceso AR(p) las primeras p+ 1ecuaciones de (78) y (79), conocidas como las ecuaciones de Yule-Walker

    (0) = 1(1) + + p(p) + 2 (88)(h) = 1(h 1) + + p(h p), h = 1, . . . , p

    se pueden utilizar para obtener estimadores de las s. Las ecuaciones (88) se pueden escribir de forma matricial como

    p = p, 2 = (0) p.

    As pues, le metodo de momentos consiste en reemplazar (h) por (h) y resolver

    = 1p p, 2 = (0)

    p

    1p p,

    donde claramente p = ((1), . . . , (p)) y p denota la matriz de autocovarianzas muestrales de orden p con entradas ijdadas por (i j). A los estimadores resultantes se les conoce como los estimadores de Yule-Walker. Si {Y1, . . . , Yn}sigue un modelo AR(p), entonces para n grandes, se tiene que

    yw Np(p,

    1

    n21p

    )

    por lo que se tienen

    1/2p (

    yw p) Np (0, Ip)

    y por lo tanto

    n

    2(yw p)(yw p) 2p (89)

    Entonces, para n grandes, una region de (1 )100% de confianza para p esta dada por{p Rp : (yw p)(yw p)

    2

    n1,p

    }(90)

    donde 1,p es el cuantil de orden 1 correspondiente a una distribucion 2p.En el caso de los modelos MA y ARMA los estimadores de momentos no son optimos y por lo tanto se utiliza maxima

    verosimilitud, es decir,

    L(, ) =

    nt=1

    f(yt | yt1, . . . , y1)

    En el caso de un proceso ARMA se puede utilizar la mejor prediccion lineal a un paso para obtener

    L(, )=(22)

    n/2r01r

    12 rn1n

    exp

    { 122

    nt=1

    (yt yt1t )2rt1t

    }(91)

    donde rt1t son los residuales estandarizados de la mejor prediccion lineal.

    31

  • 17. Prediccion y el Teorema de Proyeccion

    Teorema 3. Sea H un espacio de Hilbert (i.e. un espacio vectorial con producto interno completo) entonces para cadasubespacio cerrado V H y y H ,

    (i) Existe un unico elemento x V tal que||x x|| = nf

    zV||x z||,

    (ii) x V y ||x x|| = nfzV ||x z|| x V y (x x) V.Demostracion. Ver B&D.

    Corolario 4. Si V es un subespacio cerrado del espacio de Hilbert H y I es el mapeo identidad sobre H , entoncesexiste un unico mapeo PV de H sobre V tal que (I PV) mapea H sobre V. A PV se le denomina como el mapeo deproyeccion de H sobre V .Proposicion 4. Sea H un espacio de Hilbert y PV el mapeo de proyeccion sobre un subespacio cerrado V . Entonces

    (i) PV(x+ y) = PV(x) + PV(y), x, y H , , C(ii) ||x||2 = ||PVx||2 + ||(I PV)x||2

    (iii) Cada x H tiene una unica representacion como suma de un elemento en V y otro en V, i.e.x = PVx+ (I PV)x

    (iv) PVxn PVx si ||xn x|| 0(v) x V si y solo si PVx = x

    (vi) x V si y solo si PVx = x(vii) V1 V2 si y solo si PV1PV2x = PV1x x H

    Proposicion 5. Si (0) > 0 y (h) 0 as h entonces la matriz de covarianzas n = [(i j)]i,j=1,...,n de(Y1, . . . , Yn)

    es no singular para cada n.

    Demostracion. Ver B&D.Bajo estas condiciones, el mejor predictor lineal para yn+h que es funcion de {y1, y2, . . . , yn}, denotado como yn+h

    o ynn+h, esta dado por

    ynn+h =

    ni=1

    (n)ni yn+1i (92)

    donde, n := ((h)n1 , . . . , (h)nn ) = 1n n, con

    (h)n := ((h), (h + 1), . . . , (n + h 1))

    y n = [(i j)]i,j=1,...,n. El error cuadratico medio es n = (0) n1n n.Dado que Yn+1 = PHnYn+1 Hn entonces se puede expresar de la forma

    Yn+1 = n1Yn + + nnX1, n 1 (93)y por lo tanto el ECM esta dado por

    n = E[(Yn+1 Yn+1)2], n 1, (94)y 0 = (0).

    32

  • Proposicion 6. (Algoritmo de Durbin-Levinson)Si {Yt} es un proceso con media cero y funcion de autocovarianza () tal que (0) > 0 y (h) 0 cuando h ,entonces los coeficientes nj y errores cuadraticos medios n satisfacen 1,1 = (1)/(0), 0 = (0),

    nn =

    (n) n1

    j=1

    n1,j(n j) 1n1, (95)

    n,1.

    .

    .

    n,n1

    =

    n1,1.

    .

    .

    n1,n1

    nn

    n1,n1

    .

    .

    .

    n1,1

    (96)

    yn = n1[1 2nn]. (97)

    Notemos que bajo los supuestos de la Proposicion 6 los valores (0) = 1 y (n) = nn nos sirven para encontrar laPACF.

    Proposicion 7. (Algoritmo de innovacion)Sea {Yt} un proceso debilmente estacionario con media cero y E[YiYj] =: K(i, j) (no singular para toda n N), entonceslos predictores aun paso Yn+1 y los errores cuadraticos medios n, n 1, estan dados por

    Yn+1 =

    {0, si n=0n

    j=1 nj(Yn+1j Yn+1j), n 1,(98)

    donde

    n,nk = 1k

    K(n+ 1, k + 1) k1

    j=0

    k,kj n,nj j

    , 0 k < n

    (99)

    con 0 = K(1, 1) y n = K(n + 1, n+ 1)n1

    j=0 2n,nj j .

    La idea detras de este ultimo es proceder de manera recursiva para encontrar 0; 11, 1; 22, 21, 2; 33, 32, 31, 3; . . .A los pesos s se les conoce como coeficientes de las innovaciones (Yj Yj), j = 1, . . . , n en la expansion

    ortogonal (98)Ejemplo 9. Sea {Yt} un proceso MA(q), es decir,

    Yt = t + 1t1 + + qtq

    con t W(0, 2). Entonces para cada q N se pueden estimar el vector de m y 2m = m usando el algoritmo deinnovacion

    0 = (0)

    q,q+1 = 1k

    (q k) k1

    j=0

    q,qj k,kj j

    q = (0)q1j=0

    2q,qj j (100)

    para k = 0, 1, . . . , q 1.

    33

  • 17.1. Prediccion de modelos ARMA

    El algoritmo de innovacion se puede aplicar directamente a un modelo ARMA(p, q)

    (B)Yt = (B)t,

    sin embargo los calculos se simplifican bastante cuando se considera el proceso transformado

    Wt =

    {1 Yt, t = 1, . . . ,m1(B)Yt, t > m,

    (101)

    donde m = max(p, q). Sin perdida de generalidad supongase que 0 = 1 y que p, q 1. Se puede demostrar que lossubespacios cerrados generados por {Y1, . . . , Yn} y {W1, . . . ,Wn} son iguales, ya que, el proceso {Wt} se expresa comocombinacion lineal de el proceso {Yt}, y por lo tanto

    Hn = sp{Y1, . . . , Yn} = sp{W1, . . . ,Wn}.As pues, denotamos a Yn+1 y Wn+1 como las proyecciones de Yn+1 y Wn+1 sobre Hn respectivamente. As pues se tiene

    K(i, j) =

    Y (ij)2 , si 1 i, j m

    [Y (ij)p

    r=1 r Y (r|ij|)]2

    , (ij) m (ij) 2mqr=0 rr+|ij|, mn(i, j) > m

    0 en otro caso.

    donde j = 0 para j > q. Entonces aplicando el algoritmo de innovacion al proceso {Wt} obtenemos

    Wn+1 =

    { nj=1 nj(Wn+1j Wn+1j) 1 n < mqj=1 nj(Wn+1j Wn+1j), n m

    donde los coeficientes nj y los errores cuadraticos medios rn := E(Wn+1 Wn+1)2 se encuentran de manera recursivausando (99). Para regresar la transformacion en (101) y encontrar Yn observemos que

    Wt =

    {1Yt, t = 1, . . . ,m,

    1[Yt 1Yt1 pYtp], t > m.(102)

    De nueva cuanta usando la definicion de {Wt}, se puede escribir

    (Yt Yt) = (Wt Wt).Entonces, usando (102),

    Wn+1 = 1

    qj=1

    nj(Yn+1j Yn+1j) = 1Yn+1, n = 1, . . . ,m

    Finalmente se tiene

    Yn+1 =

    nj=1

    nj(Yn+1j Yn+1j), 1 n m

    1Yn + + pYn+1p +q

    j=1nj(Yn+1j Yn+1j), n m

    34

  • Finalmente, se tiene quen = E

    [(Yn+1j Yn+1j)2

    ]= 2 rn

    Regresando al punto de estimacion, recordemos de la expresion (91), que el estimador MV requera de los valores de losresiduales estandarizados ri y el mejor predictor lineal a un paso Yt, usando los valores obtenidos mediante el algoritmo deinnovacion se puede ver que los estimadores maximo verosmiles de = (1, . . . , p), = (1, . . . , p) y 2 satisfacen

    2 = n1 S(, ) (103)

    donde

    S(, ) =

    nj=1

    (Yj Yj)2/rj1 (104)

    y , los valores de , que minimizan la verosimilitud reducida ,

    l(, ) = ln(n1 S(, )) + n1n

    j=1

    ln rj1. (105)

    En el procedimiento iterativo que por un lado minimiza l(, ) (programa de minimizacion no-lineal) y por el otro aplicael algoritmo de innovacion asume que el proceso ARMA en cuestion es causal razon por la cual los valores iniciales,0, 0, de dicho proceso de estimacion (MV), deben de estar dentro de las condiciones de causalidad. Por otro lado envez de minimizar (105) se podra, de manera alternativa, minimizar (104), lo que resulta en los estimadores de mnimoscuadrados. A diferencia de los estimadores por maxima verosimilitud, estos ultimos no requieren que los valores seancausales, sin embargo si requieren que sean invertibles.

    17.2. Criterio de Akaike corregido (AICC)

    Un problema para la estimacion de parametros es la identificacion del orden (p, q). La verosimilitud evaluada en losestimadores se puede utilizar para escoger dicho orden mediante el siguiente criterio; Escoger p,q, s y s tal que seminimize

    AICC = 2 logL(, ) + 2(p + q + 1)nn p q 2 (106)

    Vimos que en el caso de un modelo AR(p) (MA(q)) la PACF (la ACF) son concluyentes acerca del orden del modelo.Sin embargo, en caso de los modelos ARMA(p, q) la situacion no es tan directa. En la practica lo que se hace es ajustarvarios modelos ARMA, con ordenes diferentes, p + q = 1, p + q = 2, . . . y elegir, de entre estos, aquel que minimize elAICC.

    18. Modelos ARIMA

    En secciones anteriores revisamos varios metodos para transformar datos no estacionarios a datos estacionarios. Unmetodo que revisamos es el de diferenciacion mediante el operador (), mencionamos tambien que una tendencia polino-mial de orden k, t =

    kj=0 jt

    j, se poda remover mediante la aplicacion del operador de diferencias k veces, kXt.

    Los modelos ARMA integrados (ARIMA(p, d, q)) son una version de los modelos ARMA que a su vez incluyendiferenciacion. Un proceso se dice ARIMA(p, d, q), si dXt = (1 B)dYt es un proceso ARMA(p, q). En general, elmodelo se puede escribir como

    (B)(1B)dXt = (B)t. (107)El nombre integrated viene del hecho que la operacion inversa a la diferenciacion es la integracion . Por ejemplo siYt = Xt entonces Xt =

    ti=1 Yi +X0.

    35

  • 19. Pasos para el ajuste de un modelo ARIMA

    De forma generica se pueden considerar los siguientes pasos

    Inspeccion grafica de los datos.

    Transformacion de los datos a estacionariedad.

    Identificacion del orden.

    Estimacion de parametros.

    Diagnostico de residuales.

    19.1. Inspeccion grafica de los datos y transformacion de los datos a estacionariedad

    El primer paso es dibujar la serie de los datos xt vs. t para inspeccionar posibles anomalas que puedan afectar laestacionariedad de los datos. Si, por ejemplo, la variabilidad cambia en el tiempo entonces un cambio el cual estabilicela varianza, e.g. Box-Cox, se debe de aplicar. Por ejemplo, en aplicaciones economicas y financieras se estila aplicar[log(xt)] el cual tiene sentido practico al considerar xt = (1 + it)xt1, ya que [log(xt)] pt, conocido como elrendimiento o tasa de crecimiento. La mejor manera, tal vez, de medir la relevancia de los datos transformados y sabersi mas diferenciacion es necesaria, es haciendolo de manera secuencial. Es decir, inspeccionar (e.g. graficamente) losdatos diferenciados y discernir si se necesita otra diferenciacion. Esto nos puede llevar a varias opciones de orden de ladiferenciacion d. Es importante no sobrediferenciar ya que esto puede llevar a dependencias no deseadas. Otro indicadorde que se necesita diferenciacion es la tasa de decremento de la ACF, si esta es muy lenta entonces posiblemente se necesitede mas diferenciacion.

    Por otro lado si los datos tienen caractersticas claras, e.g. tendencia, que se pudiesen modelar mediante alguna fun-cion parametrica, entonces se pueden transformar los datos mediante la substraccion de dicha funcion ajustada como seexplico en la Seccion 4.

    19.2. Identificacion del orden y estimacion de parametros

    Una vez que algunos valores preliminares de d se han escogido, entonces se pueden utilizar las ACF y PACF para darvalores preliminares de p y q. Por ejemplo, si la ACF(2) y PACF(1) de los datos resultantes de Xt son significativamentediferentes de cero, entonces un modelo tentativo podra ser ARIMA(1, 1, 2). Una vez existentes algunas opciones de p, q yd se procede a la estimacion de los parametros subyacentes. Este ultimo paso se puede realizar para varias opciones de p,q, y d y as escoger el modelo que minimize el coeficiente de AICC.

    19.3. Diagnostico de residuales

    Un ajuste adecuado, no necesariamente implica que el modelo ARIMA ajustado es apropiado para la serie ajustada, espor esto que una vez que un cierto modelo se ha ajustado se debe de verificar que los residuales del modelo coincidan conla definicion de ruido blanco. De manera grafica se pueden utilizar los diagramas de Q-Q (Normal o Student-t) y la ACFde los residuales las cuales no deben de presentar ningun rezago significativo.

    20. Modelos ARMA multiplicativos

    Cuando se tiene ciclicidad en una serie estacionaria se puede pensar en que se observa una serie estacionaria s > 1veces al ano. En las secciones 4 y 16, se revisaron algunos metodos para remover componentes de tendencia y ciclicidad,de tal forma que la la serie resultante sea estacionaria. Sin embargo, en algunos casos, la dependencia en el pasado tiende

    36

  • a ocurrir de manera mas persistente en algunos rezagos que en otros. Una manera de modelar de manera conjunta estetipo de comportamiento es mediante el uso de modelos multiplicativos.

    Para entender mejor este modelo primero consideramos el modelo ARMA de estacionalidad pura denotado medianteARMA(P,Q)s, el cual toma la forma

    P (Bs)Yt = Q(B

    s)t, (108)

    donde los operadores

    P (Bs) = 1 1Bs 2B2d PBPd

    Q(Bs) = 1 + 1B

    s +2B2d + +QBQd

    son los componentes AR y MA estacionales de orden (P,Q) respectivamente. De forma analoga a los modelos ARMA sinciclicidad, el modelo ARMA(P,Q)s es causal solamente cuando las races de P (zs) estan fuera del circulo unitario, y esinvertible cuando las races Q(zs) estan fuera del circulo unitario.

    Ejemplo 10. Un modelo ARMA(1, 1)12 puede escribirse como

    (1 B12)Yt = (1 + B12)to

    Yt = Yt12 + t +t12.

    Este modelo exhibe la serie Yt en terminos de sus rezagos pasados en multiplos de periodos anuales de 12 meses. Es-timacion y prediccion de estos modelos resultan en modificaciones simples del caso con un rezago. En particular, lacondicion causal require || < 1 y la condicion de invertibilidad requiere || < 1.En el caso de un modelo MA(1)12, dado por

    Yt = t +t12

    se puede ver facilmente que

    (0) = (1 + 2)2

    (12) = 2(h) = 0, en otro caso.

    Entonces,(12) = /(1 + 2). (109)

    De forma analoga se puede verificar que en el caso de un AR(1)12 se tiene que

    (12k) = k, k = 0, 1, 2, . . . (110)

    Tarea: Demostrar que las ACF correspondiente a un proceso AR(1)12 esta dada por (110). Hint: utiliza el resultado de que(h) = (h 12), para h 1.

    De forma analoga al caso de modelos ARMA sin estacionalidad, tambien se puede extender la definicion de la PACF amodelos estacionalidad.

    En general se puede combinar los operadores no estacionales y estacionales para dar origen a los modelos ARMAmultiplicativos denotados por ARMA(p, q) (P,Q)s y definidos por

    P (Bs)(B)Yt = Q(B

    s)(B)t. (111)

    37

  • AR(P )s MA(Q)s ARMA(P,Q)sACF Decrece en ks se corta en Qs Decrece en ks

    PACF se corta en Ps Decrece en ks Decrece en ks

    Cuadro 2: Comportamiento de la ACF y PACF en modelos ARMA(P,Q)s causales e invertibles. Los valores en rezagosno estacionales h 6= ks, para k = 1, 2, . . . son cero.

    En este contexto a () y () se les conoce como los operadores regulares y a P () y Q() como los operadoresanuales. En un modelo de este tipo, los operadores regulares se emplean para modelar la correlacion entre pares de com-ponentes de {Yt} separados entre s por k = 1, 2, 3, . . . perodos basicos, mientras que los operadores anuales describen lacorrelacion entre pares de componentes separados entre s por k = s, 2s, 3s, . . . perodos basicos. Aunque las propiedadesde diagnostico descritas en el Cuadro 1 no son estrictamente verdaderas para los modelos (111) el comportamiento tiende aser muy parecido. De hecho en modelos multiplicativos, se tiende a ver una mezcla de los puntos senalados en los cuadros1 y 2.

    Ejemplo 11. Considerese un modelo ARMA(0.1) (1, 0)12 dado porYt = Yt12 + t + t1,

    donde || < 1 y || < 1. Entonces, debido a que Yt12, t y t1 son no correlacionados, y Yt es estacionario, (0) =2(0) + 2w +

    22w o

    (0) =1 + 2

    1 2 2w.

    Si multiplicamos el modelo por Yth, h > 0 y se toman valores esperados se puede verificar que (1) = (11) + 2w y(h) = (h 12), para h 2.Tarea: Demostrar que el ACF para el modelo del Ejemplo (11) esta dado por

    (12h) = h h = 1, 2, . . .

    (12h 1) = (12h + 1) = 1 + 2

    h, h = 0, 1, 2, . . .

    (h) = 0, en otro caso.

    Tarea: Simular una serie de tamano 200 del modelo presentado en el Ejemplo 11 con parametros = 0.8 y = 0.5.Que puedes concluir de las ACF y PACF muestrales obtenidas de dicho modelo?

    Al igual que en ajuste de modelos ARMA(p, q), en el ajuste de modelos ARMA(p, q) (P,Q)s puede ocurrir noestacionariedad. Por ejemplo, nos podemos imaginar una serie mensual en donde el promedio de enero sea aproximado alpromedio de enero del ano anterior, el de febrero aproximado al promedio de febrero del ano anterior y as para todos losmeses. En este caso se podran modelar los promedios mensuales, Yt, mediante

    Yt = Dt + t,

    donde Dt es el componente estacional que varia lentamente de un ano al que le sigue, de acuerdo a una caminata aleatoria,

    Dt = Dt12 + t,

    donde t y t son ruidos blancos no correlacionados. El ACF muestral de unos datos que siguen este modelo resultara envalores grandes que decaen muy lentamente en los rezagos h = 12k, para k = 1, 2, . . .. Si removemos el efecto de los anosse ve que

    (1B12)Yt = Yt Yt12 = t + t t12Este modelo, es claramente estacionario y su ACF tendra un pico solamente en el rezago 12. En general, diferenciacionestacional puede ser indicada cuando el ACF decrece lentamente en multiplos de algun ciclo s, pero es despreciable entreperiodos. As pues, diferenciacion estacional de orden D se define como

    Ds Yt = (1Bs)DYt, (112)

    38

  • donde D = 1, 2, . . .. Tpicamente, D = 1 es suficiente para obtener estcionaridad estacional.De manera similar a los modelos ARIMA, en los modelos multiplicativos tambien se puede incorporar diferenciacion

    para obtener los modelos ARMA integrados multiples dado por

    P (Bs)(B)Ds d Yt = Q(Bs)(B)t, (113)

    y denotado por ARIMA(p, d, q) (P,D,Q)s. Los operadores de diferenciacion estan dados por d = (1B)d y Ds =(1Bs)D .Ejemplo 12. El siguiente modelo a menudo provee una buena representacion para series economicas estacionales yno estacionarias. El modelo ARIMA(0, 1, 1) (0, 1, 1)12 en donde las fluctuaciones cclicas ocurren cada 12 meses ,esta dado por

    (1B12)(1B)Yt = (1 + 1B12)(1 + 1B)t, (114)que a su ves expandiendo tambien se puede escribir como

    (1B B12 +B13)Yt = (1 + B +B12 +B13)to en forma de ecuacion de diferencias como

    Yt = Yt1 + Yt12 Yt13 + t + t1 +t12 +t13.

    21. Modelos ARCH-GARCH

    En diversas aplicaciones los modelos ARMA(p, q), o inclusive los ARMA(p, q) (P,Q)s, no son suficientes paraexplicar la estructura de dependencia subyacente a los datos. Esto ultimo nos lleva a considerar modelos mas complejos quecomunmente conllevan a modelos no lineales o no Gaussianos. En las secciones subsecuentes estudiaremos los modelos deheteroscedasticidad condicional autorregresiva denotados por (ARCH) y algunas de sus generalizaciones. Los modelosARCH surgen con el trabajo de Engle (1982) al tratar de modelar los rendimientos correspondientes a series financieras.

    21.1. Motivacion

    Supongase que Xt denota el valor de una accion financiera al tiempo t, entonces el retorno, rendimiento o gananciarelativa, Yt, de la accion al tiempo t es

    Yt =Xt Xt1

    Xt1(115)

    lo que implica que Xt = Xt1(1+ Yt), claramente Yt representa el porcentaje de cambio del periodo t 1 al periodo t. Sitomamos el logaritmo natural y diferenciamos una vez se obtiene

    [ln(Xt)] = ln(Xt) ln(Xt1) = ln(1 + Yt)

    Si el porcentaje Yt permanece relativamente pequeno, entonces ln(1+Yt) Yt. Cualquiera de los dos, [ln(Xt)] o (115),son validos y se les conoce como el rendimiento.

    En la Figura 10, se muestra la ACF correspondiente a los rendimientos y sus cuadrados, como se puede observarla ACF de los rendimientos no es aparentemente significativa, mientras la correspondiente a los cuadrados es altamentesignificativa. Otra observacion interesante (en cualquiera de los dos graficos) es que existen periodos o grupos (clusters)de alta o baja variabilidad. Es decir, desviaciones grandes (pequenas) de la serie con respecto a su nivel van seguidas devariaciones grandes (pequenas). Por lo tanto, la volatilidad de la serie, condicionada por su historia reciente, presentaalgun tipo de inercia o dependencia.

    Los modelos que a continuacion revisaremos se ajustan bien a este tipo de datos.

    39

  • 20 40 60 80 100 120 140 160 180 200

    0.1

    0

    0.1

    0.2

    0.3

    ACF returns MOT 30/05/9930/05/01

    Lag

    Auto

    corre

    latio

    n

    20 40 60 80 100 120 140 160 180 2000.2

    0.1

    0

    0.1

    0.2

    0.3

    0.4ACF squared returns MOT 30/05/9930/05/01

    Lag

    Auto

    corre

    latio

    n

    Figura 10: ACF muestral de los rendimientos, yt, y sus cuadrados, asociados una serie observada de la accion de Motorola.

    21.2. Modelos de heteroscedasticidad condicional autorregresiva (ARCH)

    Para entender los conceptos de una forma mas clara analizaremos el modelo ARCH(1) dado por

    Yt = t t (116)2t = 0 + 1 Y

    2t1, (117)

    donde tiid N(0, 1). De la misma forma que en los modelos ARMA, algunas restricciones se deben de imponer sobre los

    parametros. La mas obvia es que 1 0, de otra forma 2t podra ser negativa. De la notacion en (117) se ve claramente ladependencia sobre el cuadrado de los rendimientos pasados, tal y como lo require los datos de la Figura 10. Condicionadoen el valor de Yt1, Yt es Gaussiano

    Yt | Yt1 N(0, 0 + 1 Y 2t1), (118)lo cual establece una dependencia de tipo Markoviana.

    De forma alternativa, el modelo ARCH(1) se puede escribir como un modelo AR(1) en {Y 2t }. Para ver esto, observe-mos que las ecuaciones (116), (117) se pueden escribir como

    Y 2t = 2t

    2t

    0 + 1 Y2t1 =

    2t ,

    por lo queY 2t (0 + 1 Y 2t1) = 2t 2t 2t ,

    lo cual se puede escribir comoY 2t = 0 + 1 Y

    2t1 + t, (119)

    donde t = 2t (2t 1), y se puede interpretar como un ruido no Gaussiano.Dentro de las propiedades de los procesos ARCH, se puede ver que

    E(Yt) = EE(Yt | {Yt1, Yt2, . . . , Y1})= EE(Yt | Yt1) = 0, (120)

    ya que E(Yt | Yt1) = 0. A un proceso con esta propiedad se le conoce como una diferencia martingala.

    40

  • El proceso de error , t, tambien es una diferencia martingala. Para ver esto,

    EE(t | {Yt1, Yt2, . . . , Y1}) = EE(t | Yt1)= E{tE(2t 1)}= 0 (121)

    Tarea: Usa (121) para ver que Cov(t+h, t) = 0 y (t+h, t) = 0 as como tambien (Yt+h, Yt) = 0.Si la varianza de t < y 0 < 1 < 1, entonces se puede hablar de un proceso AR(1) causal para {Y 2t }, y por lo

    tanto E(Y 2t ) y Var(Y 2t ) deben de ser constantes con respecto a t. Esto implica que

    E(Y 2t ) = Var(Yt) =0

    1 1Var(Y 2t ) = E(Y 4t ) =

    320(1 1)2

    1 211 321

    , si 321 < 1

    Tarea: Prueba las igualdades anteriores.

    Usando estos resultados se puede ver que el coeficiente de curtosis, , de Yt es

    =E(Y 4t )[E(Y 2t )]2

    = 31 211 321

    (122)

    que es mas grande que 3, la curtosis correspondiente a la distribucion Gaussiana. Entonces, la distribucion marginal de losrendimientos {Yt}, es leptocurtica, es decir, tiene colas pesadas, al menos mas pesadas que la distribucion normal.Tarea: Demuestra que la ACF correspondiente a Y 2t esta dada por Y 2t (h) =

    h1 0, para toda h > 0.

    La generalizacion del proceso ARCH(1) al proceso ARCH(m), es decir con rezago de orden m en los cuadrados, estadada por (116), pero con

    2t = 0 + 1 Y2t1 + + m Y 2tm. (123)

    De forma analoga a los procesos ARMA, los procesos ARCH(m) tambien pueden ser generalizados para incluir laparte de promedios moviles . Esto ultimo, resulta en los procesos ARCH generalizados (GARCH(m, r)) introducidospor Bollerslev (1986), alumno de Engle, y estan definidos por (116), pero con

    2t = 0 +

    mj=1

    j Y2ti +

    rj=1

    j 2tj. (124)

    De manera analoga a los modelos ARCH, los modelos GARCH tambien pueden ser escritos como un modelo ARMAno Gaussiano. A manera de ilustracion, consideremos el caso de un proceso GARCH(1, 1), es decir

    2t = 0 + 1 Y2t1 + 1

    2t1.

    Bajo la condicion 1 + 1 < 1, podemos escribirY 2t 2t = 2t (2t 1) (125)

    1(Y2t1 2t1) = 12t1(2t1 1), (126)

    y substrayendo (126) de (125) se tiene

    Y 2t = 0 + (1 + 1)Y2t1 + t 1 t1, (127)

    donde t = 2t (t 1).Es importante senalar que en estas interpretaciones, de los modelos ARCH y GARCH como AR y ARMA respectiva-

    mente, el ruido en cuestion, {t}, tambien se puede ver como un ruido blanco ya que no esta correlacionado. Sin embargo,claramente existe una dependencia temporal en dicho ruido.

    41

  • Tarea: Demuestra que el coeficiente de curtosis correspondiente a un modelo GARCH(1, 1), con 1 + 1 < 1, esta dadopor

    =621

    1 21 211 321

    La estimacion de los parametros en modelos GARCH se puede implementar mediante estimacion maxima verosmilcondicionada. Por ejemplo, en el caso de un modelo ARCH(1), la verosimilitud de {y2, . . . , yn} condicionada en y1 estadada por

    L(0, 1 | y1) =nt=2

    N(yt; 0, 0 + 1y2t1) (128)

    Esta verosimilitud se puede maximizar mediante metodos numericos.Existen muchas otras generalizaciones de los modelos ARCH, por ejemplo, intercambiando t por otro tipo de distribu-

    ciones que consideren colas mas pesadas o con algun tipo de asimetra.Algunas observaciones:

    De forma emprica se puede verificar que cuando los modelos ARCH(p) se utilizan para modelar log-rendimientosde instrumentos financieros, un orden p relativamente es necesario, lo cual no es deseable cuando la serie espequena. Esto ultimo es la principal justificacion para el uso de modelos GARCH en vez de modelos ARCH, e.g. sepodra conseguir un ajuste similar usando un ARCH(8) que un GARCH(1, 1).La principal diferencia entre los procesos ARMA y los procesos GARCH es que la sucesion de ruido t depende delas observaciones (log-rendimientos), Yts, mismos, lo cual a su vez una relacion no lineal entre los Yts.En la practica, frecuentemente se assume que el ruido {t} is Gaussiano, sin embargo se puede demostrar quedistribuciones con colas mas pesadas resultan ser mas adecuadas, e.g. distribuciones t-Student. As pues, una delas principales problematicas es modelos GARCH no-Gaussianos es la estimacion, la cual comunmente requiere demetodos que asumen cierto tipo de estacionariedad.

    21.3. La condicion de estacionariedad

    La condicion de estacionariedad para los procesos GARCH construidos en la misma lnea presentada por Engle (1982)no es facil de analizar. A continuacion exploramos esta propiedad en el caso de un proceso GARCH(1, 1). Supuesto que lasucesion {t} es IID con media cero y variaza uno. Entonces, el modelo Yt = tt, es estrictamente estacionario si y solosi {2t } es estrictamente estacionario. En general, para