GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA...

191
1 GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA ESTIMACIÓN DEL COMPORTAMIENTO FUTURO DE PARÁMETROS DE TELETRÁFICO EN REDES ACADÉMICAS DE NUEVA GENERACIÓN APLICANDO SERIES DE TIEMPO TIPO ARIMA, SARIMA Y VARMA CARLOS ANDRÉS MARTÍNEZ ALAYÓN CÓDIGO 20111195005 UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA MAESTRÍA EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES BOGOTÁ, COLOMBIA 2015

Transcript of GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA...

Page 1: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

1

GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA ESTIMACIÓN DEL

COMPORTAMIENTO FUTURO DE PARÁMETROS DE TELETRÁFICO EN REDES ACADÉMICAS DE NUEVA GENERACIÓN APLICANDO SERIES DE

TIEMPO TIPO ARIMA, SARIMA Y VARMA

CARLOS ANDRÉS MARTÍNEZ ALAYÓN CÓDIGO 20111195005

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA

MAESTRÍA EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES BOGOTÁ, COLOMBIA

2015

Page 2: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

2

GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA ESTIMACIÓN DEL COMPORTAMIENTO FUTURO DE PARÁMETROS DE TELETRÁFICO EN

REDES ACADÉMICAS DE NUEVA GENERACIÓN APLICANDO SERIES DE TIEMPO TIPO ARIMA, SARIMA Y VARMA

CARLOS ANDRÉS MARTÍNEZ ALAYÓN CÓDIGO 20111195005

TRABAJO PARA OPTAR AL TÍTULO DE MAGISTER EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES – ÉNFASIS EN TELEINFORMÁTICA

Director ROBERTO FERRO ESCOBAR Ph.D.

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA

MAESTRÍA EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES BOGOTÁ, COLOMBIA

2015

Page 3: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3

Nota de aceptación:

_________________________

_________________________

_________________________

_________________________

_________________________

_________________________ Firma del presidente del jurado

________________________ Firma del Jurado

________________________ Firma del Jurado

Bogotá D.C., Julio de 2015.

Page 4: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

4

AGRADECIMIENTOS Doy gracias a Dios por este nuevo logro. A mi familia porque durante mi existencia me han acompañado en los momentos buenos y en las dificultades. Y especialmente a mis Padres y a mi Esposa, Luz Amparo, porque siempre me han ayudado y motivado a cumplir mis metas. A los docentes, quienes en el transcurso de la maestría compartieron con nosotros sus valiosos conocimientos e hicieron posible una formación integral como Magister. A mi amigo y director de Tesis de grado, el Ing. Roberto Ferro Escobar por su aporte y permanente acompañamiento y orientación. A la Universidad Distrital “Francisco José de Caldas”, que como institución educativa me brindó la oportunidad de participar en este proceso de formación y crecimiento personal y profesional, elementos clave para la búsqueda de nuevas metas y retos en mi vida.

Page 5: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

5

CONTENIDO

Pág.

INTRODUCCIÓN 10

1. PLANTEAMIENTO DEL PROBLEMA 12

2. JUSTIFICACIÓN 13

3. OBJETIVOS 15

3.1. OBJETIVO GENERAL ................................................................................. 15

3.2. OBJETIVOS ESPECÍFICOS: ...................................................................... 15

4. MARCO REFERENCIAL 16

4.1. MARCO CONCEPTUAL .............................................................................. 16

4.1.1. Red de datos 16

4.1.2. Red Wi-Fi 16

4.1.3. Calidad de servicio 16

4.1.4. Ancho de Banda 16

4.1.5. Tráfico 16

4.1.6. Correlación 17

4.1.7. Autosimilaridad 17

4.1.8. Sniffer 17

4.1.9. Protocolo 17

4.1.10. Modelo Matemático 17

4.1.11. Modelo Multivariable 17

4.2. MARCO TEÓRICO ESTADÍSTICO ............................................................. 18

4.2.1. Proceso Estocástico 18

4.2.2. Serie de Tiempo 18

4.2.3. Estacionariedad 19

4.2.4. Modelado de series de tiempo 19

4.2.5. Modelo Autorregresivo (AR) 20

4.2.6. Modelo media móvil (MA) 20

4.2.7. Modelo ARMA 20

4.2.8. Modelo ARIMA 20

4.2.9. Modelo SARIMA 20

4.2.10. Modelo VARMA 21

Page 6: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

6

4.3. MARCO DEL ESTADO DEL ARTE ............................................................. 23

5. METODOLOGÍA 31

5.1. MÉTODOS DE PRONÓSTICO .................................................................... 31

5.1.1. Identificación. 32

5.1.2. Verificación de supuestos: 32

5.1.3. Uso del modelo 33

5.2. APLICACIÓN DE LA METODOLOGÍA BOX-JENKINS ................................ 34

6. DESARROLLO DEL PROYECTO DE INVESTIGACIÓN 36

6.1. ESCENARIO PARA EL DESARROLLO DE LAS PRUEBAS ...................... 36

6.1.1. Infraestructura CECAD-LIDER 36

6.1.2. Equipos del CECAD 36

6.1.3. Equipos disponibles en el grupo LIDER 39

6.1.4. Opciones para la implementación del enlace. 42

6.1.5. Delimitación de extremos del enlace. 42

6.1.6. Soluciones propuestas 42

6.1.7. Tipo de enlace escogido 43

6.2. IMPLEMENTACIÓN DEL ENLACE ............................................................. 44

6.2.1. Enlace hacia CECAD 44

6.2.2. Ancho de Banda Teórico del Canal 46

6.2.3. Direccionamiento 48

6.2.4. Configuración de los dispositivos. 51

6.3. CONFIGURACIÓN DEL SERVICIO DE MEDIA STREAMING.................... 52

6.3.1. Emisión en VLC sobre Multicast IPv6 55

6.3.2. Monitoreo del tráfico con Wireshark 58

6.3.3. Contenido utilizado para las pruebas de Video Streaming 58

6.3.4. Proceso utilizado en la realización de pruebas 59

6.3.5. Monitoreo de RTP 59

6.4. MODELADO EN SERIES DE TIEMPO UNIVARIADAS .............................. 61

6.4.1. Organización de los datos 61

6.4.2. Análisis de estacionariedad y estacionalidad. 62

6.4.3. Determinación de los parámetros de los modelos ARIMA Y SARIMA. 64

6.4.4. Estimación de los coeficientes y validaciones de los modelos 65

6.4.5. Ajuste de los modelos ARIMA y SARIMA 65

6.4.6. Predicción de datos con los modelos ARIMA Y SARIMA 67

6.4.7. Complejidad de los modelos univariados 69

6.5. MODELADO EN SERIES DE TIEMPO MULTIVARIABLES ........................ 70

6.5.1. Organización de los datos. 70

6.5.2. Análisis de estacionariedad y estacionalidad. 71

6.5.3. Determinación de los parámetros y coeficientes del modelo VARMA 74

Page 7: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

7

6.5.4. Predicción de datos con los modelos VARMA 76

7. RECURSOS 77

8. CONCLUSIONES 79

9. BIBLIOGRAFÍA 81

ANEXOS 85

Page 8: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

8

LISTA DE TABLAS Tabla 1. Métodos de Proyección ........................................................................... 31

Tabla 2. Descripción de los equipos administradores ........................................... 37

Tabla 3. Descripción de los Nodos ........................................................................ 37

Tabla 4. Esquema de direccionamiento Propuesto ............................................... 50

Tabla 5. Direccionamiento IP de los dispositivos empleados para el enlace ........ 51

Tabla 6. Parámetros de configuración para la NanoStation NS1 .......................... 51

Tabla 7. Parámetros de configuración para la NanoStation NS2 .......................... 52

Tabla 8. Formatos legibles para reproducción VLC .............................................. 53

Tabla 9. Formatos para salida de Streaming en VLC ............................................ 53

Tabla 10. Características del video 1 .................................................................... 58

Tabla 11. Características del video 2 .................................................................... 58

Tabla 12. Características del video 3 .................................................................... 58

Tabla 13. Varianza para diferentes valores de d ................................................... 63

Tabla 14. Posibles parámetros para los modelos propuestos. .............................. 64

Tabla 15. Estimación de coeficientes para modelos ARIMA ................................. 65

Tabla 16. RMSE para predicción con diferentes modelos. .................................... 67

Tabla 17. Varianza para diferentes valores de d. .................................................. 72

Tabla 18. Estimación de coeficientes para modelos VARMA ................................ 75

Tabla 19. RMSE para predicción con diferentes modelos ..................................... 76

Tabla 20. Asignación Presupuestal de Recursos para el Proyecto. ....................... 77

Page 9: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

9

LISTA DE FIGURAS Figura 1. Metodología Box-Jenkins ....................................................................... 32

Figura 2. Características del servidor .................................................................... 38

Figura 3. Esquema de Red Centro de Computación de Alto Desempeño CECAD 38

Figura 4. CISCO AP 541 ....................................................................................... 39

Figura 5. NanoStation2 ......................................................................................... 40

Figura 6. Linksys WRT54G ................................................................................... 41

Figura 7. Enlace hacia CECAD ............................................................................. 45

Figura 8. Valores máximos de velocidad y Throughput en los puntos del enlace . 46

Figura 9. Valores máximos teóricos ofrecidos por el enlace ................................. 47

Figura 10. Posibles Usos del esquema de Direccionamiento Propuesto .............. 49

Figura 11. Dirección Multicast IPv6 ....................................................................... 55

Figura 12. Abrir medio VLC ................................................................................... 56

Figura 13. Salida de Emisión VLC ......................................................................... 56

Figura 14. Configuración de destinos VLC ............................................................ 57

Figura 15. Configuración Encapsulamiento, Códec de video y de audio en VLC.. 57

Figura 16. Captura de un paquete RTP ................................................................ 60

Figura 17. Herramienta Stream Analysis de Wireshark ......................................... 60

Figura 18. Gráfica de los datos. ............................................................................ 62

Figura 19. Análisis de estacionariedad y estacionalidad. ...................................... 62

Figura 20. ACF y PACF de la serie ....................................................................... 63

Figura 21. Ajuste del modelo ARIMA(1,1,3) .......................................................... 66

Figura 22. Ajuste del modelo SARIMA(3,1,1)(0,1,1)(34) ....................................... 67

Figura 23. Predicción y ajuste para el modelo ARIMA(3,1,34). ............................. 68

Figura 24. Predicción y ajuste para el modelo SARIMA(2,1,2)(1,1,0)(34). ............ 69

Figura 25. Graficas de las Series de Tiempo originales ........................................ 71

Figura 26. Graficas de las Series de Tiempo originales ........................................ 71

Figura 27. Correlograma con ACF y PACF para la variable Perdida de Paquetes

(primera diferencia) ............................................................................................... 73

Figura 28. Correlograma con ACF y PACF para la variable Latencia (primera

diferencia).............................................................................................................. 73

Figura 29. Correlograma con ACF y PACF para la variable Jitter (primera diferencia)

.............................................................................................................................. 74

Figura 30. Ajuste del modelo VARMA(15,5) .......................................................... 75

Figura 31. Ajuste del modelo VARMA(18,10) ........................................................ 76

Page 10: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

10

INTRODUCCIÓN El análisis del tráfico de red se basa habitualmente en la utilización de sondas con interfaz Ethernet conectadas al bus. Dichas sondas, con su interfaz Ethernet funcionando en modo promiscuo, capturan el tráfico a analizar y constituyen la plataforma en la que se ejecutarán, de forma continua, aplicaciones propietarias o de dominio público, con las que se podrá determinar el tipo de información que circula por la red y el impacto que pudiera llegar a tener sobre la misma. Así por ejemplo, se podría determinar la existencia de virus o el uso excesivo de aplicaciones que comúnmente degradan las prestaciones de la red, sobre todo si se habla de los enlaces principales que dan acceso a Internet. Los estudios de tráfico en redes IP se basan en la captura o registro de la información contenida en el frame (trama) o datagrama IP que se transfiere por un Segmento red LAN o por un enlace WAN. Una vez capturados, los paquetes entregan información sobre el sentido del flujo (origen-destino), cantidad de información transferida, protocolos empleados (TCP, UDP, TELNET, FTP, HTTP, etc.). El análisis posterior de la información que se transfiere a través de las redes y/o sus enlaces y la búsqueda posterior de patrones o características que muestren alguna tendencia o comportamiento estándar usando simple inspección o alguna técnica estadística es lo que se conoce como caracterización del tráfico. Debido a la complejidad que representa la utilización de sondas para el análisis del tráfico de una red, existen alternativas basadas en software que permiten obtener todo el tráfico que llega a la interfaz de red de los host finales. Un ejemplo de ello es Wireshark que permite la captura en tiempo real de todos los paquetes que pasan por la interfaz de red del computador en donde se quiere hacer análisis de tráfico. Wireshark actualmente está disponible para plataformas Windows y Unix. Conocido originalmente como Ethereal, su principal objetivo es el análisis de tráfico además de ser una excelente aplicación didáctica para el estudio de las comunicaciones y para la resolución de problemas de red. Wireshark implementa una amplia gama de filtros que facilitan la definición de criterios de búsqueda para los más de 1100 protocolos soportados actualmente; y todo ello por medio de una interfaz sencilla e intuitiva que permite desglosar por capas cada uno de los paquetes capturados. Gracias a que Wireshark “entiende” la estructura de los protocolos, podemos visualizar los campos de cada una de las cabeceras y capas que componen los paquetes monitorizados, proporcionando un gran abanico de posibilidades al administrador de redes a la hora de abordar ciertas tareas en el análisis de tráfico. Al observar el comportamiento del tráfico en una red de datos durante periodos de tiempo prolongados se puede determinar que este está fuertemente correlacionado ya que las diferentes fuentes que lo generan típicamente presentan patrones

Page 11: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

11

cíclicos de demanda, es por esto que generalmente se pueden obtener ciertos patrones de estacionalidad. De igual forma, como se ha demostrado en análisis anteriores, incluso a nivel de transmisiones puntuales y bajo ciertas condiciones no cambiantes durante el periodo de observación se pueden encontrar algunos patrones de auto similitud en el tráfico. Es por esto que las variables asociadas a una transmisión se pueden modelar mediante series de tiempo, cuya efectividad para representar el comportamiento de estas dependerá de las condiciones en las que se den las mediciones, la elección del modelo apropiado, y la metodología con la que se desarrolle el mismo. Evidentemente aunque el valor futuro de una serie temporal no sea predecible con total exactitud, para que tenga interés su estudio, el resultado tampoco puede ser completamente aleatorio, existiendo alguna regularidad en cuanto a su comportamiento en el tiempo, lo que hará posible su modelado y por ende, en su caso, la predicción. Por lo tanto, si podemos encontrar patrones de regularidad en diferentes secciones de una serie temporal, podremos también describirlas mediante modelos basados en distribuciones de probabilidad. La secuencia ordenada de variables aleatorias X(t) y su distribución de probabilidad asociada, se denomina proceso estocástico.

Un proceso estocástico es por tanto el modelo matemático para una serie temporal.

Page 12: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

12

1. PLANTEAMIENTO DEL PROBLEMA

Como se ha expuesto, dentro del marco institucional, el Distrito Capital se ha propuesto realizar la interconexión de universidades y centros de investigación presentes en la ciudad mediante una red unificada, denominada Red Universitaria Metropolitana de Bogotá (RUMBO), que se ha proyectado como un componente de vital importancia en el esquema de Red Nacional de Tecnología Avanzada (RENATA), promovida por la agenda de conectividad del país. En este orden de ideas, en la Universidad Distrital y dentro del marco del Grupo LÍDER, se propone dar inicio a la implementación de la conexión de la red RITA con la red RUMBO y todas las sedes de la Universidad Distrital utilizando software libre, teniendo en cuenta que dicho desarrollo debe estar sustentado bajo el Protocolo de nueva generación IPv6, según las tendencias actuales y futuras en el campo de la implementación de redes, y considerando además que actualmente no se cuenta con un proceso de Implementación definido para el desarrollo de dicho proyecto. Hoy en día se ha demostrado que el tráfico moderno en las redes de datos es altamente correlacionado, por lo cual es necesario seleccionar modelos correlacionados que permitan capturar muchas de las características de autocorrelación en este tipo de tráfico. El poder realizar un pronóstico acertado del tráfico en las redes de comunicaciones, es de gran importancia en la actualidad, ya que influye en la toma de decisiones tan importantes tales como el dimensionamiento y predestinación de la red. Es por esto que el modelamiento de tráfico se ha convertido en una extensa área de investigación en la que el objetivo es desarrollar modelos que predigan el impacto de la carga impuesta por las diferentes aplicaciones sobre los recursos de la red Al mismo tiempo surge la necesidad de establecer una red de NGN que ofrezca servicios multimedia al a comunidad académica y para realizar una buena observación de su comportamiento es necesario establecer metodologías de medición y predicción de su teletráfico1. Ante tales circunstancias, se genera la siguiente pregunta de Investigación que define y delimita el problema por atender: ¿De qué forma es posible desarrollar un modelo estadístico que permita estimar el comportamiento futuro de parámetros de teletráfico en redes de nueva generación aplicando series de tiempo tipo ARIMA, SARIMA Y VARMA?

1 (HERNÁNDEZ SAMPIERI, FERNÁNDEZ COLLADO, & BAPTISTA LUCIO, 2007)

Page 13: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

13

2. JUSTIFICACIÓN

En el modelamiento de redes de comunicaciones tradicionales era ampliamente utilizada la teoría de colas para la llegada de paquetes ó proceso de Poisson; teoría matemática que modela los servicios voz y datos como no correlacionados, y adicionalmente modela la demanda de estos servicios, sobre recursos limitados de comunicación [7]. Sin embargo los modelos de tráfico no correlacionados (procesos de renovación, en especial el proceso de Poisson) ofrecen una gran tratabilidad matemática pero no son capaces de capturar muchas de las características más relevantes del tráfico moderno, en particular las asociadas con la autocorrelación observada en el tráfico real. [1] Para la simulación de las redes y sistemas que proporcionan acceso a Internet es imprescindible disponer de un modelado del tráfico de los usuarios de Internet. Las medidas realizadas sobre redes reales muestran que el modelado de Poisson es totalmente inadecuado, no sólo para conexiones individuales, sino que además el tráfico agregado de Internet presenta correlación a muy largo plazo. Por tanto es preciso realizar una caracterización nueva de este tráfico, de forma que se modele correctamente el flujo de datos en los sistemas de acceso. [8] Los modelos que se desarrollan a través de las series de tiempo son beneficiosos para la planeación de cobertura, reservación de recursos, monitoreo de la red, detección de anomalías, y producción de modelos de simulación más exactos, en la medida en que pueden pronosticar el tráfico en un tiempo de escala determinado. [9]. Estos modelos basados en series de tiempo desarrollados actualmente, y la gran mayoría se centran en realizar el pronóstico de trafico univariado, es decir, centran su pronóstico únicamente alrededor de la variable tiempo. [10] Un modelo de pronóstico de tráfico multivariado puede permitir una planeación a futuro más acertada, aspecto que es esencial en la administración y en la toma de decisiones de cualquier empresa; y que puede ser utilizado para desarrollar estrategias adecuadas a futuro. [11], ya que el nivel de correlación de cada una de las variables explicativas, con respecto a la variable aplicada aportan mayor exactitud al pronóstico y puede influir en decisiones económicas de gran relevancia para una empresa. Como la exactitud del pronóstico de tráfico es realmente importante para definir capacidad requerida a futura y planear los cambios en cualquier sistema; se considera que el desarrollo del modelo incluya múltiples variables que incidan en el pronóstico del tráfico; situación que se espera brinde mayor veracidad al modelo de tráfico a desarrollar y que posiblemente reduzca al máximo el error de predicción. [5]

Page 14: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

14

La serie de tiempo VAR se implementó en el desarrollo de este modelo ya que es una serie de tiempo de estadística avanzada cuyo objetivo primordial es el análisis estadístico que explique el comportamiento de una variable aleatoria, para éste caso tráfico en redes académicas de nueva generación con respecto a múltiples variables. El uso de las series de tiempo es de suma importancia ya que otro de los principales objetivos era buscar un método que ayudara a reducir el error de predicción aumentando así la confiabilidad en el pronóstico de datos y por consiguiente disminuyendo la incertidumbre causada por el futuro, de ahí, que las series de tiempo son una herramienta fundamental en la planeación y en áreas del conocimiento donde conocer predicciones de sus valores futuros aportan para disminuir riesgo en la toma de decisiones y aportan criterios importantes en la implementación de políticas futuras. [10]. Finalmente con el desarrollo del modelo se pretende obtener el comportamiento del tráfico específicamente su velocidad de transmisión; estudio que es bastante importante porque permite estimar el dimensionamiento de un canal en redes académicas de nueva generación, adicionalmente es posible planear y realizar una mejor distribución de cargas, aspectos que inciden directamente en el manejo y generación de protocolos de aplicación, en el retardo en jitters, en el encolamiento, entre otros parámetros que se encuentran vinculados directamente con la capacidad de una red académica y por ende con la calidad del servicio de la misma.

Page 15: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

15

3. OBJETIVOS

3.1. OBJETIVO GENERAL Desarrollar un modelo estadístico que permita estimar el comportamiento futuro de parámetros de teletráfico en redes académicas de nueva generación aplicando series de tiempo tipo ARIMA, SARIMA Y VARMA que contribuya a la implementación de herramientas para el mejoramiento de uso de canal de datos en la Red RITA-UD. 3.2. OBJETIVOS ESPECÍFICOS:

Evaluar los diferentes modelos actuales para el pronóstico teletráfico en redes de Datos y para servicios de NGN a través de series de tiempo

Dimensionar el ancho de banda de los enlaces de Redes de Nueva Generación, de acuerdo al tráfico y valores de teletráfico de la red estimado por el modelo desarrollado.

Estimar parámetros de calidad de servicio, perdida de paquetes y retardo promedio, que permitan realizar el mejor uso posible del ancho de banda, en las redes NGN, a partir del modelo de trafico planteado.

Evaluar el nivel de desempeño del modelo de tráfico desarrollado para las redes NGN y compararlo con algunos de los existentes.

Documentar todo el proceso de estimación del modelo y los resultados obtenidos de la investigación.

Page 16: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

16

4. MARCO REFERENCIAL

4.1. MARCO CONCEPTUAL En la elaboración del presente trabajo se tomaron en cuenta los siguientes conceptos:

4.1.1. Red de datos Conjunto de computadoras, conmutadores, enrutadores y otros dispositivos que pueden comunicarse y enviar datos entre sí, sobre algún medio de transmisión. Cada una de estas redes ha sido diseñada específicamente para satisfacer sus objetivos, con una arquitectura determinada para facilitar el intercambio de la información [2].

4.1.2. Red Wi-Fi Red de datos donde el medio de acceso es inalámbrico. Actualmente las redes Wi-Fi se fundamentan en el estándar IEEE 802.11. Wi-Fi proviene de Wireless Fidelity [3].

4.1.3. Calidad de servicio “La calidad de servicio (QoS) es el efecto global de la calidad de funcionamiento de un servicio que determina el grado de satisfacción de un usuario de un servicio” [4].

4.1.4. Ancho de Banda Se ha definido ancho de banda efectivo o simplemente ancho de banda como la banda en la que se concentra la mayor parte de la energía de la señal. El concepto de “la mayor parte de la energía de la señal” es algo subjetivo. Lo importante es que, aunque una forma de onda dada contenga frecuencias en un rango extenso, por cuestiones prácticas, cualquier sistema de transmisión solo podrá transferir una banda limitada de frecuencias. Lo cual hace que la velocidad de transmisión máxima en el medio este limitada. [5].

4.1.5. Tráfico Conjunto de datos transmitidos por la red. El termino tráfico por lo general se refiere al uso de la red global en un momento dado. Sin embargo, puede hacer referencia a determinadas transacciones, mensajes o registros [2].

Page 17: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

17

4.1.6. Correlación Es una medida de la asociación entre dos variables. Es decir, indica si el valor de una variable cambia de forma fiable en respuesta a los cambios en el valor de la otra variable. El coeficiente de correlación puede variar desde -1 hasta 1. Una correlación de -1 indica que el valor de una variable disminuye el valor de los aumentos de otra variable. Una correlación de 1 indica que cuando el valor de una variable aumenta, aumenta la otra variable [2].

4.1.7. Autosimilaridad Es la existencia en el análisis de tráfico de una correlación entre las variables del mismo con dependencia de rango largo, la cual es persistente a diferentes escalas de tiempo [7]. Una serie de tiempo es autosimilar si la serie agregada tiene la misma función de autocorrelación que la serie original. Este parámetro de caracterización se denomina parámetro de Hurst, H [7].

4.1.8. Sniffer Programa o herramienta que monitorea pasivamente (es decir, no modifica) y analiza el tráfico de toda la red, capturando todos los datos que pasan a través de una tarjeta de red [6].

4.1.9. Protocolo Conjunto de reglas usadas por computadoras para comunicarse unas con otras a través de una red, permitiendo el flujo de información entre equipos que manejan lenguajes distintos, por ejemplo, dos computadoras conectadas en la misma red pero con protocolos diferentes no podrían comunicarse jamás, para ello, es necesario que ambas "hablen" el mismo idioma. El protocolo TCP/IP fue creado para las comunicaciones en Internet. Para que cualquier computador se conecte a Internet es necesario que tenga instalado este protocolo de comunicación [7].

4.1.10. Modelo Matemático Tipo de modelo científico que utiliza algún formulismo matemático para expresar relaciones, proposiciones sustantivas de hechos, variables, parámetros, entidades y relaciones entre variables y/o entidades u operaciones. Estos modelos se utilizan para analizar los comportamientos de sistemas complejos ante situaciones que resultan difíciles de observar en la realidad [8].

4.1.11. Modelo Multivariable Modelo matemático con más de una variable independiente o explicativa pero con una única variable dependiente o explicada [8].

Page 18: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

18

4.2. MARCO TEÓRICO ESTADÍSTICO El objetivo de esta tesis era desarrollar un modelo que proporcionará un pronóstico o predicción más acertada del comportamiento del tráfico en las redes de datos de nueva generación NGN. El procedimiento de pronóstico implementado en este trabajo se le denomino serie de tiempo. El objetivo mediante este método consistió en descubrir un comportamiento en los datos históricos de una variable, para entonces extrapolarlo al futuro; el pronóstico sólo se basa en valores pasados de la variable y/o en errores pasados de predicción.

4.2.1. Proceso Estocástico Es una colección {Xt} de variables aleatorias definidas sobre un espacio de probabilidad. Dicho de otra manera, un proceso estocástico es una sucesión de variables aleatorias ordenadas por un índice t, usualmente el tiempo y puede escribirse como:

4.2.2. Serie de Tiempo Las series de tiempo son secuencias de datos tomados típicamente en instantes de tiempos sucesivos y espaciados uniformemente, que suelen ser utilizadas en estadística, procesamiento de señales, econometría y matemáticas financieras, entre otros campos de las ciencias aplicadas. El análisis en series de tiempo comprende métodos y procesos para tratar dichas secuencias de manera que se pueda extraer información significativa y características importantes de los datos. La predicción con series de tiempo consiste en el uso de un modelo para estimar valores futuros en función de valores observados previamente. Los datos de las series de tiempo tienen un orden temporal por naturaleza. Esto diferencia a las series de tiempo de otros problemas de análisis de datos, en los cuales no se guarda un orden temporal, como por ejemplo la relación de una característica de la población con su ubicación geográfica u otros factores independientes del tiempo. Una serie de tiempo es una sucesión de un proceso estocástico Zt generado al obtener una y solo una observación de cada una de las variables aleatorias que definen el proceso estocástico. Estas observaciones son tomadas a intervalos de tiempo o de distancia iguales, según lo indica el índice t que genera la sucesión. En este sentido, la serie es una realización de un proceso estocástico. Un modelo estocástico para una serie de tiempo generalmente refleja el hecho de que las observaciones más cercanas en el tiempo estarán más fuertemente relacionadas que las lejanas. Adicionalmente, los modelos de series de tiempo a menudo harán uso de la ordenación unidireccional del tiempo, de manera que los valores para cierto periodo sean expresados como una función de los valores pasados y no de los valores futuros.

Page 19: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

19

Una serie de tiempo puede tener componentes como: tendencia, variación estacional o periódica, y otras fluctuaciones irregulares. • Tendencia. Representa la dirección general de la variable en el periodo de observación, es decir el cambio a largo plazo de la media de la serie. La tendencia puede ser constante, lineal, cuadrática, exponencial, entre otras. • Estacionariedad. Corresponde a fluctuaciones periódicas de la variable, en periodos de tiempo relativamente cortos. Esta componente se presenta cuando la serie posee patrones estacionales que se repiten con frecuencia constante, otorgando a la serie un efecto periódico. • Otras fluctuaciones irregulares. Después de extraer de la serie la tendencia y variaciones cíclicas, quedarán una serie de valores residuales, que pueden ser o no totalmente aleatorios. Se vuelve a estar como en el punto de partida, pues se debe analizar también si esa secuencia temporal de valores residuales puede o no ser considerada como aleatoria pura.

4.2.3. Estacionariedad Antes de desarrollar cualquier modelo para una serie de tiempo determinada, se debe determinar si esta es estacionaria o no. Si se tiene una serie no estacionaria se debe determinar la mejor manera de transformarla en estacionaria para poder aplicar los modelos AR, MA o ARMA. Si estos modelos se realizan por medio de una transformación previa de la serie temporal para tener una nueva serie estacionaria, se habla entonces de modelos ARI, IMA y ARIMA respectivamente.

4.2.4. Modelado de series de tiempo A continuación se explicarán algunos de los modelos más empleados en el trabajo con series de tiempo. Se utilizará la siguiente notación:

𝑌𝑡 Serie de tiempo que será analizada.

𝑢𝑡 Función de ruido blanco con promedio cero y varianza constante.

𝑑 𝑦 𝐷 Grados de diferenciación normal y estacional.

Φ𝑝(𝐿) Polinomio de orden p del componente autorregresivo.

Φ𝑃(𝐿) Polinomio de orden P del componente estacional autorregresivo.

Θ𝑞 Polinomio de orden q del componente de medias móviles.

Θ𝑄(𝐿) Polinomio de orden Q del componente estacional de medias móviles.

S Periodo de la función si presenta estacionalidad.

El operador de retardo 𝐿 (del inglés lag) reemplaza la notación de retardos con subíndices. Así, lo siguiente aplica para los modelos presentados:

(1 − φ1L − φ2L2 … − φpL2)Yt = Yt − φ1Yt−1 − φ2Yt−2 … − φpYt−p

Page 20: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

20

4.2.5. Modelo Autorregresivo (AR) Considera que el valor de la serie estacionaria en el tiempo presente t depende de todos los valores pasados que ha tomado la serie, ponderados por un factor de peso que mide la influencia de ese valor pasado en el valor presente; y de una perturbación aleatoria presente. Cuando solamente los últimos p valores pasados de la serie afectan significativamente el valor presente, el modelo se denomina autorregresivo de orden p, AR(p).

Φ𝑝(𝐿)𝑌𝑡 = 𝑢𝑡

4.2.6. Modelo media móvil (MA) Considera que el valor de la serie estacionaria oscila o se desplaza alrededor de un valor medio μ. Además supone que el desplazamiento de μ en el tiempo presente t es ocasionado por infinitas perturbaciones ocurridas en el pasado, ponderados por un factor Ψj, que mide la influencia de dicha perturbación en el presente de la serie. Cuando sólo las últimas q perturbaciones pasadas afectan significativamente el valor presente de la serie, el modelo se denomina Media Móvil de orden q notado MA(q).

Yt = Θq(L)ut

Los dos modelos anteriores, el modelo AR y el modelo MA, son modelos básicos y se combinan para producir otros modelos, como el ARMA (autorregresivo de media móvil) y el ARIMA, que resulta de integrar la estimación ARMA (p,q). Otros modelos que se desprenden del ARIMA son el FARIMA, SARIMA, STARIMA, ARIMA-GARCH, entre otros.

4.2.7. Modelo ARMA El modelo ARMA tiene la siguiente notación:

Φp(L)Yt = Θq(L)ut

4.2.8. Modelo ARIMA El modelo ARIMA hace referencia a un modelo que se ha aplicado a una serie diferenciada. Así, se tiene la siguiente representación para el modelo.

Φp(L)(1 − L)d(Yt − μ) = Θq(L)ut

4.2.9. Modelo SARIMA El modelo SARIMA, autorregresivo e integrado de promedio móvil estacional, se basa en el modelo ARMA, con algunos de sus coeficientes en cero y componentes adicionales para integrar el comportamiento estacional de la serie en el modelo. El modelo SARIMA tiene la siguiente notación:

ΦP(L)Φp(L)(1 − Ls)D(1 − L)d(Yt − μ) = ΘQ(L)Θq(L)ut

Page 21: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

21

4.2.10. Modelo VARMA Una serie de tiempo estacionaria tipo VARMA está representada por la siguiente ecuación:

La autocovarianza de esta serie de tiempo para un retardo k está definida de la siguiente forma:

Al igual que en el caso del modelo ARMA se ha definido la función de autocovarianza para la serie de tiempo VARMA así:

Nótese que esta es una serie de Laurent en forma de matriz. Cada componente de la matriz en el lado izquierdo de la ecuación anterior es una función analítica. La generalización de este caso en forma de matriz sólo es válido si los componentes individuales tienen el mismo número de polos que dominio de la sumatoria. Se verá que este es el caso que aquí se aplica. De manera similar esto se aplica al caso escalar, con la matriz de auto covarianza de Γnn (k), que es una matriz de coeficientes de la serie de Laurent, por tanto se puede obtener de la autocovarianza la función generadora dada por el siguiente teorema: Teorema 1: La _Matriz de coeficientes Γnn(k) de la serie de Laurent está dada por:

Se puede expresar a partir de la ecuación de los coeficientes d la siguiente forma:

Y finalmente con la manipulación matemática en coordenadas polares se obtiene:

Page 22: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

22

Con el resultado del teorema anterior, ahora se puede obtener la representación integral de la autocovarianza una serie de tiempo VARMA. De la expresión anterior, se puede escribir la Series de tiempo VARMA como:

Dado que la serie de tiempo es VARMA y es estacionaria, se puede realizar una división larga para expresar nt como:

La autocovarianza de esta serie de tiempo con un retardo k is:

Con Ra como la matriz de varianza del vector generador (ruido blanco at): Reemplazando la Matriz de autocovarianza dentro de la función generadora de la matriz de autocovarianza y manipulando matemáticamente se obtiene:

Page 23: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

23

Si se define h=i+j se encontrará la siguiente expresión:

Y por lo tanto la matriz de autocovarianza para el retraso k de la serie de tiempo VARMA nt está expresada de la siguiente manera:

4.3. MARCO DEL ESTADO DEL ARTE El presente marco referencial se construyó a partir del análisis de artículos que hacen referencia al uso delas series de tiempo para el pronóstico de datos, para su selección se tomaron en cuenta dos aspectos importantes; pertinencia en cuanto a la temática específica desarrollo de modelos para el pronóstico de tráfico en redes de datos y que sean relativamente recientes. En el artículo“Forecasting time series wat multiple seasonal patterns” [11], cuyos autores son: Phillip G Gould, Anne B Koehler, J Keith Ord, Ralph D Snyder, Rob J Hyndman, FarshidVahid- Araghi;Se presenta una nuevo enfoque para pronósticos de series de tiempo con patrones de estacionalidad múltiple. Se desarrolla un modelo para series usando la técnica de fuente única de error, la cual permite desarrollar modelos explícitos tanto para estacionalidad aditiva como multiplicativa. Los parámetros de estimativos pueden obtenerse a través de métodos adaptados del suavizado exponencial general, aunque también puede ser usado el filtro Kalman. El modelo propuesto es usado para examinar patrones

Page 24: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

24

horarios y diarios con base en datos horarios, tanto para las cargas a servir como para los flujos de tráfico. Esta formulación arroja un modelo para varios métodos de estacionalidad existentes y también brinda nuevas opciones, lo cual redunda en un desempeño superior de pronósticos sobre un rango de horizontes de predicción. El enfoque perfila ser de utilidad en un amplio rango de aplicaciones tanto de alta como de baja frecuencia de datos, y maneja ausencia de valores de una manera directa. El articulo Forecasting the Levels Of Vector Autoregressive Log-Transformed Time Series[15], cuyos autores son: Arino Miguel A , Franses; En este artículo se dan expresiones explícitas para los pronósticos de niveles de una serie de tiempo vectorial cuando tales pronósticos se generan de autoregresiones vectoriales (posiblemente cointegradas) para la correspondiente transformación logarítmica de series de tiempo. También se muestra que si simplemente se toman exponentes de pronósticos para datos registrados, esto conduce a pronósticos sustancialmente sesgados. Se ilustra este hecho empleando una serie vectorial cointegrada bivariada que contiene inversiones y PIB de los EE.UU. El artículo Forecasting VARMA processesusing VAR models and subspace-based state space models [16], cuyos autores son: Segismundo S. Izquierdo A, Cesáreo Hernández, Juan del Hoyoc; El modelamiento VAR es una técnica frecuente para procesos lineales en econometría. Este modelamiento ofrece características interesantes como procedimientos relativamente simples para especificación del modelo (selección de orden) y la posibilidad de obtener rápidamente y de forma no iterativa máximos estimativos de probabilidad de los parámetros del sistema. Sin embargo, si el proceso bajo estudio presenta una estructura VARMA de orden finito, no puede ser representada de manera equivalente por ningún modelo VAR de orden finito. De otro lado, un modelo espacial con estados de orden finito puede representar un modelo VAR de orden finito de manera exacta, y para el modelamiento estado-espacio, algoritmos subespacio brindan de manera rápida y no iterativa estimativos de los parámetros del sistema, así como procedimientos de especificación sencillos. Dados los hechos anteriores, este artículo chequea si los modelos de espacio estado con base en subespacio proveen mejores pronósticos que los modelos VAR cuando se trabaja con procesos generados a partir de datos VARMA. En un estudio de simulación se generan muestras a partir de diferentes procesos generados con datos VARMA, obteniendo modelos basados en VAR y en espacio-estado para cada proceso generado y se compara el poder predictivo de los modelos obtenidos. Se consideran algoritmos de diferente especificación y estimación; en particular dentro de la familia de subespacio, el algoritmo CCA (por sus siglas en Inglés: Canonical Correlation Analysis) se selecciona como la opción para obtener modelos estado-espacio. Los resultados indican que cuando el parámetro MA de un proceso ARMA es cercano a 1, los modelos de estado-espacio son dados a entregar mejores pronósticos que los modelos AR.

Page 25: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

25

También se lleva a cabo una comparación práctica (para dos series económicas cointegradas de tiempo) de la potencia predictiva de los modelos de Johansen VAR-restrictivos con respecto a los modelos estado-espacio obtenidos del algoritmo subespacio CCA, incluyendo un análisis de densidad predictiva. En el artículo “On the prediction of packet process in network traffic using FARIMA time-series model” [21], cuyos autores son: CHANDRASHEKHAR G. DETHE1* AND D. G. WAKDE; La existencia simultánea de dependencia de corto y largo rango en el tráfico de redes ha evidenciado las limitaciones de los modelos convencionales de tráfico. En este artículo se sugiere el proceso de Movimiento de Promedio Autorregresivo Fraccionalmente Integrado - FARIMA (por sus siglas en Inglés: Fractionally Integrated Autoregressive Moving Average) para modelar el proceso de paquetes observado en tráfico de redes. Se han usado diferentes niveles de agregación para computar el parámetro diferenciador 'd'. También se brinda el procedimiento completo para modelación y obtención de predicciones para procesos de paquetes en tráfico de redes usando el modelo FARIMA (p,d,q). El artículo “Forecasting Seasonal Traffic Flows”[22], cuyos autores son: CHANDRASHEKHAR G. DETHE1* AND D. G. WAKDE; El problema de predictibilidad de flujo de tráfico estacional es abordado en este artículo. Se muestra que los modelos de series de tiempo SARIMA son particularmente relevantes para modelar un flujo de tráfico estacional. Se representa el proceso SARIMA en forma lineal estado-espacio y recursiones clásicas Kalman proveen valores de pronóstico en línea. Experimentos con un flujo real de tráfico validan el método al entregar pronósticos precisos. En el artículo“On the self-similar nature of ethernet traffic”[7] cuyos autores son: W.E. Leland, M.S. Taqqu, W. Willinger and D.V. Wilson; se argumenta el comportamiento del tráfico y por ende el tratamiento matemático que se le debe dar ya que demuestra que el tráfico Ethernet LAN es estadísticamente similar, y que ninguno de los modelos de tráfico comúnmente utilizados es capaz de capturar este comportamiento, que tal conducta tiene serias implicaciones para el diseño, control y análisis de alta velocidad en redes, y que en la agregación de estos flujos de tráfico típicamente se intensifica la auto-similitud en lugar de suavizarse. Por otra parte el artículo “Performance Evaluation of Multiple Time Scale TCP Under Self-Similar Traffic Conditions” [9], cuyo autor es: Kihong Park; brinda una metodología que evalúa el impacto de los cambios en los protocolos de transporte en la pila de protocolos en virtud de condiciones de tráfico auto-similares y debate cuestiones que se plantean en comparación con la evaluación del desempeño bajo una fuerte cola de trabajo. Este artículo afianza que las mediciones de tráfico de la red han mostrado que la auto-similitud es un fenómeno omnipresente que se abarca a través de diversos entornos de red. En trabajos anteriores, ya han estudiado la viabilidad de la explotación de largo alcance en la estructura de correlación auto-similar de tráfico para el control de la

Page 26: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

26

congestión. Han avanzado en el marco de múltiples escala de tiempo de control de la congestión y demostrado su eficacia en mejorar el rendimiento de la tasa basada en el control de la información. En este artículo, se amplía el tiempo en múltiples escalas dentro del marco de control a la ventana basado en el control de la congestión, en particular, protocolo TCP. Esto se realiza por la interfaz TCP con una gran escala de tiempo del módulo de control que ajusta la agresividad de ancho de banda comportamiento de consumo exhibidos por TCP como una función de "gran escala de tiempo" red de estado, es decir, información que supera el horizonte temporal de la retroalimentación según lo determinado por RTT(Round-Trip delay Time (o RTT) y se aplica en el mundo de las telecomunicaciones y redes informáticas (el tiempo que tarda un paquete enviado desde un emisor en volver a este mismo emisor habiendo pasado por el receptor de destino). En primer lugar, definir una ampliación modular de TCP (una llamada a función con una interfaz simple que seaplica a los diferentes protocolos de TCP, por ejemplo, Tahoe, Reno y Las Vegas) y demostrar que mejora significativamente el rendimiento. En segundo lugar, nos muestra que varias escalas de tiempo de TCP dota a la información un profundo control con pro actividad y colma la brecha de incertidumbre asociado con los controles que se ve agravada por la demora de alto ancho de banda de productos de banda ancha en redes de área amplia. En tercer lugar, investiga la influencia de las tres dimensiones de control del tráfico haciendo seguimiento de capacidad, conexión de duración, y la equidad en el rendimiento. La evaluación del desempeño de múltiples escala de tiempo de TCP se ve facilitada por un punto de referencia entorno de simulación basado en el modelado físico de la libre circulación similar. En el artículo Dynamics Of IP Traffic: “A Study Of The Role Of Variability And The Impact Of Control” [10], cuyos autores son: Walter Willinger, W.E. Leland, M.S. Taqqu, D.V. Wilson; se destaca la importancia del estudio de tráfico multivariado, es decir, como influye la variable demanda o número de usuarios en el tráfico de una red y cómo influye su comportamiento en la toma de decisiones como ampliaciones de red. Mediante el uso de dos simuladores se experimenta diferentes aspectos de los usuarios, como lo son el comportamiento de los períodos de sesiones y las configuraciones de red; se presenta una investigación sistemática en cómo y por qué la variabilidad y la información debe contribuir a la ampliación de propiedades reales en la Internet. Ilustra cómo la variabilidad de los aspectos de usuario y entornos de red (i) Causa un comportamiento auto similar en grandes escalas de tiempo, (ii) Determina un pronunciado cambio en el comportamiento de la ampliación en torno a una escala de tiempo específico (si aumenta o disminuye), y (iii) se establece la fase para la aparición de la ampliación sorprendentemente rica y dinámica a escalas de tiempo más pequeñas, es decir, la ampliación multifractal. En el artículo A Forecasting Procedure for Nonlinear Autoregressive Time Series Models [12], cuyo autor es: YuzhiCai; se analizan los detalles técnicos asociados con estimación y uso de los Vectores Autorregresivos (VAR), en particular en el manejo de series de tiempo no estacionarias útil para analizar la

Page 27: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

27

interrelación entre las diferentes series de tiempo. El objetivo es identificar la estrategia que proporciona la modelización con el fin de evitar restricciones presentadas en modelos tradicionales, y permitir reflejar lo más fielmente posible las regularidades empíricas e interacciones entre las variables objeto de análisis se estudia la previsión de series temporales no lineales que es un tema importante en el análisis de series de tiempo. Algoritmos numéricos existentes para multi- paso que hace caso omiso de la previsión de la exactitud a futuro, la alternativa método de Monte Carlo también son computacionalmente muy exigente y su precisión es demasiado difícil de controlar. En este documento se propone un modelo numérico para la previsión de un procedimiento no lineal de series temporales autoregresivas. La previsión de procedimiento puede utilizarse para obtener la aproximación de predicciones de una serie no lineal de modelos autorregresivos de series de tiempo mediante funciones de densidad de probabilidad, la distribución de funciones predicción, predicción media y la varianza, etc. Ejemplos en el documento muestran que el procedimiento de previsión funciona muy bien, tanto en términos de la exactitud de los resultados como en la capacidad para hacer frente a diferentes modelos de series temporales autoregresivos no lineales. El artículo “Forecast covariances in the linear multiregression dynamic model”[13], cuyos autores son: Catriona M Queen, Ben J Wright, Casper J Alberses; es muy importante para el desarrollo de la tesis, específicamente para la fase de comparación del modelo de trafico multivariado VAR ó VARMA y el tráfico univariado ARIMA, ya que permite hacer una aproximación de lo que se espera se obtendrá; en él se identifica un modelo dinámico de multiregresión lineal (LMDM) es un modelo Bayesiano, que los preserva de cualquier independencia condicional y la estructura causal a través de una serie temporal multivariada. La estructura de independencia condicional se utiliza para el modelo de serie multivariado diferente a modelos lineales de serie univariado tomando cada serie por separado (condicional), modelo donde cada serie tiene contemporáneos como regresores variables. El cálculo de la previsión de la matriz de covarianza (que es necesaria para el cálculo de previsiones de las diferencias en la LMDM) no siempre es sencillo en su formulación actual. En este trabajo se presenta una forma algebraica simple para el cálculo de las previsiones LMDM covarianzas. El cálculo de la covarianza entre los componentes del modelo de regresión también puede ser útil y es también representado por un simple método algebraico. En la formulación LMDM, algunos pares de serie se ven obligados a tener previsiones de covarianza cero. Este artículo “Applying multivariate time series models to technological product sales forecasting” [14], cuyos autores son: Yi-ChiaChiu, Joseph Z Shyu; en la parte de generalidades permite evidenciar los múltiples campos de acción en las cuales tienen importancia y aplicación el estudio de las series de tiempo multivariadas, ya que desempeña un papel crucial en la realización de la comercialización y la combinación de estrategias tecnológicas en las industrias,

Page 28: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

28

realiza un pronóstico de ventas. Sin embargo, los métodos de previsión de ventas se centran sólo en el comportamiento del cliente y otras variables cuantitativas. Este documento propone modelos de series de tiempo multivariante, utilizando el vector autorregresiva (VAR) y el modelo Bayesiano Litterman autorregresiva de vector (LBVAR) modelo para el pronóstico de ventas en las industrias tecnológicas. En este estudio, los datos macroeconómicos se consideran útiles y los principales indicadores están incluidos en los modelos VAR y LBVAR. El modelo LBVAR es superior posee estadísticas de previsión Bayesiano en pequeñas muestras y el modelo VAR posee propiedades dinámicas. Un estudio empírico de Taiwán de la industria del ordenador portátil se utiliza para examinar la LBVAR VAR y modelos para validar el efecto informativo de los datos macroeconómicos sobre el pronóstico de ventas. Como resultado de ello, modelos de series temporales multivariantes con datos macroeconómicos parecen ser modelos útiles para la venta de productos tecnológicos de previsión. En el artículo “Estudio de las Series de Tiempo para el Pronóstico de Datos en Redes Inalámbricas” [17], cuyos autores son: Cesar Hernández, Octavio salcedo y Andrés Escobar; se encuentra una fundamentación y formación en el uso de series de tiempo para pronóstico de tráfico en redes de comunicación, resaltando la utilización del modelo ARIMA. En este artículo se inicia al lector en modelos estadísticos con series de tiempo, que permitan estimar pronósticos futuros de tráfico en las redes de comunicaciones modernas, haciendo uso de la predecibilidad del tráfico con dependencia de rango corto (SDR), para poder realizar un control más oportuno y eficiente en forma integrada a diferentes niveles de la jerarquía funcional de la red. Este modelamiento en series de tiempo, está basado en medidas tomadas de los eventos con una base periódica. El objetivo de esta investigación es demostrar que las series de tiempo son una excelente herramienta para el modelamiento de tráfico de datos en redes Dimas. Lo anterior es posible a través de la metodología de Box-Jenkins que se presenta en este artículo. Al final de esta investigación se logró modelar una serie de tráfico Wimax de 10 días a través de una serie de tiempo ARIMA con un error pequeño. Este artículo brinda fundamentación y formación en el uso de series de tiempo para pronóstico de tráfico en redes de comunicación, resaltando la utilización del modelo ARIMA. El artículo “Internet traffic modeling by means of Hidden Markov Models” [18], cuyos autores son: Alberto Dainotti, Antonio Pescapé, Pierluigi Salvo Rossi, Francesco Palmieri, Giorgio Ventre; Permite evidenciar un modelo que hace el pronóstico de tráfico y es útil para realizar una comparación de los resultados a obtener en el modelo propuesto en esta tesis. En este trabajo, se propone un modelo de Hidden Markov para fuentes de tráfico de Internet en el nivel de paquete, analizando el intervalo de tiempo entre paquetes conjuntamente. Presenta una base analítica y los detalles matemáticos respecto al modelo, y evalúa la flexibilidad del enfoque del modelado propuesto con los rastros de tráfico

Page 29: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

29

legítimos relacionados con los servicios de Internet comunes con las diferencias poderosas en relación con tantas aplicaciones / usuarios como el comportamiento de protocolo: el SMTP, el HTTP, un partido de la red, y una plataforma de mensajes instantáneos. El análisis experimental presentado indica eso, manteniendo una estructura simple ni siquiera, el modelo puede conseguir los buenos resultados en relación con el cálculo de los parámetros estadísticos y la generación de serie sintética, teniendo en cuenta las distribuciones menores, las dependencias mutuas, y temporales. Además muestra cómo, explotando tales dependencias temporales, el modelo puede llevar a cabo el pronóstico de período observando el tráfico de fuentes legítimas. En el artículo “Bayesian Time-Series Model for Short-Term Traffic Flow Forecasting.Journal of Transportation Engineering”[19], cuyos autores son: BidishaGhosh, BiswajitBasu, Margaret O'Mahony; utilizan las series de tiempo SARIMA, las cuales tienen bastantes usos en el pronóstico de tráfico en redes de comunicaciones, por lo cual es de suma importancia realizar una comparación muy general para identificar las diferencias con las series de tiempo propuestas VAR ó VARMA. Esta serie de tiempo es un promedio móvil autoregressivo integró estacional (SARIMA) se diferencia del modelo de serie de tiempo univariada, más utilizada para modelos de serie en el área de pronostico a poca distancia. Los parámetros del modelo de SARIMA comúnmente se usan para los métodos de cálculo clásicos (el máximo cálculo aproximado de probabilidad y/o menos - cuadrados cálculo aproximado). En el análisis de Bayesian el método de Monte Carlo de cadena de Markov es usado para resolver la integración posterior que es el problema en el pronóstico de largo alcance. Cada uno de los parámetros del método de Bayesian aproximadamente tiene un condicional de función de densidad de probabilidad para observar volúmenes de tráfico. Los pronósticos obtenidos del modelo de Bayesian es mejor corresponde al comportamiento de tráfico de los máximos apogeos extremos y la fluctuación rápida. Cada pronóstico tiene una curva de densidad de probabilidad con el valor probable máximo como el punto pronosticó. Las curvas de densidad de probabilidad individuales suministran un intervalo de pronóstico diferente de tiempo a diferencia del intervalo de pronóstico constante de la inferencia clásica. El artículo “Forecasting models and adaptive quantized bandwidth provisioning for nonstationary network traffic” [20], cuyo autor es: Krithikaivasan, Balaji permite hacer una revisión de la predicción del ancho de banda a través de modelos convencionales para la predicción de datos como son los modelos de colas (no correlación de datos). Muestra como los proveedores de la red están cada vez más interesados en proporcionar dinámicamente el ancho de banda proporcionado a los clientes sobre la base no estacionaria periódica y mide el tráfico para que cumpla acuerdos de nivel de servicio. En este trabajo se propone una dinámica de dotación de ancho de banda en el marco de esa situación. En este marco se abordan tres cuestiones fundamentales: (1) Estocásticos de la propiedad de tráfico pueden no estar disponibles, (2) Predicción del ancho de banda no debe sobre-estimación demasiado y debe

Page 30: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

30

evitarse en la medida de lo posible -en virtud de costos, y (3) la frecuencia de ancho de banda debería tener en cuenta los gastos generales incurridos debido a los costó de las actualizaciones.

Page 31: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

31

5. METODOLOGÍA

Dentro la parte metodológica se realiza un estudio desde el punto de vista académico y científico para determinar cuál será el método idóneo para realizar el pronóstico deseado. En el siguiente numeral se puede observar un resumen de los diferentes métodos explorados y la forma como se utiliza la metodología propuesta por Box y Jenkins como la guía de procedimiento para el tratamiento de los datos y modelamiento de la serie de tiempo en este trabajo. 5.1. MÉTODOS DE PRONÓSTICO Existen diferentes métodos de proyección o de pronóstico, lo cuales se relacionan en la Tabla 1 Tabla 1. Métodos de Proyección

Fuente [2]

Para construir este modelo, se adaptó al contexto multivariado la metodología propuesta por Box y Jenkins1 (1970), que consiste en el siguiente proceso iterativo establecido en la Figura 1.

Page 32: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

32

Figura 1. Metodología Box-Jenkins

Fuente [8]

5.1.1. Identificación. El principal objetivo que tiene esta etapa es determinar el orden del vector autorregresivo (el número de rezagos a incluir), basándonos en los criterios de información de Akaike, Schwartz y Hannan-Quinn. Como ya se ha mencionado la serie debe cumplir con el criterio de ser estacionaria de lo contrario se busca la transformación que haga posible que la serie lo cumpla. La metodología propuesta por Box y Jenkins (1970), está concebida para el tratamiento de series de tiempo univariantes, es decir, modelos ARIMA (p, d, q) x (P, D, Q)S, se ha adaptado aquí porque se considera que es un procedimiento bastante ordenado y lógico para la construcción de modelos de series de tiempo. Es preferible introducir en el VAR un número de rezagos lo suficientemente largo para capturar completamente la dinámica del sistema que se está modelando. Sin embargo, entre mayor número de rezagos incluyamos, más parámetros tendrán que estimarse (aproximadamente n (1 + np + rm)) y menos grados de libertad habrán. Existen diversos puntos de vista sobre incorporar variables estacionarias en un VAR pues el propio Sims (1980)[20] manifiesta que el objetivo de un VAR no es la estimación de sus parámetros, sino que más bien el estudio de las interrelaciones entre las variables.

5.1.2. Verificación de supuestos: Dado que la metodología de los vectores autorregresivos es relativamente flexible y no hay ningún impedimento en el hecho de considerar endógenas a todas las variables, no es costumbre el análisis de los coeficientes de regresión estimados

Page 33: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

33

ni sus significancias estadísticas; tampoco la bondad de ajuste de las ecuaciones individuales ( R2 y R 2 ). Pero sí es muy importante, que se cumpla el supuesto de ausencia de autocorrelación de los residuales de cada una de las ecuaciones individuales del modelo y la distribución normal multivariada de los mismos.

5.1.3. Uso del modelo Ya que hemos considerado adecuado el modelo, la siguiente etapa que sugiere la metodología Box – Jenkins es su utilización. Para este caso, se busca que el modelo construido ermita en primer lugar efectuar el proceso de simulación, que consiste en determinar los efectos aislados de cada una de las variables sobre el resto. Para llevar a cabo el proceso de simulación pueden ser empleadas dos herramientas: la función de impulso -respuesta y la descomposición de la varianza del error de predicción. Previo al análisis de la funciones de impulso – respuesta y al análisis de descomposición de la varianza del error de predicción, se puede examinar la causalidad “a la Granger” para determinar el carácter unidireccional o bidireccional de las series de tiempo involucradas. Con esto se facilita conocer la existencia y dirección de transmisión entre dos series de tiempo. Existen también diferentes criterios usados para evaluar pronósticos. El primero es el ajuste de las ecuaciones individuales en un contexto de simulación histórica, es de esperarse que los resultados de dicha simulación concuerden con el comportamiento del mundo real de una forma muy cercana. Al realizar el estudio de la series de tiempo VAR, se encuentran algunas ventajas y desventajas, dentro de las cuales cabe mencionar como ventaja, que los modelos de vector autorregresivo reproducen muy bien el comportamiento de las series reales durante el período de estimación. Y en cuanto a los pronósticos fuera del período de estimación (ex post), las series pronosticadas captan los puntos de viraje de las series reales y los valores pronosticados están muy cerca de los valores reales. Otra es que los vectores autorregresivos, son una herramienta de pronóstico muy útil pero solo a corto plazo y alrededor de la cuarta parte de sus parámetros estimados no son significativos estadísticamente hablando. En este aspecto, los modelos estructurales de ecuaciones simultáneas tienen un mejor desempeño para pronóstico a largo plazo y son más parsimoniosos. En el manejo de las series de tiempo se presentan algunas limitaciones, si las herramientas de simulación de los modelos VAR implementadas (impulso – respuesta y descomposición de la varianza del error de predicción) son atemporales y dependen del ordenamiento de las variables, ya que diferentes tipos de ordenaciones conducirán a resultados distintos. Se considera una desventaja de los modelos VAR, el no poder considerar relaciones no lineales entre las variables. Entre otras desventajas se pueden mencionar la imposibilidad de tomar en cuenta problemas sobreparametrización que en cierta forma no satisface el principio de parsimonia.

Page 34: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

34

Por otra parte, una desventaja de los modelos de ecuaciones simultáneas (los modelos VAR son considerados también modelos de ecuaciones simultáneas) es que a diferencia de los modelos uniecuacionales no existe una forma simple de calcular los intervalos de confianza debido a que los errores de pronóstico pueden estar compuestos de una manera compleja por la estructura de retroalimentación del modelo. Sin embargo, en estudios recientes, ha sido posible computar intervalos de confianza para pronóstico utilizando simulación estocástica. 5.2. APLICACIÓN DE LA METODOLOGÍA BOX-JENKINS Para las estimaciones en series de tiempo de las variables que se tratan en este trabajo, se empleó la metodología Box-Jenkins. A grandes rasgos consiste en cuatro pasos, que se explican a continuación:

Estabilizar la varianza y eliminar tendencias de la serie por medio de transformaciones o diferenciaciones, obteniendo una serie estacionaria. En este paso se decide el grado de diferenciación que se aplica a la serie, este valor corresponde al parámetro d.

Identificar y estimar un modelo para la serie estacionaria que se obtuvo. Se deben determinar los parámetros p y q según el modelo.

Se debe establecer la variabilidad, la tendencia y la estacionalidad de la serie original, aplicando transformaciones inversas.

El modelo estimado se valida mediante la correlación de los residuales, si llega a presentarse correlación, se reitera el proceso con la estimación de nuevos parámetros desde el segundo paso. Cuando se llega a un modelo definitivo, este se emplea para estimar datos sobre la serie.

El paso más importante en el ajuste de un modelo ARIMA es la determinación del orden de diferenciación necesaria para hacer que la serie sea estacionaria. La cantidad correcta de diferenciaciones es el orden de diferenciación más bajo que produce una serie de tiempo que fluctúa alrededor de un valor medio bien definido y cuya función de autocorrelación (ACF) decrezca rápidamente a cero, o bien desde arriba o desde abajo. Si la serie todavía exhibe una tendencia a largo plazo, o de otra manera carece de una tendencia a volver a su valor medio, o si sus auto correlaciones son positivas para un alto número de retrasos (por ejemplo, 10 o más), entonces se necesita un orden de diferenciación mayor. A continuación se listan algunas características que se deben cumplir para la identificación en un modelo ARIMA. Si la serie tiene autocorrelaciones positivas para un gran número de retrasos, es probable que se requiera un orden de diferenciación superior.

Page 35: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

35

Si el retraso de la primera autocorrelación es cero o negativo, o todas las autocorrelaciones son pequeñas y sin patrón alguno, entonces la serie no necesita un orden de diferenciación mayor. Si el retraso de la primera autocorrelación es (-0,5) o más negativo, la serie puede estar sobrediferenciada. El orden óptimo de diferenciación es a menudo el orden de diferenciación en el que la desviación estándar es más bajo. Un modelo sin órdenes de diferenciación supone que la serie original es estacionaria. Un modelo con un orden de diferenciación (1) supone que la serie original tiene una tendencia media constante. Un modelo con orden de diferenciación (2) supone que la serie original tiene una tendencia variable en el tiempo. Un modelo sin órdenes de diferenciación incluye normalmente un término constante que representa la media de la serie. Un modelo con orden de diferenciación (2) por lo general no incluye un término constante. Como se explicó anteriormente, las series temporales son una gran herramienta para el modelado de tráfico debido al comportamiento aleatorio de este. El objetivo de la aplicación del análisis de series de tiempo en la transmisión de un video en el segmento de red de RITA es obtener un modelo matemático aproximado del comportamiento de las pérdidas del canal y, en menor medida, la estimación a corto plazo del comportamiento futuro del canal en cuanto a dicha variable. De esta manera se puede caracterizar el comportamiento del canal para permitir estimaciones más significativas que permitan dimensionar futuras implementaciones. Cabe anotar que lo que se busca no es una predicción exacta de los valores futuros de la variable en mención sino el modelado matemático de la misma con el fin de formalizar los estudios previos sobre el canal. Las series de tiempo, por ser procesos estadísticos, requieren de un volumen de datos extenso en tamaño y por lo tanto el análisis de estos hace necesario recurrir a herramientas computacionales. Los datos, como se explicó en secciones anteriores, corresponden a capturas realizadas mediante un analizador de protocolos, estos datos debieron ser organizados y tratados desde una hoja de cálculo. Luego de tener los datos organizados, se procedió al análisis de estos con herramientas de cómputo especializadas en la visualización y manipulación de datos, básicamente se utilizó Lenguaje R, debido a que ya se tenía un dominio de esta herramienta.

Page 36: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

36

6. DESARROLLO DEL PROYECTO DE INVESTIGACIÓN

Este trabajo hace parte del proyecto que está realizando el grupo de investigación LIDER, acerca de la implementación de una plataforma para servicios Streaming y repositorio digital multimedia mediante aplicaciones IPv6 en la red RITA-UD con el fin de posibilitar la divulgación y socialización de las ponencias y participaciones en eventos nacionales e internacionales de la comunidad académica como apoyo a la investigación dentro de la Universidad. Actualmente la red RITA-UD se encuentra en etapa de pruebas y se implementó un canal que permite la comunicación del CECAD con el Grupo de Investigación y otras dependencias de la Universidad, entre ellas el Auditorio Sabio Caldas y la Sala de Investigadores ubicada en el tercer piso del Edifico Suarez Copete. Para ello se pretende realizar un análisis de tráfico y proyectar a través de un Modelo el comportamiento de los canales utilizado para dicho fin. 6.1. ESCENARIO PARA EL DESARROLLO DE LAS PRUEBAS Como se verá a continuación, se realizará el análisis de las posibles tecnologías que se pueden llegar a utilizar para la implementación de una estructura tecnológica que permita enlazar a los usuarios con los contenidos de video streaming, habilitando los servicios de tecnología avanzada para la red académica de la Universidad Distrital Francisco José de Caldas y RUMBO que propicien la conexión con otros centros de investigación nacionales e internacionales mediante estándares de nueva generación. Antes de revisar las posibles tecnologías que se pudieran llegar a emplear para enlazar a los usuarios de la comunidad académica con los contenidos de video streaming, se hizo necesario conocer las características técnicas de los equipos con que cuenta el centro de computación de alto desempeño CECAD y de los equipos disponibles en el Grupo LIDER.

6.1.1. Infraestructura CECAD-LIDER La infraestructura a la que está sujeto el enlace está compuesta por la que se tiene en el CECAD para interconectar el servidor con la red y la que está disponible en el grupo LIDER para la interconexión de los clientes.

6.1.2. Equipos del CECAD Se presenta una breve descripción tanto de los equipos de administración como de los host, nodos o equipos cliente y de esta manera se analiza la viabilidad de la implementación de las tecnologías estudiadas anteriormente. A continuación se relacionan los equipos presentes en el centro de computación de alto desempeño CECAD con una breve descripción. Estos equipos se clasifican en Equipos Administradores y Nodos. La Figura 3 muestra el esquema de red del CECAD.

Page 37: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

37

Equipos Administradores: Los equipos administradores son aquellos encargados de la gestión, administración y monitoreo de la transferencia de los paquetes a través de las diferentes redes que componen el CECAD y el tráfico de internet. La Tabla 2 contiene los su respectiva descripción. Tabla 2. Descripción de los equipos administradores

Equipo Descripción

ENRUTADOR CISCO 2821

Enrutador ubicado en el rack de comunicaciones.

Memoria RAM 512 MB.

Memoria Flash 256 MB. 36 puertos de salida de alimentación telefónica IP. Gigabit Ethernet.

SWITCH CATALYST WS-3750G-TS

Switch capa 3 encargado de la mayor parte de la transferencia de paquetes. (Switchcore CECAD)

Cuenta con 48 puertos 1000BASE-X

SWITCH CAPA 2 TALYST WS 2950-TS

Complementa al switchcore CECAD

Cuenta con 48 interfaces físicas GigabithEthernet.

SERVIDOR HP ProLiant DL160 G6 (Servidor

DNS).

Memoria RAM 28 GB

Disco Duro de 250 GB

Procesador Quad Core Intel Xeon Processor E5504 2.00 GHz.

Sistema operativo Scientific Linux SL release 5.5.

Fuente propia.

El CECAD cuenta como medio para la interconexión de los equipos con cables FTP estándar Categoría 6 de ANSI/TIA/EIA-568-B.2-1 para Gigabit Ethernet con características y especificaciones de ruido y crosstalk, alcanzando frecuencias de hasta 250 MHz en cada par y una velocidad de 1 Gbps.

Nodos: El centro de datos está conformado por varios equipos conocidos como nodos, los cuales van conectados a los switches y pertenecen a alguna de las redes dispuestas por el centro de computación de alto desempeño. La Tabla 3 contiene los equipos y la descripción de los nodos. Tabla 3. Descripción de los Nodos

Equipo Descripción

CLUSTER Dell HPCC

Consiste en una subred del segmento CECAD conectada al switch. 1 Máster 4 Supercomputadores 60 Nodos en modo Esclavo.

Page 38: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

38

RACK HP 9 cuchillas de una gran capacidad en memoria y procesamiento, cada una de estas máquinas cuentan con 2 tarjetas de red conectadas al switchcore.

SERVIDOR EMPRESARIAL S7A

Usado como servidor de almacenamiento en la SAN (storage área network) del centro de computación.

IBM BLADESERVER

6 cuchillas, en donde funcionan 2 servidores con direcciones públicas: Herbario Udistrital y ArgicServe. También 4 servidores con direcciones del segmento privado del CECAD que prestan servicios para la sala.

SALA DE MONITOREO

8 puntos de red, donde actualmente se encuentran conectados un equipo portátil dos equipos de escritorio y un equipo más, usado para visualización de dos televisores, que también tienen su respectiva conexión con el switchcore.

SALA GRID

Constituida por varios dispositivos como televisores, proyectores, Access Point, tablero electrónico, cámaras y equipo de video conferencia, todos ellos conectados al switchcore.

Fuente propia.

Una de las cuchillas del BLADESERVER aloja una máquina virtual que fue la que se utilizó como servidor para el repositorio de Video Streaming. Se instaló el sistema operativo Ubuntu 12.04 y la máquina cuenta con un procesador virtual QEMU de 2 núcleos y 4 GB de memoria RAM como se puede observar en la figura 2. Figura 2. Características del servidor

Fuente propia. Figura 3. Esquema de Red Centro de Computación de Alto Desempeño CECAD

Page 39: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

39

Fuente propia.

6.1.3. Equipos disponibles en el grupo LIDER

Cisco AP 541N Wireless Access Point El cisco AP541 es un punto de acceso 802.11n empresarial, diseñado para trabajar en entornos de radiofrecuencia. Proporciona conectividad inalámbrica fiable versátil de alto rendimiento que admite cualquier aplicación de datos móviles, LAN de voz sobre redes inalámbricas, monitoreo de video inalámbrico y acceso seguro para usuarios temporales. A continuación en la Figura 4 aparece el AP 541. Figura 4. CISCO AP 541

Page 40: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

40

Fuente

Cisco AP 541N Wireless Access Point Hardware Installation Guide El Access Point cumple con la norma IEEE 802.11 a/b/g/n y operar en las bandas de frecuencia de 2,4 GHz y 5 GHz. Permite configurar la potencia de salida para ajustar la separación de los demás dispositivos. Las antenas externas proporcionan cobertura omnidireccional para el entorno RF. Para IEEE 802.11a/b/g se tienen velocidades de hasta 54Mbps. Tiene 11 canales de operación y típicamente una sensibilidad de recepción de -69 dBm.

Nanostation 2 Las antenas NanoStation2 de la empresa Ubiquiti Networks, son dispositivos Wi-Fi que se pueden utilizar como punto de acceso o como clientes. Las NanoStation integran antenas de alta ganancia y un sistema de un sistema operativo (AirOS) avanzado capaz de manejar un poderoso sistema inalámbrico y funciones de enrutamiento, pero desarrollado con una interfaz de usuario simple, limpia e intuitiva que permiten implementar radioenlaces de una manera fácil y sin equipo especializado. Figura 5. NanoStation2

Fuente.

NanoStation2 Datasheet Ubiquiti Algunas de las especificaciones de las NanoStation son: Procesador: Atheros AR2315 SOC, MIPS 4KC, 180MHz Memoria: 16MB SDRAM, 4MB Flash Interfaz de red: 1 X 10/100 BASE-TX (Cat. 5, RJ-45) Ethernet Antena: Arreglo de antenas integrado + RP-SMA Externa Alimentación: Power Supply12V, 1A (12 Watts). Adaptador incluido. Método de alimentación: Power over Ethernet (pairs 4,5+; 7,8 return) Temperatura de operación: -20C a +70C (PCB optimizado para altas

temperaturas) Peso: 0.4 kg

Page 41: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

41

En los anexos se especifican algunos de los apartados utilizados en el proyecto que pueden ser configurados por medio de la página de administración del AirOS de las NanoStation

Linksys WRT54G

El Linksys WRT54G es el nombre del modelo de un router inalámbrico muy popular fabricado por Linksys, que permite interconectar varias estaciones mediante enlaces Ethernet 802.3 y 802.11g inalámbricas. Figura 6. Linksys WRT54G

Fuente.

Linksys WRT54G Datasheet Cisco Este router es único entre los dispositivos de consumo doméstico, debido a que los desarrolladores de Linksys tuvieron que liberar el código fuente del firmware del router para cumplir con las obligaciones de la GNU GPL. Este hecho permite a los entusiastas de la programación modificar el firmware para añadir o cambiar funcionalidades del dispositivo. Existen varios proyectos de desarrollo que proveen versiones mejoradas del firmware para el WRT54G y ha servido de base para el desarrollo de numerosas comunidades wireless. Todos los modelos vienen con un switch de 5 puertos (el puerto para internet está en el mismo switch pero en una VLAN diferente) y con un chipset inalámbrico de Broadcom. Asimismo, dispone de dos antenas externas conectadas a través de conectores de polaridad inversa TNC (RP-TNC), en la versión 8 se han retirado estos conectores, quedando las antenas fijas. Este dispositivo opera actualmente con el firmware DD-WRT, que es un firmware libre para diversos routers inalámbricos o WiFi que ejecuta un reducido sistema operativo basado en Linux. Está licenciado bajo la GNU General Public License versión 2.

Page 42: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

42

Desde la v23 en adelante están basadas en OpenWRT, que empezó siendo un firmware basado en el de Linksys pero más tarde cambió a su propio framework. Todos los firmwares están basados en Linux. Aparte de otras características que no se encuentran en el firmware original de Linksys, DD-WRT incluye el demonio de la red de juego Kai, IPv6, Sistema de Distribución Inalámbrico (WDS), RADIUS, controles avanzados de calidad de servicio (QoS) para la asignación de ancho de banda y control de potencia (con un ajuste posible de hasta 251mW, mucho mayor que la potencia por defecto del router).

Equipo Portátil DELL grupo LIDER Para la realización de pruebas de tráfico y recepción de video streaming, se utilizó un computador portátil marca DELL con procesador Intel Core i3, 4 GB de memoria RAM y se realizó la instalación del sistema operativo Ubuntu 12.04. Se instalaron también los programas de reproducción de video VLC, el sniffer de paquetes WireShark y se puso en funcionamiento el servidor VNC para tener acceso remoto a la máquina.

6.1.4. Opciones para la implementación del enlace. Debido a que se tienen múltiples opciones para realizar la conectividad desde el servidor alojado en CECAD hacia el grupo LIDER y considerando los recursos con que se cuenta, se plantean a continuación las posibles soluciones para el objetivo del proyecto y se analiza cual es la más apropiada dependiendo de las restricciones de tiempo, presupuesto, y la limitaciones en cuanto a las modificaciones a la infraestructura de red de la Universidad.

6.1.5. Delimitación de extremos del enlace. Como se mostró anteriormente, el servidor está conectado a un Switch cisco 2950, que actualmente cuenta con algunos puertos libres, por lo que se toma como uno de los dos extremos del enlace alguna de las interfaces de este Switch. Dentro del grupo LIDER se dispone de un Router inalámbrico Linksys WRT54G que actualmente no está siendo utilizado. Se propone este dipositivo como punto de acceso a la red RITA por ofrecer las funciones de Routing y Switching básicas necesarias para la interconexión con el servidor, por lo que se tomará este dispositivo como el otro extremo de la conexión.

6.1.6. Soluciones propuestas Al analizar los medios por los que se puede implementar el enlace se asume que los dos extremos ofrecen las mayores prestaciones posibles. Teniendo en cuenta que en ambos extremos se dispone de interfaces Fast Ethernet, se asume que en

Page 43: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

43

el mejor de los casos las características de la conexión están sujetas a las limitaciones para este estándar.

6.1.7. Tipo de enlace escogido Como se mencionó anteriormente, los equipos del CECAD están interconectados con cable Categoría 6 de ANSI/TIA/EIA-568-B.2-1 para Gigabit Ethernet, queda claro que se debe respetar el cableado definido teniendo en cuenta la eficiencia que ofrece en cuanto a velocidad, calidad y escalabilidad de la red se refiere ya que permitirá que la instalación sea escalable, apta para abordar ampliaciones futuras y maximizar su durabilidad en el tiempo. El principal limitante para la opción de fibra óptica es el costo que tendría su implementación para ofrecer ventajas ante las otras tecnologías. Dentro del extremo del grupo LIDER no se cuenta con un dispositivo de red de fibra óptica y la compra de uno supera en demasía el presupuesto del proyecto. Una solución a este inconveniente es utilizar un convertidor de señal óptica a eléctrica para adaptar la fibra a Ethernet, sin embargo dentro del grupo LIDER no se cuenta con un dispositivo Gigabit Ethernet, con lo cual la fibra no aporta un beneficio sobre la solución por UTP o STP. Descartando la fibra como solución viable se analiza la solución por UTP o STP. Las opciones Ethernet y Fibra óptica presentan una desventaja común; el tendido del cable. Actualmente se tiene un canal de cableado en la universidad que comunica la sede central con el Edifico Sabio Caldas. La posibilidad de obtener un permiso para intervenir este canal y otra infraestructura de la universidad se ve limitada por la dimensión del proyecto y sus beneficios, que no justifican aun la inversión y el costo que implica el tendido por el canal mencionado. Además, a lo anterior se suma el tiempo que puede tomar la gestión de los permisos necesarios para la implementación de este tendido y su impacto en el tiempo propuesto para el desarrollo del proyecto. Como la necesidad presente era dar conectividad al grupo de investigación LIDER ubicado en el tercer sótano del edificio de Ingenierías, desde el Centro de Computación de Alto Desempeño CECAD ubicado en el Edificio Sede Central y la distribución de los espacios físicos de los dos edificios representaban un obstáculo para la solución cableada a pesar de no exceder la distancia máxima de 100 metros soportada por el estándar, y considerando que un enlace de fibra óptica elevaría los costos de implementación, se optó por la opción inalámbrica o híbrida, teniendo en cuenta que estas pueden ser implementadas en corto plazo con los dispositivos dispuestos por el grupo LIDER.

Page 44: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

44

6.2. IMPLEMENTACIÓN DEL ENLACE En esta fase se propuso realizar la implementación y el estudio de la conexión a la red RITA-UD desde un punto de acceso inalámbrico. Lo que se buscó fue ubicar un router inalámbrico conectado a la red RITA-UD en un punto específico de la universidad estableciendo un enlace hacia el grupo de investigación LIDER con el fin de permitir a la comunidad académica involucrada con la investigación, hacer uso del servicio de Video Streaming y acceder al metaverso de la Facultad de Ingeniería de la Universidad Distrital Francisco José de Caldas, teniendo de esta manera la plataforma para la divulgación de contenidos y de las ponencias y participaciones de la comunidad académica en eventos nacionales e internacionales a través de medios tecnológicos de acuerdo a las exigencias de estamentos como el CIDC.

6.2.1. Enlace hacia CECAD Para el enlace entre la oficina del grupo LIDER ubicada en el sótano 3 del Edificio de Ingenierías y el Centro de Computación de Alto Desempeño ubicado en el Edificio Sede Central se hizo uso del Access Point Cisco AP 541 conectado al SwitchCore 2950. La red inalámbrica radiada por el Access Point es repetida por 2 antenas NanoStation configuradas como AP repetidores llevando el acceso a RITA de forma inalámbrica hasta el Auditorio Sabio Caldas y finalmente al grupo LIDER a través del Router LinkSys. Desde este segmento inalámbrico de RITA se accede al repositorio de VideoStreaming y se abre la posibilidad de trabajar en radiar RITA para toda la Facultad de Ingeniería y las principales Sedes de la Universidad Distrital (Proyecto desarrollado por otros integrantes del grupo LIDER). Para el montaje del enlace, como se ha venido explicando, se dispusieron los equipos de CECAD y de LIDER, el paso siguiente fue decidir la ubicación de dichos equipos y planear la instalación de estos en la planta física de la Universidad. Las antenas NanoStation debían ubicarse a una altura que favoreciera el enlace, donde no tuvieran fácil acceso de personal no autorizado a su manipulación; debían tener línea de vista para que la potencia de la señal fuera la indicada y además cada una debía tener una posición estratégica para el enlace. La NS1 debía estar cerca de CECAD mientras que la NS2 debía estar apuntando al sótano donde se ubicaría el Router Linksys que daría conectividad al grupo LIDER. Para la instalación de estos equipos se debió hacer una solicitud al departamento de Recursos Físicos de la Universidad Distrital, donde se manifestaba la necesidad de fijar en 2 muros los dispositivos, describiendo las dimensiones y especificando el uso que se les daría. Esté proceso tardó 15 días en ser contestado, autorizando dicha instalación. Se requirió de los servicios de una persona capacitada para trabajar en alturas, ya que la segunda antena tenía que ubicarse necesariamente debajo de la escalera principal del edificio en un vacío de aproximadamente 10 metros, la antena que se instaló en la Sede Central era de fácil instalación, pero esta labor también la desempeñó el instalador.

Page 45: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

45

En el momento de instalación de los equipos, estos habían sido previamente configurados al igual que el Access Point CISCO AP541 ubicado en CECAD y el LinkSys ubicado en LIDER. Inicialmente se planeó trabajar inalámbricamente desde CECAD hasta LIDER, sin embargo haciendo mediciones previas se obtuvo que la señal recibida por la primera estación era demasiado débil debido a los obstáculos existentes entre el Access Point ubicado en CECAD y la primera antena, y por lo tanto el ancho de banda no era el adecuado. Por lo anterior se propuso remplazar el primer segmento inalámbrico por uno cableado. La anterior solución se implementó habilitando un punto de red en el Switch 2950, ubicado también en CECAD y cableando un tramo de aproximadamente 30 metros con cable CAT 6 hasta la antena para asegurar un mejor ancho de banda entre esos dos puntos. La instalación del LinkSys fue más sencilla, ya que se pudo ubicar en una viga estructural que permitía que este dispositivo tuviera línea de vista con la segunda antena. Como el objetivo de la implementación del segmento inalámbrico de RITA es el de realizar pruebas e identificar las necesidades para un servicio óptimo, también se configuró un cliente dentro de la oficina del grupo LIDER, con el que se recibe streaming de video en Unicast y Multicast, se transmite video hacia el repositorio de video digital y se realizaron las pruebas de tráfico que permitieron obtener conclusiones sobre el canal implementado. En la Figura 7 se muestra la ubicación propuesta de las dos antenas en un plano de la Planta física del primer nivel para la Sede Central y el Edificio Sabio Caldas, el Access Point y las antenas se representan con puntos rojos y se muestra su diagrama de radiación aproximado. Figura 7. Enlace hacia CECAD

Fuente Propia

Page 46: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

46

6.2.2. Ancho de Banda Teórico del Canal La opción hibrida escogida presenta varias limitaciones relacionadas principalmente con el ancho de banda del enlace. A continuación se hace un breve análisis con el fin de determinar la velocidad que se espera obtener del enlace asumiendo condiciones óptimas. Para este análisis se tuvieron en cuenta los valores de ancho de banda de interfaz referidos al estándar (WiFi y Ethernet) y de throughtput2 para cada uno de los dispositivos según las hojas de datos correspondientes. El switch cisco 2950 tiene una capacidad de procesamiento de 13,6 Gbps, con lo cual su versión de 48 puertos (la que se tiene en el CECAD) ofrece una velocidad mínima teórica aproximada de 290 Mbps por interfaz Gigabit Ethernet o una velocidad de cable para todas sus interfaces en FastEthernet. Sin embargo, esta velocidad para los estándares se ve reducida por encabezados, acuses de recibo (en ciertos protocolos), velocidad de las interfaces de los host, capacidades de procesamiento y memoria etc. El Throughput para Gigabit Ethernet puede variar bastante, sin embargo para este caso no es relevante teniendo en cuenta que el resto del enlace limita la velocidad del canal. El throughput típico para fast ethernet es de 80 Mbps Las antenas nanostation 2 también están limitadas por el estándar 802.11g que ofrece un Throughput típico aproximado de 23 Mbps Así, los valores máximos entre puntos del enlace teniendo en cuenta la velocidad y el Throughput especificados por los estándares se muestran en la Figura 8. Figura 8. Valores máximos de velocidad y Throughput en los puntos del enlace

Feunte Propia

2McLean, P. “Exploring Time Capsule: theoretical speed vs practical Throughput” [En línea] Disponible en

internet: <http://www.appleinsider.com/articles/08/03/28/exploring_time_capsule_theoretical_speed_vs_practical_Throughput.html>

Page 47: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

47

Generalmente en una transmisión el ancho de banda está limitado por el del enlace más lento entre los extremos. No obstante una transmisión que pasa por dispositivos inalámbricos repetidores se ve aún más limitada debido a que cada dispositivo debe recibir y transmitir por una única interfaz, dividiendo de esta forma la velocidad a la mitad. Con el siguiente análisis se estima la velocidad máxima teórica ofrecida por el enlace teniendo en cuenta la velocidad del estándar y el Throughput: El segmento cableado desde CECAD hasta el switch transmite a 1000 Mbps y desde este último hasta la primera antena puede transmitir hasta 100 Mbps (80 Mbps de Throughput), sin embargo al llegar a la primera nanostation esta capacidad se ve limitada a los 54 Mbps que puede entregar la interfaz WiFi (23 Mbps de Throughput). La segunda nanostation, configurada como Access point divide el ancho de banda entre la cantidad de usuarios conectados. Como se conectan como clientes la primera nanostation y el router Linksys, esta divide el máximo ancho de banda (54 Mbps del enlace o 23 Mbps de Throughput) en 2, por lo cual recibe 27 Mbps (11.5 Mbps de Throughput) de la nanostation 1 y retransmite a esta misma tasa hacia el router inalámbrico ubicado en el sótano. Finalmente este router en modo repetidor divide nuevamente esa tasa a la mitad, por lo que una estación cercana al Access point debería recibir a una tasa de 13.5 Mbps (5.75 Mbps de Throughput) o lo que es igual, 1.68MBps (0.72 MBps de Throughput). La Figura 9 ilustra lo anteriormente dicho: Figura 9. Valores máximos teóricos ofrecidos por el enlace

Fuente propia.

Cabe anotar que lo anterior no significa necesariamente que se pierda parte de la información al viajar a través del enlace ya que algunos protocolos de diferentes capas tienen control de flujo para regular la velocidad de transmisión, sino la

Page 48: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

48

velocidad teórica máxima que debería asumirse en una transmisión para no saturar el canal.

6.2.3. Direccionamiento Gracias al esfuerzo del grupo LIDER por generar proyectos en pro del desarrollo de la red RITA y a las implementaciones desarrolladas en este proyecto dentro de esta, se evidenció la necesidad de un diseño segmentado de direccionamiento dual para la misma, con el fin de organizar y dividir en subredes la red principal. Se observó que la red RITA no tiene una infraestructura ni un direccionamiento de red definido. El servidor en el que montó Opensim pertenecía a la red interna del CECAD, que es accesible desde la WLAN con SSID “DoctoradoIngenieria”. Además de esto se encontró que anteriores proyectos no han estado enmarcados dentro de un segmento de red específico dentro de la red académica y del CECAD. Por lo anterior se propone la implementación de una red con direccionamiento IPv4 10.0.0.0/8 como prueba piloto para la organización de la red, con miras a implementar de la misma manera el direccionamiento IPv6 asignado por la red RUMBO. El diseño del segmento de red y su organización no hace parte de los objetivos de este proyecto, sin embargo se propone y se asume un esquema tentativo de red jerárquica con las siguientes características:

Direccionamiento IPv4

Una red principal con direccionamiento privado 10.0.0.0/8 lo cual permite un máximo teórico de 16.777.214 host, permitiendo así la escalabilidad y la flexibilidad en el diseño de la red y su futura segmentación. Teniendo en cuenta que la universidad cuenta actualmente con alrededor de 10 sedes y pensando en la escalabilidad del direccionamiento IPv4, se asumen 64 subredes con máscara de subred 255.252.0.0, que podrían ser asignadas por facultad o sede, y cada una de las cuales tendría la capacidad de albergar 262.142 host. Adicionalmente cada subred podría dividirse en 4 pequeñas redes para permitir la segmentación entre investigadores, profesores, estudiantes o invitados. Finalmente se podría dividir cada subred de estas en subredes con máscara de 255.255.252.0 para cada grupo de investigación, de profesores, estudiantes, etc. Con esto cada subred para grupos finales tendría la posibilidad de albergar 1024 host. Posteriormente con el uso de VLSM podrían alcanzarse grupos mayores dependiendo de las necesidades de cada uno y así desperdiciar la menor cantidad de direcciones posibles. El esquema planteado y sus posibles usos se plasman en la

Page 49: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

49

Figura 10. Figura 10. Posibles Usos del esquema de Direccionamiento Propuesto

Fac Tec

RITA

Fac Ing

LIDER GrupoX Usos Futuros

Inv Prof Usos Futuros

Usos Futuros

Fuente propia.

Con lo anterior, se asume una dirección de red 10.0.0.0/14 para la Facultad de ingeniería, una subred 10.0.0.0/16 para investigadores, dentro de la cual se asociarían 4 subredes finales en la 10.0.0.0/20 para el grupo LIDER, permitiendo 4094 host y que albergaría una última subred 10.0.0.0/23 para el servidor del repositorio y 509 host clientes.

Direccionamiento IPv6

Teniendo en cuenta que IPv6 está pensado para romper con la limitación del número de direcciones que se pueden asignar en cualquier red, y que cualquier red académica (como RITA) que desee pertenecer a redes de orden superior (como RUMBO) debe solicitar y respetar el direccionamiento asignado por las autoridades de estas últimas, el direccionamiento jerárquico se propondrá en función del segmento de red asignado a la Universidad Distrital. La dirección raíz asignada a la universidad distrital es la 2001:13F8:0:1001::8/64 para la WAN y la 2001:13F8:1150::/44 para la LAN, esta última es la de interés en este trabajo teniendo en cuenta que no se trata la conexión con redes de orden superior. Para la etapa de pruebas se tomara la misma jerarquía y orden que se asumió en IPv4, así la red 2001:13F8:1150::/44 sería equivalente a la 10.0.0.0/8, la 2001:13F8:1150::/50 a la 10.0.0.0/14 y así sucesivamente. Con lo anterior el esquema de direccionamiento quedaría como se muestra en la Tabla 4.

Page 50: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

50

Tabla 4. Esquema de direccionamiento Propuesto

Nombre

campo Prefijo de red raíz

Sede o Facultad

Tipo acceso

Grupo final Dispositivo (Interfaz)

IPv4 10.0.0.0

Tamaño campo

8 bits 6 bits 2 bits 6 bits 10 bits

Prefijo /8 /14 /16 /22 /32

IPv6 2001:13F8:1150::

Tamaño campo

44 bits 6 bits 2 bits 6 bits 70 bits

Prefijo /44 /50 /52 /58 /128

Fuente Propia.

Cabe anotar que el esquema descrito es tan solo una propuesta y que el direccionamiento IPv6 se hizo de esa forma para tener la misma jerarquía que se planteó en IPv4 pero se recomienda para un direccionamiento óptimo un análisis profundo de la jerarquía a utilizar dependiendo de las necesidades que se identifiquen para la red, y ampliar o reducir los prefijos de cada subred para aprovechar las ventajas del direccionamiento ampliado de IPv6 frente a IPv4. Con lo anterior se puede redistribuir el espacio de red para tener subredes más grandes que permitan mayor flexibilidad en el uso de las direcciones Dentro de los objetivos de este trabajo no se contempló la elaboración de un direccionamiento definitivo para la red, sin embargo debido al entorno donde se implementará, al nivel de seguridad requerido, a la disponibilidad de direcciones suficientes y la capacidad de realizar Subneting se propuso trabajar con la red privada 10.0.0.0. La dirección de Multicast empleada será la 224.0.0.1. El servidor DHCP asignará direcciones desde la 10.0.0.128 hasta la 10.0.0.254, en total 126 direcciones, más que suficientes para el segmento inalámbrico de RITA-UD destinado a la realización de pruebas de transmisión de video para el repositorio digital. Los equipos que se conectan a la red son usuarios habituales, pero aun así reciben los datos de red de un servidor DHCP, por lo que cualquier cambio en el direccionamiento IP de la red será muy sencillo de realizar.

Page 51: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

51

El direccionamiento empleado para el segmento de red es el 10.0.0.0. En la Tabla 5 se relacionan las direcciones IP que se asignaron a los dispositivos en el segmento de red. Tabla 5. Direccionamiento IP de los dispositivos empleados para el enlace

Dispositivo Dirección IP

Servidor de VideoStreaming 10.0.0.10

NanoStation NS1 10.0.0.21

Nanostation NS2 10.0.0.22

LinkSys 10.0.0.23

PC Cliente 10.0.0.128

Fuente propia.

6.2.4. Configuración de los dispositivos. La NanoStation NS1 se configura como Station, por lo cual no admitirá conexiones de clientes ya que se trata de un enlace unidireccional hacia la siguiente antena. Esta estación recibe el SSID “RITA” de la antena NS2 y se convierte en cliente de esta. La configuración de la NS1 se puede ver en la Tabla 6. Tabla 6. Parámetros de configuración para la NanoStation NS1

Parámetro Valor

Modo Inalámbrico Estación

MAC AP 00:27:22:34:B2:97

SSID RITA

Modo IEEE 802.11 B/G Mixto

Anchura de Espectro de Canal 20 MHz

Potencia de Salida 19 dBm

Velocidad de datos 54 Mbps

Seguridad WPA2

Modo de Red Bridge

Dirección IP 10.0.0.21

Máscara de Red 255.255.255.0

IP Puerta de Enlace 10.0.0.10

Dirección MAC 00:27:22:82:91:7C

Algoritmo de Velocidad EWMA

Datos de Multicast Habilitado

Tasa de Multidifusión 54

Configuración de Antena Horizontal

Fuente propia

La Nanostation NS2 se configura como Access Point con un SSID “RITA” y adicional a que se enlaza con la antena NS1 y el LinkSys ubicado en el sótano 3, brinda conectividad a clientes inalámbricos en el Auditorio Sabio Caldas de la Facultad de

Page 52: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

52

Ingenierías. La configuración de la NS1 se puede ver en la Tabla 7. Tabla 7. Parámetros de configuración para la NanoStation NS2

Parámetro Valor

Modo Inalámbrico Punto de Acceso

SSID RITA

Modo IEEE 802.11 B/G Mixto

Anchura de Espectro de Canal 20 MHz

Potencia de Salida 21 dBm

Velocidad de datos 54 Mbps

Seguridad WPA2

Modo de Red Bridge

Dirección IP 10.0.0.22

Máscara de Red 255.255.255.0

IP Puerta de Enlace 10.0.0.10

Dirección MAC 00:27:22:34:B2:97

Algoritmo de Velocidad EWMA

Datos de Multicast Habilitado

Tasa de Multidifusión 54

Configuración de Antena Horizontal

Fuente propia

El LinkSys WRT54G se configura como repetidor puenteado y es cliente de la antena NS2. Con esto se tiene el último salto dando conectividad a los clientes inalámbricos del grupo de investigación LIDER. Todos los dispositivos inalámbricos se configuraron para un ancho de espectro del canal de 20 MHz que es el máximo que soportan. En cuanto a la seguridad en la red, se emplearon ciertas técnicas sencillas que son aplicadas comúnmente en entornos inalámbricos, de las cuales se emplearon las siguientes:

Ocultar el SSID de la red: Consiste en que solamente quien conozca el nombre de la red se podrá conectar a ella, no es del todo seguro ya que con el uso de un sniffer inalámbrico se pueden obtener los datos necesarios para conectarse a la red.

Filtrado de las MAC: Consiste en configurar el Access Point para que solo permita conectarse a aquellas direcciones MAC que se especifiquen. Esta técnica también puede ser vulnerada con un clonado de MAC.

WPA2: Este método de cifrado se basa en el algoritmo AES, es el método de cifrado de claves actual más utilizado para entornos inalámbricos teniendo en cuenta el nivel de seguridad que ofrece.

6.3. CONFIGURACIÓN DEL SERVICIO DE MEDIA STREAMING Para el servicio de Media Streaming se empleó VLC. VLC es una aplicación de código libre y abierto para video y efectos multimedia producido por el equipo de

Page 53: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

53

VideoLAN bajo licencia GPL. Se escogió hacer uso de este software para el servicio de Media Streaming dando continuidad a trabajos de investigación realizados previamente en el GRUPO LIDER y a las necesidades del presente proyecto. VLC es un reproductor portable y multiplataforma, con versiones para Microsoft Windows, GNU/Linux, Mac OSX, BeOS, BSD y eComStation, entre otros. Los formatos legibles para reproducción en VLC se muestran a continuación en la Tabla 8. Tabla 8. Formatos legibles para reproducción VLC

Función Formatos Soportados

Formatos de Archivo

UDP/RTP HTTP FTP MMS

RTSP RTMP DVD VCD SVCD

CD Audio Video acquisition RSS/Atom DVB

Formatos Contenedor

3GP ASF AVI FLV Matroska Ogg

.mid/.midi QuickTime MP4 OGM WAV MPEG-2

AIFF Raw audio Raw DV MXF VOB

Formatos de Video

Cinepak Dirac DV H.263 H.264/MPEG-4 AVC WebM

HuffYUV Indeo 3 MJPEG MPEG-1 MPEG-2 MPEG-4 RealVideo 3&4

Sorenson Flash Video Ogg Theora VC-1 VP5 VP6 WMV

Formatos de Subtítulos

DVD SVCD DVB OGM

SubStation SubRip MPEG-4TimedText documento de texto

Vobsub MPL2 Teletext

Formatos de Audio

AAC AC3 ALAC AMR DTS

DV Audio FLAC MACE MP3 QDM2/QDMC

RealAudio Speex Screamtracker 3/S3M TTA Vorbis y WMA

Fuente propia.

Para salidas de Streaming VLC soporta los siguientes formatos mostrados en la Tabla 9. Tabla 9. Formatos para salida de Streaming en VLC

Función Formatos

Formatos de audio y video embebido

ASF AVI FLV

MP4 Wav MPEG-2

MPJPEG FLAC MOV

Formatos de video H.263 MPEG-1 VP6

Page 54: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

54

H.264/MPEG-4 AVC MJPEG

MPEG-2 MPEG-4 Part 2 VP5

Theora DV

Formatos de audio AAC AC3 DV Audio

FLAC MP3 Speex

Vorbis

Protocolos de Streaming

UDP HTTP

RTP RTSP

MMS File

Fuente propia.

VLC puede ser configurado de acuerdo a las necesidades del usuario, ofrece multiplicidad de opciones de compresión de video y de audio, así como la posibilidad de seleccionar y modificar características propias del tipo de formato. El buen uso de este tipo de opciones puede optimizar el uso del ancho de banda y una reducción en la cantidad de paquetes perdidos al simplificar la trama de datos enviada. Dentro de las muchas cualidades de VLC además de su fácil manejo se pueden mencionar las siguientes:

Compresión de video: Incluye opciones de compresión de video mediante la opción de Transcodificación, además de diferentes formatos de audio y video.

Control QoS de la capa de aplicación: Incluye opciones de control de retardos y factor de Calidad.

Servicio de distribución multimedia continua: En algunos protocolos de Streaming tiene la opción de escoger opciones de distribución continua.

Servidores de Streaming: Tiene muchas opciones en la capa de aplicación para videos.

Protocolos de media Streaming: Soporta HTTP, RTP.

Soporte IPV6 en LINUX: Soporta Multicast en HTTP

Soporte a Software y usuarios: Se encuentra bastante información y documentación en foros de desarrolladores y de usuarios.

El Multicast es la habilidad de enviar un paquete único a destinos múltiples, esta especificación es la base del protocolo IPv6 con mejoras al protocolo IPv4. En VLC se puede configurar el soporte del protocolo IPv6, para que con los métodos de compresión seleccionados, los modos de almacenamiento y políticas de QoS se pueda ofrecer un excelente servicio de Streaming a través de la Red de Investigación de Tecnología Avanzada de la Universidad Distrital RITA-UD. Los protocolos están estandarizados para la comunicación entre clientes y servidores. Los protocolos soportados por VLC son:

RTP/UDP

RTSP

Page 55: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

55

RTP/DCCP

RAW UDP

RTP Multicast

File

HTTP

MMSH

Como se sabe, los protocolos de transporte UDP y TCP tienen ventajas y desventajas, TCP brinda mejor respuesta a errores aunque significa un retardo en la entrega de datos debido al seguimiento de los paquetes, mientras que UDP garantiza una comunicación rápida pero no realiza corrección de errores ni verificación de paquetes recibidos, por esta razón se recurre a protocolos superiores tales como RTP.

6.3.1. Emisión en VLC sobre Multicast IPv6 Las direcciones Multicast en IPv6 identifican un grupo de interfaces. Un paquete destinado a una dirección multicast llega a todos las interfaces que se encuentran agrupadas bajo dicha dirección. La RFC2373 3 trata la arquitectura de direccionamiento IP Versión 6, donde se pueden encontrar las direcciones IPv6 reservadas. De acuerdo a la estructura de dirección multicast IPv6, se procedió a la elección de una ruta por defecto para la emisión de video streaming. Como la emisión es de carácter local, el ámbito correspondiente para la dirección es (8 ORGANIZATION-LOCAL) y la Bandera con T=0 para asignar permanentemente la dirección de multicast como la ruta de multicast por defecto. Entonces la dirección que se empleó fue ff08::1. En la Figura 11 se muestra la estructura de una dirección multicast IPv6. Figura 11. Dirección Multicast IPv6

Fuente propia.

Como se explicó anteriormente, para la emisión de video desde el repositorio se empleó VLC como servidor de streaming. Después de estar situados en la pantalla

3 Request for Comments 2373 – Ipv6 Addressing Architecture. 1988. [Citado diciembre 2011].

Disponible en internet: <http://www.ietf.org/rfc/rfc2373.txt>

Page 56: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

56

principal del programa, se selecciona la opción Emitir (Control+S) del menú Medio. Aparecerá la ventana de la Figura 12. Figura 12. Abrir medio VLC

Fuente propia.

En esta ventana de diálogo se seleccionan los archivos a emitir y a continuación se da click en Stream. En el apartado Destinations se debe seleccionar el protocolo de streaming como se muestra en la Figura 13. Figura 13. Salida de Emisión VLC

Fuente propia.

Para la emisión Multicast, se selecciona el protocolo RTP/MPEG Transport Stream y luego se hace clic en agregar. Aparecerá la ventana de la Figura 14, donde se indica la dirección de multicast. Para el caso, se colocó la dirección de multicast IPv6 ff08::1. VLC utiliza el puerto 5004 por defecto para el envío de RTP.

Page 57: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

57

Figura 14. Configuración de destinos VLC

Fuente propia.

Si se habilita la transcodificación, se debe verificar que el formato seleccionado sea compatible con el método usado. El Streaming Media en OpenSim emplea QuickTime para la reproducción de los contenidos, es por esta razón que el formato de VLC usados en la transmisión será MP4/MOV. En la Figura 15 se muestra la configuración del encapsulamiento, del códec de video y el códec de audio en VLC para el Streaming. Figura 15. Configuración Encapsulamiento, Códec de video y de audio en VLC

Fuente propia.

Page 58: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

58

6.3.2. Monitoreo del tráfico con Wireshark Wireshark es un analizador de protocolos de gran reconocimiento en el monitoreo de redes. Mediante esta potente herramienta se realizaron ciertas pruebas de conectividad y de envío y recepción de paquetes ente el servidor y el cliente.

6.3.3. Contenido utilizado para las pruebas de Video Streaming Se realizaron las pruebas con tres videos de prueba y con diferentes tipos de configuraciones para analizar el comportamiento de la red. En la Tabla 10, Tabla 11 y Tabla 12 se muestran las características de los videos 1, 2 y 3 respectivamente. Tabla 10. Características del video 1

Vid

eo Dimensiones 490 x 360

Códec MPEG-4 Video

Cuadros/s 25

Tasa de bits 288 kbps

Au

dio

Códec MPEG-4 AAC Audio

Canales Estéreo

Tasa de muestreo 44100

Tasa de bits 125 kbps

Fuente propia. Tabla 11. Características del video 2

Vid

eo Dimensiones 854 x 480

Códec MPEG-4 Video

Cuadros/s 30

Tasa de bits 2475

Au

dio

Códec MPEG-4 AAC Audio

Canales Estéreo

Tasa de muestreo 44100

Tasa de bits 63

Fuente propia. Tabla 12. Características del video 3

Vid

eo Dimensiones 1920 x 1080

Códec H.264/AVC

Cuadros/s 24

Tasa de bits 5112 kbps

Au

dio

Códec MPEG-4 AAC Audio

Canales Estéreo

Tasa de muestreo 44100

Tasa de bits 151 kbps

Fuente propia.

Page 59: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

59

En todas las emisiones se desactivó la opción de Transcodificación (proceso de cambiar el códec y la encapsulación a un archivo de video) que trae VLC activada por defecto para evitar cambios en la carga que los videos agregan a la red.

6.3.4. Proceso utilizado en la realización de pruebas Para la realización de todas las pruebas se utilizó el mismo procedimiento: Configurar wireshark e iniciar la captura de los paquetes de interés,

generalmente mediante el número de puerto Iniciar la herramienta que permita la alteración del tráfico con el fin de crear los

diferentes escenarios. Configurar VLC con los parámetros requeridos para las diferentes condiciones. Detener la captura de paquetes con wireshark. Detener la emisión de VLC. Detener la herramienta generación de tráfico. Realizar el seguimiento del flujo RTP mediante la herramienta Stream Analysis

de wireshark. Extraer los datos necesarios para hacer la comparación de los escenarios.

6.3.5. Monitoreo de RTP Una de las posibilidades de emisión de streaming en VLC es mediante el protocolo HTTP, que se sustenta sobre el protocolo de transporte TCP. Sin embargo como se sabe, TCP es orientado a la conexión, por lo cual agrega retardos indeseables en una transmisión de contenido en tiempo real. Por esto se hace uso de RTP, sustentado en UDP y que permite un control de la transmisión en tiempo real. En Wireshark es posible hacer un seguimiento de un flujo RTP mediante la opción Stream Analysis del menú Telephony, RTP. Para las pruebas realizadas en este proyecto la única configuración relevante en wireshark es hacer un filtrado de paquetes por número de puerto, con el fin de reducir los paquetes que se deben capturar aunque la herramienta Stream Analysis permite hacer seguimiento de flujos RTP entre diferentes tipos de tráfico. El número de puerto que se utilizo para la emisión de streaming fue el 5004, que viene configurado por defecto en VLC para RTP. En la Figura 16 se observa la captura de un paquete RTP sobre IPv6, también se puede observar el campo DSCP configurado en Expedited Forwarding y la configuración de direcciones multicast en capas 3 y 2. Estas configuraciones se hicieron directamente en VLC del lado del servidor. Se estableció el DSCP con los valores de 184, 88 y 0, todos en decimal, valores que corresponden a las clases de tráfico Expedited Forwarding, Assured Forwarding (Clase 2, precedencia de descarte alta) y Best Effort, respectivamente.

Page 60: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

60

Figura 16. Captura de un paquete RTP

Fuente propia.

La herramienta Stream Analysis se muestra en la Figura 17, esta herramienta permite extraer datos de jitter duración, ancho de banda entre otros. Además casi todas las tablas generadas en Wireshark y sus herramientas pueden exportarse como csv para análisis más específicos de los datos. Figura 17. Herramienta Stream Analysis de Wireshark

Fuente propia.

Page 61: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

61

6.4. MODELADO EN SERIES DE TIEMPO UNIVARIADAS Como se explicó anteriormente, las series temporales son una gran herramienta para el modelado de tráfico debido al comportamiento aleatorio de mismo. El objetivo de la aplicación del análisis de series de tiempo en la transmisión de un video en el segmento de red de RITA es obtener un modelo matemático aproximado del comportamiento de las pérdidas del canal y otras variables para finalmente obtener una estimación a corto plazo del comportamiento futuro del canal en cuanto a dichas variables. De esta manera se puede caracterizar el comportamiento del canal para permitir estimaciones más significativas que permitan dimensionar futuras implementaciones. Cabe anotar que lo que se busca no es una predicción exacta de los valores futuros de la variable en mención sino el modelado matemático de la misma con el fin de formalizar los estudios previos sobre el canal. Las series de tiempo, por ser procesos estadísticos, requieren de un volumen de datos extenso en tamaño y por lo tanto el análisis de estos hace necesario recurrir a herramientas computacionales. Los datos, como se explicó en secciones anteriores, corresponden a capturas realizadas mediante un analizador de protocolos, estos datos debieron ser organizados y tratados desde una hoja de cálculo. Luego de tener los datos organizados, se procedió al análisis de estos con herramientas de cómputo especializadas en la visualización y manipulación de datos, básicamente se utilizó el software GRETL y Lenguaje R, debido a que ya se tenía un dominio de esta herramienta.

6.4.1. Organización de los datos Dado que el análisis propuesto se enfoca inicialmente en la variable “pérdida de paquetes” para los modelos ARIMA y SARIMA, sin incluir índices adicionales de desempeño, porteriormente se tienen en cuenta otras variables dentro del canal como latencia, jitter u otros. Inicialmente se trabaja las series de tiempo univariadas para la representación de los datos teniendo en cuenta que permiten analizar el comportamiento de la variable en sí misma sin pretender explicar los factores que influyen en esta. Para poder hacer una buena representación con series de tiempo se debe escoger un intervalo de tiempo que capture de alguna forma un comportamiento descriptivo para el patrón que se desea analizar. En econometría por ejemplo, este problema depende generalmente de la periodicidad con la que se obtengan los datos (índices mensuales, anuales, trimestrales, etc). En el tráfico de datos cada paquete transmitido porta encabezados que brindan información de manera casi continua, por lo cual se debe escoger un intervalo que arroje datos globales. En general, intervalos de tiempo muy cortos arrojaran comportamientos más puntuales, mientras que periodos muy largos harán énfasis en comportamientos más globales. Para el caso de estudio se analizaron las capturas obtenidas de una de las transmisiones de video generadas para el análisis de los parámetros de QoS del canal, y se tomaron las perdidas por segundo durante 3,3 minutos (200 muestras),

Page 62: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

62

ya que al no tratarse de un canal congestionado no se tiene un tráfico constante y existen largos periodos de inactividad. Esto ayudará además a obtener una descripción matemática aproximada de las pérdidas como una variable de medición de la calidad de la transmisión de video. Una vez organizados los datos, se almacenan en R y GRETL como un objeto (time series), con una frecuencia de 34 muestras (frecuencia estacional de la serie obtenida al calcular el número promedio de muestras entre picos) y una referencia de inicio cualquiera ya que no se sigue un índice diario, semanal, etc. (en este caso 0), y se procede a la representación gráfica de los mismos para observar la evolución de la variable a lo largo del tiempo. En la figura se muestra la representación gráfica de la serie original. Figura 18. Gráfica de los datos.

Fuente Propia. Software R

Como se puede observar, a simple vista no es posible determinar la estacionariedad de la serie, ya que esta no presenta una tendencia clara ni una varianza definida, por lo cual se debe analizar más a profundidad las características de la misma.

6.4.2. Análisis de estacionariedad y estacionalidad.

La figura 48 presenta presenta el análisis de la serie creada con la función stl(serie, s.window="periodic") de R. Figura 19. Análisis de estacionariedad y estacionalidad.

Fuente Propia. Software R

Page 63: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

63

Esta función arroja cuatro gráficas en las que se plasman los datos, la componente estacional, la tendencia y los residuos entre las dos primeras. De la componente estacional (que se obtiene basándose en el número de promedio de retardos entre valores similares) se puede corroborar que la serie presenta un comportamiento cíclico cada 34 muestras. Sin embargo, como se puede observar en la tercera gráfica (obtenida mediante filtrado por promedios móviles para un N igual a la frecuencia indicada en el objeto “ts”), no es posible establecer si la serie es estacionaria o no ya que no se obtiene una media constante a través del tiempo ni una tendencia creciente o decreciente. No obstante, adicionalmente al análisis de tendencia y de varianza (como se mencionó en la sección 5.2.1 del marco teórico) también es posible realizar diferenciaciones iteradas para observar cual presenta una menor desviación estándar y así determinar el valor de “d”. En la Tabla 31 se presentan los valores de la varianza para diferentes grados de diferenciación de la serie original: Tabla 13. Varianza para diferentes valores de d

(p,d,q) (0,0,0) (0,1,0) (0,2,0) (0,3,0)

2 10012 6573 11817 31923

Fuente Propia. Software R

Como se puede observar, la varianza comienza a aumentar luego de la segunda diferenciación. Se debe evitar el sobre-diferenciar la serie original y eliminar información valiosa que se manifestaría en la función de autocorrelación, ya que en un caso de sobre-diferenciación las autocorrelaciones se hacen aún más complicadas de analizar, el modelo pierde parsimonia, se incrementa la varianza y se pierden observaciones. Por lo anterior se determina que la serie se debe diferenciar una vez. La estacionalidad de la serie puede comprobarse observando sus funciones ACF (Función de Autocorrelación) y PACF (Función de Autocorrelación Parcial), las cuales se muestran en la Figura. Figura 20. ACF y PACF de la serie

Fuente Propia. Software R

Page 64: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

64

Como se puede observar, estas funciones arrojan valores significativos en los retardos cercanos a 34 y demás múltiplos de la frecuencia, lo cual muestra el comportamiento periódico de la serie. Además, como se describe en la siguiente sección, a partir de estas gráficas se establecerá el orden de los demás parámetros de cada modelo.

6.4.3. Determinación de los parámetros de los modelos ARIMA Y SARIMA. Continuando con el análisis de la Figura 49, se observa también que dentro de los periodos de estacionalidad (entre los retardos múltiplos de la frecuencia) la autocorrelación más significativa se da con los retardos 1, 2, y con algunos valores adicionales en los retardos 3, 13 y 14, mientras que la autocorrelación parcial sólo arrojó un valor considerable para el primer retardo. De las anteriores observaciones, se obtienen como candidatos los modelos AR(36) (tomando dos periodos y 3 retardos en el segundo ciclo), MA(34) (tomando dos periodos) y su combinación ARMA(36,34). Sin embargo, el comportamiento observado en la gráfica también podría hacer referencia a una firma AR(1), ya que la ACF decae de forma relativamente lenta y la PACF presenta un corte abrupto en el primer retardo, lo cual podría indicar que la autocorrelación con el primer retardo se propaga a retardos superiores, por lo cual otro candidato a considerar es el AR(1). No obstante, no se espera que este modelo represente de buena forma el comportamiento de la serie ya que por su simplicidad no captura la relación temporal del valor presente con valores anteriores. Para la componente estacional de las pérdidas, se realiza el análisis de la serie transformada por medio de una diferenciación de orden 34. Debido a esta diferenciación para incluir la estacionalidad en el modelo SARIMA, se tomará el valor 1 para D. Tanto la ACF como la PACF presentan valores significativos para los retardos estacionales 1 y 2. Del análisis descrito se obtienen modelos candidatos con parámetros SAR(2) y SMA(2), que adicionalmente (incluyendo el análisis hecho para los modelos ARIMA dentro de los periodos de estacionalidad) tienen componentes AR(3) y MA(3). Con lo anterior se tienen los siguientes valores o rangos para los parámetros especificados: Tabla 14. Posibles parámetros para los modelos propuestos.

ARIMA SARIMA

Min Max Min Max

p 0 36 0 3

d 1 1 1 1

q 0 34 0 3

P N/A N/A 0 2

D N/A N/A 1 1

Q N/A N/A 0 2 Fuente Propia. Software R

Page 65: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

65

De las posibles combinaciones obtenidas al variar los parámetros descritos en la Tabla 32 se obtendrían 1224 modelos ARIMA y 144 SARIMA, muchos de los cuales arrojarían resultados similares a otros teniendo en cuenta que solo varían algunos coeficientes. Por lo anterior se limitó el rango de las variables p y q para tomar los valores 0 a 3 y 34 a 36 (valores importantes en la función de autocorrelación), con lo cual se obtienen 49 posibles modelos ARIMA a analizar.

6.4.4. Estimación de los coeficientes y validaciones de los modelos

Para la estimación de los coeficientes se utilizaron las funciones Arima() y auto.arima() del paquete forecast de R, las cuales realizan las iteraciones requeridas en base a los valores especificados de los parámetros p, d, q, P, D y Q para obtener los coeficientes de cada uno de los modelos, además de arrojar los cálculos de la función AIC con la cual se puede validar la efectividad del cada uno para representar la serie especificada. La predicción de valores futuros conocidos se hizo por medio de la función forecast() del mismo paquete, que hace la predicción automática en base al objeto Arima y al número de valores especificados. Para la evaluación de los modelos obtenidos se tuvieron en cuenta los factores de ajuste, predicción y complejidad. El ajuste se midió por medio del Criterio de formación de Akaike (o AIC por sus siglas en inglés), el cual mide la bondad de ajuste de un modelo determinado a un conjunto de datos conocidos. Este índice se utilizará como criterio para determinar el mejor ajuste para la serie tratada. La predicción se medirá por medio del error medio cuadrático (o RMSE por sus siglas en inglés) entre los datos originales y los obtenidos por el modelo. Con esta medida se podrá comparar que tan alejadas están las predicciones de los datos reales. Finalmente se evaluó la complejidad de los modelos teniendo en cuenta el número de coeficientes resultantes y los recursos computacionales que requirieron.

6.4.5. Ajuste de los modelos ARIMA y SARIMA

Se analizaron un total de 193 Modelos variando los parámetros p, q, P y Q. De los 49 modelos ARIMA que se procesaron el 22% (11 modelos) presentaron errores de convergencia (no se pudieron obtener los coeficientes debido a que la función “optim” usada para su cálculo realiza iteraciones que en ocasiones generan valores catalogados como infinitos) mientras que el porcentaje de errores para los 144 modelos SARIMA analizados fue de 28% (41 modelos). El lenguaje R calcula el índice AIC al generar cada modelo y este queda almacenado como una de las propiedades del mismo. En la tabla 33 se condensan los principales resultados obtenidos para los diferentes modelos. Tabla 15. Estimación de coeficientes para modelos ARIMA

Modelo AIC

ARIMA(0,1,3) 1659,006857

ARIMA(1,1,3) 1650,232163

ARIMA(3,1,0) 1665,165603

Page 66: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

66

ARIMA(3,1,3) 1653,577319

ARIMA(36,1,0) 1663,132719

ARIMA(0,1,36) 1678,255032

ARIMA(36,1,36) 1723,986747

SARIMA(1,1,3)(0,1,2)(34) 1301,806586

SARIMA(3,1,0)(0,1,2)(34) 1316,759974

SARIMA(1,1,0)(1,1,2)(34) 1369,752374

SARIMA(3,1,1)(0,1,1)(34) 1300,292441

SARIMA(3,1,1)(1,1,2)(34) 1302,815072

SARIMA(3,1,3)(0,1,2)(34) 1303,823599

SARIMA(3,1,3)(2,1,2)(34) 1310,589088

Fuente Propia

Los modelos con un menor AIC presentan una mejor bondad de ajuste, y por lo tanto una mejor representación de los datos. El modelo ARIMA que presentó el mejor ajuste por AIC fue el ARIMA(1,1,3), cuya descripción matemática se plasma en la siguiente ecuación:

(1 − 0,5151𝐿)(1 − 𝐿)(𝑌𝑡) = (1 − 0,6385𝐿 − 0,0986𝐿2 − 0.2578𝐿3)𝑎𝑡

El ajuste hecho por R para este modelo se muestra en color rojo en la Figura 21 junto a la

serie original (en negro).

Figura 21. Ajuste del modelo ARIMA(1,1,3)

Fuente Propia

Como se puede observar, el ajuste se hace sobre una parte de la serie original (primeras

146 muestras) teniendo en cuenta que la parte restante se utiliza para hacer la predicción.

Por otro lado, el modelo SARIMA con mejor AIC fue el SARIMA(3,1,1)(0,1,1)(34), el cual

queda descrito por la ecuación siguiente ecuación:

Page 67: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

67

(1 − 0,6562𝐿 + 0,0430 𝐿2 + 0,2785𝐿3)(1 − 𝐿34)(1 − 𝐿)(𝑌𝑡)= (1 − 0,8751𝐿)(1 − 0,9997𝐿34)𝑢𝑡

La Figura 221 muestra el ajuste de este modelo (en rojo) junto a la serie original (en negro).

Figura 22. Ajuste del modelo SARIMA(3,1,1)(0,1,1)(34)

Fuente Propia

Aunque gráficamente los dos modelos presentan similitudes, matemáticamente el modelo

SARIMA presenta un mejor ajuste, ya que su AIC fue de 1300,29 frente al valor de 1650,23

obtenido para el modelo ARIMA. En general, todos los modelos SARIMA presentaron

mejores índices AIC, con un valor promedio de 1318,22 frente a los modelos ARIMA, que

presentaron un AIC promedio de 1675,03.

6.4.6. Predicción de datos con los modelos ARIMA Y SARIMA

En la siguiente etapa se generó una predicción de un conjunto de datos y se comparó la

capacidad de los modelos para estimar los datos reales. Como se mencionó anteriormente,

se ajustaron los modelos sobre las primeras 146 muestras, luego de lo cual se hizo una

predicción de las siguientes 74. En la tabla 34 se muestran algunos de los modelos y el

error cuadrático medio que presentó su predicción frente a los valores reales de la serie

original.

Tabla 16. RMSE para predicción con diferentes modelos.

Modelo RMSE

ARIMA(0,1,3) 131,7377142

ARIMA(1,1,3) 132,1955928

ARIMA(3,1,0) 137,0001705

ARIMA(3,1,3) 131,8864805

ARIMA(36,1,0) Error

ARIMA(0,1,36) 135,8383458

ARIMA(3,1,34) 127,1119017

SARIMA(1,1,3)(0,1,2)(34) 99,09418506

Page 68: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

68

SARIMA(2,1,2)(1,1,0)(34) 68,82685325

SARIMA(3,1,0)(0,1,2)(34) 94,56480154

SARIMA(3,1,1)(0,1,1)(34) 87,30226531

SARIMA(3,1,1)(1,1,2)(34) 93,91927981

SARIMA(3,1,3)(0,1,2)(34) 99,76809835

SARIMA(3,1,3)(2,1,2)(34) 100,1541323

Fuente Propia

Como se puede observar, las predicciones realizadas con modelos SARIMA presentaron

errores medios cuadráticos menores a los que se obtuvieron con ARIMA de orden superior.

Lo anterior se traduce en mejores predicciones de los datos reales, ya que los valores

estimados están en promedio más cerca de la serie original.

La siguiente ecuación describe el modelo ARIMA(3,1,34), que presentó el mejor RMSE

(127,11) entre los ARIMA.

(1 − 0,6514𝐿 − 0,0213𝐿2 + 0,0377𝐿3)(1 − 𝐿)(𝑌𝑡) = (1 − 0,7874𝐿 + 0,0962𝐿2 +

0,1728𝐿3 + 0,0352𝐿4 − 0,1124𝐿5 + 0,0191𝐿6 − 0,0216𝐿7 + 0,1104𝐿8 − 0,3373𝐿9 +0,019𝐿10 + 0,0978𝐿11 + 0,2585𝐿12 − 0,101𝐿13 + 0,1744𝐿14 − 0,4003𝐿15 + 0,253𝐿16 −

0,1597𝐿17 + 0,1166𝐿18 − 0,0387𝐿19 − 0,1555𝐿20 + 0,2901𝐿21 − 0,1394𝐿22 +0,0818𝐿23 − 0,1859𝐿24 + 0,2466𝐿25 − 0,3429𝐿26 + 0,1492𝐿27 − 0,0591𝐿28 +0,4379𝐿29 − 0,5549𝐿30 − 0,1444𝐿31 + 0,1461𝐿32 − 0,071𝐿33 + 0,3321𝐿34)𝑎𝑡

La predicción hecha por este modelo se muestra en la Figura 23 (en azul) junto a su ajuste

(en rojo) y la serie original (en negro).

Figura 23. Predicción y ajuste para el modelo ARIMA(3,1,34).

Fuente Propia

Aunque este modelo estimó de buena manera el comportamiento aleatorio de los valles de

la función original hasta aproximadamente unas 50 muestras (luego de las cuales muestra

una línea recta), no logró reproducir el comportamiento periódico de la serie original, que

se traduce en los picos que se presentan cada 34 muestras.

Page 69: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

69

Por otro lado, el modelo SARIMA que realizó la mejor predicción fue el

SARIMA(2,1,2)(1,1,0)(34) (con un RMSE de 68,82) que queda descrito por la siguiente

ecuación:

(1 − 0.5262L34)(1 − 0.021L + 0.0077L2)(1 − L34)(1 − L)(Yt)= (1 − 0.0525L − 0.0508L2)ut

En la Figura 53 se muestra en azul la predicción hecha por este modelo junto a su ajuste

(en rojo) y la serie original (en negro).

Figura 24. Predicción y ajuste para el modelo SARIMA(2,1,2)(1,1,0)(34).

Fuente Propia

Este modelo predijo de mejor manera los valores conocidos de la serie original (su RMSE

fue casi la mitad del obtenido con el mejor modelo ARIMA), ya que al tener componentes

estacionales puede capturar el comportamiento periódico de la misma y por lo tanto

reproducir los picos que se presentan debido a las ráfagas en la transmisión.

6.4.7. Complejidad de los modelos univariados

La parsimonia es también un factor a evaluar entre los modelos, ya que uno con

demasiados parámetros no presenta facilidad en su tratamiento. Por el contrario, el hecho

de obtener mejores resultados con modelos más simples, significa que se han capturado

las propiedades intrínsecas de la serie de tiempo que se analiza. El cálculo de los

coeficientes de los modelos ARIMA de orden superior requiere muchos más recursos

computacionales que los SARIMA equivalentes. En una máquina con un procesador que

opera a una frecuencia de 3.2GHz en cada uno de sus seis núcleos, el cálculo de los 37

coeficientes del modelo ARIMA (3,1,34) tomó 1 minuto y 40 segundos frente a los 3.94

segundos que tomó el cálculo de los 5 coeficientes del SARIMA(2,1,2)(1,1,0)(34), que como

se mostró anteriormente realizó una mejor predicción. Lo anterior demuestra la idoneidad

de los modelos SARIMA frente a los modelos ARIMA de orden superior en la representación

de la serie original.

Page 70: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

70

6.4.8. Modelado de la Serie de ti

Teniendo en cuenta todos los factores anteriores, el modelo escogido para la representación de la serie original fue el SARIMA(2,1,2)(1,1,0)(34) por su nivel de coherencia en el pronóstico comparados con los últimos datos originales de la serie y con base en el análisis de error presentado anteriormente. 6.5. MODELADO EN SERIES DE TIEMPO MULTIVARIABLES Un proceso multivariante estacionario (Yt) sigue un modelo ARMA multivariante o vectorial de orden (p,q), o VARMA(p,q) (autorregresivo-media móvil vectorial, del inglés Vector AutoRegressive-Moving Averge), si y sólo si:

Para todo t = 0, ±1, ±2, ….., donde µ , 1, 2,….,p, 1, 2,…., p, son matrices de parámetros tales que todas las raíces de la ecuación:

están fuera del círculo unitario (condición de estacionariedad). Un modelo ARMA(p,q) es invertible si todas las raíces de la ecuación polinomial

están fuera del círculo unitario (condición de invertibilidad). Con base en estas definiciones y otras descripciones mencionadas en el marco teórico para los modelos multivariables VAR Y VARMA y a partir de la metodología propuesta se definen los modelos que a continuación se presentan. 6.5.1. Organización de los datos. Dado que el análisis en este segmento contempla la inserción en el modelo de series de tiempo de nuevas variables, se ha decidido tomar en cuenta los valores medidos de tiempos de latencias y Jitter como variables exógenas, en la trasmisión de los datos de acuerdo al escenario de pruebas planteadas anteriormente, y de acuerdo a la recomendación teórica, dado que dichas variables son afines al comportamiento de la variable endógena definida previamente en los modelos ARIMA y SARIMA y que corresponde a la perdida de paquetes. Inicialmente se

Page 71: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

71

muestran las gráficas de las series originales obtenidas a través del software GRETL: Figura 25. Graficas de las Series de Tiempo originales

Fuente propia

6.5.2. Análisis de estacionariedad y estacionalidad. En las siguientes figuras se presenta el análisis de estacionariedad y estacionalidad de las variables elegidas y los resultados obtenidos al diferenciar en un primer orden cada una de ellas buscando que media de cada una de ellas tienda a cero (0) y la varianza se mantenga constante. Figura 26. Graficas de las Series de Tiempo originales

Page 72: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

72

Fuente propia

Adicionalmente al análisis de tendencia y de varianza (como se mencionó en el marco teórico) también es posible realizar diferenciaciones iteradas para observar cual presenta una menor desviación estándar y así determinar el valor de “d”. En la Tabla 31 se presentan los valores de la varianza para diferentes grados de diferenciación de la serie original: Tabla 17. Varianza para diferentes valores de d.

(p,d,q) (0,0,0) (0,1,0) (0,2,0) (0,3,0)

2 10012 6573 11817 31923

Fuente propia.

Como se puede observar, la varianza comienza a aumentar luego de la segunda diferenciación. Se debe evitar el sobre-diferenciar la serie original y eliminar información valiosa que se manifestaría en la función de autocorrelación, ya que en un caso de sobre-diferenciación las autocorrelaciones se hacen aún más complicadas de analizar, el modelo pierde parsimonia, se incrementa la varianza y se pierden observaciones. Por lo anterior se determina que la serie se debe diferenciar una vez.

La estacionalidad de la serie puede comprobarse observando sus funciones ACF (Función de Autocorrelación) y PACF (Función de Autocorrelación Parcial), las cuales se muestran en las siguientes Figuras:

Page 73: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

73

Figura 27. Correlograma con ACF y PACF para la variable Perdida de Paquetes (primera diferencia)

Fuente propia.

Figura 28. Correlograma con ACF y PACF para la variable Latencia (primera diferencia)

Fuente propia.

-0,4

-0,2

0

0,2

0,4

0 5 10 15 20 25 30 35

retardo

FAC de d_PerdidasPaq

+- 1,96/T^0,5

-0,4

-0,2

0

0,2

0,4

0 5 10 15 20 25 30 35

retardo

FACP de d_PerdidasPaq

+- 1,96/T^0,5

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0 5 10 15 20 25 30 35

retardo

FAC de d_Latencia

+- 1,96/T^0,5

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0 5 10 15 20 25 30 35

retardo

FACP de d_Latencia

+- 1,96/T^0,5

Page 74: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

74

Figura 29. Correlograma con ACF y PACF para la variable Jitter (primera diferencia)

Fuente propia.

Como se puede observar, estas funciones entregan valores significativos en los retardos cercanos a 34 y demás múltiplos de la frecuencia, lo cual muestra el comportamiento periódico de la serie. Además, como se describe en la siguiente sección, a partir de estas gráficas se establecerá el orden de los demás parámetros de cada modelo. 6.5.3. Determinación de los parámetros y coeficientes del modelo VARMA Continuando con el análisis de las Figuras 27, 28 y 29 se observa también que dentro de los periodos de estacionalidad (entre los retardos múltiplos de la frecuencia) la autocorrelación más significativa se da con los retardos 2, 5, 10 y 15 y con algunos valores adicionales en los retardos 9,18, 20 y 29, mientras que la autocorrelación parcial arrojó un valor considerable para los retardos 5, 9, 10 y 34. De las posibles combinaciones obtenidas al variar los parámetros descritos anteriormente se obtendrían 32 modelos VARMA, muchos de los cuales arrojarían resultados similares a otros teniendo en cuenta que solo varían algunos coeficientes. Por lo anterior se limitó el rango de las variables p y q para tomar los valores más significativos (10,15,18 y 29) en la función de autocorrelación y 5, 10 y 34 en la función de acutocorrelacion parcial con lo cual se obtienen 12 posibles modelos VARMA a analizar. De las anteriores observaciones, se obtienen como candidatos los siguientes modelos VARMA con su respectivo coeficiente de información de Akaike o AIC por sus siglas en inglés, el cual mide la bondad de ajuste de un modelo determinado a un conjunto de datos conocidos:

Page 75: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

75

Tabla 18. Estimación de coeficientes para modelos VARMA

Modelo AIC

VARMA(10,) 0,96085

VARMA(10,10) 0,15131

VARMA(10,34) 0,45182

VARMA(15,5) 0,02807

VARMA(15,10) 0,12293

VARMA(15,34) 0,45795

VARMA(18,5) 0,97338

VARMA(18,10) 0,07081

VARMA(18,34) 0,75988

VARMA(29,5) 0,67619

VARMA(29,10) 0,33115

VARMA(29,34) 0,43115

Fuente propia.

Los modelos con un menor AIC presentan una mejor bondad de ajuste, y por lo tanto una mejor representación de los datos. Los modelos VARMA que presentaron el mejor ajuste por AIC fue el VARMA(15,5) y VARMA(18,10) cuya predicción se puede observar en las siguientes figuras respectivamente:

Figura 30. Ajuste del modelo VARMA(15,5)

Fuente propia.

Page 76: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

76

Figura 31. Ajuste del modelo VARMA(18,10)

Fuente propia.

6.5.4. Predicción de datos con los modelos VARMA

En la siguiente etapa se generó una predicción de un conjunto de datos y se

comparó la capacidad de los modelos para estimar los datos reales. Como se

mencionó anteriormente, se ajustaron los modelos sobre las primeras 150 muestras,

luego de lo cual se hizo una predicción de las siguientes 50. En la siguiente tabla se

muestran los modelos estudiados y el error cuadrático medio (RMSE) que presentó

su predicción frente a los valores reales de la serie original.

Tabla 19. RMSE para predicción con diferentes modelos

Modelo RMSE

VARMA(15,5) 103,79142

VARMA(18,10) 101,55928

Fuente propia

Como se puede observar, las predicciones realizadas con modelos VARMA

presentaron errores medios cuadráticos menores a los que se obtuvieron con

modelos ARIMA y SARIMA. Lo anterior se traduce en mejores predicciones de los

datos reales, ya que los valores estimados están en promedio más cerca de la serie

original.

Page 77: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

77

7. RECURSOS

Para el desarrollo del proyecto se tiene a disposición recursos tales como el apoyo técnico académico del grupo LÍDER, la dirección del proyecto a cargo ING. ROBERTO FERRO ESCOBAR y algunas otras asesorías en gestión de proyectos. Además se realizaron consultas a la comunidad de software libre local y/o al grupo de investigación en tecnologías libres GLUD de la Universidad. Los recursos técnicos para implementar el escenario de pruebas del proyecto comprendieron la utilización de los recursos de la Universidad Distrital, equipamiento acorde al dimensionamiento de la red RITA-UD, hardware para montar el servidor, los nodos de red, y las terminales cliente. Por tanto se definió un conjunto de computadores de escritorio, dispositivos de redes básicos, tales como routers de oficina, switches, tarjetas de red (NICs), cable, conectores, etc. Por otra parte en cuanto al equipamiento especializado que se pudiere necesitar para poner a punto la red, tales como analizadores de red, osciloscopios, multímetros, etc., se acudió a los laboratorios de electrónica, y a los instrumentos propios del grupo de investigación LÍDER y la Red RITA. En cuanto a las instalaciones físicas para implementar el proyecto se tuvo acceso a las instalaciones del grupo líder ubicadas en la sede de Ingeniería de la Universidad y al CECAD donde se realizaron los montajes para pruebas. A modo de referente, para visualizar globalmente los recursos disponibles y sus asignaciones presupuestales se realizó el siguiente cuadro: Tabla 20. Asignación Presupuestal de Recursos para el Proyecto.

RECURSOS PARA EL DESARROLLO DEL PROYECTO "CONEXIÓN DE LA RED DE TECNOLOGÍA AVANZADA RITA-UD CON LA RED METROPOLITANA RUMBO BAJO IPv6"

DESCRIPCIÓN CANT COSTO

MENSUAL

MESES TOTAL

1 RECURSO HUMANO

Asesoría y Capacitación a través de Conferencias, Congresos y Talleres.

1 $ 2,000,000 3 $ 6,000,000

2 RECURSOS BIBLIOGRÁFICOS

Adquisición de Libros, revistas y demás fuentes documentales.

1 $ 1,500,000 1 $ 1,500,000

3 EQUIPOS

Computadores 5 $ 3,100,000 1 $ 15,500,000

Impresora 1 $ 400,000 1 $ 400,000

Page 78: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

78

Scanner 1 $ 200,000 1 $ 200,000

UPS 1 $ 500,000 1 $ 500,000

4 MUEBLES

Escritorios 3 $ 300,000 $ 900,000

Sillas 5 $ 150,000 $ 750,000

Archivador 1 $ 250,000 $ 250,000

5 ÚTILES Y PAPELERÍA

Papelería 1 $ 450,000 1 $ 450,000

Insumos 1 $ 150,000 2 $ 300,000

Elementos de escritorio 1 $ 100,000 1 $ 100,000

Equipo de Soporte para Redes (Cables, conectores, software, routers, switches, etc.)

1 $ 800,000 1 $ 800,000

Herramientas varias (pinzas, cortafríos, Pinza Ponchadora, etc.)

1 $ 250,000 1 $ 250,000

6 GASTOS OPERACIONALES

Transporte urbano 2 $ 200,000 6 $ 1,200,000

Gastos varios de Funcionamiento 1 $ 500,000 6 $ 3,000,000

TOTAL $ 32,000,000

Fuente Propia.

Page 79: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

79

8. CONCLUSIONES

El objetivo de este trabajo era implementar un modelo estadístico que permitiera generar pronósticos acertados a nivel de teletráfico. Durante el proceso de construcción de los modelos se fueron encontrando nuevos hallazgos que permitieron desarrollar el análisis hasta la inclusión de un modelo VAR y VARMA, que se había contemplado como opción inicialmente.

Entre los objetivos específicos se encontraba determinar el nivel de correlación de cada una de las variables exógenas “latencia”, “jitter”, con la variable endógena “Perdida de paquetes”. Se encontró una correlación del 63% con la variable “latencia” y una correlación del 57% con la variable “jitter”, porcentajes que revelan que su relación es significativa y permiten afirmar que su nivel de correlación es importante para la inclusión de dichas variables en el estudio.

Con el desarrollo un modelo estadístico multivariado a través de series de tiempo VARMA, se obtiene un error de pronóstico muy bajo; para el caso específico de la serie “perdida de paquetes” variable explicada mediante las variables exogenas “latencia”y “jitter”, el porcentaje de error fue del 0.27%.

La evaluación de la exactitud de la serie de tiempo tráfico estimando sólo el 75% de los datos, se realizó calculando el porcentaje del promedio absoluto, la desviación media y la varianza del error al pronosticar el 25% de los datos restantes; se obtuvo un error de 2,66% con el modelo VARMA y de 2.02% con el modelo SARIMA, valores que no presentan una diferencia porcentual alta respecto al error del pronóstico realizado con el modelo ARIMA. Lo anterior permite afirmar que también se logra un buen pronóstico al considerar .un modelo univaria y multivariado-

El pronóstico realizado mediante el modelo multivariado VARMA para un intervalo de tiempo de la misma dimensión de la captura utiliza en los modelos ARIMA y SARIMA, es decir, 200 muestra produjeron resultados satisfactorios ya que al hacer la comparación entre los datos originales y los pronosticados se mostraron predicciones muy cercanas a las series originales.

Otro aspecto a considerar en el momento de desarrollar un modelo estadístico multivariado a través de las series de tiempo, es el establecimiento del time step ya que un time step bajo puede generar un error en el pronóstico, pero por

Page 80: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

80

otra parte una gran cantidad de datos a procesar puede ser un limitante en la obtención del modelo y el procesamiento de los datos a nivel computacional.

Al evaluar el nivel de exactitud de los pronósticos para la variable tráfico del modelo multivariado VARMA respecto al modelo ARIMA y SARIMA, tanto gráfica como numéricamente se encontró que el modelo VARMA ajusta mejor la serie que el modelo ARIMA y SARIMA, ya que los resultados obtenidos fueron más favorables para el primer modelo mencionado (VARMA)

Finalmente en cuanto a la aplicación de las series de tiempo multivariadas VARMA para el pronóstico de tráfico en redes de datos de tecnologías similares como por ejemplo en LTE (4G) tendría mucha aplicación en cuanto a la planeación y calidad del servicio. Por tanto, se deja un camino abierto para el desarrollo de nuevos trabajos en torno al tema.

Page 81: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

81

9. BIBLIOGRAFÍA [1]. ALZATE, Marco Aurelio. Modelos de tráfico en análisis y control de redes de comunicaciones. En: Revista de ingeniería de la Universidad Distrital Francisco José de Caldas. Bogotá. Vol. 9, No. 1 (Junio 2004); p. 63- 87. [2]. HERNÁNDEZ, Cesar. “DESARROLLO DE UN MODELO ESTADISTICO QUE PERMITA ESTIMAR PRONOSTICOS FUTUROS DE TRAFICO EN REDES WIMAX A TRAVES DEL MODELAMIENTO EN SERIES DE TIEMPO”.Tesis de Maestría Universidad Distrital 2007. [3]. ANCY K. Groschwitz and George C. Polyzos. A time series model of long-term NSFNET backbone traffic, Computer Systems Laboratory, Department of Computer Science and Engineering, University of California, San Diego. [4]. PEDRAZA, Luis Fernando. “MODELO DE TRÁFICO BASADO EN SERIES DETIEMPO PARA PRONOSTICAR VALORES FUTUROS DE TRÁFICO EN UNA RED DE DATOS WI-FI”. En: Revista de ingeniería de la Universidad Distrital Francisco José de Caldas. Bogotá. Vol. 12, No. 1 (Junio 2006); p. 36- 47. [5] ANDERSON David, SWEENWY Dennis y WILLIAM Thomas .”ESTADÍSTICA PARA LA ADMINISTRACIÓN Y LA ECONOMÍA”. Universidad Nacional de Colombia. Facultad de Estadística. Departamento de matemáticas. Medellín. Primera Edición. 2003. [6]. ESCOBAR Andrés “APLICACIONES DE LAS SERIES DE TIEMPO EN MODELOS DE TRÁFICO PARA UNA RED DE DATOS” En: Scientia et Technica Año XIV. Universidad Tecnológica de Pereira. No 38, Junio de 2008. [7] W.E. Leland, M.S. Taqqu, W. Willinger and D.V. Wilson, ’On the Self-Similar Nature of Ethernet Traffic (Extended Version),’ IEEE/ACM Trans. Networking, vol. 2, no. 1, pp. 1-15, February 1994. [8]E. Casilari, A. Reyes Lecuona, A. Díaz Estrella y F. Sandoval. CARACTERIZACIÓN DE TRÁFICO DE VÍDEO Y TRÁFICO INTERNET. Dpto. Tecnología Electrónica, E.T.S.I. Telecomunicación, Universidad de Málaga, Campus de Teatinos, 29071 Málaga. 2002

Page 82: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

82

[9]. PAPADOPOULI, María; SHENG, Haipeng; RAFTOPUULOS, Elias; PLOUMIDIS, Manolis y HERNANDEZ, Felix. “SHORT-TERM TRAFFIC FORECASTING IN A CAMPUS-WIDE WÍRELES NETWORK”. paper 2004 [10]. CORREA Moreno Emilia. “SERIES DE TIEMPO CONCEPTOS BÁSICOS”. Universidad Nacional de Colombia. Facultad de Ciencias. Departamento de matemáticas. Medellín. Primera Edición. 2004. [11]. KAMARIANAKIS and PRASTACOS. “Forecasting traffic flow conditions in an urban network: comparison of multivariate and univariate approaches”. Paper 2007 [12] DYE Mark, MCDONALD Rick and ANTOON R., “Aspectos Basicos de Networking”. Madrid, España: Cisco Press, 2008. [13] FIERENS P., “Introducción a las Redes Wi-Fi”. Argentina: Instituto Tecnológico de Buenos Aires, 2006. [14] Recomendación ITU-T E.800. Recomendación. 69 [15] STALLINGS, William. “Comunicaciones y redes de computadores”. Séptima Edición. Madrid: Prentice Hall, 2004. [16] J. Sa Silva, R. Ruivo, T. Camilo, et al., "IP in wireless sensor networks Issues and lessons learnt," in Proceedings of the 3rd International Conference on Communication Systems Software and Middleware and Workshops, pp. 496-502, Miami 2008. [17] Feria Gerónimo, Arturo. Modelo OSI. Argentina: Editorial El Cid Editor, 2009. [18] G.E.P. Box, G.M. Jenkins and G.C. Reinsel. Time Series Analysis; Forecasting and Control.Third edition, p. 75. San Francisco, CA, USA: Prentice- Hall. Englewood Cliffs, 1994 [19]Kihong Park. Performance Evaluation of Multiple Time Scale TCP Under Self-Similar Traffic Conditions IEEE Sociedad de Comunicaciones, 2007. [20]Walter Willinger,W.E. Leland, M.S. Taqqu, D.V. Wilson DYNAMICS OF IP TRAFFIC: A STUDY OF THE ROLE OF VARIABILITY AND THE IMPACT OF CONTROL., Paper 2008 [21] GOULD Phillip G , KOEHLER Anne B , ORD Keith J, SNYDER Ralph D., HYNDMAN Rob J, VAHID-ARAGHI Farshid . “Forecasting time series with multiple seasonal patterns”.Amsterdam, 2008

Page 83: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

83

[22] CAI Yuzhi . “A Forecasting Procedure for Nonlinear Autoregressive Time Series Models”. Paper 2005 [23] QUEEN Catriona M, WRIGHT Ben J ,ALBERS Casper J. “Forecast covariances in the linear multiregression dynamic model”, Journal of Forecasting. Chichester: March 2008. [24] CHIU Yi-Chia, SHYU Joseph Z. “Applying multivariate time series models to technological product sales forecasting. International Journal of Technology Management. Tomo 27, Nº 2,3; pg. Geneva: 2004 [25] ARINO Miguel A., FRANSES Philip H. “FORECASTING THE LEVELS OF VECTOR AUTOREGRESSIVE LOG-TRANSFORMED TIME SERIES”. International Journal of Forecasting. Amsterdam: Tomo 16, Nº 1; pg. 111. January-March 1999. [26] S. Segismundo Izquierdo A, Hernández Cesáreo, Juan del Hoyoc. Forecasting VARMA processes using VAR models and subspace-based state space models. MPRA Paper No. 4235, posted 07. November 2007 [27] HERNÁNDEZ Cesar, SALCEDO Octavio y ESCOBAR Andrés. Estudio de las Series de Tiempo para el Pronóstico de Datos en Redes Inalámbricas [19] Revista de Ingeniería. Universidad Distrital Francisco José de caldas. 2007 [28] DAINOTTI Alberto, PESCAPÉ Antonio , PIERLUIGI Salvo Rossi, Francesco Palmieri, Giorgio Ventre. Internet traffic modeling by means of Hidden Markov Models. Computer Networks. Amsterdam: Tomo 52, Nº 14; Pg. 2645 [29] BidishaGhosh, BiswajitBasu, Margaret O'Mahony. Bayesian Time-Series Model for Short-Term Traffic Flow Forecasting. Journal of Transportation Engineering Journal of Transportation Engineering. New York: Tomo 133, Nº 3; Pg. 180. March 2007 [30]KRITHIKAIVASAN, Balaji. Forecasting models and adaptive quantized bandwidth provisioning for nonstationary network traffic. Dissertation, University of Missouri - Kansas City, United States -- Missouri. Retrieved October 9, 2008, from Dissertations & Theses [31] CHANDRASHEKHAR G. DETHE1* AND D. G. WAKDE. On the prediction of packet process in network traffic using FARIMA time-series model. ShriSant Gajanan Maharaj College of Engineering, Shegaon 444 203, Maharashtra, India. 2003 [32] FILLATRE Lionel, MARAKOV Dimitry and VATON Sandrine. Forecasting Seasonal Traffic Flows. Computer Science Department ENST Bretagne, Brest, France. 2000.

Page 84: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

84

[33] SALGADO F. Lizet DESARROLLO DE UN MODELO MULTIVARIABLE DE TRAFICO PARA UNA RED DE DATOS WI-FI QUE PERMITA ESTIMAR EL VALOR MEDIO DEL THROUGHPUT. Tesis de pregrado Universidad Cooperativa 2011. [34] HERNANDEZ, Cesar. An ARIMA Model for Forecasting Wi-Fi Data network Traffic Values. Revista Ingeniería e Investigación, ISSN: 0120-5609, Universidad Nacional de Colombia. Volumen 29, Número 2, pp. 65-69. Agosto 2009. [35] STALLINGS, William. Comunicaciones y Redes de computadores. Séptima edición. Madrid: Prentice Hall, 2004. [36] COUCH, L. Digital and analog communication system. New Jersey: Prentice Hall, 2001.

Page 85: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

85

ANEXOS

Page 86: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

TEMA 3: METODOLOGÍA BOX-JENKINS (I): ESQUEMA

GENERAL E IDENTIFICACIÓN

3.1. ESQUEMA GENERAL DE LA METODOLOGÍA BOX-

JENKINS DE ANÁLISIS DE SERIES TEMPORALES

3.2. Análisis de ESTACIONARIEDAD.

3.3. Contrastes de RAÍCES UNITARIAS o de ORDEN

DE INTEGRACIÓN

3.4. Identificación de los procesos estocásticos

estacionarios subyacentes a series temporales

Page 87: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3

3.1 ESQUEMA GENERAL DE LA METODOLOGÍA BOX-JENKINS DE ANÁLISIS DE SERIES TEMPORALES

Tomado de Aznar, A. y J. Trívez (1993): Métodos de predicción en Economía II. Análisis de series temporales. Madrid: Ariel Economía

Page 88: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

4

IDENTIFICACIÓN

OBJETIVO:

[ ]1 2 1 1 2 21 2

( ; ; )

1

t

t t t t p t t t q t qp

d dt t t

ARIMA p d qy

w w w w u u u u

L y yw

δ φ φ φ θ θ θ− − − − − −= + + + + − − − −+

= =− Δ

Etapas a resolver:

(1)- Análisis de ESTACIONARIEDAD.

Estacionariedad en Media Valor para d

Estacionariedad en Varianza Logaritmos

(2)- Determinación de la estructura ARMA que subyace en

la transformación estacionaria de la serie.

Page 89: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

5

3.2 Análisis de ESTACIONARIEDAD.

( ; ; )t ARIMA p qy d∼

Instrumentos:

Análisis Gráfico de la serie original y de

distintas transformaciones de la misma

Análisis de los Correlogramas de la serie

original y de distintas transformaciones de la misma

Análisis de la Varianza Muestral Sobrediferenciación

Contrastes de Orden de Integración

Observaciones:

Es recomendable hacer una interpretación CONJUNTA de

los resultados.

Es posible que se produzcan CONTRADICCIONES entre

los diferentes instrumentos.

Page 90: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

6

ANALISIS GRÁFICO: Algunos ejemplos para discutir

7

8

9

10

11

12

13

14

100 200 300 400 500

serie 1

-50

-40

-30

-20

-10

0

100 200 300 400 500

serie 2

8

10

12

14

16

18

20

100 200 300 400 500

Serie 3

4

8

12

16

20

24

28

100 200 300 400 500

serie 4

Page 91: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

7

ANALISIS DE LOS CORRELOGRAMAS

Estructuras típicas

PROCESO FA FAP

Estacionario Decrecimiento

RÁPIDO

Decrecimiento

RÁPIDO

No Estacionario

1 1ρ ≈

Decrecimiento

LENTO

11 1φ ≈

0; 1jj jφ ≈ ∀ >

ESTACIONARIO NO ESTACIONARIO

2927252321191715131197531

Retardo

1,0

0,5

0,0

-0,5

-1,0

FAM

3533312927252321191715131197531

Retardo

1,0

0,5

0,0

-0,5

-1,0

FAM

2927252321191715131197531

Retardo

1,0

0,5

0,0

-0,5

-1,0

FAPM

3533312927252321191715131197531

Retardo

1,0

0,5

0,0

-0,5

-1,0

FAPM

Page 92: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

8

ANALISIS DE LA VARIANZA MUESTRAL

SOBREDIFERENCIACIÓN

En general:

A medida que nos aproximemos al orden de

DIFERENCIACION adecuado, la varianza muestral

tenderá a disminuir.

Si superamos el orden de DIFERENCIACION

adecuado, la varianza muestral tenderá a aumentar.

EJEMPLO

[ ] 21

2

2 22

3 23 2

(1)(0)(0) 2(0) 6

tt t t t

tt t

tt t

tt t

I V Ty y y yuIy yuIy yuIy yu

σσσσ

−= + ⇒ =⇒=Δ ⇒Δ ⇒= ⇒Δ ⇒ΔΔ= ⇒⇒ΔΔ Δ

∼∼∼∼

Page 93: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

9

3.3 Contrastes de RAÍCES UNITARIAS o de

ORDEN DE INTEGRACIÓN

Cuestiones previas

En general vamos a trabajar bajo el principio de

INVERTIBILIDAD lo que nos permite disponer de una

representación autorregresiva para cualquier proceso

ARIMA:

*

*

21 2

21 2

* * ** 2 31 2 3

( ) ( )( )

( )( )

( ) ( )( ; )

( )

( ) 1

( ) 1

( ) 1

ttt

t tt

tt

t tt

tt

pp

qq

y AR p L y uy L u

y MA qL y u

L y L uy ARMA p q

L y u

L L L LL L L LL L L L

δδ

δ

δδ

φ φ φ

θ θ θ

φ φ φ

• ⇒ Φ = +

= + Θ⎧• ⇒ ⎨ = +Φ⎩

= +Φ Θ⎧• ⇒ ⎨ = +Φ⎩

Φ = − − − −

Θ = − − − −

= − − − −Φ

En conexión con la observación anterior, debe recordarse

que un polinomio de orden R siempre puede

descomponerse como el producto de R binomios. Esto es:

( )( ) ( )

21 2

** * * *2 11 1 2 1

** ***1

1

( ) 1

1 (1 )

1 ( ) 1

RR

RR

R

jj

L L L LL L L L

L L L

π π π

π π π π

π π

−−

=

Π = − − − − =

= − − − − − =

= − = −∏Π

Page 94: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

10

El orden de integración indica el número de veces que es

necesario diferenciar una serie para convertirla en

estacionaria. Planteado de otra forma, indica el número de

RAICES UNITARIAS existentes en el polinomio AR

asociado; esto es:

**

**

** **

0 1;

1 12 1

j

j

j i

SI d j

SI dSI d

φ

φφ φ

= ⇒ < ∀

= ⇒ ∃ == ⇒ ∃ = =

En este sentido, analizar el orden de integración

puede entenderse como equivalente a examinar el

número de raíces unitarias existentes en la

representación AR de la serie. Sin embargo,

contamos con el PROBLEMA de que tan apenas

conocemos nada acerca del PROCESO

GENERADOR DE DATOS (PGD) de la serie. Por

ello, necesitamos desarrollar planteamientos

flexibles y generales.

Page 95: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

11

PROCEDIMIENTO DE CONTRASTE

(A)- Selección del Modelo ó PGD de referencia.

(B)- Obtención de la ecuación de contraste.

(C)- Obtención del estadístico de prueba del contraste

de integración.

(D)- Resolución del contraste.

(E)- Iteración, si procede, hasta alcanzar una conclusión

definitiva.

Page 96: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

12

(A)- Selección del Modelo ó PGD de referencia.

Vamos a considerar solo tres grupos de modelos, de modo

que adscribiremos la serie analizada necesariamente a uno de

ellos.

Especificación Características

MA 11

tt

t t t

y vv v uφ −

=

= +

Sin estructura determinística

Hay estructura estocástica

MB 11

tt

t t t

y vv v u

δφ −

= +

= +

Hay estructura determinística:

Una constante

Hay estructura estocástica

MC 11

tt

t t t

y t vv v u

δ αφ −

= + += +

Hay estructura determinística:

Una constante y una tendencia

Hay estructura estocástica

La decisión se tomará utilizando los gráficos

correspondientes de la serie.

Page 97: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

13

-6

-4

-2

0

2

4

6

100 200 300 400 500

MODELO A

0

4

8

12

16

20

100 200 300 400 500

MODELO B

0

20

40

60

80

100

120

100 200 300 400 500

MODELO C

Page 98: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

14

(B)- Obtención de la ecuación de contraste.

Una vez seleccionado el PGD que mejor parece ajustarse a

la serie, se obtendrá la ecuación de contraste asociada:

MA

[ ]1 1

11

*1 1

1tttt t

t t t

tt t

y vy y u

v v u

y y u

φφ

φ

−−

= ⎫⇒ Δ = − +⎬= + ⎭

⇒ Δ = +

MB

[ ]

[ ] [ ]( )

( ) [ ]

1 1

11 1 1 1

1 1 1

**1 1

11 1

t tt t t

t t t tt t

tt tt t

tt t

y y yv uy yv v u u

y y uyv

y y u

δ δ δφδφ φ φ

δ φ φδ

φδ

− −

⎫= + ⎧ − = − +⎪ ⎪= + ⇒ = − + +→⎬ ⎨⎪ ⎪ = − + − +→Δ→ = − ⎩⎭⇒ Δ = + +

MC

[ ]

[ ] [ ]( ) ( )

( ) ( ) [ ]

11

1 1

1 1 1 1 1

1 1 1 1 1

** *1 1

( 1)1 1

1 1 1

tt

t t t

t t

tt t

tt t

tt t

tt t

ty vv v u

tyv

t ty y uty y u

ty y u

ty y u

δ αφ

δ α

δ α δ αφδ α αφ φ φ φ

δ α αφ φ φ φ

φδ α

⎫= + +⎪

= + ⇒⎬⎪→ = − − ⎭

⎧ − − = − − − +⎪⎪ ⎡ ⎤= − + + − + +→⎨ ⎣ ⎦⎪ ⎡ ⎤= − + + − + − +→Δ⎪ ⎣ ⎦⎩

⇒ Δ = + + +

Page 99: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

15

En cualquiera de los tres casos, si el término vt no es un

AR(1), bien porque se trate de un AR(p) con p>1, de un MA(q) o

de un proceso ARMA(p,q), en la ecuación de contraste resultante

intervendrá una estructura dinámica más extensa.

(C)- Obtención del estadístico de prueba del contraste

de integración.

Para obtener el estadístico del contraste de Dickey-Fuller

relativo al orden de integración de la serie se debe estimar

previamente la ecuación de contraste seleccionada en la etapa

anterior por MCO. La hipótesis nula y el estadístico de contraste

son:

*

1

*0 10 1

*11

*

1

: 1: 0: 1: 0

ˆ

ˆ ˆ

AA

DF

HHHH

t

φφφφ

φσφ

=⎫ ⎫=⇔⎬ ⎬<< ⎭⎭

=

La hipótesis nula implica que existe, al menos, una raíz

unitaria frente a la alternativa que indica que la serie, original o

transformada, es estacionaria. El estadístico del contraste es el t-

ratio del coeficiente que acompaña al primer retardo de la serie yt

que aparece en la parte derecha de la ecuación (esto es, de yt-1).

Page 100: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

16

Sin embargo, la distribución de este estadístico no es estándar

(no es una t de Student ni alcanza la normalidad en un contexto

asintótico).

(D)- Resolución del contraste.

Antes de resolver el contraste debemos asegurarnos de que

el PGD seleccionado para describir la serie es aceptable.

El requisito mínimo es que los residuos MCO obtenidos no

presenten estructura de dependencia temporal, lo cual

indicaría que el término vt no es un AR(1) como habíamos

supuesto. Para analizar el supuesto de incorrelación en los

residuos utilizaremos el contraste de Anderson o el de Ljung-Box

que se introducirán más adelante.

Supuesto que se ha detectado dependencia temporal en los

residuos de la estimación MCO del PGD seleccionado para la

serie, trataremos de corregir este problema incluyendo sucesivos

términos dinámicos en la parte derecha de la ecuación. Por

ejemplo, si hemos elegido el MODELO B:

**1 11 1 tt t ty y y uφ γδ − −⇒ Δ = + + Δ +

Esta ecuación se estimará por MCO y se volverán a analizar

los residuos asociados. Si persiste el problema se introducirán

Page 101: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

17

nuevos términos dinámicos hasta llegar a una ecuación en la que

esa relación de dependencia temporal haya desaparecido:

**1 1

1

p

tjt t t jj

y y y uφ γδ − −=

⇒ Δ = + + Δ +∑

La hipótesis nula y alternativa así como el estadístico de

contraste son los mismos. Sin embargo, en este caso hablaremos

del estadístico de Dickey-Fuller Aumentado:

*

1

*0 10 1

*11

*

1

: 1: 0: 1: 0

ˆ

ˆ ˆ

AA

DFA

HHHH

t

φφφφ

φσφ

=⎫ ⎫=⇔⎬ ⎬<< ⎭⎭

=

Observaciones:

La distribución de probabilidad del estadístico del contraste

no es estándar, aunque se encuentra tabulada, por ejemplo,

en W. Fuller (1979): Introduction to Statistical Time Series,

New York: Wiley. Los puntos críticos del contraste varían

con el tamaño de la muestra y con el PGD, y coinciden para

el tDF y para tDFA.

El valor de p en la ecuación del estadístico DFA debe ser

suficiente para corregir los posibles problemas de

correlación temporal en los residuos. Sin embargo, valores

demasiado elevados nos deben inducir a sospechar de que el

PGD seleccionado quizá no sea el más adecuado.

Page 102: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

18

(E)- Iteración, si procede, hasta alcanzar una conclusión

definitiva.

Para determinar el orden de integración de una serie

utilizando esta estrategia deberá enlazarse una secuencia de

contrastes:

(i) En primer lugar se analizará la serie en niveles, yt. Si se

rechaza la hipótesis nula, ya se puede proponer una

decisión: la serie es I(0). Por el contrario, si se acepta la

hipótesis nula, podemos decir únicamente que hemos

detectado una raíz unitaria. En tal caso, debemos iterar.

(ii) Caso de aceptar la hipótesis nula sobre la serie en niveles,

actuaremos sobre la primera diferencia de la serie, Δyt.

Repetiremos todo el proceso para concluir aceptando o

rechazando la hipótesis nula. En caso de rechazo,

finalizamos el proceso identificando la serie como I(1). Si

volvemos a aceptar la hipótesis nula, únicamente

podemos decir que hemos detectado al menos dos raíces

unitarias. Continuaríamos iterando

(iii) A continuación intervendríamos sobre la segunda

diferencia de la serie, Δ2yt. Volveremos a repetir toda la

discusión anterior.

(iv) No parece muy razonable obtener órdenes de integración

elevados: I(2) ó I(3) deben ser valores suficientes.

Page 103: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

19

3.4 Identificación de los procesos estocásticos

estacionarios subyacentes a series temporales

La discusión anterior habrá permitido dar valor a d. Ahora

se trata de determinar p y q condicionado a esa decisión previa:

( ;d; )t ARIMAy p q∼

En definitiva, se trata de identificar la estructura ARMA de

la serie: wt=Δdyt. Para ello utilizaremos el siguiente

RÉGIMEN DE IDENTIFICACIÓN

TIPO DE

PROCESO FA:{ρj, j=1,2,…} FAP:{φjj, j=1,2,…}

MA(q) Irregular j≤q

ρj = 0; ∀ j>q

Decreciente de

forma regular

φjj ≠ 0; ∀ j

AR(p)

Decreciente de

forma regular

ρj ≠ 0; ∀ j

Irregular j≤p

φjj = 0; ∀ j>p

ARMA(p,q)

Irregular j≤q

Decreciente de

forma regular a

continuación

ρj ≠ 0; ∀ j

Irregular j≤p

Decreciente de

forma regular a

continuación

φjj ≠ 0; ∀ j

Page 104: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

20

Esta parte del proceso de identificación se resolverá en dos

etapas:

(I)- IDENTIFICACIÓN DE LA FAMILIA

GENÉRICA A LA QUE PUEDE ADSCRIBIRSE

EL PGD DE LA SERIE, COMO:

AR Puro q=0.

MA Puro p=0.

ARMA q ≠0 y q ≠0.

(II)- IDENTIFICADA LA FAMILIA GENÉRICA A

LA QUE PARECE ADSCRIBIRSE EL PGD DE LA

SERIE, DAREMOS VALOR A LOS

PARÁMETROS TODAVÍA DESCONOCIDOS:

AR Puro q=0 Fijaremos p.

MA Puro p=0 Fijaremos q.

ARMA Fijaremos p y q.

La primera etapa se resolverá atendiendo a la forma de los

correlogramas muestrales obtenidos para la serie y al Régimen

de Identificación que hemos presentado. En la segunda etapa se

utilizarán secuencias de contrastes específicos.

Page 105: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

21

DETERMINACIÓN DEL ORDEN q DE LA MEDIA MÓVIL

Utilizaremos el resultado de Barlett el cual nos permite decir

que los coeficientes de autocorrelación muestral de una serie

MA(q) verifican:

lim ;j jp jr ρ= ∀

2

1

10; 1 2 ;q

j ias iN j qr

=

⎡ ⎤⎛ ⎞+ ∀ >∑⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦∼

Utilizando este resultado, desarrollaremos un proceso

iterativo:

0 1

1

/ 21

1/ 2

1

: 0 (0): 0 1

(0)10;

(1) ( )

A

t

as

t

MAHAl menos qH

Nsi MA FIN DEL PROCESOyrTNr

T Nsi MA Al menosyrT

ε

ε

ρρ

= → ⎫⎬≠ → = ⎭

⎧ <⎪⎪⎡ ⎤ ⇒ ⎨⎢ ⎥⎣ ⎦ ⎪ >⎪⎩

∼∼

Caso de rechazar la hipótesis nula anterior, continuaremos:

( )

( )

( )

0 2

2

22 1

21

2 / 2

21

2 / 2

: 0 (1): 0 2

10; 1 2

1 2(1)

1 2(2) ( )

A

as

t

t

MAHAl menos qH

NrT

rsi MA FIN DEL PROCESOyNr

T

rsi MA Al menosyNr

T

ε

ε

ρρ

ρ

= → ⎫⎬≠ → = ⎭

⎡ ⎤+⎢ ⎥⎣ ⎦⎧ +⎪ <⎪⇒ ⎨

+⎪>⎪

Iteraremos si es necesario

Page 106: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

22

DETERMINACIÓN DEL ORDEN p DEL AUTOREGRESIVO

En este caso utilizaremos el resultado de Quenouilli el cual

nos permite decir que los coeficientes de autocorrelación parcial

muestral de una serie AR(p) verifican:

ˆlim ;jjjjp jφφ = ∀

1ˆ 0; ;

jj asN j p

⎡ ⎤ ∀ >⎢ ⎥⎣ ⎦∼

El proceso para determinar p es iterativo:

0 11

11

/ 211

11/ 2

11

: 0 (0): 0 1

ˆ (0)1ˆ 0;

ˆ (1) ( )

= → ⎫⎬≠ → = ⎭

⎧ <⎪⎪⎡ ⎤ ⇒ ⎨⎢ ⎥⎣ ⎦ ⎪ >⎪⎩

∼∼

A

t

as

t

ARHAl menos pH

Nsi AR FIN DEL PROCESOyTN

T Nsi AR Al menosyT

ε

ε

φφ

φφ

φ

Si rechazamos la hipótesis nula continuaremos:

0 22

22

22

/ 222

/ 222

: 0 (1): 0 2

1ˆ 0;

ˆ (1)

ˆ (2) ( )

A

as

t

t

ARHAl menos pH

NT

Nsi AR FIN DEL PROCESOyT

Nsi AR Al menosyT

ε

ε

φφ

φ

φ

φ

= → ⎫⎬≠ → = ⎭

⎡ ⎤⎢ ⎥⎣ ⎦

⎧ <⎪⎪⇒ ⎨⎪ >⎪⎩

Iteraremos si es necesario

Page 107: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

23

DETERMINACIÓN DE LA ESCALA DEL PROCESO

( ; ; )( ) ;( )

t

dt tt t

ARIMA p d qyLL w yu w= + Θ =Φ Δδ

Para concluir el trabajo de identificación resta por discutir si

en la ecuación debe incluirse un término constante. Si la respuesta

es afirmativa, el valor esperado de la serie (original o

transformada) será diferente de cero y cero en caso contrario.

La discusión la resolveremos utilizado la media muestral de

la serie. Es inmediato verificar que:

[ ][ ]

0 : 0 0: 0 0A

E wHE wH

δδ

⎫= → =⎬≠ → ≠ ⎭

siendo w la media muestral de wt. Aplicando el Teorema Central

del Límite en este caso particular, puede afirmarse que:

( )1 ; ( )T

tt

as

ww N E w V wT=∑= ⎡ ⎤⎣ ⎦∼

siendo: [ ]

[ ] 0

0E wCV wT

⎧ =⎪⎨⎪⎩

Bajo la hipótesis nula asumida.

El estadístico de contraste es de tipo t:

( )( )0;1w

as

w NtV w

= ∼

Page 108: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Chapter 4

ARIMA–Models

4.1 Introductionary Remarks

Forecasting based on ARIMA (autoregressive integrated moving averages) mod-els, commonly know as the Box–Jenkins approach, comprises following stages:

i.) Model identification

ii.) Parameter estimation

iii.) Diagnostic checking

These stages are repeated until a “suitable” model for the given data has beenidentified (e.g. for prediction). The following three sections show some facilitiesthat R offers for assisting the three stages in the Box–Jenkins approach.

4.2 Analysis of Autocorrelations and Partial Au-

tocorrelations

A first step in analyzing time series is to examine the autocorrelations (ACF) andpartial autocorrelations (PACF). R provides the functions acf( ) and pacf( )

for computing and plotting of ACF and PACF. The order of “pure” AR and MAprocesses can be identified from the ACF and PACF as shown below:

sim.ar<-arima.sim(list(ar=c(0.4,0.4)),n=1000)

sim.ma<-arima.sim(list(ma=c(0.6,-0.4)),n=1000)

par(mfrow=c(2,2))

acf(sim.ar,main="ACF of AR(2) process")

acf(sim.ma,main="ACF of MA(2) process")

pacf(sim.ar,main="PACF of AR(2) process")

pacf(sim.ma,main="PACF of MA(2) process")

17

Page 109: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

CHAPTER 4. ARIMA–MODELS 18

0 5 10 20 30

0.0

0.8

Lag

AC

F

ACF of AR(2) process

0 5 10 20 30

−0.

21.

0

Lag

AC

F

ACF of MA(2) process

0 5 10 20 30

0.0

0.6

Lag

Par

tial A

CF

PACF of AR(2) process

0 5 10 20 30−

0.4

0.1

Lag

Par

tial A

CF

PACF of MA(2) process

Figure 4.1: ACF and PACF of AR– and MA–models

The function arima.sim( ) was used to simulate ARIMA(p,d,q)–models ; inthe first line 1000 observations of an ARIMA(2,0,0)–model (i.e. AR(2)–model)were simulated and saved as sim.ar. Equivalently, the second line simulated1000 observations from a MA(2)–model and saved them to sim.ma.An useful command for graphical displays is par(mfrow=c(h,v)) which splitsthe graphics window into (h×v) regions — in this case we have set up 4 seperateregions within the graphics window.The last four lines created the ACF and PACF plots of the two simulated pro-cesses. Note that by default the plots include confidence intervals (based onuncorrelated series).

4.3 Parameter–Estimation of ARIMA–Models

Once the order of the ARIMA(p,d,q)–model has been specified, the functionarima( ) from the ts–library can be used to estimate the parameters:

arima(data,order=c(p,d,q))

Fitting e.g. an ARIMA(1,0,1)–model on the LakeHuron–dataset (annual lev-els of the Lake Huron from 1875 to 1972) is done using

Page 110: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

CHAPTER 4. ARIMA–MODELS 19

data(LakeHuron)

fit<-arima(LakeHuron,order=c(1,0,1))

Here, fit is a list containing e.g. the coefficients (fit$coef), residuals (fit$residuals)and the Akaike Information Criterion AIC (fit$aic).

4.4 Diagnostic Checking

A first step in diagnostic checking of fitted models is to analyze the residuals fromthe fit for any signs of non–randomness. R has the function tsdiag( ), whichproduces a diagnostic plot of a fitted time series model:

fit<-arima(LakeHuron,order=c(1,0,1))

tsdiag(fit)

It produces following output containing a plot of the residuals, the autocorre-lation of the residuals and the p-values of the Ljung–Box statistic for the first 10lags:

Standardized Residuals

Time

1880 1900 1920 1940 1960

−2

1

0 5 10 15

−0.

20.

6

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.6

p values for Ljung−Box statistic

lag

p va

lue

Figure 4.2: Output from tsdiag

Page 111: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

CHAPTER 4. ARIMA–MODELS 20

The Box–Pierce (and Ljung–Box) test examines the Null of independently dis-tributed residuals. It’s derived from the idea that the residuals of a “correctlyspecified” model are independently distributed. If the residuals are not, thenthey come from a miss–specified model. The function Box.test( ) computesthe test statistic for a given lag:

Box.test(fit$residuals,lag=1)

4.5 Prediction of ARIMA–Models

Once a model has been identified and its parameters have been estimated, onepurpose is to predict future values of a time series. Lets assume, that we aresatisfied with the fit of an ARIMA(1,0,1)–model to the LakeHuron–data:

fit<-arima(LakeHuron,order=c(1,0,1))

As with Exponential Smoothing, the function predict( ) can be used for pre-dicting future values of the levels under the model:

LH.pred<-predict(fit,n.ahead=8)

Here we have predicted the levels of Lake Huron for the next 8 years (i.e. until1980). In this case, LH.pred is a list containing two entries, the predicted valuesLH.pred$pred and the standard errors of the prediction LH.pred$se. Using arule of thumb for an approximate confidence interval (95%) of the prediction,“prediction ± 2·SE”, one can e.g. plot the Lake Huron data, predicted valuesand an approximate confidence interval:

plot(LakeHuron,xlim=c(1875,1980),ylim=c(575,584))

LH.pred<-predict(fit,n.ahead=8)

lines(LH.pred$pred,col="red")

lines(LH.pred$pred+2*LH.pred$se,col="red",lty=3)

lines(LH.pred$pred-2*LH.pred$se,col="red",lty=3)

First, the levels of Lake Huron are plotted. To leave some space for addingthe predicted values, the x-axis has been “limited” from 1875 to 1980 withxlim=c(1875,1980) ; the use of ylim is purely for cosmetic purposes here. Theprediction takes place in the second line using predict( ) on our fitted model.Adding the prediction and the approximate confidence interval is done in thelast three lines. The confidence bands are drawn as a red, dotted line (using theoptions col="red" and lty=3):

Page 112: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

CHAPTER 4. ARIMA–MODELS 21

Time

Lake

Hur

on

1880 1900 1920 1940 1960 1980

576

578

580

582

584

Figure 4.3: Lake Huron levels and predicted values

Page 113: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Appendix A

Function Reference

abline( ) Graphics command p. 6acf( ) Estimation of the autocorrelation function p. 17arima( ) Fitting ARIMA–models p. 18arima.sim( ) Simulation of ARIMA–models p. 17Box.test( ) Box–Pierce and Ljung–Box test p. 20c( ) Vector command p. 5cos( ) Cosine p. 12density( ) Density estimation p. 5diff( ) Takes differences p. 4dnorm( ) Normal distribution p. 6filter( ) Filtering of time series p. 9hist( ) Draws a histogram p. 5HoltWinters( ) Holt–Winters procedure p. 14ks.test( ) Kolmogorov–Smirnov test p. 5length( ) Vector command p. 12lines( ) Graphics command p. 5lm( ) Linear models p. 11log( ) Calculates logs p. 4lsfit( ) Least squares estimation p. 11mean( ) Calculates means p. 5pacf( ) Estimation of the partial autocorrelation function p. 17plot( ) Graphics command p. 3predict( ) Generic function for prediction p. 15read.csv( ) Data import from CSV–files p. 3rep( ) Vector command p. 9sd( ) Standard deviation p. 5seq( ) Vector command p. 6shapiro.test( ) Shapiro–Wilk test p. 7sin( ) Sine p. 12stl( ) Seasonal decomposition of time series p. 10summary( ) Generic function for summaries p. 13ts( ) Creating time–series objects p. 10tsdiag( ) Time series diagnostic p. 19qqnorm( ) Quantile–quantile plot p. 6

22

Page 114: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Guía Rápida de Gretl

Carlos J. Pérez

Índice

1. Introducción 1

2. Gestión de Datos 1

3. Estadística Descriptiva 33.1. Estadísticos Univariantes . . . . . . . . . . . . . . . . . . . . . 43.2. Estadísticos Multivariantes . . . . . . . . . . . . . . . . . . . . 53.3. Grá�cos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4. Añadir Variables 8

5. Trabajando con submuestras 9

6. Estimación por Mínimos Cuadrados Ordinarios 106.1. Estimación robusta de las varianzas y covarianzas de los coe-

�cientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136.2. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . 13

7. Otros Modelos Lineales 147.1. Mínimos Cuadrados Ponderados . . . . . . . . . . . . . . . . . 147.2. MCG Factibles . . . . . . . . . . . . . . . . . . . . . . . . . . 157.3. Variables Instrumentales y MC2E . . . . . . . . . . . . . . . . 15

8. Modelos no Lineales 17

9. Programación en Gretl 19

10.Comentarios adicionales 22

Page 115: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

1. Introducción

Gretl es una aplicación diseñada para el análisis estadístico y la esti-

mación de modelos econométricos. Es la herramienta fundamental de análisis

empírico en la asignatura Econometría I y puede descargarse gratuitamente

desde: http://gretl.sourceforge.net/. Esta guía contiene instrucciones

de manejo básico de Gretl que son necesarias para el desarrollo de las prác-

ticas de ordenador. En el menú Ayuda de la barra de herramientas de Gretl

se encuentra la Guía del Usuario en formato .pdf, que contiene una visión

mucho más detallada que la que se presenta aquí.

2. Gestión de Datos

Antes de empezar a trabajar con ellos, debemos introducir nuestros datos

en Gretl. Gretl posee un formato propio para almacenar datos. Los archivos

nativos (en formato propio) de Gretl tienen extensión .gdt, y se abren directa-

mente mediante la secuenciaArchivo/Abrir Datos/Archivo de usuario.

Además, Gretl puede importar archivos de distintos formatos como Stata,

ASCII, Excel y Eviews Work�le, entre otros. En concreto, vamos a centrarnos

en aprender cómo trabajar con los tres últimos. Tanto los archivos ASCII

(archivos simples de texto .txt) como las hojas de Excel (.xls) suelen contener

los datos dispuestos en columnas en cuya primera �la aparecen los nombres de

las variables. Siempre que estén dispuestos de esta forma, Gretl importará los

datos y dará esos nombres automáticamente a las variables. Si el archivo no

contuviera una primera �la con los nombres de las variables, Gretl les asignará

unos nombres por defecto. Si los datos estuvieran dispuestos en �las y no en

columnas, deberíamos importarlos y después trasponerlos1. Gretl lee también

los archivos Eviews Work�les (archivos nativos del paquete econométrico

Econometric Views) y asigna directamente a las variables los nombres con

los que fueron guardadas en la sesión de Eviews.

Para abrir cualquiera de estos tipos de archivos con Gretl, hay que seguir

1Esto se explica más adelante.

1

Page 116: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

la secuenciaArchivo/Abrir Datos/Importar en la barra de herramientas,

y a continuación seleccionar el tipo de archivo en la ventana correspondiente,

tal y como aparece en la �gura.

Una vez que los datos han sido importados con éxito, aparecerán en la pan-

talla las variables importadas

2

Page 117: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Cuando trabajamos con datos ASCII o Excel conviene informar a Gretl

de si éstos son de sección cruzada o de series temporales. Para ello, hay que

seguir la secuencia Datos/Estructura de datos/de sección cruzada o

Datos/Estructura de datos/Serie Temporal en la barra de herramien-

tas, según proceda. En el menú Datos podemos elegir, entre otras, las sigu-

ientes opciones:

Mostrar/Editar valores: permitirá ver y modi�car los datos de las vari-

ables seleccionadas.

Leer/Editar información: permite escribir y leer comentarios acerca del

conjunto de datos con el que se trabaja.

Trasponer datos: traspone la matriz de datos original de forma que

las variables pasan a ser observaciones y las observaciones, variables.

Así se soluciona, por ejemplo, el problemas de que los datos originales

estuvieran organizados en �las y no en columnas.

Podemos cambiar el nombre de las variables, introducir una descripción

de las mismas, elegir el nombre con el que aparecerán en los grá�cos o el

grosor de la línea con la que Gretl las dibujará, siguiendo la secuencia; Vari-

able/Editar atributos desde la barra de herramientas. También podemos

ordenarlas por nombre o número (que es la opción por defecto) mediante

Herramientas/Ordenar variables.

Gretl nos permite además declarar una variable como discreta desdeVari-

able/Editar atributos. Al hacer esto, Gretl la interpretará como tal en el

cálculo, por ejemplo, de su tabla de frecuencias. Para declarar una variable

como discreta ésta debe tomar solamente valores enteros.

3. Estadística Descriptiva

Gretl proporciona información estadística acerca de los datos. Mediante

los diferentes menús, podemos pedir a Gretl esa información, que será presen-

tada en forma de ventana. Todas las ventanas de resultados de Gretl ofrecen

3

Page 118: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

la posibilidad de ser imprimidas, copiadas o guardadas en diferentes formatos

(Word, Latex, ASCII).

3.1. Estadísticos Univariantes

La primera parte del menúVariable contiene todas las opciones de análi-

sis univariante para datos de sección cruzada. Este menú se encuentra activo

cuando tenemos seleccionada una sola variable

La opción de Estadísticos principales ofrece una tabla con información

básica sobre la variable seleccionada, como la media, las desviación típica, el

coe�ciente de asimetría, etc. La opciónDistribución de frecuencias mues-

tra una tabla resumen de frecuencias que incluye un estadístico de Jarque-

Bera para contrastar normalidad. Mediante Grá�co de frecuencias existe

la posibilidad de ver el clásico diagrama de barras frente a los grá�cos de las

distribuciones teóricas normal y gamma.

Para el análisis de series temporales, tenemos diversas opciones en la se-

gunda parte del menú Variable. El Correlograma muestra las funciones

de autocorrelación y autocorrelación parcial de la variable que hayamos se-

leccionado así como sus grá�cos. Podemos elegir el número de retardos que

4

Page 119: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Gretl incluirá en sus cálculos. En la tabla de salida, además del correlograma,

aparecen los valores (y p-valores) del estadístico Q de Ljung-Box-Pierce cuya

hipótesis nula es la ausencia de autocorrelación hasta el orden indicado por el

retardo correspondiente. Las líneas azules en el grá�co de abajo representan

bandas de con�anza de ancho �1;96pTdonde T es el tamaño muestral y 1;96 es

el valor que deja un 5% de probabilidad en las colas de una normal estándar.

Las dos �guras que siguen contienen la tabla y el grá�co del correlograma de

la variable V 1 del archivo phillips.txt.

Función de autocorrelación para V 1RETARDO FAC FACP Estad-Q [valor p]1 0;7591 � � � 0;7591 � � � 27;6482 [0;000]2 0;5066 � � � �0;1644 40;2223 [0;000]3 0;3529 �� 0;0726 46;4561 [0;000]4 0;2897 0;0836 50;7510 [0;000]5 0;2219 �0;0596 53;3274 [0;000]

­1

­0.5

 0

 0.5

 1

 0  2  4  6  8  10

retardo

FAC de v1

+­ 1,96/T^0,5

­1

­0.5

 0

 0.5

 1

 0  2  4  6  8  10

retardo

FACP de v1

+­ 1,96/T^0,5

3.2. Estadísticos Multivariantes

En primer lugar, debemos seleccionar un conjunto de variables con el

botón izquierdo del ratón, bien arrastrándolo o bien manteniendo pulsado

5

Page 120: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

el botón control del teclado. En el menú Ver, además de la opción de Es-

tadísticos principales, que es la versión multivariante de la descrita arriba,

podemos obtener además una tabla que contiene la matriz de correlaciones

de las variables seleccionadas. Por ejemplo, la matriz de correlaciones de las

variables V 1, V 2 y V 3 del archivo ali.txt es:

Coe�cientes de correlación, usando las observaciones 1 - 965

valor crítico al 5% (a dos colas) = 0,0631 para n = 965

V1 V2 V31;0000 0;4889 0;2418 V1

1;0000 0;6032 V21;0000 V3

También en el menú Ver, la opción Distancias de mahalanobis pro-

porciona la matriz de covarianzas y la inversa de la matriz de covarianzas

de las variables seleccionadas. Para las variables V 1, V 2 y V 3 de ali.txt

tenemos las siguiente matriz de covarianzas:

Matriz de covarianzas

V1 V2 V34,3003e+006 9,2850e+006 3,7721e+006 V19,2850e+006 8,3882e+007 4,1553e+007 V23,7721e+006 4,1553e+007 5,6578e+007 V3

y su inversa:

Inversa de la matriz de covarianzas

V1 V2 V33,0736e-007 -3,7522e-008 7,0660e-009 V1-3,7522e-008 2,3320e-008 -1,4626e-008 V27,0660e-009 -1,4626e-008 2,7945e-008 V3

6

Page 121: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3.3. Grá�cos

Getl permite visualizar grá�cos de las variables. Las opciones de grá�cos

se encuentran en el menú Ver. Podemos ver grá�cos de las series temporales

de datos, así como ver grá�cos de unas variables frente a otras. Esto es,

podemos elegir qué variable tomará valores en el eje X y qué variable o

variables en el eje Y , y así inspeccionar visualmente qué tipo de relación

existe entre ellas. El siguiente grá�co es uno de tipo scatter con las variables

v2 y v3 en el eje Y , y la variable v1 en el X.

 0

 2

 4

 6

 8

 10

 12

 3  4  5  6  7  8  9

v1

v2v3

También tienes la opción de visualizar las variables por separado en lugar de

todas juntas mediante Grá�cos múltiples. La siguiente �gura muestra una

versión de la anterior desagregada en dos grá�cos

7

Page 122: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

v2

v1

v3

v1

Los grá�cos se pueden imprimir, copiar y guardar en diferentes formatos.

Sólo hay que hacer click sobre el grá�co con el botón derecho del ratón y

elegir la opción deseada.

4. Añadir Variables

Para trabajar con transformaciones de las variables originales, desde el

menú Añadir podemos generar, entre otras; logaritmos, cuadrados, retardos

y primeras diferencias de las variables que hayamos seleccionado previamente.

Estas variables generadas aparecerán en la ventana de trabajo y podremos

trabajar con ellas del mismo modo que con las originales. Además, Gretl

incluirá una etiqueta descriptiva para que recordemos cómo se generó nuestra

nueva variable.

Si quisiéramos utilizar otro tipo de transformación, como por ejemplo el

producto de dos variables originales, que no aparece entre las opciones del

menú, podemos generarla nosotros mismos mediante la opción De�nir una

nueva variable que también se encuentra en el menúAñadir. Sólo tenemos

que escribir la fórmula de la nueva variable; para generar una nueva variable

z como resultado del producto entre x e y bastaría con escribir

z = x � y

en la ventana correspondiente. Otro ejemplo, para obtener xt�5, el quinto

8

Page 123: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

retardo de xt y llamarlo V 5 haríamos

V 5 = x(�5)

5. Trabajando con submuestras

Desde el menú Muestra de la barra de herramientas tenemos diversas

opciones para determinar qué observaciones van a ser objeto de nuestro análi-

sis. Todas ellas nos permiten trabajar con una submuestra del conjunto de

datos original.

Establecer Rango: Podemos cambiar el rango de los datos, seleccionan-

do la primera y la última observación de la muestra original a consid-

erar. Esto es muy útil en el análisis de series temporales, puesto que

permite analizar aisladamente la submuestra correspondiente al perio-

do que se elija. Para volver a trabajar con la muestra completa, basta

con marcar Recuperar el rango completo.

De�nir la submuestra a partir de una variable �cticia: Permite elegir

una variable �cticia (que toma sólo los valores 0 y 1) para que ac-

túe como criterio de selección muestral. Gretl construye la submuestra

incluyendo sólo las observaciones en las que la variable �cticia selec-

cionada toma el valor 1.

Restringir de acuerdo con un criterio lógico: Permite introducir una

expresión lógica como criterio de selección muestral. Si, por ejemplo,

queremos seleccionar sólo las observaciones para las que la variable V 1

del archivo ali.txt toma valores superiores a 3000, hay que escribir

V 1 > 3000 en la ventana correspondiente:

9

Page 124: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Las opciones añadir a/Reemplazar la selección actual permiten

considerar o no restricciones impuestas con anterioridad. Para enca-

denar un conjunto de restricciones, seleccionaremos añadir a la se-

lección actual cada vez que introduzcamos una nueva condición.

6. Estimación por Mínimos Cuadrados Ordi-narios

La estimación de cualquier tipo de modelo se hace desde el menúMod-

elo. Para estimar un modelo por MCO debemos seleccionar esta opción y

a continuación seleccionar la variable dependiente y la(s) explicativa(s) o

independiente(s) dentro de la ventana que se muestra abajo. Para que las

variables aparezcan en el lado derecho tenemos que presionar los botones

Elegir y Añadir.

10

Page 125: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Al estimar el modelo, Gretl devuelve una ventana como ésta:

La tabla contiene la estimación de los coe�cientes así como de sus desvia-

ciones típicas. La tercera y cuarta columnas son el valor del estadístico t de

signi�cación individual (cuya hipótesis nula es que el coe�ciente en cuestión

es cero) y su p-valor asociado. Gretl calcula automáticamente el estadístico

de Durbin-Watson cuando trabajamos con series temporales.

11

Page 126: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Gretl permite guardar información relevante acerca del modelo. Desde el

menú Guardar podemos conservar los valores ajustados ( bv1), los residuosdel modelo y los cuadrados de los residuos para luego trabajar con ellos. Estas

nuevas variables se guardan en la ventana de trabajo y se pueden utilizar del

mismo modo que las variables originales. También se puede guardar parte de

la información que aparece automáticamente con la estimación.

Tras estimar un modelo en Gretl (sea cual sea el procedimiento de esti-

mación), podemos guardar la ventana de resultados en diferentes formatos,

del mismo modo que lo hicimos en la sección de estadísticos descriptivos.

Desde el menú Archivo de la ventana del modelo y seleccionando Guardar

como, aparece una ventana como ésta

en la que podemos elegir el formato en el que guardar la información. La

opción texto plano nos proporciona un archivo .txt mientras que la RTF

(MS Word) genera un archivo de texto enriquecido compatible con Microsoft

Word. Los archivos LaTeX son especí�cos del sistema de edición de textos

cientí�cos que lleva el mismo nombre (en concreto, esta Guía Rápida ha sido

compuesta en LaTeX).

La estimación de la matriz de varianzas-covarianzas de los coe�cientes se

obtiene en Análisis/Matriz de covarianzas de los coe�cientes.

12

Page 127: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

6.1. Estimación robusta de las varianzas y covarianzasde los coe�cientes

Se pueden hacer estimaciones robustas de la matriz de covarianzas de los

estimadores con simplemente marcar la opción "Desviaciones típicas robustas.en

la parte inferior de la ventana. Aparecen diversas opciones para estimar la

matriz de covarianzas. La opción HC0 produce los estimadores de White.

Las demás opciones (HC1, HC2, HC3 y HC3a) son sucesivas variaciones

que pretenden obtener mejores resultados (los detalles se pueden consultar

en Mackinnon y White (1985) Journal of Econometrics). La opción HAC

disponible para datos de series temporales incluye además retardos. Para

modi�car el número de retardos por defecto, puede consultarse el manual

original de Gretl.

Si presionamos Con�gurar se abrirá la siguiente ventana, en la que po-

dremos elegir el método de estimación para la matriz de covarianzas:

6.2. Contrastes de hipótesis

En el menúContrastes de la ventana del modelo estimado se puede elegir

entre un buen grupo de contrastes de especi�cación y sobre los residuos. El

manejo de estos contrastes es inmediato si se conoce bien la teoría, por lo que

13

Page 128: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

no los enumeraremos aquí. No obstante, veremos cómo se introducen en Gretl

las restricciones lineales sobre los parámetros. Gretl llama a los coe�cientes

bi, donde i es el orden que cada coe�ciente ocupa en la regresión. Así, por

ejemplo, si en el modelo

V 1 = �0 + �1V 2 + �2V 3 + �3V 4

se quiere contrastar la hipótesis lineal de que

�1 + 5�2 = 0

�3 = 4

se debe escribir

b1 + 5 � b2 = 0

b3 = 4

en la ventana correspondiente. Al realizar algunos de los contrastes, Gretl

añadirá esta información a la ventana del modelo para que no haya que

volver a calcularlos y se pueda exportar toda la información de una sola vez.

Por supuesto, Gretl basa los estadísticos en la opción robusta de la matriz

de varianzas y covarianzas si es ésta la que se utiliza en la estimación.

7. Otros Modelos Lineales

Dentro del menúModelos se accede a otros modelos lineales.

7.1. Mínimos Cuadrados Ponderados

Este método pondera cada observación por el valor de la variable que

hayas seleccionado como ponderación. Si para estimar el modelo:

y = �0 + �1x1 + �2x2 (1)

elegimo ponderar mediante la variable x4, entonces Gretl multiplicará y, x1,

y x2 por x4 y efectuará la estimación de

(yx4) = �0 + �0 (x1x4) + �0 (x2x4)

14

Page 129: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

7.2. MCG Factibles

Se accede a ellos medianteModelo/Otros modelos lineales/Corrección

de heterocedasticidad. La ventana emergente es idéntica a la de MCO

Sin embargo, en este caso Gretl efectúa primero la regresión MCO que se

indique y guarda los residuos. Entonces regresa el logaritmo del cuadrado de

esos residuos contra todas las variables independientes y sus cuadrados. Por

último, usa los valores ajustados de esta segunda regresión para construir las

ponderaciones con las que estimará (por mínimos cuadrados ponderados) el

modelo original. La variable de ponderación la construye como 1=pexp (bz),

donde bz son los valores ajustados en la segunda estimación.7.3. Variables Instrumentales y MC2E

Al seleccionar la opción de estimación por mínimos cuadrados en dos eta-

pas, Gretl nos pedirá que elijamos la variable dependiente, las independientes

y los instrumentos. Como "variables independientes", Gretl se re�ere a las

variables del lado derecho de la regresión, sean estas exógenas o endógenas.

Por otra parte, la lista de instrumentos debe incluir TODAS las variables

15

Page 130: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

exógenas que se quiera emplear como instrumentos. Es decir, si una de las

variables explicativas del modelo es exógena, debe incluirse en ambas listas.

Por ejemplo, en el conjunto de datos ali.gdt se encuentran las variables

V 1 = Gasto en alimentaciónV 2 = Gasto totalV 3 = Renta total

Queremos estimar la ecuación

V 1 = �0 + �1V 2 + " (2)

pero sospechamos que V 2 pudiera ser endógena. Podemos estimar (2) medi-

ante MC2E usando V 3 como instrumento. Basta con marcar en la ventana

para obtener una salida como la que sigue:

16

Page 131: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Gretl muestra automáticamente el estadístico y el p-valor asociado para el

contraste de Hausman.

8. Modelos no Lineales

Seleccionando Modelo/Modelos no lineales tenemos la opción de es-

timar modelos logit y probit. No hay más que elegir la variable (binaria)

dependiente y la lista de explicativas. El archivo pfe.gdt contiene datos

de sección cruzada con 865 observaciones de mujeres españolas casadas con

edades entre 25 y 60 años, seleccionadas aleatoriamente de la Encuesta de

Población Activa correspondiente al segundo trimestre de 1990, elaborada

por el Instituto Nacional de Estadística. Contiene las siguientes variables:

V 1 = participación (que toma el valor 1 si la mujer trabaja y 0 en caso

contrario), V 2 = edad (en años), V 3 = Número de hijos menores de 6 años

a cargo, V 4 = Número de hijos entre 6 y 18 años a cargo, V 5 = estudios

universitarios (que toma el valor 1 si la mujer tiene titulación universitaria y

0 en caso contrario)

Queremos saber cómo afecta la composición familiar, el nivel de estudios

y la edad (como aproximación de la experiencia laboral de la mujer) a la

17

Page 132: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

decisión de participación. Para ello podemos estimar el modelo

Pr (V 1 = 1jV 2; V 3; V 4; V 5) = ���0 + �1V 3 + �2V 4 + �3V 2 + �4V 2

2 + �5V 5�

a través de la opción Probit. Si se seleccionan las variables tal y como

aparecen en la �gura

Gretl devolverá la siguiente ventana:

18

Page 133: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

Como los efectos marginales (�pendientes�en la tabla) en estos modelos de-

penden del valor que tomen las últimas, Gretl calcula su valor en la media

de las variables explicativas (sean éstas continuas o discretas). En la parte

inferior de la ventana aparece un cuadro resumen de las coincidencias y diver-

gencias entre las estimaciones del modelo y los valores que toma la variable

endógena. Por ejemplo, de las 190 observaciones de mujeres que no trabajan

vemos que el modelo probit predice que sí lo hacen 163 de ellas (utilizando

el umbral cV 1 > 0;5).9. Programación en Gretl

Además de dar órdenes a Gretl a través de los diferentes menús, también

podemos trabajar mediante comandos. Gretl acepta instrucciones directas

(de una en una a través de una consola y también por lotes) y las ejecuta.

Para introducir lotes de instrucciones debemos seguir la ruta Archi-

vo/Archivos de guión/Nuevo guión desde la barra de herramientas. Una

vez hecho ésto se abrirá una ventana

en la que debemos escribir el conjunto de instrucciones que queramos que

Gretl ejecute. Los dos primeros botones en la parte superior de esta ventana

nos van a permitir guardar el lote de instrucciones que previamente hayamos

19

Page 134: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

introducido en un archivo por lotes. Gretl guarda estos archivos por lotes con

la extensión .inp. Después de guardarlos, podremos abrirlos en otra ocasión

mediante Archivo/Archivos de guión/Archivo de usuario..y volver a

ejecutarlos. Una vez escrito el conjunto de instrucciones, haremos que Gretl

las ejecute presionando el cuarto botón de la ventana (también podemos

escribirlas en otro programa editor de archivos ASCII, como el Bloc de Notas

de Windows, y copiarlas a ésta).

A diferencia del modo de trabajo mediante ventanas, todos los resultados

correspondientes a un lote de instrucciones se muestran conjuntamente. Esto

es muy útil en el caso de que queramos analizar múltiples resultados de una

sola vez. Por otra parte, si vamos a hacer un uso continuado de transforma-

ciones de variables suele ser más cómodo trabajar de este modo. También

podemos ejecutar las instrucciones de una en una mediante una consola que

se abre desde Herramientas/Consola de Gretl. Basta con introducir la

instrucción deseada y Gretl la ejecutará al presionar Intro.

Veamos un ejemplo, el siguiente lote estima por MCO la regresión de V 1

contra V 2, V 3 y una constante, y realiza el contrate RESET de Ramsey.

Después calcula la suma de los coe�cientes de V 2 y V 3, y el estadístico de

contraste y p�valor para la hipótesis nula de que dicha suma es igual a cero:

Otra de las ventajas de trabajar en línea de comandos es el poder gener-

ar archivos de salida desde el guión de instrucciones. Mediante el comando

outfile, podemos decir a Gretl que guarde los resultados en un archivo para

poder consultarlos y editarlos con posterioridad. Para ello escribimos al inicio

20

Page 135: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

la línea outfile --write seguido del nombre del archivo en el que queramos

que se guarden los resultados, y acabamos el lote de instrucciones con la línea

outfile --close, tal y como aparece en la �gura:

Después de ejecutar este lote, Gretl devolverá una ventana de resultados

como la siguiente

y guardará el archivo de resultados ejemplo.txt en la misma carpeta en

la que se encuentra el archivo de datos con el que estamos trabajando. La

opción --write, bien crea un nuevo archivo o bien lo sobreescribe en caso

de que ya hubiera otro con el mismo nombre en la carpeta. Sin embargo,

también es posible anadir resultados a un archivo ya existente. Si tecleamos

la opción --append en lugar de --write, Gretl añadirá los nuevos resultados

al archivo que le indiquemos.

21

Page 136: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

10. Comentarios adicionales

Gretl dispone de bastantes alternativas para el análisis tanto con datos

de series temporales como con datos longitudinales (datos de panel).

Además, pueden descargarse desde http://gretl.sourceforge.net/win32/

programas complementarios para el análisis con series temporales para luego

ser ejecutados desde Gretl. En particular, destacan los programas X-12-

ARIMA y TRAMO/SEATS, para ajuste estacional en modelos ARIMA.

En esa misma página, pueden descargarse archivos de datos de conocidos

libros de texto de econometría.

22

Page 137: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

SERIES TEMPORALES PÁGINA 146

3 MODELOS MULTIVARIANTES ESTACIONARIOS

3.1 INTRODUCCIÓN

3.1.1 Definición

Un proceso estocástico multivariante ( )tY , 1 2[ , , ..., ]t t t tMY Y Y ′≡Y , cuyos momentos de primer y segundo orden son finitos, es estacionario en autocovarianza si y sólo si

E[ ]tY y Var[ ]tY son constantes (no dependen de t) para todo 0, 1, 2, ...t = ± ± ,

Cov[ , ]t t k+Y Y depende a lo sumo de k (entero) pero no de t para todo 0, 1, 2, ...t = ± ±

Observación: El hecho de considerar los componentes 1( )tY , 2( )tY ..., ( )tMY de ( )tY conjuntamente, en lugar de considerar cada uno de ellos por separado (como en el Tema 2), permite elaborar modelos estadísticos para ( )tY que describan no sólo la evolución temporal individual de cada ( )tiY ( 1, 2, ..., )i M= , sino también las posibles relaciones

Page 138: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 147

contemporáneas y dinámicas entre ellos. Dos clases generales de modelos que resultan útiles en este contexto son los modelos ARMA multivariantes o vectoriales y los modelos de función de transferencia-ruido.

3.1.2 Ejemplo

Un proceso bivariante estacionario ( )tY , donde [ , ]t t tY X ′=Y , sigue un modelo VAR(1) (autorregresivo vectorial de orden 1) bivariante cuando

1 11 1 12 1 1

2 21 1 22 1 2

,

,t t t t

t t t t

Y Y X A

X Y X A

µ φ φ

µ φ φ− −

− −

= + + +

= + + + (3.1)

o bien 1 1t t t−= + +Y Y Aµ Φ , (3.2)

donde 1 2[ , ]t t tA A ′≡A , ( ) IID( , )t AA 0 Σ∼ (ruido blanco vectorial),

2

1 11 12 1211 22 21 22 12 2

, , ,µ φ φ σ σµ φ φ σ σ

≡ ≡ ≡ Aµ Φ Σ (3.3)

y los ceros de 1x−I Φ (los autovalores de 1Φ ) están fuera (dentro) del círculo unitario.

Page 139: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 148

Observación: Cuando ( ) VAR(1)tY ∼ , para describir las relaciones contemporáneas y dinámicas entre ( )tY y ( )tX se puede considerar en primer lugar la función de autocorrelación (ACF) teórica de ( )tY implicada por (3.2)-(3.3). Por extensión del caso univariante (ver Tema 2), si [ ]tE≡Y Yµ y ( ) E[ ] E[ ]t t k t k tk + −′ ′≡ ≡Y Y Y YΓ ( 0, 1, 2, ...k = ) [la media y la función de autocovarianza teóricas de ( )tY ], entonces (3.2) implica que

11( )−= −Y Iµ Φ µ , 1 1 0t t t i t ii

∞− −== + = ∑Y Y A AΦ Ψ (con 1

ii ≡Ψ Φ ),

1 1(0) (0) ′= + AΓ Φ Γ Φ Σ , 1 1( ) ( 1) (0)[ ]kk k ′ ′= − =Γ Γ Φ Γ Φ para todo k ≥ 1, donde

E[ ]

E[ ]tY

tX

Y

X

µ

µ

≡ ≡

Yµ ,

( ) ( ) Cov[ , ] Cov[ , ]( )

( ) ( ) Cov[ , ] Cov[ , ]YY YX t k t t k t

XY XX t k t t k t

k k Y Y Y Xk

k k X Y X X

γ γ

γ γ− −

− −

≡ ≡

Γ ( 0, 1, 2, ...k = ).

[Nótese que ( ) ( )k k ′= −Γ Γ .] Por lo tanto, la ACF de ( )tY , ½ ½( ) ( )k k− −≡P D DΓ ( 0, 1, 2, ...k = ), es en este caso ½ ½

1( ) (0)( [ ] )kk −′=P P D DΦ , donde

(0) 0

0 (0)YY

XX

γ

γ

D , ( ) ( ) Corr[ , ] Corr[ , ]

( )( ) ( ) Corr[ , ] Corr[ , ]

YY YX t k t t k t

XY XX t k t t k t

k k Y Y Y Xk

k k X Y X X

ρ ρ

ρ ρ− −

− −

≡ ≡

P ( 0, 1, 2, ...k = ).

En ( )kP , ( )YY kρ y ( )XX kρ describen las autocorrelaciones de ( )tY y de ( )tX , respectivamente, mientras que ( )YX kρ y ( )XY kρ describen correlaciones cruzadas del tipo ( ) ( )t k tY X− → y ( ) ( )t k tX Y− → , respectivamente. Así,

los dos componentes de ( )tY reciben un tratamiento simétrico en un modelo VAR(1), lo que permite considerar la existencia de una relación de causalidad bidireccional entre ellos. [Nótese que la información contenida en ( )YX kρ y en ( )XY kρ para k = 0, 1, 2, ..., también está contenida en ( )YX kρ o bien en ( )XY kρ para 0, 1, 2, ...k = ± ± , cada una de las cuales se denomina una función de correlación cruzada (CCF, del inglés Cross Correlation Function).]

Page 140: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 149

-1

0

1

0 14

Y(-k) sobre Y

-1

0

1

0 14

Y(-k) sobre X

-1

0

1

0 14

X(-k) sobre Y

-1

0

1

0 14

X(-k) sobre X

-1

0

1

0 14

Y(-k) sobre Y

-1

0

1

0 14

Y(-k) sobre X

-1

0

1

0 14

X(-k) sobre Y

-1

0

1

0 14

X(-k) sobre X

-1

0

1

0 14

Y(-k) sobre Y

-1

0

1

0 14

Y(-k) sobre X

-1

0

1

0 14

X(-k) sobre Y

-1

0

1

0 14

X(-k) sobre X

Los tres diagramas anteriores representan la ACF de ( ) VAR(1)tY ∼ para diferentes valores de 1Φ en (3.2)-(3.3):

10.6 0.2

0.2 0.6 =

Φ , 10.7 0.2

0.2 0.7

− = −

Φ , 10.8 0.7

0.4 0.6 = −

Φ ; 4 2

2 10 =

AΣ en los tres casos.

3.1.3 Definición

Un proceso multivariante estacionario ( )tY sigue un modelo ARMA multivariante o vectorial de orden (p,q), o VARMA(p,q) (autorregresivo-media móvil vectorial, del inglés Vector AutoRegressive-Moving Averge), si y sólo si

Page 141: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 150

1 1 2 2

1 1 2 2

...

...t t t p t p t

t t q t q

− − −

− − −

= + + + + +

− − − −

Y Y Y Y A

A A A

µ Φ Φ ΦΘ Θ Θ

(3.4)

para todo 0, 1, 2, ...t = ± ± , donde ( ) IID( , )t AA 0 Σ∼ y µ , 1Φ , 2Φ , ..., pΦ , 1Θ , 2Θ , ..., qΘ son matrices de parámetros tales que todas las raíces de la ecuación

21 2 ... 0p

px x x− − − − =I Φ Φ Φ

están fuera del círculo unitario (condición de estacionariedad). Un modelo VARMA(p,q) descrito por (3.4) es invertible si todas las raíces de la ecuación polinomial

21 2 ... 0q

qx x x− − − − =I Θ Θ Θ

están fuera del círculo unitario (condición de invertibilidad).

Observación 1: (3.4) puede escribirse alternativamente como ( ) ( )t tB B= +Y AΦ µ Θ , donde 1( ) p iiiB B=≡ − ∑IΦ Φ

es el operador autorregresivo (AR) del modelo, y 1( ) q iiiB B=≡ − ∑IΘ Θ es el operador media móvil (MA) del

modelo. (3.4) se denomina un modelo VARMA estándar o normalizado, en el sentido que (0) (0)= = IΦ Θ .

Observación 2: Dado que Var[ ]t≡A AΣ es una matriz definida positiva, AΣ puede factorizarse como ∗ ′=A T TΣ Σ , donde ∗Σ es una matriz diagonal definida positiva y T es una matriz triangular inferior con unos en su diagonal

Page 142: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 151

principal (factorización de Cholesky). La matriz T puede emplearse para transformar ( ) ( )t tB B= +Y AΦ µ Θ en un modelo con perturbaciones ortogonales del tipo ( ) ( )t tB B∗ ∗ ∗ ∗= +Y AΦ µ Θ , con 1( ) ( )B B∗ −≡ TΦ Φ , 1∗ −≡ Tµ µ ,

1( ) ( )B B∗ −≡ T TΘ Θ , 1tt

∗ −≡A T A , 1(0)∗ −= TΦ (triangular inferior), 1 1Var[ ]t∗ − − ∗′= =AA T TΣ Σ (diagonal), y

(0)∗ = IΘ . Por lo tanto, (0)∗Φ muestra explícitamente las relaciones contemporáneas entre los componentes del proceso ( )tY , mientras que en la representación estándar (3.4) la información sobre dichas relaciones está recogida implícitamente en AΣ (una matriz no diagonal en general). La representación no estándar anterior de un modelo VARMA para ( )tY puede depender crucialmente del orden en el que figuran los componentes de tY .

Observación 3: En el modelo VAR(1) bivariante (ver Ejemplo 3.1.2)

1 1

1 2

1 0 0.6 0.2

0 1 0.2 0.6t t t

t t t

Y Y A

X X A−

− =

, 4 2

2 10

=

AΣ , (I)

la factorización de Cholesky de AΣ es

1 0 4 0 1 0.5

0.5 1 0 9 0 1

=

AΣ , de manera que 11 0

0.5 1−

= −

T . (II)

Premultiplicando (I) por la matriz 1−T de (II),

1 1

1 2

1 0 0.6 0.2

0.5 1 0.1 0.5t t t

t t t

Y Y A

X X A

∗−

∗−

− = − −

, 4 0

0 9∗

=

Σ , (II)

es decir, 1 1 10.6 0.2t t t tY Y X A∗− −= + + , 1 1 20.5 0.5 0.1t t t t tX X Y Y A∗

− −= + − + , donde 1( )tA∗ y 2( )tA∗ son dos procesos de ruido blanco ortogonales o incorrelacionados (independientes si son Normales o Gaussianos). (II) indica

Page 143: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 152

que ( ) ( )t tY X→ contemporáneamente, pero ( ) ( )t tX Y→ no. Por otro lado, el modelo estándar (I) es idéntico, excepto por el orden en el que figuran tY y tX , a

1 2

1 1

1 0 0.6 0.2

0 1 0.2 0.6t t t

t t t

X X A

Y Y A−

− =

, 10 2

2 4

=

AΣ . (IV)

Ahora, la factorización de Cholesky de AΣ en (IV) es

1 0 10 0 1 0.2

0.2 1 0 3.6 0 1

=

AΣ , de manera que ahora 11 0

0.2 1−

= −

T . (V)

Premultiplicando (IV) por la matriz 1−T de (V),

1 2

1 1

1 0 0.6 0.2

0.2 1 0.08 0.56t t t

t t t

X X A

Y Y A

∗−

∗−

− = −

, 10 0

0 3.6∗

=

Σ ,

o bien

1 1

1 2

1 0.2 0.56 0.08

0 1 0.2 0.6t t t

t t t

Y Y A

X X A

∗−

∗−

− − =

, 3.6 0

0 10∗

=

Σ , (VI)

es decir, 1 1 10.56 0.2 0.08t t t t tY Y X X A∗− −= + + + , 1 1 20.6 0.2t t t tX X Y A∗

− −= + + , donde 1( )tA∗ y 2( )tA∗ son dos procesos de ruido blanco ortogonales distintos de los que figuran en (II). (VI) indica que ahora ( ) ( )t tX Y→ contemporáneamente, pero ( ) ( )t tY X→ no, exactamente lo contrario que ocurre en (II).

Observación 4: Dado que 1 ( ) Adj[ ( )] / ( )B B B− =Θ Θ Θ , ( ) ( )t tB B= +Y AΦ µ Θ también puede escribirse como Adj[ ( )] ( ) Adj[ (1)] ( )t tB B B= +Y AΘ Φ Θ µ Θ . A partir de esta expresión, puede obtenerse una representación de un

Page 144: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 153

modelo ARMA M-variante en términos de M funciones de transferencia; ver Ejemplo 3.1.4 y Definición 3.1.5. En (II) de la Observación 3 anterior, 1 1(1 0.6 ) 0.2t t tB Y X A∗

−− = + , 2(1 0.5 ) (0.5 0.1 )t t tB X B Y A∗− = − + , que no coinciden con 1(1 0.56 ) (0.2 0.08 )t t tB Y B X A∗− = + + , 1 2(1 0.6 ) 0.2t t tB X Y A∗

−− = + en (VI).

3.1.4 Ejemplo

Un proceso bivariante estacionario ( )tY , donde [ , ]t t tY X ′=Y , sigue un modelo de función de transferencia-ruido de orden (s,b,r) cuando

0( )

,( )

bt t t

BY B X N

Bωα δ= + + (3.5)

con 20 1 2( ) ... s

sB B B Bω ω ω ω ω≡ − − − − , 21 2( ) 1 ... r

rB B B Bδ δ δ δ≡ − − − − , las raíces de la ecuación ( ) 0xδ = están fuera del círculo unitario, y ( ) I(0)tN ∼ es un proceso de ruido (no necesariamente ruido blanco) con media cero, independiente de ( )tX .

Observación 1: (3.5) representa una relación de causalidad unidireccional del tipo ( ) ( )t k tX Y− → (k ≥ 0), a través de la función de transferencia 0( ) [ ( ) / ( )] b k

kkB B B B Bυ ω δ υ∞=≡ ≡ ∑ del input ( )tX sobre el output ( )tY . La

secuencia 0 1 2( , , , ...)υ υ υ de coeficientes de 20 1 2( ) ...B B Bυ υ υ υ≡ + + + se denomina la función de respuesta al

impulso (IRF, del inglés Impulse Response Function) del output con respecto al input del modelo, en el sentido que / /k t t k t k tY X Y Xυ − += ∂ ∂ = ∂ ∂ (k ≥ 0). (3.5) puede resultar útil, en particular, para prever ( )tY cuando ( )tX es

un indicador adelantado (en inglés leading indicator) de ( )tY , es decir, cuando el tiempo muerto b ≥ 1.

Page 145: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 154

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PANEL A

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PANEL B

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PANEL C

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PANEL D

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PANEL E

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PANEL F

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PANEL G

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PAHEL H

-1

0

1

IRF

0 14

-1

0

1

SRF

0 14

PANEL I

Observación 2: La figura siguiente contiene la IRF asociada con varias funciones de transferencia, así como la función de respuesta al escalón (SRF, del inglés Step Response Function), 0

kk iiV υ=≡ ∑ (k ≥ 0), correspondiente. En todos

los casos, la ganancia a largo plazo (en inglés steady-state gain), 0g kk υ∞=≡ ∑ , es igual a 1.

Page 146: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 155

En la figura anterior se han utilizado las funciones de transferencia siguientes:

Panel A : ( ) 1Bυ = . Panel B : ( ) 0.5 0.5B Bυ = + . 2Panel C : ( ) 0.25 0.5 0.25B B Bυ = + + .

0.5Panel D : ( )1 0.5

BB

υ =−

. 0.25 0.25Panel E : ( )1 0.5

BBB

υ +=−

. 20.125 0.25 0.125Panel F : ( )

1 0.5B BB

Bυ + +=

−.

20.8Panel G : ( )

1 0.6 0.4B

B Bυ =

− +. 2

0.4 0.4Panel H : ( )1 0.6 0.4

BBB B

υ +=− +

. 2

20.2 0.4 0.2Panel I : ( )1 0.6 0.4

B BBB B

υ + +=− +

.

En todos los casos, b = 0. Para valores del tiempo muerto b ≥ 1, todas las funciones de la figura anterior estarían desplazadas b retardos hacia la derecha.

Observación 3: Si 1( ) ( )t tB N B Aφ θ ∗= y 0 2( ) ( )X t X tB X B Aφ µ θ ∗= + , donde 1( )tA∗ y 2( )tA∗ son dos procesos de ruido blanco independientes, entonces (3.5) puede escribirse como

1 1

2 2

( ) ( ) 0( ) ( ) ( ) ( )

0 ( )0 ( )

bt t

XX t t

Y B B AB B B B B

BX AB

µ δ θδ φ ω φθµφ

∗ ∗

∗ ∗

− = + ,

21

22

0

0

σ

σ∗∗

=

Σ , (I)

donde 01 (1) (1)µ δ φ α∗ ≡ , 02µ µ∗ ≡ , o bien como

11 12 1 11 1

22 2 22 2

( ) ( ) ( ) 0

0 ( ) 0 ( )t t

t t

B B Y B A

B X B A

µ

µ

∗ ∗ ∗ ∗ ∗

∗ ∗ ∗ ∗

Φ Φ Θ = + Φ Θ

, 21

22

0

0

σ

σ∗∗

=

Σ .

Si el tiempo muerto b ≥ 1 en (3.5), entonces la expresión anterior es un modelo VARMA estándar para el proceso bivariante ( )tY . Por el contrario, si b = 0, 012 (0) ω∗Φ = − , de manera que

Page 147: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 156

11 12 0 01

22

(0) (0) 1 1(0) [ (0)]

0 1 0 10 (0)

ω ω∗ ∗∗ ∗ −

Φ Φ − ≡ = ⇒ ≡ = Φ TΦ Φ . (II)

Si (I) se escribe como ( ) ( )t tB B∗ ∗ ∗ ∗= +Y AΦ µ Θ , entonces la representación VARMA estándar o normalizada de (I) es ( ) ( )t tB B= +Y AΦ µ Θ , donde ( ) ( )B B∗≡ TΦ Φ , ∗≡ Tµ µ , 1( ) ( )B B∗ −≡ T TΘ Θ , t t

∗≡A TA ; por lo tanto, (0) (0)= = IΦ Θ , y Var[ ]t

∗ ′= = AA T TΣ Σ (una matriz no diagonal). Explícitamente:

0( ) ( ) ( ) ( ) ( )

( )0 ( )

X

X

B B B B BB

B

δ φ ω φ ω φ

φ

− =

Φ , 01 2

2

µ ω µ

µ

∗ ∗

+ =

µ ,

0( ) ( ) [ ( ) ( ) ( )]

( )0 ( )

X

X

B B B B BB

B

δ θ ω θ δ θ

θ

− =

Θ , 2 2 2 2

01 0 2 22 2

0 2 2

σ ω σ ω σ

ω σ σ∗ ∗ ∗

∗ ∗

+ =

AΣ .

Por ejemplo, un modelo del tipo

00

1,

1b

t t tY B X NB

ωα δ= + +−

con 1 1(1 )t tN B Aθ ∗= − y 1 0 2(1 ) t tB X Aφ µ ∗− = + ,

puede escribirse como (I),

1 1 11 0 0 1

1 0 2

(1 ) (1 )(1 ) 01

0 10 1

bt t

t t

Y B B AB B

X AB

δ α δ θδ ωµφ

− − −− − = + − ,

21

22

0

0

σ

σ∗∗

=

Σ ,

que es un modelo VARMA(b,2) estándar si b ≥ 1, pero es un modelo VARMA(1,2) no estándar si b = 0. En este caso, la representación estándar o normalizada correspondiente es ( ) ( )t tB B= +Y AΦ µ Θ , donde

Page 148: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 157

1 0 1

1

1( )

0 1

B BB

B

δ ω φ

φ

− − = −

Φ , 1 0 0 0

0

(1 )δ α ω µµ

− + =

µ ,

2 2

1 1 1 1 0 1 1 1 11 ( ) [( ) ]( )

0 1

B B B BB

δ θ δ θ ω δ θ δ θ − + + + − =

Θ , 2 2 2 2

01 0 2 22 2

0 2 2

σ ω σ ω σ

ω σ σ∗ ∗ ∗

∗ ∗

+ =

AΣ .

3.1.5 Definición

Un proceso multivariante estacionario ( )tY , donde 1 2[ , , , ..., ]t t t t tMY X X X ′=Y , sigue un modelo de función de transferencia-ruido, o TFN (del inglés Transfer Function-Noise), con inputs múltiples si y sólo si

1 21 20 1 2

1 2

( ) ( ) ( )...

( ) ( ) ( )MMb b b

t t t tM tM

B B BY B X B X B X N

B B Bω ω ωα δ δ δ= + + + + + , (3.6)

con 20 1 2( ) ... i

is

i i i i isB B B Bω ω ω ω ω≡ − − − − , 21 2( ) 1 ... i

ir

i i i irB B B Bδ δ δ δ≡ − − − − , las raíces de ( ) 0i xδ = están fuera del círculo unitario ( 1, 2, ...,i M= ), y ( ) I(0)tN ∼ es un proceso de ruido (no necesariamente ruido blanco) con media cero, independiente de ( )tX , 1 2[ , , ..., ]t t t tMX X X ′=X , donde ( )tX sigue un modelo VARMA estacionario e invertible de dimensión M (ver Definición 3.1.3).

Page 149: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.1 INTRODUCCIÓN

SERIES TEMPORALES PÁGINA 158

Observación 1: En general, (3.6) implica que 0 1E[ ] g E[ ]Mt i tiiY Xα == + ∑ , donde g (1) / (1)i i iω δ≡ ( 1, 2, ..., )i M=

es la ganancia a largo plazo del output con respecto a cada input. Por ejemplo, en el modelo de la última parte de la Observación 3 de 3.1.4, [ ]0 0 1E[ ] /(1 ) E[ ]t tY Xα ω δ= + − , con 0 1E[ ] /(1 )tX µ φ= − . Esta cuestión es importante para facilitar la interpretación de los modelos de las secciones 3.2 y 3.3, todos los cuales son casos particulares del modelo TFN (3.6).

Observación 2: Prácticamente todos los llamados modelos de regresión para procesos estacionarios que figuran en los manuales de Econometría, son casos particulares (generalmente arbitrarios y restringidos a priori) del modelo (3.6). En la actualidad, la popularidad de dichos modelos es mucho mayor entre los economistas que la de los modelos TFN; de hecho, es muy difícil encontrar manuales de Econometría o de Análisis de Series Temporales aplicado a la Economía en los que se mencione siquiera la posibilidad de modelizar relaciones de causalidad unidireccionales entre procesos estacionarios a través de un modelo TFN. Esta posibilidad tiene ventajas muy claras sobre la modelización basada exclusivamente en modelos de regresión, aunque sus requisitos computacionales son generalmente más elevados. En todo caso, es una posibilidad que no se contempla en la mayoría de los programas informáticos más populares disponibles actualmente (como EViews) para el análisis de series temporales; ver Box, Jenkins y Reinsel (1994) capítulos 10-12, Brockwell y Davis (2002) secciones 10.1-10.2, y Mills (1990) capítulos 12-13. La situación actual de los modelos VARMA en el Análisis de Series Temporales aplicado a la Economía es muy semejante; ver Brockwell y Davis (2002) capítulo 7, Mills (1990) capítulo 14, y Reinsel (1997) capítulos 1-2 y 4-6.

Page 150: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 159

3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

3.2.1 Definición

Un modelo de regresión con perturbaciones ARMA para un proceso estacionario ( )tY , donde 1[ , , ..., ]t t t tMY X X ′=Y , es un caso particular de (3.6) con 0i i is b r= = = para todo 1, 2, ...,i M= . En este caso, (3.6) queda

0 10 1 0...t t M tM tY X X Nα ω ω= + + + + , (3.7)

donde ( ) I(0)tN ∼ tiene media cero, es independiente de ( )tX , 1[ , ..., ]t t tMX X ′=X , y sigue un modelo ARMA(p,q) estacionario e invertible del tipo ( ) ( )t tB N B Aφ θ= .

Observación 1: El modelo (3.7) puede escribirse como 0t t tY Nβ ′= + +Xβ , 1[ , ..., ]Mβ β′ ≡β , que representa una relación de causalidad unidireccional contemporánea del tipo ( ) ( )t tY→X con 0[ ] E[ ]t tE Y β ′= + Xβ (constante). (3.7) se puede interpretar como un modelo ARMA para el proceso 0( ) ( ) I(0)t t tN Y β ′≡ − − Xβ ∼ , donde ( )tY ,

1( )tX , ..., ( )tMX son estacionarios. En Econometría, un modelo como (3.7) se denomina a veces un modelo estático de regresión con perturbaciones autocorrelacionadas.

Observación 2: Aunque (3.7) se ha planteado en 3.2.1 como un modelo para un proceso ( )tY multivariante estacionario, (3.7) también puede ser un modelo adecuado para ( ) I(1)tY ∼ cuando ( )tY , 1( )tX , ..., ( )tMX están cointegrados; ver Tema 4.

Page 151: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 160

Análisis de intervención

Sea ( )tY un proceso estocástico tal que t t tY Nη= + , donde ( )tη representa el efecto sobre el nivel de ( )tY derivado de un suceso especial o de intervención (quizás fácilmente identificable) ocurrido en un momento t∗ dado de la historia de ( )tY .

Si ( ) ( ) I(0)t t tN Y η= − ∼ , un modelo plausible para ( )tY podría ser

0 0t t tY Nα ω ξ= + + , (3.8)

donde ( ) ARMA( , )tN p q∼ y tξ es una variable determinista o de intervención del tipo

Impulso: ,1 , si ;

0 , si .I tt

t t

t tξ

∗∗

=≡ ≠ (3.9.1)

Escalón: ,1 , si ;

0 , si .E tt

t t

t tξ

∗∗

≥≡ < (3.9.2)

Observación 1: Un impulso como (3.9.1) representa un cambio puntual o transitorio en el nivel de ( )tY , mientras que un escalón como (3.9.2) representa un cambio permanente en el nivel de ( )tY .

Page 152: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 161

Observación 2: El modelo (3.8) puede generalizarse para contemplar: (i) los posibles efectos de varios sucesos de intervención en la historia de ( )tY , (ii) respuestas de ( )tY ante dichos sucesos más complejas que una respuesta instantánea, y (iii) la posibilidad de que ( )t tY η− sea un proceso no estacionario. Un modelo de intervención en el que caben todas estas posibilidades es el siguiente (ver 3.1.5):

1 21 21 2

1 2

( ) ( ) ( )...

( ) ( ) ( )MMb b b

t t t tM tM

B B BY B B B U

B B Bω ω ω

ξ ξ ξδ δ δ

= + + + + ,

donde ( )tU es un proceso no estacionario tal que ( ) ( ) ( ) ( )S d D St tSB B U B B Aφ θΦ ∇ ∇ = Θ , o bien

1 21 2

1 21 2

( ) ( ) ( )...

( ) ( ) ( )

Mb b bMd D d D d D d D

t t t tM tS S S SM

B B B B B BY N

B B Bω ω ωξ ξ ξδ δ δ

∇ ∇ = ∇ ∇ + ∇ ∇ + + ∇ ∇ + ,

donde ( ) ( ) I(0)d Dt tSN U≡ ∇ ∇ ∼ . Si se incluye un término constante 0α en el modelo anterior, de manera que

1 21 2

0 1 21 2

( ) ( ) ( )...

( ) ( ) ( )

Mb b bMd D d D d D d D

t t t tM tS S S SM

B B B B B BY N

B B Bω ω ωα ξ ξ ξδ δ δ

∇ ∇ = + ∇ ∇ + ∇ ∇ + + ∇ ∇ + ,

entonces ( )tY tiene un componente determinista en su tendencia (lo cual no resulta apropiado en muchos casos).

Observación 3: En muchas ocasiones, los valores anómalos o atípicos presentes en una serie temporal pueden corregirse mediante términos de intervención semejantes a los considerados anteriormente. No obstante, en general, dichas correcciones sólo deben figurar explícitamente en un modelo cuando se dispone de información extramuestral que justifica su presencia, o bien cuando los valores atípicos correspondientes son influyentes (aunque no se disponga en este caso de información extramuestral al respecto).

Page 153: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 162

-4

-3

-2

-1

0

1

2

3

4

1880 1900 1920 1940 1960

-1

0

1

1 15ACF

-1

0

1

1 15PACF

PANEL A - FLUJO ANUAL - NILO

19131899

-4

-3

-2

-1

0

1

2

3

4

1880 1900 1920 1940 1960

-1

0

1

1 15ACF

-1

0

1

1 15PACF

PANEL B - VARIACIÓN DEL FLUJO ANUAL - D( NILO )

1899 1913

3.2.2 Ejemplo

Figura 3.1

Volumen del flujo anual del río Nilo en Asuán (1871 – 1970) (nilo.wf1)

Si ( )tY representa el proceso estocástico Volumen del flujo anual del río Nilo en Asuán, los resultados de los contrastes del Ejemplo 2.6.6 sugieren que ( ) I(1) IMA(1, 1)tY ∼ ∼ . La Figura 3.2 contiene un modelo IMA(1,1) estimado con EViews 4.1 (May 23 2003 build) para ( )tY , junto con los residuos y la ACF y la PACF residuales correspondientes.

Page 154: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 163

-4

-3

-2

-1

0

1

2

3

4

1880 1900 1920 1940 1960

-1

0

1

1 15ACF

-1

0

1

1 15PACF

1899 1913

Dependent Variable: D(NILO) Method: Least Squares Sample(adjusted): 1872 1970 Included observations: 99 after adjusting endpoints Convergence achieved after 12 iterations Backcast: 1871

Variable Coefficient Std. Error t-Statistic Prob. MA(1) -0.754555 0.068153 -11.07146 0.0000

R-squared 0.264126 Mean dependent var -3.838384Adjusted R-squared 0.264126 S.D. dependent var 168.1319S.E. of regression 144.2287 Akaike info criterion 12.79073Sum squared resid 2038589. Schwarz criterion 12.81694Log likelihood -632.1410 Durbin-Watson stat 1.720484

Figura 3.2 Estimación de un modelo MA(1) para la serie D( NILO )

La Figura 3.1 (Panel A) sugiere que el nivel medio de ( )tY cambió de forma permanente a partir de 1899 (debido probablemente al inicio de la construcción de una presa nueva en Asuán), y que en 1913 el nivel de ( )tY fue especialmente bajo. Estos dos sucesos pueden analizarse incluyendo en el modelo de la Figura 3.2 un escalón en 1899 y un impulso en 1913. La Figura 3.3 contiene el modelo resultante estimado con EViews 4.1.

Page 155: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 164

-4

-3

-2

-1

0

1

2

3

4

1880 1900 1920 1940 1960

-1

0

1

1 15ACF

-1

0

1

1 15PACF

1899 1913

Dependent Variable: D(NILO) Method: Least Squares Sample(adjusted): 1872 1970 Included observations: 99 after adjusting endpoints Convergence achieved after 14 iterations Backcast: 1871

Variable Coefficient Std. Error t-Statistic Prob. D(E1899) -244.6086 31.54436 -7.754430 0.0000D(I1913) -397.6753 123.6317 -3.216612 0.0018

MA(1) -0.979379 0.014793 -66.20449 0.0000R-squared 0.469165 Mean dependent var -3.838384Adjusted R-squared 0.458106 S.D. dependent var 168.1319S.E. of regression 123.7677 Akaike info criterion 12.50452Sum squared resid 1470571. Schwarz criterion 12.58316Log likelihood -615.9740 Durbin-Watson stat 1.720938

Figura 3.3 Estimación de un modelo MA(1) con dos intervenciones para la serie D( NILO )

La estimación de 1θ está muy próxima a la unidad, lo que sugiere que el término MA(1) es esencialmente igual a ∇ (la hipótesis 1 1θ = puede contrastarse formalmente como en el Ejemplo 2.6.6). Si 1 1θ = , ,1899 ,1913

10 20E I

t tt tY Uω ξ ω ξ= + + con 1(1 )t tU B Aθ∇ = − es equivalente a ,1899 ,1913

0 10 20E I

t tt tY Nα ω ξ ω ξ= + + + , donde ( )tN es ruido blanco. La Figura 3.4 contiene la estimación de este último modelo; la Figura 3.5 contiene el

Page 156: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 165

-4

-3

-2

-1

0

1

2

3

4

1880 1900 1920 1940 1960

1899 1913

-1

0

1

1 15ACF

-1

0

1

1 15PACF

componente de intervención ,1899 ,1913ˆ 1097.75 242.23 399.52E It t tη ξ ξ= − − estimado para

( )tY , junto con la serie ( )ty de la Figura 3.1 (Panel A).

Dependent Variable: NILO Method: Least Squares Sample: 1871 1970 Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob. C 1097.750 23.02634 47.67366 0.0000

E1899 -242.2289 27.19026 -8.908663 0.0000I1913 -399.5211 122.6990 -3.256107 0.0016

R-squared 0.492071 Mean dependent var 919.3500Adjusted R-squared 0.481599 S.D. dependent var 169.2275S.E. of regression 121.8439 Akaike info criterion 12.47290Sum squared resid 1440057. Schwarz criterion 12.55106Log likelihood -620.6450 F-statistic 46.98588Durbin-Watson stat 1.723503 Prob(F-statistic) 0.000000

Figura 3.4 Estimación de un modelo con dos intervenciones para la serie NILO

Observaciones: La ocurrencia de sucesos especiales en la historia de un proceso estocástico puede distorsionar el aspecto de una serie temporal, provocando apariencia de no estacionariedad y estructuras de autocorrelación espurias. Un análisis de intervención sistemático, basado en el empleo de información extramuestral y en la detección de observaciones influyentes, permite modelizar adecuadamente dichos sucesos. Las intervenciones de tipo impulso

Page 157: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 166

400

600

800

1000

1200

1400

1880 1900 1920 1940 1960

1899 1913

afectan sólo a una observación y pueden incluirse en un modelo con cierta discrecionalidad; por el contrario, las intervenciones de tipo escalón son más comprometidas y conviene justificarlas con información detallada.

Figura 3.5

Componente de intervención estimado ( ) del volumen del flujo anual del río Nilo en Asuán ( ) (nilo.wf1)

3.2.3 Ejemplo

Un ejemplo muy popular del análisis de intervención trata del efecto de legislaciones acerca del uso del cinturón de seguridad sobre el número de víctimas en accidentes de tráfico.

Page 158: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 167

-4

-3

-2

-1

0

1

2

3

4

1976 1978 1980 1982 1984

-1

0

1

1 39ACF

-1

0

1

1 39PACF

PANEL A - FALLECIDOS Y HERIDOS GRAVES - ACC

1983:02

-4

-3

-2

-1

0

1

2

3

4

1976 1978 1980 1982 1984

-1

0

1

1 39ACF

-1

0

1

1 39PACF

PANEL B - VARIACIÓN INTERANUAL - D( ACC, 0, 12 )

1983:02

Figura 3.6

Fallecidos y heridos graves en carreteras del Reino Unido (Enero 1975 – Diciembre 1984) (seat-belt-uk.wf1)

La Figura 3.6 sugiere estimar para ( )tY un modelo del tipo ,1983:020

Et ttY Uω ξ= + , donde

,1983:02Etξ es un escalón que representa la entrada en vigor de una nueva legislación sobre el

uso del cinturón de seguridad en febrero de 1983, y 1212 1(1 )t tU B A∇ = −Θ . La Figura 3.7

contiene el modelo estimado con EViews 4.1 (May 23 2003 build) para ( )tY , junto con los residuos y la ACF y la PACF residuales correspondientes; la Figura 3.8 contiene el componente de intervención ,1983:02

12 12ˆ 287.41 Et tη ξ∇ = − ∇ estimado para 12( )tY∇ , junto

Page 159: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 168

-4

-3

-2

-1

0

1

2

3

4

1976 1978 1980 1982 1984

-1

0

1

1 39ACF

-1

0

1

1 39PACF

1983:02

con la serie 12( )ty∇ de la Figura 3.6 (Panel B).

Dependent Variable: D(ACC,0,12) Method: Least Squares Sample(adjusted): 1976:01 1984:12 Included observations: 108 after adjusting endpoints Convergence achieved after 12 iterations Backcast: 1975:01 1975:12

Variable Coefficient Std. Error t-Statistic Prob. D(E0283,0,12) -287.4082 22.42712 -12.81521 0.0000

MA(12) -0.930343 0.026039 -35.72909 0.0000R-squared 0.618060 Mean dependent var -25.85185Adjusted R-squared 0.614457 S.D. dependent var 180.5618S.E. of regression 112.1146 Akaike info criterion 12.29527Sum squared resid 1332387. Schwarz criterion 12.34493Log likelihood -661.9443 Durbin-Watson stat 1.596903

Figura 3.7 Estimación de un modelo 12IMA(1,1) con una intervención para la serie ACC

Observaciones: El efecto estimado de la entrada en vigor de la nueva legislación es una reducción permanente en el número de fallecidos y heridos graves aproximadamente igual a 287 personas cada mes a partir de febrero de 1983 (un efecto notable, teniendo en cuenta que la media de la serie ACC hasta enero de 1983 es igual a 1621). Por otro lado, la modelización de este suceso de intervención permite descartar una estructura de tipo autorregresivo en 12( )tY∇ , que parece clara en la Figura 3.6 (Panel B), pero que no está presente en los residuos de la Figura 3.7.

Page 160: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.2 MODELOS DE REGRESIÓN CON PERTURBACIONES ARMA

SERIES TEMPORALES PÁGINA 169

-600

-400

-200

0

200

400

1976 1978 1980 1982 1984

1983:02

1984:02

Figura 3.8

Componente de intervención estimado ( ) de la variación interanual de la serie ACC ( ) (seat-belt-uk.wf1)

Page 161: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

SERIES TEMPORALES PÁGINA 170

3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

3.3.1 Ejemplo

Un modelo de retardos distribuidos finitos para un proceso bivariante estacionario ( )tY , donde [ , ]t t tY X ′=Y , es un caso particular de (3.5) con ( ) 1Bδ = y b = 0:

0 0 1 1 ... ,t t t s t s tY X X X Nα ω ω ω− −= + + + + +

donde ( ) I(0)tN ∼ es independiente de ( )tX . [En Econometría, suele suponerse, además, que ( )tN es un proceso de ruido blanco.]

Observación 1: En el modelo anterior, 0ω suele denominarse un multiplicador de impacto (en inglés impact propensity o impact multiplier), en el sentido que 0 /t tY Xω = ∂ ∂ . La FRI / /k t t k t k tY X Y Xυ − += ∂ ∂ = ∂ ∂ ( 0)k ≥ es en este caso 0 1( , , ..., , 0, ...)sω ω ω , mientras que la ganancia a largo plazo (en inglés steady state gain, long-run propensity o long-run multiplier) es simplemente 0g s

kk ω== ∑ , que representa una relación de equilibrio a largo plazo entre los dos componentes de ( )tY del tipo 0 gy xα∗ ∗= + .

Observación 2: En Econometría, un modelo TFN como (3.5) [o, en general, como (3.6)] con b = 0 y ( )tN ruido blanco, suele denominarse un modelo de retardos distribuidos infinitos (o, en inglés, rational distributed lags), en el sentido que la FRI es infinita cuando 1r ≥ en (3.5); ver Ejemplo 3.1.4. No obstante, la manera de elaborar modelos de este tipo en Econometría suele ser (en el mejor de los casos) arbitraria y muy diferente de la empleada en el Análisis de Series Temporales; ver Observación 2 de 3.1.5.

Page 162: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

SERIES TEMPORALES PÁGINA 171

Modelos ADL

3.3.2 Ejemplo

Un modelo ADL (del inglés Autoregressive Distributed Lag) para un proceso bivariante estacionario ( )tY , donde [ , ]t t tY X ′=Y , es un caso particular de (3.5) con ( ) ( )B Bφ δ= y b = 0 [ver (I) en Observación 3 de 3.1.4]:

0( ) ( ) ( ) ,t t tB Y B X B Aδ β ω θ= + + (3.10)

donde 0 0(1)β δ α≡ , 2( ) IID(0, )t AA σ∼ , y las raíces de ( ) 0xδ = están fuera del círculo unitario. En Econometría, (3.10) se escribe a veces como

0 1 0 ,r st i t i i t i ti iY Y X Vβ β γ− −= == + + +∑ ∑ (3.11)

donde ( 1, 2, ..., )i i i rβ δ≡ = , 0 0γ ω≡ , ( 0, 1, ..., )i i i sγ ω≡ − = , ( )t tV B Aθ≡ , y suele suponerse que ( ) 1Bθ = , de manera que ( )tV en (3.11) sea un proceso de ruido blanco.

Observación: En Econometría, el modelo de causalidad unidireccional más general que suele considerarse es el modelo ADL de la Definición 3.3.2 (quizás con más de una variable explicativa), que incluye la restricción fundamental de que ( ) ( )B Bφ δ= en el modelo TFN (3.5). En este sentido, nótese que para un proceso estacionario bivariante ( )tY , con [ , ]t t tY X ′=Y , (i) un modelo estático de regresión con perturbaciones esféricas es (3.10) con 0( )Bω ω= y

Page 163: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

SERIES TEMPORALES PÁGINA 172

( ) ( ) 1B Bδ θ= = , (ii) un modelo estático con perturbaciones autocorrelacionadas es (3.10) con 0( ) / ( )B Bω δ ω= , (iii) un modelo de retardos distribuidos finitos es (3.10) con ( ) ( ) 1B Bδ θ= = , y (iii) un modelo de retardos distribuidos infinitos es (3.10) con ( ) ( )B Bθ δ= .

3.3.3 Ejemplo

En Econometría, un modelo ADL(1,1) es (3.11) con r = s = 1:

0 1 1 0 1 1 ,t t t t tY Y X X Vβ β γ γ− −= + + + + (3.12)

que describe una relación de equilibrio a largo plazo del tipo 0 1/(1 )y xβ β λ∗ ∗= − + , con

0 1 1( ) /(1 )λ γ γ β≡ + − . Observación: Si se supone que 2( ) IID(0, )t VV σ∼ en (3.12): (i) cuando 1 1 0β γ= = , (3.12) se reduce a un modelo estático de regresión estático con perturbaciones IID, (ii) cuando 0 1 0γ γ= = , (3.12) se reduce a un modelo AR(1), (iii) cuando 1 1 0γ β γ= − , (3.12) se convierte en un modelo de regresión estático con perturbaciones AR(1), y (iv) cuando 1 1β = y 1 0γ γ= − , (3.12) se convierte en un modelo de regresión estático entre tY∇ y tX∇ con perturbaciones IID, 0 0t t tY X Vβ γ∇ = + ∇ + .

Modelos de corrección de error

3.3.4 Ejemplo

El modelo ADL(1,1) de (3.12) puede escribirse como

Page 164: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

SERIES TEMPORALES PÁGINA 173

0 1 1 1 0(1 )( )t t t t tY Y X X Vβ β λ γ− −∇ = − − − + ∇ + , (3.13)

donde 0 1 1( ) /(1 )λ γ γ β≡ + − . El término 1 1( )t tY Xλ− −− representa en qué medida no se satisface (salvo quizás por una constante) en el momento 1t − la relación de equilibrio a largo plazo entre los dos componentes de ( )tY implícita en (3.12).

(3.13) se denomina un modelo de corrección de error (ECM, del inglés Error Correction Model ). (3.13) implica que cualquier desequilibrio (error) entre 1tY − y 1tX − es transitorio porque tiende a corregirse a través de variaciones adecuadas en tY asociadas con el término de corrección de error 1 1 1(1 )( )t tY Xβ λ− −− − − , donde 1(1 ) 0β− − > representa la proporción del desequilibrio entre 1tY − y 1tX − que se refleja en 1t t tY Y Y −∇ ≡ − .

Observación: Aunque los modelos de esta sección se han planteado para un proceso ( )tY bivariante estacionario, todos ellos [en particular el modelo ADL(1,1) de (3.12) en su versión ECM de (3.13)] también pueden ser modelos adecuados para ( ) I(1)tY ∼ cuando ( )tY y ( )tX están cointegrados; ver Tema 4.

3.3.5 Ejemplo

La Figura 3.9 contiene un gráfico de las series ( ) (100 ln )t ty m1∗≡ ∇ y ( ) ( )t tx tb3m≡ ∇ , así como la ACF muestral bivariante de ( )ty , [ , ]t t ty x ′≡y (Ver Observación en Ejemplo

Page 165: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

SERIES TEMPORALES PÁGINA 174

-8

-4

0

4

8

12

16

1960 1970 1980 1990 2000

-1

0

1

1 10ACF Y

-1

0

1

0 9CCF Y - X

-1

0

1

0 9CCF X - Y

-1

0

1

1 10ACF X

3.1.2), donde ( )tm1∗ y ( )ttb3m son series anuales sobre M1 (real) y tipos de interés de las Letras del Tesoro a 3 meses en Estados Unidos.

Figura 3.9 Series Y ( ) y X ( ) del Ejemplo 3.3.5 (1960 – 2002)

(money-demand.wf1)

La Figura 3.10 contiene un modelo ADL(1,1) como (3.12) estimado con EViews 4.1 (May 23 2003 build), junto con los residuos y la ACF y la PACF residuales correspondientes.

Page 166: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

SERIES TEMPORALES PÁGINA 175

-4

-3

-2

-1

0

1

2

3

4

1960 1970 1980 1990 2000

-1

0

1

1 10ACF

-1

0

1

1 10PACF

Dependent Variable: Y Method: Least Squares Sample(adjusted): 1961 2002 Included observations: 42 after adjusting endpoints

Variable Coefficient Std. Error t-Statistic Prob. C 0.444132 0.561649 0.790764 0.4340

Y(-1) 0.370082 0.133899 2.763886 0.0088X -0.940986 0.337316 -2.789630 0.0082

X(-1) -0.966877 0.332322 -2.909463 0.0060R-squared 0.462137 Mean dependent var 0.824913Adjusted R-squared 0.419674 S.D. dependent var 4.697250S.E. of regression 3.578325 Akaike info criterion 5.478059Sum squared resid 486.5676 Schwarz criterion 5.643552Log likelihood -111.0392 F-statistic 10.88331Durbin-Watson stat 2.175597 Prob(F-statistic) 0.000027

Figura 3.10 Estimación de un modelo ADL(1,1) con las series del Ejemplo 3.3.5

Observación 1: El modelo estimado de la Figura 3.10 puede escribirse como

0.941 0.967 1 ˆ0.7051 0.370 1 0.370t t t

By x aB B

− −= + +− −

,

que es un modelo TFN cuyo ruido sigue un modelo AR(1) restringido a que ˆ ˆ( ) ( )B Bφ δ= ; ver 3.3.2. La IRF y la SRF (ver observaciones 1 y 2 en 3.1.4) implicadas por el modelo TFN anterior están representadas en la Figura 3.11 (comparar con el panel CCF X - Y de la Figura 3.9); la ganancia estimada es ˆˆg (1) / (1) 3.029ω δ= = − , que implica una relación de equilibrio a largo plazo entre ( )tY y ( )tX del tipo 0.705 3.029y x∗ ∗= − .

Page 167: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

SERIES TEMPORALES PÁGINA 176

0

IRF

0 10

0

SRF

0 10

Figura 3.11 IRF y SRF implicadas por el modelo ADL(1,1) estimado de la Figura 3.10

Observación 2: El modelo estimado de la Figura 3.10 también puede escribirse como

1 1 ˆ0.444 0.630( 3.029 ) 0.941t t t t ty y x x a− −∇ = − + − ∇ + ,

que es un ECM (ver Ejemplo 3.3.4) cuyo término de corrección de error, 1 10.630( 3.029 )t ty x− −− + , indica que un 63% del desequilibrio (error) anual observado entre 1ty − y 1tx − se corrige en el año siguiente. Nótese que la estimación de λ ( 3.029)− [ver (3.13)] coincide con la ganancia estimada a partir del modelo TFN de la Observación 1. En este sentido, una manera de obtener directamente el error estándar del estimador de λ consiste en estimar el ECM (3.13) directamente por mínimos cuadrados no lineales , lo que proporciona (comparar con la Figura 3.10):

Dependent Variable: D(Y) Method: Least Squares Sample(adjusted): 1961 2002 Included observations: 42 after adjusting endpoints Convergence achieved after 17 iterations D(Y) = C(1) + C(2) * ( Y(-1) - C(3) * X(-1) ) + C(4) * D(X)

Page 168: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.3 MODELOS DE RETARDOS DISTRIBUIDOS EN ECONOMETRÍA

SERIES TEMPORALES PÁGINA 177

-16-12

-8-4048

1216

1960 1970 1980 1990 2000

PANEL A

-16-12

-8-4048

1216

1960 1970 1980 1990 2000

PANEL B

Coefficient Std. Error t-Statistic Prob. C(1) 0.444132 0.561649 0.790764 0.4340C(2) -0.629918 0.133899 -4.704418 0.0000C(3) -3.028749 0.906482 -3.341212 0.0019C(4) -0.940986 0.337316 -2.789630 0.0082

R-squared 0.568401 Mean dependent var 0.034347Adjusted R-squared 0.534327 S.D. dependent var 5.243720S.E. of regression 3.578325 Akaike info criterion 5.478059Sum squared resid 486.5676 Schwarz criterion 5.643552Log likelihood -111.0392 Durbin-Watson stat 2.175597

Observación 3: La figura siguiente contiene la representación de las series ( )ty ( ) y ( )tx ( ) (Panel A) junto con la serie de desequilibrios transitorios estimados ( 3.029 )t ty x+ ( ) (Panel B):

Page 169: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 178

3.4 MODELOS VAR ESTACIONARIOS

3.4.1 Definición

Un proceso multivariante estacionario ( )tY sigue un modelo AR multivariante o vectorial de orden p, o VAR(p) (autorregresivo vectorial, del inglés Vector AutoRegressive), si y sólo si

1 1 2 2 ...t t t p t p t− − −= + + + + +Y Y Y Y Aµ Φ Φ Φ (3.14)

para todo 0, 1, 2, ...t = ± ± , donde ( ) IID( , )t AA 0 Σ∼ y µ , 1Φ , 2Φ , ..., pΦ son matrices de parámetros tales que todas las raíces de la ecuación

21 2 ... 0p

px x x− − − − =I Φ Φ Φ

están fuera del círculo unitario (condición de estacionariedad).

Observación 1: (3.14) puede escribirse alternativamente como ( ) t tB = +Y AΦ µ , donde 1( ) p iiiB B=≡ − ∑IΦ Φ es el

operador autorregresivo (AR) del modelo. (3.14) se denomina un modelo VAR estándar o normalizado, en el sentido que (0) = IΦ .

Observación 2: Dado que Var[ ]t≡A AΣ es una matriz definida positiva, AΣ puede factorizarse como ∗ ′=A T TΣ Σ ,

Page 170: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 179

donde ∗Σ es una matriz diagonal definida positiva y T es una matriz triangular inferior con unos en su diagonal principal (factorización de Cholesky). La matriz T puede emplearse para transformar ( ) t tB = +Y AΦ µ en un modelo con perturbaciones ortogonales del tipo ( ) t tB∗ ∗ ∗= +Y AΦ µ , con 1( ) ( )B B∗ −≡ TΦ Φ , 1∗ −≡ Tµ µ ,

1tt

∗ −≡A T A ; en este caso, 1(0)∗ −= TΦ (triangular inferior) y 1 1Var[ ]t∗ − − ∗′= =AA T TΣ Σ (diagonal); por lo

tanto, (0)∗Φ muestra explícitamente las relaciones contemporáneas entre los componentes del proceso ( )tY , mientras que en la representación estándar (3.14) la información sobre dichas relaciones está recogida implícitamente en AΣ (una matriz no diagonal en general). La representación no estándar anterior de un modelo VAR para ( )tY puede depender crucialmente del orden en el que figuran los componentes de tY ; ver observaciones 1 a 4 de 3.1.3.

3.4.2 Ejemplo

La Tabla 3.1 contiene la estimación con EViews 4.1 (May 23 2003 build) de un modelo VAR(1) bivariante con la serie ( )ty , [ , ]t t ty x ′=y , del Ejemplo 3.3.5; el modelo estimado puede resumirse como

11

1 2

ˆ0.254 1.222 14.974 2.717ˆ, ,

2.717 2.8290.141 0.275 ˆ

ˆ42, 34.97, 193.84, AIC 9.42, BIC 9.59.

tt t

t t t

ay yx x a

N L

− − = + = − = = = − = =

A

A

Σ

Σ (3.15)

La Figura 3.12 contiene la serie de residuos ˆ( )ta , 1 2ˆ ˆ ˆ[ , ]t t ta a ′=a , del modelo (3.15).

Page 171: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 180

Vector Autoregression Estimates Sample(adjusted): 1961 2002

Included observations: 42 after adjusting endpointsStandard errors in ( ) & t-statistics in [ ]

Y X Y(-1) 0.253606 0.141040

(0.13289) (0.05776) [ 1.90841] [ 2.44199]

X(-1) -1.222001 0.275128 (0.34493) (0.14991) [-3.54278] [ 1.83525]

R-squared 0.337901 0.153942 Adj. R-squared 0.321349 0.132790 Sum sq. resids 598.9547 113.1407 S.E. equation 3.869608 1.681820 F-statistic 20.41396 7.278070 Log likelihood -115.4033 -80.40563 Akaike AIC 5.590631 3.924078 Schwarz SC 5.673378 4.006824 Mean dependent 0.824913 -0.025238 S.D. dependent 4.697250 1.805998 Determinant Residual Covariance 34.97280 Log Likelihood (d.f. adjusted) -193.8368 Akaike Information Criteria 9.420801 Schwarz Criteria 9.586293

Tabla 3.1 Estimación de un modelo VAR(1) con las series del Ejemplo 3.3.5

Page 172: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 181

-1.0

-0.5

0.0

0.5

1.0

1 10

ACF RES Y

-1.0

-0.5

0.0

0.5

1.0

1 10

CCF RES X - RES Y

-1.0

-0.5

0.0

0.5

1.0

1 10

CCF RES Y - RES X

-1.0

-0.5

0.0

0.5

1.0

1 10

ACF RES X

-4

-3

-2

-1

0

1

2

3

4

1960 1970 1980 1990 2000

RES Y

-4

-3

-2

-1

0

1

2

3

4

1960 1970 1980 1990 2000

RES X

Figura 3.12

Residuos del modelo VAR(1) estimado de la Tabla 3.1

Observación 1: En las dos CCFs de la Figura 3.12 no está representada la correlación muestral contemporánea entre las dos series de residuos (el valor de ambas CCFs para el retardo 0) porque dicha correlación figura implícitamente

Page 173: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 182

en la matriz de varianzas-covarianzas ˆ AΣ de (2.15); la matriz de correlaciones correspondiente es

1 0.417

ˆ0.417 1

− = −

AP ,

donde –0.417 es la correlación muestral contemporánea entre las dos series de residuos.

Observación 2: La factorización de Cholesky ˆ ˆ ˆ ˆ∗ ′=A T TΣ Σ de la matriz ˆ AΣ de (3.15) es

1 0 14.974 0 1 0.181

ˆ0.181 1 0 2.336 0 1

− = −

AAΣ , de manera que 11 0

ˆ0.181 1

− =

T .

Premultiplicando el modelo estimado (3.15) por 1ˆ−T , se obtiene que:

1 1

1 2

ˆ0.254 1.2221 0

0.181 1 ˆ0.187 0.053t t t

t t t

y y a

x x a

∗−

∗−

− − = ,

14.974 0ˆ

0 2.336∗

=

Σ ,

es decir,

1 1 1

1 1 2

ˆ0.254 1.222 ,

ˆ0.053 0.181 0.187 ,

t t t t

t t t t t

y y x a

x x y y a

∗− −

∗− −

= − +

= − + + (I)

donde las series de residuos 1ˆ( )ta∗ y 2ˆ( )ta∗ son ortogonales. Por otro lado, (3.15) es idéntico, excepto por el orden en el que figuran ty y tx , a

21

11

ˆ1 0 0.275 0.141

ˆ0 1 1.222 0.254

tt t

tt t

x x a

ay y−

− = − ,

2.829 2.717ˆ

2.717 14.974

− = −

AΣ . (II)

Page 174: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 183

Ahora, la factorización de Cholesky ˆ ˆ ˆ ˆ∗ ′=A T TΣ Σ de la matriz ˆ AΣ de (II) es

2.829 01 0 1 0.961

ˆ0.961 1 0 10 12.364

− = −

AAΣ , de manera que ahora 11 0

ˆ0.961 1

− =

T .

Premultiplicando (II) por 1ˆ−T , se obtiene que

1 2

1 1

ˆ1 0 0.275 0.141

ˆ0.961 1 0.958 0.389t t t

t t t

x x a

y y a

∗−

∗−

− = −

, 2.829 0

ˆ0 12.364

∗ =

Σ ,

es decir

1 1 1

1 1 2

ˆ0.389 0.961 0.958 ,

ˆ0.275 0.141 .

t t t t t

t t t t

y y x x a

x x y a

∗− −

∗− −

= − − +

= + + (III)

(III) implica que ( ) ( )t tX Y→ contemporáneamente pero ( ) ( )t tY X→ no, exactamente al contrario que en (I); por lo tanto, la manera de ordenar ty y tx en un modelo VAR(1) estándar, influye notablemente sobre las implicaciones del modelo VAR(1) estructural resultante. En general, dichas implicaciones deberían ser consistentes con algún tipo de información extramuestral o teórica. Por ejemplo, si se cree que ( ) ( )t tX Y→ contemporáneamente pero ( ) ( )t tY X→ no, entonces (III) es una forma estructural adecuada mientras que (I) no lo es; en este sentido, nótese muy cuidadosamente que la primera ecuación de (III) es perfectamente compatible con el modelo ADL(1,1) estimado en el Ejemplo 3.3.5 bajo la hipótesis de causalidad unidireccional ( ) ( )t tX Y→ .

Observación 3: La ACF teórica bivariante (ver Observación de 3.1.2) implicada por el modelo estimado (3.15), está representada en la Figura 3.13. La ACF teórica resulta compatible con las pautas observadas en la ACF muestral bivariante de la Figura 3.9, por lo que el modelo VAR(1) estimado de la Tabla 3.1 parece adecuado en este caso.

Page 175: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 184

-1

0

1

1 10ACF Y

-1

0

1

0 9CCF Y - X

-1

0

1

0 9CCF X - Y

-1

0

1

1 10ACF X

Figura 3.13 ACF teórica bivariante implicada por el modelo VAR(1) estimado de la Tabla 3.1

Identificación – Estimación – Contrastes de hipótesis

Para identificar un orden inicial p adecuado para un modelo VAR a partir de una serie temporal M-variante 1( )Nt t=y , suelen emplearse en la práctica los instrumentos siguientes:

Los modelos univariantes elaborados a partir de cada componente de ( )ty .

Page 176: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 185

La ACF muestral multivariante de ( )ty (como en la Figura 3.9), que consta de M ACFs individuales más ( 1)M M − CCFs entre cada par de componentes de ( )ty .

Los criterios de información AIC y BIC (ver definiciones 2.6.1 y 2.6.2) para varios modelos VAR estimados con órdenes distintos y con la misma muestra efectiva.

El valor calculado del estadístico de razón de verosimilitudes (LR, del inglés Likelihood Ratio), ( )0 1ˆ ˆLR ln lnN≈ −A AΣ Σ , donde 0ˆ

AΣ y 1ˆAΣ son las matrices de varianzas-

covarianzas estimadas de ( )tA bajo 0H (por ejemplo 0p p= ) y bajo 1H (por ejemplo

1p p= , con 1 0p p> ), respectivamente, a partir de la misma muestra efectiva. Bajo 0H , el estadístico LR sigue aproximadamente una distribución 2 ( )lχ , donde l es el número total de restricciones incluidas en 0H [en general, 2

1 0( )l M p p= − ].

Observación 1: El estadístico LR anterior puede emplearse para contrastar una gran variedad de hipótesis a partir de un modelo VAR estimado. Un uso bastante popular del estadístico LR (además de la identificación inicial de un orden p adecuado) tiene que ver con el llamado contraste de causalidad de Granger. Si un proceso multivariante ( )tY de dimensión M se divide en dos bloques de componentes 1( )tY e 2( )tY de dimensiones 1M y 2M , respectivamente, entonces se dice que 2( )tY no causa a 1( )tY según Granger [en inglés, 2( )tY does not Granger cause 1( )tY ] cuando la esperanza de 1( )tY condicionada por todo el pasado de 1( )tY y de 2( )tY coincide con la esperanza de 1( )tY condicionada sólo por su propio pasado. Si ( )tY sigue un modelo VAR(p) del tipo

Page 177: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 186

11 12

,11 1 121 221 ,22 2 2

p j j t jt t

j t jt tj j

= −

= + +∑

YY A

YY A

µ Φ Φ

µ Φ Φ,

11 12

21 22

=

AΣ Σ

ΣΣ Σ

,

entonces cuando 2( )tY no causa a 1( )tY debe ocurrir que 12j = 0Φ para todo j = 1, ..., p. [Análogamente, cuando

1( )tY no causa a 2( )tY debe ocurrir que 21j = 0Φ para todo j = 1, ..., p.] Dado que las p matrices 12

jΦ sólo aparecen en la primera fila de la expresión anterior, para contrastar la hipótesis nula ( 0H ) de que 12

j = 0Φ para todo j = 1, ..., p, se puede (i) estimar los dos modelos siguientes:

110 1 1 ,1 1

1

11 121 1 1 ,1 ,2 1

1

Bajo : ,

Bajo : ,

pt t j tj

jp

t t j t j tj jj

H

H

−=

− −=

= + +∑

= + + +∑

Y Y A

Y Y Y A

µ Φ

µ Φ Φ

y (ii) calcular el valor del estadístico ( )0 111 11

ˆ ˆLR ln lnN≈ −Σ Σ , que bajo 0H sigue aproximadamente una distribución 2 ( )lχ , donde l es el número de restricciones incluidas en 0H (en general, 1 2l pM M= ).

La estimación de un modelo VAR suele llevarse a cabo aplicando MCO a cada ecuación (fila) del modelo por separado (lo que implica que los p primeros residuos no pueden calcularse después de estimar el modelo), aunque en general es recomendable estimar cualquier modelo VAR (lo mismo que cualquier modelo VARMA) por máxima verosimilitud exacta (MVE); ver Observación 8 en 1.3.3 y Observación 2 en 3.1.5.

Page 178: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 187

Observación 2: En general, un modelo VAR(p) puede estar sobreparametrizado debido a que para recoger la estructura MA presente en muchas series estacionarias es necesario que el orden p sea elevado. Esto implica que las estimaciones de los parámetros de un VAR suelen ser poco precisas, lo cual puede no ser un problema si sólo se pretende usar el modelo estimado para prever. En general, cualquier análisis estructural debería estar basado en modelos que recojan explícitamente tanto la estructura AR como la estructura MA de una serie multivariante, aunque esto no es lo habitual en la práctica econométrica actual; ver Observación 8 en 1.3.3.

Previsión

3.4.3 Definición

El modelo VAR(p) estacionario de la Definición 3.4.1 puede escribirse como

( )t tB= +YY Aµ Ψ , (3.16)

donde 1E[ ] (1)t−≡ =Y Yµ Φ µ , 1

0( ) ( ) iiiB B B− ∞

=≡ = ∑Ψ Φ Ψ , 1p

i j i jj −== ∑Ψ Φ Ψ (con

0 ≡ IΨ , i ≡ 0Ψ si i < 0), y 0 ii∞= < ∞∑ Ψ . (3.16) se denomina la representación de

Wold de un modelo AR(p) estacionario.

3.4.4 Definición

La función de previsión en origen k a horizonte l ≥ 1 de un proceso ( ) I(0)tY ∼ que sigue

Page 179: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 188

un modelo VAR(p) del tipo ( ) t tB = +Y AΦ µ , donde 1( ) p iiiB B=≡ − ∑IΦ Φ , es

1

( ) E [ ] E [ ]p

k k k l i k k l ii

l + + −=

≡ = + ∑Y Y Yµ Φ , (3.17)

o bien ( ) E [ ] E [ ( ) ]k k k l k k l i k l ii ll B ∞

+ + + −=≡ = + = + ∑Y YY Y A Aµ Ψ µ Ψ , (3.18)

donde ( )BΨ es el polinomio de la representación de Wold (3.16).

Observación 1: La función de previsión (3.17) de un proceso ( ) VAR( )t pY ∼ se utiliza en la práctica para calcular previsiones puntuales ˆ ˆ(1), (2), ...k ky y a partir de un modelo estimado. Para ello, en (3.17) se reemplazan los parámetros µ , 1Φ , ..., pΦ por sus valores estimados, y se reemplaza cada E [ ]k jY por jy (un dato) si j k≤ , o bien por ˆ ( )k j k−y (una previsión) si j k> . Los errores de previsión asociados con las previsiones ˆ ˆ(1), (2), ...k ky y , suelen representarse como ˆ ˆ( ) ( )k k l kl l+≡ −e y y (l = 1, 2, ...) (que sólo pueden calcularse cuando 1 2, , ...k k+ +y y son datos conocidos); por su parte, la función de previsión (3.18) se utiliza para describir las propiedades estadísticas de los errores de previsión (ver Definición 3.4.5).

Observación 2: Un modelo VAR(p) estimado puede escribirse como ˆ ˆ ˆ( ) t tB = +y aΦ µ , con 1ˆ ˆ( ) p i

iiB B=≡ − ∑IΦ Φ ; en consecuencia, cada residuo ˆta de un modelo estimado puede escribirse como

1ˆˆ ˆ p

t t i t ii −= = − + ∑ a y yµ Φ ,

donde el término entre corchetes es un valor ajustado, que puede interpretarse como una previsión en origen t – 1 a horizonte 1. Por lo tanto, ˆta puede interpretarse como un error de previsión en origen t – 1 a horizonte 1.

Page 180: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 189

3.4.5 Definición

El error de previsión en origen k a horizonte l ≥ 1 de un proceso ( ) I(0)tY ∼ que sigue un modelo VAR(p) puede escribirse, de acuerdo con (3.16) y (3.18), como

10( ) ( ) ( ) E [ ( ) ] l

k k l k k l k k l i k l iil l B B −+ + + + −=≡ − = − = ∑E Y Y A A AΨ Ψ Ψ . (3.19)

Observación 1: (3.19) implica que E[ ( )]k l =E 0 y que 10Var[ ( )] l

k i iil −= ′= ∑ AE Ψ Σ Ψ . Como Var[ ( )]k lE depende del

horizonte l ≥ 1 pero no del origen k de previsión, Var[ ( )]k lE suele escribirse simplemente como ( ), 1, 2, ...l l =Σ Por otro lado, teniendo en cuenta que 0 ii

∞= < ∞∑ Ψ , ( )k l → YY µ [ver (3.18)] y 0( ) i iil ∞

= ′→ ∑ =A YΣ Ψ Σ Ψ Σ cuando el horizonte de previsión l tiende a infinito.

Observación 2: Si ( )tA es un proceso Gaussiano (Normal), entonces N[ , ( )]k lE 0 Σ∼ . Por lo tanto, los elementos ( )ii lσ en la diagonal principal de ( )lΣ pueden utilizarse, junto con las previsiones puntuales ( )kiY l , para construir de

la forma habitual intervalos de confianza a horizonte l para ,k l iY + (1 ; 1, 2, ...i M l≤ ≤ = ); ver, por ejemplo, (2.79) y (2.81) para el caso univariante.

3.4.6 Ejemplo

El modelo VAR(1) para un proceso ( ) I(0)tY ∼ es

1 1t t t−= + +Y Y Aµ Φ .

Page 181: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 190

Escribiendo esta expresión en t = N + l (l ≥ 1), y aplicando al resultado el operador E [·]N , se obtiene que la función de previsión en origen N a horizonte l ≥ 1 es

1 1( ) E [ ] E [ ]N N N l N N ll + − += + +Y Y Aµ Φ . (3.20)

Para l = 1, (3.20) queda

1(1)N N= +Y Yµ Φ , (3.21)

mientras que para l ≥ 2, (3.20) queda

1( ) ( 1)N Nl l= + −Y Yµ Φ . (3.22)

(3.22) es una ecuación en diferencias, cuya solución a partir de la condición inicial (3.21) es

( )10 1 1( ) i ll

N Nil −== +∑Y YΦ µ Φ para todo l ≥ 1. (3.23)

(3.23) es la función final de previsión de ( ) VAR(1)tY ∼ , que converge al valor esperado de ( )tY , 1

1E[ ] ( )t−= −Y I Φ µ , cuando l → ∞ .

Observación: El polinomio ( )BΨ en la expresión (3.16) para un modelo VAR(1) es 10 1( ) ( ) i i

iB B B− ∞== = ∑Ψ Φ Φ ,

por lo que 10 1 1( ) l i i

il −= ′= ∑ AΣ Φ Σ Φ en este caso.

Page 182: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 191

Funciones de respuesta a impulsos

La representación de Wold (3.16) de un proceso ( ) VAR( )t pY ∼ estacionario puede escribirse de manera detallada como

1

2

,11 (11) (12) (1 )

(21) (22) (2 )2 ,2

0

( 1) ( 2) ( ) ,

( )M

t t

t kt k k k MY

k k k Mt t kY

k

k M k M k MMtM Y t k M

B

AY

Y A

Y A

ψ ψ ψµψ ψ ψµ

ψ ψ ψµ

∞ −

=

= + ∑

YY Aµ Ψ

, (3.24)

lo que indica que ( ) , ,/ /k ij ti t k j t k i tjY A Y Aψ − += ∂ ∂ = ∂ ∂ ( 0, 1, 2, ...)k = .

3.4.7 Definición

La IRF de tiY (1 )i M≤ ≤ ante un impulso unitario en tjA (1 )j M≤ ≤ es la secuencia ( ), ( )( / )t k i tj k ijY A ψ+∂ ∂ = para k = 0, 1, 2, ... De forma compacta, la IRF de tY ante

impulsos unitarios en cada elemento de tA es ( / ) ( )t k t k+ ′∂ ∂ =Y A Ψ para k = 0, 1, 2, ...

Page 183: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 192

3.4.8 Definición

La IRF de tiY (1 )i M≤ ≤ ante un impulso de cuantía DT[ ]j tjAσ ≡ en tjA (1 )j M≤ ≤ es la secuencia ( )( )k ij jψ σ para k = 0, 1, 2, ... De forma compacta, la IRF de tY ante impulsos de cuantía 1σ , 2σ , ..., Mσ en cada elemento de tA es ( )kΨ Λ para k = 0, 1, 2, ..., donde 1 2diag[ , , ..., ]Mσ σ σ≡Λ .

Observación: En 3.4.7, ( )k ijψ representa la consecuencia de un aumento igual a 1 en tjA (la perturbación asociada con la variable nº j del modelo VAR en el momento t) sobre ,t k iY + (la variable nº i del modelo VAR en el momento t k+ , k ≥ 0), suponiendo que todos los elementos de ( )tA que no son tjA no varían. En 3.4.8, ( )k ij jψ σ representa esencialmente lo mismo (salvo porque en 3.4.8 el aumento en tjA es igual a jσ en lugar de 1). En ambos casos, el hecho de suponer que todos los elementos de ( )tA que no son tjA no varían cuando tjA sí varía, resulta poco creíble cuando al menos una de las covarianzas contemporáneas entre tjA y los otros componentes de tA es distinta de cero.

3.4.9 Definición

La matriz de varianzas-covarianzas de ( )tA en un modelo VAR(p) puede factorizarse como ′=A LLΣ , donde L es una matriz triangular inferior (factorización de Cholesky), de

manera que 1 1− − ′ =AL L IΣ . Entonces, la representación (3.16) puede escribirse como 1

0 0t k t kk k k k i− ∗ ∗∞ ∞

−= = −= + = +∑ ∑Y YY LL A Aµ Ψ µ Ψ , con 1( ) ( ) IID( , )tt∗ −≡A L A 0 I∼ ,

Page 184: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 193

de manera que los M componentes de t∗A son ortogonales entre sí. En este contexto, la IRF

de tiY (1 )i M≤ ≤ ante un impulso unitario en tjA∗ (1 )j M≤ ≤ es la secuencia

,( / )t k i tjY A∗+∂ ∂ para k = 0, 1, 2, ... De forma compacta, la IRF de tY ante impulsos

unitarios en cada elemento de t∗A es ( / ) ( ) ( )t k kt k

∗ ∗+ ′∂ ∂ = ≡Y A LΨ Ψ para k = 0, 1, 2, ...

Observación 1: En 3.4.9, el elemento en la posición ( , )i j de k∗Ψ representa la consecuencia de un aumento unitario en

tjA∗ (una perturbación ortogonal asociada con la variable nº j del modelo VAR en el momento t) sobre ,t k iY + (la variable nº i del modelo VAR en el momento t k+ , k ≥ 0), suponiendo que todos los elementos de ( )t

∗A que no son

tjA∗ no varían; ahora este supuesto sí es razonable, ya que las covarianzas contemporáneas entre tjA∗ y los demás componentes de t

∗A son todas iguales a cero.

Observación 2: La ortogonalización de las perturbaciones de un modelo VAR a través de la factorización de Cholesky de AΣ , tiene el inconveniente de que dicha factorización no es única, ya que depende crucialmente del orden en el que figuran los componentes de ( )tY ; ver Observación 3 en 3.1.3 y Observación 2 en 3.4.2.

Descomposición de las varianzas de los errores de previsión

De acuerdo con la factorización ′=A LLΣ de 3.4.9, la matriz de varianzas-covarianzas del error de previsión a horizonte l ≥ 1 (ver Observación 1 en 3.4.5) puede escribirse como

1 10 0( ) l l

k kk k k kl ∗ ∗− −= = ′′= =∑ ∑AΣ Ψ Σ Ψ Ψ Ψ , (3.25)

Page 185: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 194

de manera que cada elemento en la diagonal principal de ( )lΣ es

( ) ( )2 21 11 10 0( ) ( )( ) l M M l

ii j jk kk ij k ijlσ ψ ψ∗ ∗− −= == == =∑ ∑ ∑ ∑ , (3.26)

donde 2 2 2 21

0 ( ) 0( ) 1( ) 1( )...lk k ij ij ij l ijψ ψ ψ ψ∗ ∗ ∗ ∗−= −= + + +∑ (3.27)

representa la contribución de la perturbación ortogonal tjA∗ (1 )j M≤ ≤ a la varianza del error de previsión a horizonte l ≥ 1 del proceso ( )tiY (1 )i M≤ ≤ .

Dado que 0( ) i iil ∞= ′→ ∑ =A YΣ Ψ Σ Ψ Σ (ver Observación 1 de 3.4.5) cuando l tiende a

infinito, (3.27) permite evaluar la contribución de tjA∗ (1 )j M≤ ≤ a la varianza del proceso ( )tiY (1 )i M≤ ≤ cuando l es suficientemente grande en (3.27).

3.4.10 Ejemplo

Continuando con el Ejemplo 3.4.2, la Tabla 3.2 contiene los resultados de los contrastes de causalidad de Granger para las hipótesis nulas: (i) ( )tX no causa a ( )tY , (ii) ( )tY no causa a ( )tX . La hipótesis (i) se rechaza claramente; la hipótesis (ii) no puede rechazarse al 1%.

Page 186: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 195

VAR Pairwise Granger Causality/Block Exogeneity Wald TestsSample: 1959 2002 Included observations: 42 Dependent variable: Y

Exclude Chi-sq df Prob. X 12.55127 1 0.0004 All 12.55127 1 0.0004

Dependent variable: X Exclude Chi-sq df Prob.

Y 5.963297 1 0.0146 All 5.963297 1 0.0146

Tabla 3.2 Contrastes de causalidad de Granger a partir del modelo VAR(1) del Ejemplo 3.4.2

A partir del modelo VAR(1) estimado en (3.15) (ver también Tabla 1), resulta que:

0 1 2

3 4

0.2536 1.22201 0 0.1080 0.6461ˆ ˆ ˆ, , ,

0 1 0.1410 0.2751 0.0746 0.0967

0.0365 0.13230.1185 0.0457ˆ ˆ, , ...

0.0153 0.03880.0053 0.1177

− − − ≡ = = −

−− − = = − −−

Ψ Ψ Ψ

Ψ Ψ (3.28)

donde 1ˆ ˆ k

k =Ψ Φ para todo k ≥ 0; ver Observación en Ejemplo 3.4.6. Por otro lado,

Page 187: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 196

Y X: 3.8696 0 3.8696 0.702114.9739 2.7168

ˆˆˆ0.7021 1.5283 0 1.52832.7168 2.8285

−− ′= = = −−

A LLΣ (3.29)

Si se cambia el orden en el que figuran los dos componentes de ( )tY , entonces

X Y: 2.8285 2.7168 1.6818 0 1.6818 1.6154

ˆˆˆ2.7168 14.9739 1.6154 3.5163 0 3.5163

− − ′= = = − −

A LLΣ (3.30)

La Tabla 3.3 contiene las funciones de respuesta a impulsos (estimadas) consideradas en 3.4.7, 3.4.8 (con ½

1 14.9739 3.8696σ = = , ½2ˆ 2.8285 1.6818σ = = ) y 3.4.9 [con los dos

órdenes posibles representados en (3.29) y (3.30)], respectivamente.

La Tabla 3.4 contiene las proporciones (estimadas) de las varianzas de los errores de previsión de ( )tY y de ( )tX asociadas con cada perturbación ortogonal en cada uno de los dos órdenes posibles representados en (3.29) y (3.30).

Observación 1: Por ejemplo, la varianza (estimada) del error de previsión a horizonte l = 3 de ( )tY es

2 2 2 2 2 2 20(11) 1(11) 2(11) 0(12) 1(12) 2(12)

ˆ ˆ ˆ ˆ ˆ ˆˆ (3)Yσ ψ ψ ψ ψ ψ ψ∗ ∗ ∗ ∗ ∗ ∗ = + + + + + (I)

[ver (3.2.6)-(3.27) con i = 1, l = 3], donde (11)ˆkψ∗ y (12)

ˆkψ∗ son los elementos (1,1) y (1,2) de ˆˆ ˆkk

∗ ≡ LΨ Ψ (k = 0, 1, 2),

Page 188: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 197

respectivamente, ˆkΨ (k = 0, 1, 2) figuran en (3.28), y L figura en (3.29):

Y X: 0 1 2

1.8393 1.86753.8696 0 0.0356 0.9874ˆ ˆ ˆ, ,

0.7021 1.5283 0.3526 0.4205 0.3564 0.1477∗ ∗ ∗

− − = = = − −

Ψ Ψ Ψ , (II)

En este caso, (I) queda

2 2 2 2 2 2 2 2

: 18.3581 (80.44%) : 4.4625 (19.56%)

ˆ (3) 3.8696 1.8393 0.0356 0 ( 1.8675) ( 0.9874) 4.7771Y

Y X

σ = + + + + − + − = .

Alternativamente, cambiando el orden en el que figuran tY y tX en el modelo, la varianza (estimada) del error de previsión a horizonte l = 3 de ( )tY también puede calcularse como

2 2 2 2 2 2 20(21) 1(21) 2(21) 0(22) 1(22) 2(22)

ˆ ˆ ˆ ˆ ˆ ˆˆ (3)Yσ ψ ψ ψ ψ ψ ψ∗ ∗ ∗ ∗ ∗ ∗ = + + + + + (III)

[ver (3.2.6)-(3.27) con i = 2, l = 3], donde ahora ˆkΨ (k = 0, 1, 2) son las matrices de (3.28) con sus elementos cambiados de orden adecuadamente y L figura en (3.30):

X Y: 0 1 2

1.6818 0 0.2349 0.4959 0.2830 0.2622ˆ ˆ ˆ, ,

0.9121 0.37991.6154 3.5163 2.4649 0.8918∗ ∗ ∗

− = = = − −− −

Ψ Ψ Ψ , (IV)

En este caso, (III) queda

2 2 2 2 2 2 2 2

: 9.5172 (41.70%) : 13.3040 (58.30%)

ˆ (3) ( 1.6154) ( 2.4649) ( 0.9121) 3.5163 0.8918 ( 0.3799) 4.7771Y

X Y

σ = − + − + − + + + − = .

Page 189: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 198

Tabla 3.3 Funciones de respuesta a impulsos estimadas a partir del modelo VAR(1) del Ejemplo 3.4.2

Response of Y LAG Y X

0 3.869608 0.0000001 0.981356 -2.0551852 -0.418054 -1.0866463 -0.458650 -0.0769354 -0.141283 0.2224275 0.036350 0.1362326 0.053428 0.0181767 0.019448 -0.0233758 -0.002653 -0.0167609 -0.006112 -0.003202

Response of X LAG Y X

0 0.000000 1.6818201 0.545770 0.4627162 0.288567 -0.1625583 0.020431 -0.1979854 -0.059067 -0.0653225 -0.036178 0.0133996 -0.004827 0.0229017 0.006207 0.0088648 0.004451 -0.0008589 0.000850 -0.002600

Nonfactorized One Std.Dev.

Response of Y LAG Y X

0 3.869608 0.0000001 1.839308 -1.8675392 0.035575 -0.9874323 -0.426533 -0.0699104 -0.234136 0.2021185 -0.020521 0.1237946 0.045840 0.0165167 0.029206 -0.0212418 0.004343 -0.0152309 -0.004775 -0.002910

Response of X LAG Y X

0 -0.702089 1.5282631 0.352606 0.4204682 0.356428 -0.1477153 0.103081 -0.1799084 -0.031798 -0.0593585 -0.041771 0.0121766 -0.014387 0.0208107 0.002507 0.0080558 0.004809 -0.0007809 0.001936 -0.002363Cholesky – Order Y X

Response of Y LAG Y X

0 3.516299 -1.6153981 0.891754 -2.4648592 -0.379884 -0.9121263 -0.416774 0.1145334 -0.128383 0.2814065 0.033031 0.1210586 0.048549 -0.0041287 0.017672 -0.0314948 -0.002411 -0.0156529 -0.005554 -0.000650

Response of X LAG Y X

0 0.000000 1.6818201 0.495939 0.2348802 0.262220 -0.2830223 0.018565 -0.2065144 -0.053674 -0.0406645 -0.032874 0.0285026 -0.004386 0.0249167 0.005641 0.0062738 0.004044 -0.0027169 0.000773 -0.002955 Cholesky – Order X Y

Response of Y LAG Y X

0 1.000000 0.000000 1 0.253606 -1.222001 2 -0.108035 -0.646113 3 -0.118526 -0.045745 4 -0.036511 0.132254 5 0.009394 0.081003 6 0.013807 0.010807 7 0.005026 -0.013899 8 -0.000686 -0.009965 9 -0.001579 -0.001904

Response of X LAG Y X

0 0.000000 1.000000 1 0.141040 0.275128 2 0.074573 -0.096656 3 0.005280 -0.117721 4 -0.015264 -0.038840 5 -0.009349 0.007967 6 -0.001247 0.013617 7 0.001604 0.005271 8 0.001150 -0.000510 9 0.000220 -0.001546 Nonfactorized One Unit

Page 190: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 199

Tabla 3.4 Proporciones de las varianzas de los errores de previsión estimadas a partir del modelo VAR(1) del Ejemplo 3.4.2

Observación 2: En general, en cualquier modelo VAR bivariante, la descomposición de la varianza de los errores de previsión describe la proporción de la dinámica de cada componente del modelo debida a sus propias perturbaciones

Variance Decomposition of Y HORIZON S.E. Y X

1 3.869608 100.0000 0.0000002 4.673823 84.03405 15.965953 4.777124 80.44459 19.555414 4.796637 80.58213 19.417875 4.806600 80.48572 19.514286 4.808237 80.43273 19.567277 4.808484 80.43356 19.566448 4.808620 80.43271 19.567299 4.808646 80.43192 19.56808

10 4.808649 80.43191 19.56809 Variance Decomposition of X

HORIZON S.E. Y X 1 1.681820 17.42709 82.572912 1.769079 19.72300 80.277003 1.810664 22.70245 77.297554 1.822497 22.72850 77.271505 1.823741 22.72791 77.272096 1.824260 22.76741 77.232597 1.824435 22.76925 77.230758 1.824455 22.76896 77.231049 1.824461 22.76949 77.23051

10 1.824464 22.76954 77.23046 Cholesky – Order Y X

Variance Decomposition of Y HORIZON S.E. Y X

1 3.869608 82.57291 17.427092 4.673823 60.24175 39.758253 4.777124 58.29695 41.703054 4.796637 58.57856 41.421445 4.806600 58.40732 41.592686 4.808237 58.37226 41.627747 4.808484 58.37646 41.623548 4.808620 58.37452 41.625489 4.808646 58.37391 41.62609

10 4.808649 58.37397 41.62603 Variance Decomposition of X:

HORIZON S.E. Y X 1 1.681820 0.000000 100.00002 1.769079 7.858915 92.141083 1.810664 9.599360 90.400644 1.822497 9.485485 90.514525 1.823741 9.559170 90.440836 1.824260 9.586207 90.413797 1.824435 9.584941 90.415068 1.824455 9.585692 90.414319 1.824461 9.586115 90.41388

10 1.824464 9.586106 90.41389 Cholesky – Order X Y

Page 191: GENERACIÓN DE UN MODELO ESTADÍSTICO PARA LA …repository.udistrital.edu.co/bitstream/11349/4302/1... · 2019-07-26 · 1 generaciÓn de un modelo estadÍstico para la estimaciÓn

3 MODELOS MULTIVARIANTES ESTACIONARIOS 3.4 MODELOS VAR ESTACIONARIOS

SERIES TEMPORALES PÁGINA 200

frente a las perturbaciones del otro componente. Si, por ejemplo, las perturbaciones de ( )tX explican una proporción insignificante de la varianza de los errores de previsión de ( )tY , puede decirse que ( )tY es una variable esencialmente exógena en el modelo considerado; en este caso, ( )tY evoluciona independientemente de ( )tX . Por el contrario, si las perturbaciones de ( )tX explican una proporción elevada de la varianza de los errores de previsión de ( )tY , ( )tY es una variable esencialmente endógena.