Estimación del valor en riesgos a través de wavelets
Transcript of Estimación del valor en riesgos a través de wavelets
,
TECNOLOGICO DE MONTERREY
Hacemos constar que en la Ciudad de México, el día 23 de julio de 2009, el alumno:
Jesús Cuauhtémoc Téllez Gaytán
sustentó el Examen de Grado en defensa de la Tesis titulada:
Estimación del Valor en Riesgo a través de W avelets.
Presentada como requisito final para la obtención del Grado de:
DOCTOR EN CIENCIAS FINANCIERAS
• •. . ., .. . '
Ante la evidencia presentada en el trabajo de tesis y en este examen, el Comité Examinador, presidido por el DR. ARTURO LORENZO V ALDÉS, ha tomado la siguiente resolución:
Dr. Pablo Pér
Dr. Fernando Cruz Aranda Lector
- A P l\o P.,A DO -
Dr. Arturo Lorenzo Valdés Codirector
Dr. José n 10 Núñez Mora Director del Programa Doctoral
Campus Ciudad de México Calle del Puente 222, Col. Ejidos de Huipu!co
14380 Tlalpan, México D.F. México Tel: (52/55) 5483 2020 Fax: (52/55) 5673 2500
, TECNOLOGICO DE MONTERREY
. ·,, .,, .'lo .... .. '/ ,. .... . .·
... ~ .... -.......... ' l ,.... '. •
• ' .. ..,,.,.. ., JI ··. ; '~:1 1T: ~y··,_;···· ' ' "'· .; 1 ·~
'\ª,\.Jt'klle, .' : _-..~, , .. ... ... _. -'11:",1.F, CI.~ •·\l.~
Instituto Tecnológico y de Estudios Superiores
de Monterrey
Campus Ciudad de México
Estimación del Valor en Riesgo a través de W avelets
TESIS QUE PARA RECIBIR EL TÍTULO DE DOCTORADO EN
CIENCIAS FINANCIERAS PRESENTA
Jesús Cuauhtémoc Téllez Gaytán
Director de Tesis:
Dr. Pablo Pérez Akaki
Codirector de Tesis:
Dr. Arturo Lorenzo Valdés
Lector:
Dr. Fernando Cruz Ar anda
México D.F., 23 Julio 2009
Dedicatoria
Dedico la presente tesis a mi amada esposa Rocío y queridos hijos Mauricio y Valeria,
quienes sacrificaron su tiempo y estuvieron conmigo en el recorrido para la obtención del
grado doctoral; y quienes siguen conmigo en la realización de nuevos proyectos.
Con todo mi cariño y amor a mi papá, Ing. Jesús Téllez Gutiérrez, de quien tengo presente
sus enseñanzas y la escalera de la vida; y a mi mamá, Sra. Bertha Gaytán Galicia, quien
me ha sostenido en sus oraciones. Los quiero.
Con cariño a mis hermanos, Lic. Xochiquétzal Téllez Gaytán e Ing. Osear Cuitláhuac Téllez
Gaytán, quienes no dejan de mostrar su amor y afecto como hermanos.
Agradecimientos
Agradezco a Jesucristo mi Señor, por su misericordia en darme años de vida y permitirme
cursar el doctorado, a quien le doy la honra y la gloria por lo que he logrado alcanzar.
Agradezco al Tecnológico de Monterrey-Campus Estado de México, por haberme dado la
oportunidad en cursar el doctorado.
Agradezco al Comité Doctoral por su tiempo dedicado a la revisión de la tesis y atención en
las diferentes etapas de la disertación, en particular al Dr. Pablo Pérez Akaki por su interés
en la dirección de la tesis y motivación para concluir la misma.
Agradezco a Benjamín García y Eduardo Carbajal, por haber confiado en mí e impulsarme
a realizar los estudios de posgrado.
Agradezco a Jorge Morelos por sus consejos y guía en la conducción de mi vida académica.
Agradezco a la familia Alcántar, la familia Wodarczak, Virginia Valencia, Alejandro Valen
zuela, Mónica Pinal y a todos aquellos que influyeron en la realización de mis estudios
doctorales y que forman parte de mi ejercicio profesional.
11
Resumen
Wavelets son funciones que oscilan (wave) y decaen (let) a cierto número de desvane
cimientos, las cuales funjen como filtros para capturar componentes de alta frecuencia con
duración de corto tiempo y componentes de baja frecuencia que ocurren en periodos de
mayor tiempo. Contrario al análisis de Fourier, el análisis por wavelets permite analizar una
serie de tiempo en el espacio tiempo-frecuencia. Su principal flexibilidad es que permiten
estudiar fenómenos temporales, no estacionarios y de variación en el tiempo; fenómenos que
caracterizan y se identifican como hechos estilizados de las series de tiempo financieras.
La presente investigación aplica la teoría <le wavelets para estimar el Valor en Riesgo
del principal índice accionario mexicano, IPC, y de las emisoras que lo conforman. En
particular se utilizan la Transformada Wavelet Discreta (TWD) y su versión no-decimada,
la Transformada Wavelet Discreta de Máximo Traslape (TWDMT); y como filtro la función
wavelet de Daubechies de mínima asimetría de longitud ocho, para descomponer las series
de rendimientos en diferentes niveles de resolución. En cada nivel de resolución se estima la
varianza wavelet y a partir de ella se estima el VaR para cada escala de tiempo. El VaR de
la posición es la agregación de los VaR's en cada escala, metodología que es posible dada la
propiedad de decorrelación que se logra vía la TWD.
Los resultados de la investigación muestran a través del backtesting utilizando la prueba
de proporción de fallas de Kupiec, que el número de niveles de descomposición juega un papel
crucial en la validación de la metodología como adecuada para pronosticar las pérdidas. U na
herramienta útil para definir el número de niveles es la distribución de energía relativa, la
cual muestra la contribución relativa que cada nivel guarda respecto a la energía total de
la serie de tiempo. El VaR vía wavelets se compara con la metodología de Riskmetrics y el
modelo GARCH, los cuales mostraron un número mayor de excesos respecto de wavelets.
Una futura línea de investigación es aplicar la metodología para un portafolio de N
activos y la estimación del VaR en el contexto no paramétrico a través de la estimación de
la función de densidad vía wavelets.
lII
, Indice general
Dedicatoria
Agradecimientos
Resumen
l. Introducción
1.1. Antecedentes
1.2. Planteamiento del Problema
1.3. Hipótesis . . . . . . . . . . .
1.4. Objetivos . . . . . . . . . .
1.5. Justificación y Limitaciones
1.6. Contribución
2. Métodos de Estimación del Riesgo de Mercado
2.1. Modelos Probabilísticos de Rendimientos de Precios
2.2. Valor en Riesgo . . . . . . . . . . .
2.2.1. Estimación Paramétrica ..
2.2.2. Estimación No Paramétrica
2.2.3. Estimación Semiparamétrica .
2.3. Pérdida Esperada en la Cola .
3. Teoría de Wavelets
3.1. Bases Matemáticas y Propiedades
3.1.1. Series y Transformada de Fourier
3.1.2. Funciones base y concentración de energía
3.1.3. Convolución . . . . . . .
3.1.4. Propiedades de Wavelets
3.2. Análisis por Multiresolución ..
IV
I
11
111
1
2
6
9
9
9
10
12
13
26
26
31
32
35
38
40
40
46
49
51
52
3.2.1. Transformada de Fourier de Corto Tiempo (TFCT)
3.2.2. Transformada Wavelet Continua .
3.2.3. Transformada Wavelet Discreta .
3.2.4. Transformada Wavelet Discreta de Máximo Traslape
3.3. Varianza Wavelet . . . . . . . .
3.3.1. Intervalos de Confianza.
4. Metodología
4.1. Preparación de los datos
53
55
57
65 68
71
74
74
4.2. Estadísticos Descriptivos y Descomposición de las Series de Tiempo 75
4.3. La Varianza Wavelet . . . . . . . . 75
4.4. Estimación del Riesgo de Mercado . 75
5. Análisis y Resultados 80
5.1. Análisis Exploratorio de Datos . 80
5.2. Análisis de la Varianza Wavelet 83
5.3. Análisis del Riesgo de Mercado 86
6. Conclusiones 93
A. Descomposición por Multiresolución de Emisoras 96
B. Descomposición de la Varianza de Emisoras en 6 Niveles 101
C. Estimación del Modelo GARCH (1,1) 107
V
, Indice de figuras
2.1. Comparación entre Distribución Normal y de Cauchy . . . . . . . . . . 19
2.2. Comparación entre distribuciones Normal, t-student(5gl) y de Cauchy. . 22
2.3. Distribución Log-Normal conµ= O y a= l 24
2.4. Metodología de estimación aplicando TVE. . . . . . . . . . . . . . . . . 35
3.1. Cajas de Heisenberg en el plano frecuencia-tiempo con funciones-ventana fijas. 54
3.2. Cajas de Heisenberg en el plano frecuencia-tiempo y la función wavelct. 56
3.3. Funciones wavelet continuas. . . . . . . . . . . . . . . . . . . . . . 58
3.4. Representación wavelet de la descomposición por multiresolución. 60
3.5. Wavelet Haar. . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6. Funciones de Daubechies de mínima fase de longitud 4 y 8. . . . . 64
5.1. (a) Rendimientos del IPyC y (b) Rendimientos al Cuadrado del IPyC. . 82
5.2. Descomposición por Multiresolución del IPyC vía TWDMT. . . . . . . 82
5.3. Evolución de la Varianza Wavelet del IPyC vía TWD: 03/01/2008-31/12/2008 83
5.4. Evolución de la Varianza Wavclet del IPyC vía TWDMT:03/01/2008-
31/12/2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5. Evolución de la Varianza Wavelet del IPyC vía TWD: 05/05/2008-30/04/2009. 85
5.6. Valor en Riesgo en la Cola Inferior y Superior del IPyC al (a) 95% y (b) 99%. 86
5.7. Valor en Riesgo en la Cola Inferior y Superior del IPyC al 95 % para (a) 7 y
(b) 6 niveles de resolución. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.8. Valor en Riesgo vía TWD al (a) 95 % y (b) 99 %. . . . . . . . . . . . . . . . 91
5.9. Valor en Riesgo al 95% a través de (a) Varianza Wavelet, (b) Riskmetrics y
(c) GARCH (1,1) 92
A.l. MRD de Alfa . . 96
A.2. MRD de América Móvil 96
A.3. MRD de Ara 97
A.4. MRD de Bimbo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
VI
A.5. MRD de Cemex . . . . . . . .
A.6. MRD de Comercial Mexicana
A.7. MRD de Elektra ...
A.8. MRD de Femsa . . . .
A.9. MRD de Grupo Carso
A.10.MRD de Geo .....
A.11.MRD de Grupo México.
A.12.MRD de Grupo Modelo
A.13.MRD de lnbursa .
A.14.MRD de Kimberly
A.15.MRD de Banorte
A.16.MRD de Peñoles
A.17.MRD de Soriana
A.18.MRD de Telecom
A.19.MRD de Teléfonos de México
A.20.MRD de Televisa .
A.21.MRD de Wal-Mart ..
B. l. Varianza Wavelet Alfa
B.2. Varianza Wavelet América Móvil
B.3. Varianza Wavelet de Ara . .
B.4. Varianza Wavelet de Bimbo . . .
B.5. Varianza Wavelet de Cemex ...
B.6. Varianza Wavelet de Comercial Mexicana.
B.7. Varianza Wavelet de Elektra .
B.8. Varianza Wavelet de Femsa .
B.9. Varianza Wavelet de GCarso .
B.10. Varianza Wavelet de Geo . . .
B.11.Varianza Wavelet de Banorte
B.12.Varianza Wavelet de Inbursa .
B.13. Varianza Wavelet de GMéxico
B.14.Varianza Wavelet de Modelo .
B.15.Varianza Wavelet de Kimberly .
B.16.Varianza Wavelet de Peñoles .
B.17.Varianza Wavelet de Soriana.
B.18.Varianza Wavelet de Telecom
VII
97
97
97
97
98
98
98
98
98
98
99
99
99
99
99
99
100
101
101
102
102
102
102
103
103
103
103
104
104
104
104
105
105
105
105
B.19.Varianza Wavelet de Televisa
B.20. Varianza Wavelet de Telmex .
B.21. Varianza Wavelet de Wal-Mart
VIII
106
106
106
, Indice de cuadros
5.1. Estadísticos Descriptivos del IPyC y Emisoras. . . . . . . . . . . . . . . . . . 81
5.2. Backtesting Cola Inferior al 95 % del IPyC. . . . . . . . . . . . . . . . . . . . 88
5.3. Backtesting Cola Inferior al 95 % del IPyC y Emisoras (n=250). . . . . . . . 89
5.4. Distribución de Energía del IPyC con filtro Daubechies MA{8): 08/02/2001
- 31/12/2008. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.5. Distribución de Energía del IPyC con filtro Daubechies MA{8): 16/04/2004
- 30/04/2008. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
C.l. Resultados Modelo GARCH {1,1) ......................... 108
IX
Capítulo 1
Introducción
La conjunción de los avances en disciplinas como la estadística, matemáticas y com
putación, ha tenido sus resultados en finanzas en general y en particular en la adminsitración
de riesgos. Por un lado, su aplicación ha sido para validar los hechos estilizados que han
descrito el comportamiento de los precios de activos financieros entre ellos, grandes cambios
en los precios y memoria de largo plazo. Por otro lado, al poder capturar a través de mode
los esos hechos estilizados, se ha logrado una mejora en las metodologías de estimación del
riesgo al que los respectivos activos están expuestos, siendo uno de los más significativos el
riesgo de mercado.
Uno de los enfoques de mayor aceptación por la industria financiera y organismos re
guladores para la estimación del riesgo de mercado, ha sido Valor en Riesgo (VaR) cuya
definición más exacta la hace Jorion (1996). Precisamente, los avances y resultados en las
disciplinas arriba mencionados, han dado pie a una evolución en las metodologías para su estimación las cuales se clasifican en paramétricas, no paramétricas y semi-paramétricas.
Entre las metodologías de estimación de mayor sofisticación, por su propiedad de capturar
fenómenos como volatilidad agrupada y grandes cambios en los precios, han sido los modelos
de volatilidad condicional y la aplicación de la teoría de valores extremos; a partir de los
cuales se han realizado propuestas híbridas como GARCH-TVE desarrollada por McNeil
(2000), GARCH-fraccional y la modelación de las colas de una distribución de Pareto a
través de la función generalizarla de valores extremos propuesta por Khindanova, Rachev y
Schwartz (2000).
Recientemente, una de las aplicaciones matemáticas que ha ganado terreno en finanzas y
economía por su flexibilidad en analizar simultáneamente las series de tiempo en el dominio
de frecuencia y tiempo, ha sido la teoría de wavelets, contrario al análisis de Fourier el cual únicamente analiza la señal en el dominio de las frecuencias. Wavclets son funciones que
oscilan ( wave) y decaen (let) a cierto número de desvanecimientos, las cuales se consideran
1
como filtros idóneos para descomponer una señal en diferentes niveles de resolución, método
conocido como descomposición por multiresolución. El beneficio principal que ha tenido en
diversas disciplinas como la geofísica, medicina y estadística, es su capacidad de analizar
fenómenos no estacionarios, temporales y de variación en el tiempo.
Las primeras aplicaciones de wavelets en finanzas y economía se realizan por Ramsey
y Lampart (1999) quienes analizan las relaciones entre variables macroeconómicas. En es
tudios posteriores, Lee (2004) analiza el comportamiento entre los mercados accionarios de
Estados Unidos y Korea; Fernandez (2005) estima la beta de CAPM para países emergentes
a través de la descomposición por multiresolución de los rendimientos accionarios y en cada
nivel estima la varianza wavelet y el VaR. Norsworthy, et al. (2000) y Xiong, et al. (2005)
estiman la beta del CAPM para emisoras del S&P500 y de la Bolsa de Valores de Shangai,
respectivamente. Aplicaciones más recientes se han realizado en la valuación de opciones.
La presente investigación tiene por objetivo aplicar el análisis por wavelets para estimar
el Valor en Riesgo de emisoras pertenecientes al Índice de Precios y Cotizaciones (IPC) basa
do en la descomposición por multiresolución de la varianza utilizando funciones wavelets. La
metodología de estimación se basa en: 1) Fernández (2005), quien utiliza la Transformada
Wavelet Discreta de Máximo Traslape (TWDMT) para descomponer el Valor en Riesgo de
mercados accionarios emergentes; y, 2) Lai, He, Xie y Chen (2006), quienes estiman el riesgo
de mercado del crudo basado en un enfoque híbrido de wavelets y GARCH (1,1). La inves
tigación compara y muestra las implicaciones de utilizar la transformada wavelet discreta
(TWD) contra su versión modificada (TWDMT) en la estimación del VaR, y la elección del
l)Úmero de niveles de descomposición para validar la metodología propuesta como adecuada
en el pronóstico de las pérdidas.
1.1. Antecedentes
Valor en Riesgo (VaR) es una medida de riesgo que resume la peor pérdida esperada
sobre un horizonte objetivo dado un intervalo de confian:.:::a, e igualmente resume en un solo
número la exposición global a riesgos de mercado y la probabilidad de movimientos adversos
en las variables financieras. 1 La importancia e implicaciones de la función de distribución a
la cual hace referencia VaR, son descritas por Fama de la siguiente forma:
En general, la forma de la distribución es un factor principal en la determinación
del riesgo de una inversión en acciones comunes. Por ejemplo, a pesar de que
dos posibles distribuciones diferentes para los cambios en el precio puedan tener
1 Philippe Jorion, Value at Risk: The New Benchmark far Managing Financia/ Risk, página 47.
2
la misma media y cambio esperado en el precio, la probabilidad de cambios muy
grandes puede ser mayor en una distribución que en la otra. 2
Las primeras propuestas en la modelación de los precios de los activos datan del mode
lo de caminata aleatoria de Bachelier (1900), el cual considera que los cambios sucesivos
en los precios de los activos son aleatorios, estadísticamente independientes, idénticamente
distribuidos y de distribución Gaussiana con media cero. Sin embargo, el propio Bachelier
argumentaba que no existía la evidencia de que los precios siguiesen el modelo de cami
nata aleatoria también identificado como Movimiento Browniano, ya que las distribuciones
empíricas de los cambios en los precios mostraban ser leptokúrtikas o de colas largas. A
Osborne (1959) se le atribuye la caracterización del mercado accionario como un Movimien
to Browniano, ya que él argumenta que los precios de las acciones y el valor del dinero
se pueden representar como un conjunto de decisiones en equilibrio estadístico análogo al
conjunto de coordenadas de moléculas cuya distribución corresponde al de una partícula
en movimiento Browniano. La principal aportación de Osborne (1959) fue trabajar con las
diferencias en los logaritmos de los precios más que los cambios en los precios.
Dada la evidencia empírica en que la distribución de las diferencias logarítmicas de los
precios se representa por una distribución leptokúrtika, surgieron nuevas propuestas para
modelar los precios de los activos financieros dada la presencia de fenómenos como grandes
cambios en los precios, varianza que cambia en el tiempo ya identificados por Bachelier,
que hacen de las distribuciones empíricas alejarse del enfoque Gaussiano. El precursor fue
Mandelbrot (1963) al proponer una distribución estable de Pareto. Posteriormente Fama
(1965) valida la hipótesis de un mercado Paretiano propuesto por Mandclbrot al encontrar
que el parámetro a, < 2 para los rendimientos de emisoras pertenecientes al Dow Janes
Industrial Average. 3
En estudios posteriores, Praetz (1972) encuentra una a < 2 pero propone la distribu
ción de los rendimientos condicionada a la varianza y los modela bajo una distribución-t
argumentando que dicha distribución ajusta en mejor manera que el modelo Paretiano de
Mandelbrot, ya que es común que el mercado accionario presente periodos largos de activi
dad relativa seguido de periodos largos de inactvidad relativa. Officer (1972) y Perry (1983)
encuentran el parámetro a, < 2 en la distribución de los rendimientos de emisoras del New
York Stock Exchange, sin embargo Officer argumenta que la propiedad de estabilidad no se
cumple y Pcrry concluye que la varianza es finita pero <le estilo complejo más que la carac
terización de una varianza infinita. Igualmente Blattberg y Gonedes (1974) encuentran que
2Eugene Fama, The Behavior of Stock-Market Prices, página 41. 3 El parámetro o: se conoce como el parámetro del exponente rararterísl ico de la disl rib11ción estable de
Pareto y determina el grueso de la cola de la distribución. Se caracteriza por tomar valores entre O y 2.
3
la distribución-t de Student ajusta mejor los rendimientos que el modelo Paretiano. Upton
y Shannon (1979) detectan que los rendimientos de activos convergen a un distribución
log-normal en la medida que el horizonte de tiempo se alarga.
En estudios más recientes, Fielitz y Roselle (1983), Kon (1984), Harris (1986), y Hall et
al. (1989) muestran que los rendimientos de los activos se ajustan en mejor forma a través
de mezcla de distribuciones normales. Nelson (1991) propuso la Distribución Generalizada
de Errores junto con el proceso GARCH con el objetivo de incorporar las colas anchas de
los rendimientos, y posteriormente Zangari (1996) aplica dicha distribución junto con el
modelo EGARCH para estimar el Valor en Riesgo. Eberlein y Keller (1995) modelan los
rendimientos de los precios a través de una distribución hiperbólica.
La contribución de las investigaciones previas en administración de riesgos, dada la im
portancia que la forma de la distribución representa para determinar el riesgo de una inver
sión, se aprecia en una evolución de la medición del VaR. El primer enfoque (paramétrico) de
Valor en Riesgo, método varianza-covarianza, tiene sus antecedentes en la teoría de portafo
lios por Harry Markowitz (1952), teoría que establece que el agente económico define como
regla para estructurar sus carteras y seleccionar activos la relación rendimiento esperado
varianza de los rendimientos (E-V); cuyos supuestos se basan en el modelo de caminata
aleatoria el cual asume normalidad e independencia serial en los rendimientos. Este método
de varianza-covarianza hacen del VaR fácil de estimar computacionalmente ya que bajo el
supuesto de normalidad implica que los percentiles son múltiplos conocidos de la desviación
estándar; bajo el supuesto de independencia significa que el tamaño del cambio en el precio
en un día no afectará el cambio en el precio en un día siguiente, lo cual implica que la
desviación estándar de un horizonte de largo plazo se puede calcular como una multipli
cación de las desviaciones estándar de horizonte diario por la raíz cuadrada del número <le
días en el horizonte largo.
Ante la evidencia empírica de que los rendimientos mostraron distribuciones de colas
pesadas, nuevas propuestas surgieron para estimar el Valor en Riesgo con el objetivo de
capturar los grandes cambios en los precios de los activos financieros. Zangari (1996) propu
so una nueva metodología del VaR basada en la mezcla de distribuciones normales, las cuales
permiten capturar la distribución de colas pesadas en los rendimientos. Posteriormente Hull
y White (1998) estiman el VaR a través de una transformación de la distribución de proba
bilidad en una nueva distribución multivariada normal. Estas metodologías suponen que la
desviación estándar no cambia a través del tiempo (homoscedasticidad), fenómeno ya identi
ficado por Bachelier, por lo que Engle (2001) propuso la aplicación del modelo GARCH(l,1).
Engle (2001) estima el VaR al uno por ciento para un portafolio construido con un 50
por ciento del Nasdaq, 30 por ciento del Dow Jones y 20 por ciento con bonos del Tesoro con
4
vencimiento de 10 años. Los estadísticos descriptivos mostraron presencia de colas pesadas
vistas a través del valor de kurtosis, siendo éste mayor que 3 para cada uno de los activos y
el portafolio; la presencia de valores extremos negativos más que positivos se observa en un
valor negativo del sesgo. La presencia de efectos ARCH las detecta a través de las autocor
relaciones de los residuales al cuadrado, las cuales inician en 0.210 y decaen gradualmente
a 0.83 después de 15 rezagos. Sus resultados arrojan que la desviación estándar pronosti
cada para un día es de 0.0146 y dado que los residuales estandarizzados no son cercanos a
una distribución normal, entonces el cuantil al 1 por ciento corresponde a 2.844 contrario a
2.327 desviaciones estándar en una distribución normal. Por lo tanto el valor en Riesgo del
portafolio es de $39,996 comparado con el VaR bajo una distribución normal de $33,977.
Los enfoques paramétricos del VaR arriba expuestos asumen una distribución de pro
babilidad por igual para el total de los rendimientos y para los valores en las colas de la
distribución, teniendo presente que uno de los hechos estilizados que han caracterizado a los
datos financieros son los grandes cambios en los precios o valores extremos, haciendo que las
distribuciones empíricas sean de colas pesadas. Por lo cual una de las principales alternativas
al enfoque paramétrico ha sido la aplicación de la Teoría de Valores Extremos (TVE) que
modela los valores de las colas de una distribución no necesariamente conocida.4 El objetivo
de la Teoría de Valores Extremos es estimar el índice de la cola de la distribución a través
del cual se derivan las fronteras para rendimientos en exceso de muy bajas probabilidades.
Una de las principales investigaciones que aplica la TVE es la realizada por Longin
(2000), quien estima el VaR para los rendimientos diarios del S&P500 en el periodo de
enero-1962 a diciembre-1993. Su metodología se basa en 8 pasos entre los cuales: selecciona
los rendimientos, estima los parámetros de la distribución asintótica de los rendimientos
mínimos, aplica pruebas de bondad de ajuste para validar la hipótesis de la distribución
asintótica y finalmente selecciona el valor de probabilidad extrema de los rendimientos
mínimos para estimar el VaR de la posición.
Un tercer enfoque desarrollado se refiere a la simulación histórica, el cual no hace
supuesto alguno de la distribución de probabilidad de donde provienen los rendimientos,
por lo que su aplicación se basa en la determinación de ventanas de tiempo. El primer paso
es elegir una ventana de observaciones y después, los rendimientos del activo o del portafo
lio dentro de esta ventana se ordenan en forma ascedente. El cuantil q de interés es aquel
rendimiento que represente el q % de las observaciones en el lado izquierdo de la información
4Coronado (2001) afirma que la aplicación de la TVE debe servir como un análisis complementario para la estimación del VaR más que un enfoque de estimación en el sentido estricto, quien cita además rl punto de vista del expresidente de Chase Manhattan corporation, "In my view, value at Tisk is imporlant but it cannot stand alone". Coronado concluye que Valor en Riesgo no es un modelo si no un concepto: Valor en Riesgo mide el nivel de riesgo bajo ciertos supuestos.
5
ó ( 1 - q) % en el lado derecho.
Propuestas más recientes para estimar el VaR bajo el argumento de que logran cap
turar los hechos estilizados o fenoménos de las series de tiempo finacieras han sido: modelos
GARCH-fraccionales, modelación de las colas de una distribución de Pareto a través de la
función generalizada de valores extremos, y de creciente aplicación la teoría de waveletes.
Ésta última ha ganado terreno en el análisis de datos económicos y financieros por ser un
enfoque que permite el análisis de fenómenos temporales, no estacionarios y de variación en
el tiempo; a la vez permite el análisis simultáneo de frecuencia y escala en el tiempo de las
series de tiempo.
Una de las primeras contribuciones en economía y finanzas de la teoría de wavelets la
realizan Ramsey y Lampart (1999) quienes analizan las relaciones entre variables macroe
conómicas. Su metodología consiste en descomponer las series económicas en diferentes
escalas de tiempo y aplicar pruebas de causalidad de Granger para cada nivel de descom
posición. En un estudio similar por Aguiar, Azcvedo y Soares (2007) analizan el impacto del
cambio en las tasas de interés sobre variables macroeconómicas, quienes analizan la cova
rianza usando la transformada wavelet cruzada, la correlación local a través de la coherencia
wavelet, y la sincronización en fase a través de las diferencias en fase. Lee (2004) estudia
la transmisión de precios y volatilidad entre el mercado accionario Koreano y N orteameri
cano, cuyos resultados muestran que los rendimientos accionarios se deben principalmente
a fluctuaciones de muy corto tiempo.
La aplicación de wavelets para estimar el riesgo de mercado es muy reducida, siendo una
de las principales aportaciones en administración de riesgos la investigación de Fernández
(2005) quien descompone el VaR y la beta de CAPM para 7 mercados accionarios emergentes
a través de la Transformada Wavelct Discreta de Máximo Traslape (TWDMT). Norsworthy,
et al. (2000) y Xiong, et al. (2005) estiman la beta del CAPM para emisoras del S&P500
y de la Bolsa de Valores de Shangai, respectivamente. Lai, He, Xie y Chen (2006), estiman
el riesgo de mercado del crudo a través de un enfoque híbrido wavelets-GARCH (1,1). Su
metodología consiste en descomponer la serie de rendimientos del crudo y para cada nivel de
descomposición aplican el modelo de volatilidad condicional GARCH (1,1); posteriormente
agregan el VaR de cada escala para obtener el VaR total del commodity en cuestión.
1.2. Planteamiento del Problema
La problemática en la modelación de los rendimientos de precios de activos ha sido en
encontrar aquella familia de distribuciones que mejor ajuste tenga de los datos financieros
toda vez que la evidencia empírica ha mostrado distribuciones del tipo leptokúrtikas, mani-
6
festando la presencia de fenómenos como colas largas, volatilidad cambiante y agrupada, y
dependencia de largo plazo. Fenómenos que fueron indentificados desde Bachelier al referirse
a grandes cambios en los precios, varianza que cambia; Kendall al referirse a ruleta que no
tiene memoria; Fama al argumentar de la presencia de dependencia y volatilidad agrupada
como rendimientos positivos le siguen a rendimientos positivos, y rendimientos negativos le
siguen a rendimientos negativos. La importancia e implicaciones de lo anterior se refleja en
el riesgo asociado al comportamiento de un mercado financiero, en particular el mercado
accionario, tal como Fama argumenta: "la forma de la distribución es un factor mayor en la
determinación del riesgo en una inversión" .
Sin embargo, dada la evidencia, las propuestas de los diferentes modelos no han sido del
todo satisfactorias. Algunas por violar su propiedad principal como lo es estabilidad, otras
por suponer aún independencia en los rendimientos y en general por ser modelos paramétri
cos propuestos para representar a través de un sola función de distribución los diferentes
horizontes. Esto es, los modelos propuestos no del todo han logrado capturar los fenómenos
que describen el comportamiento del mercado. Lo anterior se ha reflejado en una evolución
de las metodologías para estimar el valor en riesgo, teniendo cada una sus diferentes desven
tajas.
El modelo de varianza-covarianza presenta dos debilidades en la estimación del VaR:
• La presencia de valores extremos en la distribución de los rendimientos más allá de lo
que la distribución normal captura, arroja un Valor en Riesgo mayor de aquel estimado
bajo el enfoque normal.
• Al ser los rendimientos no estacionarios, implica que la varianza y covarianza cambian
a través del tiempo, por lo que el Valor en Riesgo subestimaría al verdadero valor.
Una primera alternativa para resolver la problemática de homoscedasticidad en el modelo
varianza-covarianza, fue la aplicación del modelo GARCH( 1, 1), que a pesar de su flexibili
dad para modelar la variabilidad en la varianza, una de su principales debilidades es suponer
que los residuales estandarizados se distribuyen bajo una normal lo cual no es consistente
con el comportamiento de los rendimientos de los activos financieros. Manganelli y Engle
(2001) argumentan de tres fuentes que hacen del enfoque GARCH débil para estimar el VaR
y en consecuencia la incorrecta especificación en estos modelos: 1) incorrecta especificación
de la ecuación de la varianza, 2) incorrecta especificación de la distribución para construir la
verosimilitud logarítmica, y 3) los residuales estandarizados no son idéntica e independien
temente distribuidos (i.i.d). Adicionalmente, Mikosch y Starica (2000) argumentan que los
modelos GARCH no son capaces de describir libres de errores el comportamiento extremo
7
en encontrar aquella familia de distribuciones que mejor ajusten la información. Sin
embargo las propuestas no han sido del todo satisfactorias y con ello sus implicaciones
en las metodologías propuestas para estimar el riesgo de mercado, las cuales cada una
de ellas han presentado desventajas en su aplicación.
2. La metodología de wavelets se basa en la dilatación y traslación de una función que
permite analizar a detalle las pequeñas características de una serie de tiempo en el
dominio de tiempo-frecuencia y tiempo escala. Por lo que dicha serie de tiempo se
puede descomponer para analizarla a detalle y en diferentes escalas, y nuevamente
reconstruirla sin perder información relevante. Su flexibilidad se observa porque per
mite el análisis de fenómenos temporales, no estacionarios y de variación en el tiempo
-fenómenos que han caracterizado a datos económicos y financieros.
Su eficiencia se aprecia por la aplicabilidad que ha tenido ( en contraste con el análisis
de Fourier) en diversos campos como en la ingeniería en el procesamiento de señales
y compresión de datos (Norsworthy, Li y Gorener (2000)); en estudios geofísicos para
analizar relaciones causales físicas (Grinsted, Moore y Jevrejeva (2004)); en el campo
de la estadística para la estimación de la varianza (Abramovich, Bailey y Sapatinas
(2000), y Serroukh, Walden y Percival (2000)), simulación de procesos estocásticos
(Dijkerman y Mazumdar (1994)) y procesos con memoria de largo plazo y estimación
de densidades (Donoho, Johnstone, Kerkyacharian y Picard (1996)); y en el campo de
economía y finanzas para analizar funciones no estacionarias, realización de pronósti
cos, relaciones causales y análisis de cambios estructurales (Ramsey y Lampart (1999) ).
3. El desarrollo de plataformas tecnológicas ha hecho de la aplicación de wavelcts más
eficiente en cuanto al tiempo de estimación y aproximación en el uso de algoritmos
numéricos para la estimación de parámetros.
La investigación se limita en estimar el riesgo de mercado de activos individuales
pertenecientes al IP&C que han cotizado de forma continua desde el 2001. Los resultados
se limitan a compararse con el enfoque EWMA y el modelo GARCH (1,1).
1.6. Contribución
La investigación contribuirá a la literatura en administración de riesgos en las siguientes
formas:
1. Análisis por multiresolución de los rendimientos del mercado accionario mexicano y
de las emisoras pertenecientes al IPyC.
10
2. Estimación del riesgo de mercado a través de la descomposición por wavelets de la va
rianza, para estimar el Valor en Riesgo de activos individuales en el mercado accionario
mexicano.
3. Contrastación en la descomposición por multiresolución y estimación de la varianza
wavelet a través de la transformada wavelet discreta y transformada wavelet discreta
de máximo traslape.
11
Capítulo 2
Métodos de Estimación del Riesgo de
Mercado
Una de las medidas de riesgo de mercado más importantes y aceptadas en finanzas ha
sido Valor en Riesgo (VaR), la cual resume la peor pérdida esperada en un horizonte de
tiempo específico dado un nivel de confianza. U na definición formal de VaR la proporciona
Venegas-Martínez (2006), en donde el valor en riesgo de X dentro de un nivel de confianza
(1 - a) se expresa como
P0{-VaR{_0
:s; X}= 1- a, (2.1)
donde - V aRf_ 0
satisface
(2.2)
Igualmente VaR puede ser estimado en términos del valor del portafolio ( Jorion ( 1996)),
¡-w 1 - a= }_
00
J(w)dw, (2.3)
del rendimiento del portafolio
1 - a= 1-: J(r)dr, (2.4)
o la distribución normal estandarizada Z
¡-z 1 - a= }_
00
<l>(E)dE. (2.5)
Su estimación asume una distribución de probabilidad de la variable financiera, bajo el
supuesto común de una distribución Gaussiana, y descrita por Fama (1965) de la siguiente
forma
12
En general, la J arma de la distribuc'ión es un factor principal en la determinación
del riesgo de una inversión en acciones comunes. Por ejemplo, a pesar de que
dos posibles distribuciones dij eren tes para los cambios en el precio puedan tener
la misma media y cambio esperado en el precio, la probabilidad de cambios muy
grandes puede ser mayor en una distribución que en la otra. 1
El trabajo realizado por la estadística ha sido amplio en encontrar aquella distribución
apropiada que mejor ajuste los datos empíricos dado que estos han mostrado ser no
estacionarios, básicamente caracterizados por grandes cambios en los precios, volatilidad
cambiante y memoria de largo plazo (Longin (1991), Cont (2001)). Lo anterior ha dado
como resultado una evolución en la forma de estimar el riesgo de mercado en general y en
particular el Valor en Riesgo, y clasificada como estimación paramétrica, semiparamétrica
y no-paramétrica.
Por lo anterior, el presente capítulo inicia con una revisión de las diferentes familias de
distribuciones que se han propuesto para modelar los rendimientos de los precios de activos
financieros cuyo propósito ha sido en lograr capturar los fenómenos como valores extremos,
volatilidad cambiante y dependencia de largo plazo; toda vez que la evidencia empírcia ha
mostrado que la distribución de los rendimientos ha sido del tipo leptokúrtika o de colas
largas (Mandelbrot (1963)). La segunda sección trata sobre las diferentes metodologías de
estimación de Valor en Riesgo, y finalmente la tercera sección aborda la pérdida esperada
en la cola (PEC), medida de riesgo complementaria al VaR y descrita por Artzner (1999)
como una medida coherente de riesgo.
2.1. Modelos Probabilísticos de Rendimientos de Pre-.
CIOS
El supuesto inicial que se estableció en la distribución de los rendimientos de los precios
se remonta al modelo de caminata aleatoria para el mercado de activos y commodities
construido por Bachelier (1900), quien consideró que los cambios en los precios de activos se
generaban bajo una distribución normal. El modelo de Bachelier considera que los cambios
sucesivos en los precios de activos, Z(t+ T)-Z(t), poseen las propiedades de: a) aleatoriedad,
b) independencia estadística, c) distribución idéntica, y d) distribución marginal Gaussiana
con media cero. Por lo cual a este modelo se le ha llamado caminata aleatoria Gaussiana
estacionaria o simplemente movimiento Browniano.
Sin embargo a Osborne (1959) se le atribuye la caracterización del comportamiento del
1 Eugene Fama, The Behavior of Stock-Market Prices, página 41.
13
mercado accionario como un Movimiento Browniano, al argumentar que los precios de las
acciones y el valor del dinero se pueden representar como un conjunto de decisiones en un
estado estable o de equilibrio estadístico análogo al conjunto de coordenadas de un gran
número de moléculas. Su principal aportación en contraste con el modelo de Bachelier,
considera que los cambios en los precios son de la forma
Y= loge[P(t + r )/ Po(t)], (2.6)
donde P(t + r) y P0 (t) son los precios de las acciones en los tiempos aleatorios t + r y t;
y Y posee una función de distribución en equilibrio correspondiente al de una partícula en
movimiento Browniano de la forma
(2.7)
La justificación de Osborne en utilizar los cambios logarítmicos de los precios más que los
cambios de precios conforme al modelo de Bachelier se basa en un punto de vista racional,
ya que en intervalos iguales la variable aleatoria elegida debe ser física o psicológicamente
significativa, lo que implicaría que la diferencia en la sensación subjetiva de ganancia o
pérdida, o cambio de valor, en el precio de una acción de $10 a $11 debe ser igual al cambio
de $100 a $110. Para tales efectos, aplica la ley de Weber-Fechner y con ella construye la
función de distribución en un estado estable, haciendo énfasis en que el valor de la sensación
subjetiva como lo es la posición absoluta en un espacio físico no es medible, pero los cambios
o diferencias en la sensación subjetiva cumplen con el criterio de ser medibles.
La investigación de Osborne (1959) concluye que bajo la hipótesis de la ley de Weber
Fechner, las ganancias son medibles a través de los cambios en el logaritmo de los precios,
por lo que la ganancia esperada de cada cambio es cero; y bajo estas condiciones es a lo
que se llama indiferencia de decisión en primer orden o los cambios en el logaritmo de los
precios se encuentran estadísticamente en equilibrio entre el comprador y vendedor. Una de
las más importantes aplicaciones tanto del modelo de Bachelier como el de Osborne, fue en
la construcción del modelo Black-Scholes para valuar opciones (Black y Scholes (1973)), en
donde el comportamiento del activo subyacente es descrito por el movimiento geométrico
Browniano
14
Sin embargo y dada la evidencia empírica, los cambios en los precios han reflejado una
distribución no-normal del tipo leptokúrtica.2 Mandelbrot (1967) comenta que el propio
Bachelier argumentó que no existía evidencia a favor de un movimiento Browniano justifi
cado por dos razones: 1) la varianza muestra! de los cambios en el precio varía en el tiempo,
observándose esto a través de colas más anchas en el histograma respecto al caso Gaussiano;
y, 2) ni una mezcla razonable de distribuciones Gaussianas es capaz de capturar el tamaño de
los más grandes cambios en el precio, describiendo a este fenómeno corno "contaminadores"
o "outliers" .
Fama (1965) encuentra que la distribución de las diferencias logarítmicas de los precios
de treinta emisoras del Dow Jones Industrial Average presentan cierto grado de leptokur
tosis, ya que las distribuciones empíricas presentan un mayor pico en el centro y colas más
largas que la distribución normal. Brada, Ernst y Tassel (1966) modifican el modelo origi
nal de Bachelier para estudiar la propiedad de independencia considerando las diferencias
de los precios a lo largo de transacciones más que las diferencias de los precios a lo largo
de periodos de tiempo. Para ello utilizan precios de 10 emisoras en un rango de 102 días
trading y sus resultados muestran que las distribuciones de las diferencias en los precios son
excesivamente puntiagudas.
Contrario a los resultados obtenidos por Fama (1965), Brada, Ernst y Tassel (1966)
muestran que dichas distribuciones no son de colas anchas, concluyendo que efectivamente
las distribuciones son no-normales debido al alto pico más que a las colas anchas. El argu
mento para justificar sus resultados se basa en que siendo un mercado casi perfecto donde
existen muchos compradores y vendedores, es de esperarse un precio de equilibrio que per
sista en el largo plazo.
Praetz (1972) estudia el comportamiento del cambio en el logaritmo de precios mensuales
de 17 emisoras pertenecientes a la Bolsa de Valores de Sydney. Su estudio basado en las
pruebas de bondad de ajuste de una x2 y en los momentos muestrales de tercero y cuarto
orden, atroja que ninguna de las series presenta una distribución normal al encontrar que
el valor del parámetro u del exponente de la distribución estable de Pareto varía entre 1.66
y 1.96. Su principal contribución fue la reinterpretación del modelo de Osborne (1959) al
representar la distribución de los cambios logarítmicos de los precios (2. 7) condicionada al
valor de la dispersión a, de la forma
(2.8)
2Mills (1927) ya caracterizaba a la distribución de los precios como leptokúrtica (colas largas). Una definición clara de este fenómeno se encuentra en Eberlein-Keller (1995) al mencionar: "Es evidente que existe considerablemente mayor masa alrededor del origen y en las colas que lo que pueda proporcionar una distribución normal estándar."
15
Una modificación a (2.8) asumiendo que el intervalo de tiempo es unitario T = 1 y que y
tiene una media µ diferente de cero, entonces
1 J(y I o-2) = ~exp (-(y - µ)2 /20-2).
21ra-2 (2.9)
Praetz (1972) argumenta que la modificación al modelo de Osborne (1959) se justifica
en que el mercado accionario comúnmente presenta periodos largos de relativa actividad
seguidos de periodos largos de relativa inactividad. Para ello realiza una analogía con el
movimiento Browniano donde o-2 es proporcional a la temperatura del gas, y la "tempe
ratura" del mercado accionario se puede representar como el grado de actividad o energía
en los mercados. Por lo tanto, el valor de o-2 variará significativamente en la medida que el
grado de actividad en el mercado varíe. 3
Officer (1972) muestra que los rendimientos de precios mensuales de 39 emisoras se ca
racterizan por un proceso que no es generado por una distribución normal al detectar que
las distribuciones empíricas presentan colas anchas ya que el valor obtenido del parámetro
a que describe al exponente característico de una distribución estable es de 1.51. Así mismo
encuentra que el valor de a estimado para 50 emisoras con un total de 217 observaciones
diarias y clasificadas en ocho subperiodos oscila en el rango de 1.61 a 1.67. El resultado ante
rior hace confirmar de una aparente estacionariedad en la distribución de los rendimientos.
Sin embargo, el mismo Officer (1972) encuentra que la propiedad de estabilidad no se
cumple ya que al agregar rendimientos diarios hasta obtener sumas de 20 observaciones, el
parámetro a aumenta en la medida que la agregación de las observaciones aumenta. Por
lo cual concluye que los rendimientos se caracterizan por una distribución de colas pesadas
aunque la propiedad de estabilidad no se cumple del todo cuando se suman observaciones
diarias.
Posteriormente Perry (1983) estudia el comportamiento de 37 emisoras listadas en el
New York Stock Exchange y encuentra que el valor de a del exponente característico de
la distribución estable es inferior a 2. A pesar de que las distribuciones empíricas de los
rendimientos se consideren de colas pesadas, concluye que las respectivas distribuciones no
son de varianza infinita si no de varianza finita que cambia a través del tiempo en un estilo
complejo.
En estudios más recientes, Eberlein y Keller (1995) encuentran que las distribuciones
empíricas de 10 emisoras pertenecientes al índice accionario alemán DAX "presentan una
masa considerable alrededor del origen y en las colas respecto de la distribución normal."
Para validar la hipótesis de normalidad consideran la metodología de las funciones de mo-
3P. Praetz, The Distribution of Share Price Changes, página 50.
16
mentos y la prueba de Kolmogorov-Smirnoff; en la primera reportan que el valor del sesgo y
kurtosis para la emisora BASF es 0.52 y 7.40 respectivamente, y para la emisora Deutsche
Bank es 1.40 y 16.88, respectivamente. En la prueba de Kolmogorov-Smirnoff se obtiene que
los valores de todas las emisoras oscila entre 0.70 y 1.20, inferior al valor de prueba de 1.63.
Cont (2001) analiza y describe las propiedades empíricas de los rendimientos de ac
tivos, llamándole a dichas propiedades como hechos estilizados. Entre los hechos de mayor
discusión dadas sus implicaciones en la validación de la hipótesis de normalidad en los
rendimientos de los precios y en consecuencia sus efectos en la cuantificación del riesgo, han
sido: colas pesadas (presencia de valores extremos), volatilidad cambiante en el tiempo y
dependencia en el corto y largo plazo. La primera de ellas, valores extremos, Bachelier
(1900) la identificó como grandes cambios en el precio. Mandelbrot (1963) argumentó que
los grandes cambios en el precio se deben a que las observaciones son generadas por una
mezcla de distribuciones normales, de las cuales una de ellas tiene un menor peso en la
mezcla pero con una varianza grande por lo cual es considerada como "contaminador".
Referente a la propiedad de volatilidad cambiante, Bachelier (1900) ya la identificaba
como varianza muestral que varía en el tiempo; Roberts (1959) la señaló como "la tendencia
de agrupamiento de observaciones similares", al comparar la simulación de rendimientos de
52 semanas con el comportamiento del Dow Jones Industrial Average, mencionando que
dicho fenómeno de agrupamiento era contrario a la intuición y por lo cual el modelo de
probabilidad generaba esperanzas temporales de predictibilidad. Fama (1965) relacionó este
fenómeno con el supuesto de independencia en el modelo de caminata aleatoria de Bachelier,
al mencionar
Por ejemplo, a noticias buenas le siguen noticias buenas más que noticias malas,
y a noticias malas le siguen noticias malas más que noticias buenas. 4
A lo anterior concluía que la dependencia estaba presente tanto en el proceso que genera
el ruido como en el proceso que está generando la nueva información, teniendo como re
sultado la dependencia en los cambios sucesivos en el precio. Con referencia a la propiedad
de independencia y su relación estrecha con volatilidad cambiante, Roberts (1959) comenta
los resultados obtenidos por Kendall (1953), los cuales reflejan como si los cambios en los
precios fuesen generados por una ruleta en donde cada observación es estadísticamente inde
pendiente de su historia y para los cuales las frecuencias relativas han sido razonablemente
estables a través del tiempo. Por lo tanto, toda vez que una persona acumula evidencia para
estimar las probabilidades de los resultados en la ruleta, esta persona basaría sus predic
ciones únicamente en estas probabilidades sin prestar atención al comportamiento de los
4 Eugene Fama, The Behavior of Stock-Market ?rices, página 37.
17
giros recientes.
Sin embargo, los giros recientes de la ruleta serían relevantes en las predicciones en tan
to contribuyan con estimaciones más precisas en las probabilidades. A lo anterior, Roberts
(1959) argumenta que en términos de apuestas, la ruleta no tiene memoria. Entonces una
distribución de frecuencias de los cambios pasados es una buena base para estimar las proba
bilidades en tanto se cumpla el supuesto de independencia. En contraste, Mandelbrot (1963)
establece que la independencia no es posible ya que esto implicaría que el inversionista no
podría utilizar su conocimiento pasado para incrementar su ganancia esperada.
Dada la evidencia en que los cambios (logarítmicos) de los precios han mostrado ser de
una distribución no-normal y la presencia de fenómenos como valores extremos, volatilidad
cambiante y dependencia, en los datos financieros, el trabajo estadístico en finanzas se ha
oreintado en encontrar aquella familia de distribuciones que mejor ajusten los cambios en
los precios de los activos y permitan capturar los respectivos fenómenos. A pesar de que
estos fenómenos fueron identificados por Bachelier (1900), Kendall (1953),y Roberts (1959),
a Mandelbrot (1963) se le atribuye como el precursor en la modelación de los cambios en el
logaritmo de los precios a través de una distribución no-normal.
La principal contribución de Mandelbrot (1963) radica en haber modificado el modelo
de Bachelier reemplazando la distribución marginal Gaussiana por una distribución estable
de Pareto, con el objetivo de capturar los cambios signi.ficativos en los precios y presentar
un proceso que generalizara al de Bachelier.5 Una distribución estable de Pareto se define
como el logaritmo de la función característica de la forma:
loge<f>x(t) = loge [1: eitxdF(x)] = iót - 1 1 t Iº [1 + if](t/ 1 t l)w(t, a)], (2.10)
donde a determina la probabilidad total en las colas de la distribución y puede tomar valores
entre O y 2, ó es el parámetro de locación y cuando a= 1 dicho parámetro representa el valor
esperado de la distribución; f3 representa el índice de sesgo y puede tomar valores entre -1 y
1, cuando /3=0 entonces la distribución es simétrica; y, 1 representa el parámetro de escala.
En particular, cuando a= 1 la distribución es de Cauchy y cuando a:=2 la distribución es
Normal.
La figura 2.1 muestra la diferencia entre una distribución Normal y de Cauchy. Se ob
serva que la distribución de Cauchy presenta colas más pesadas que la Normal, pero ésta
última tiene un mayor piro en la parte central que la de Cauchy.
Fama (1965) describe las propiedades de una distribución estable de Pareto, quien
5 A Paul Lévy ( 1 !)25) se Ir atribuye el desarrollo de las distriburiones rstablrs también conocidas como
distribuciones a-estable sesgada de Lévy.
18
Dislnbuoon Normal y do Ceuchy
0.4
0.3
0.2
0.1
o.o
-6 -4 -2
Figura 2.1: Comparación entre Distribución Normal y de Cauchy
además valida la hipótesis de Mandelbrot (1963), al encontrar que el parámetro a del
exponente característico fue menor que 2 para las distribuciones en los cambios logarítmi
cos de los precios para 30 emisoras pertenecientes al Dow Jones Industrial Average. Las
propiedades de una distribución estable de Pareto son:
l. Estabilidad. Dicha propiedad se refiere a que la distribución es invariante bajo adición,
esto es, la distribución de la sumas son independientes e idénticamente distribuidas y
de la misma forma que la distribución de las variables aleatorias individuales (suman
dos). Por lo tanto, los parámetros a y (3 permanecen constantes bajo adición;
2. Las distribuciones de Pareto son las únicas distribuciones limitantes posibles para
sumas de variables aleatorias independientes e idénticamente distribuidas.
En su estudio, Fama (1965) aplica las técnicas de doble logaritmo, análisis de rango y de
varianza secuencial, para estimar el parámetro a; y para validar el supuesto de independencia
aplica el modelo de correlación serial, prueba de cambios de signos y la técnica de filtrado
de Alexander. En el caso de la estimación de a, concluye que el parámetro del componente
estadístico es siempre menor que dos por lo cual es apreciable que la hipótesis de Mandelbrot
(1963) ajusta la información en mejor forma que la hipótesis Gaussiana, teniendo dos tipos
de implicaciones:
• Económicas. En un mercado Paretiano con a < 2, el precio de un activo tenderá a
moverse a la alza o a la baja en cantidades muy grandes durante periodos de tiempo
muy cortos; contrario en un mercado Gaussiano, si la suma de grandes cambios en los
precios en un periodo de tiempo largo resulta en un cambio grande, entonces existe
la posibilidad de que cada cambio individual del precio durante dicho periodo de
19
tiempo sea poco significativo comparado con el cambio total. Por lo que esos grandes
o abruptos cambios en los precios representarían un mayor riesgo y con probabilidad
de mayores pérdidas en un mercado Paretiano que en un mercado Gaussiano.
• Estadísticas. Una distribución estable de Pareto con un parámetro a < 2 represen
ta una distribución de varianza que no es finita, por lo que la varianza y desviación
estándar muestra! para un proceso Paretiano con a < 2 mostrará un comportamien
to extremadamente errático aún para muestras grandes, por lo que en tamaños de
muestras cada vez más grandes la variabilidad de la varianza y desviación estándar
muestral nunca se reducirá tal como se esperaría en un proceso Gaussiano. Por lo
tanto, la varianza y desviación estándar muestra! son medidas de variabilidad de poco
sentido en un proceso Paretiano con a < 2. Dado lo anterior, la recomendación es
utilizar rangos interfractiles o la desviación absoluta sobre la media como medidas de
variabilidad, o en su caso usar distribuciones de colas largas con varianza finita para
describir los datos. En un sentido estricto, al inversionista únicamente le interesará la
forma de la distribución para definir la probabilidad de ganancias o pérdidas mayores
a ciertas cantidades.
Referente a las pruebas de independencia, Fama (1965) no encuentra evidencia de depen
dencia en los datos por lo que el supuesto de independencia en el modelo de caminata
aleatoria resulta adecuado para describir la realidad. Las implicaciones se reflejan en que la
independencia en los cambios en los precios es una situación consistente con la existencia de
un mercado eficiente, por lo que en cualquier momento del tiempo los precios actuales re
presentarían buenos estimadores de los valores intrínsecos de los activos. Al respecto, Fama
(1965) argumenta que existen dos factores que posiblemente contribuyan a la independencia
en los datos:
l. La existencia de muchos analistas sofisticados de gráficos que activamente compiten
entre ellos para tomar ventaja de cualquier dependencia en los cambios de precios;
2. La existencia de analistas sofisticados donde la sofisticación implica la habilidad para
predecir los eventos políticos y económicos, y para evaluar los efectos eventuales de
dichos eventos en los precios.
Fama (1965) concluye su investigación con la propuesta de dos líneas de investigación: a)
pruebas adicionales de dependencia, y b) distribuciones de los cambios en los precios, en
donde se exploren procesos más básicos bajo los cuales se estén generando las distribu
ciones empíricas corno es el caso de distribuciones en los cambios de precios en términos del
comportamiento de variables económicas más básicas; o en su caso desarrollar aún más la
20
teoría estadística de las distribuciones estables de Pareto ante la afirmación de que dichas
distribuciones son las que describen los cambios en los precios.
Mandelbrot (1967), como una extensión a su investigación en 1963, encuentra evidencia
de no-normalidad en las variaciones de los logaritmos en los precios del algodón, de ac
ciones de emisoras ferrocarrileras, y variación en las tasas de interés y tipos de cambio. La
estimación del parámetro a la realiza a través del método de máxima verosimilitud con el
objetivo de representar la densidad estable de Pareto a través de dos expresiones, una para
la parte central acampanada o Gaussiana y otra para las colas que capturan los valores ex
tremos a través de una representación hiperbólica. Para tales efectos, determina la cantidad
de outliers suponiendo que las colas de la distribución son simétricas.
En un estudio posterior, Praetz (1972) modifica el modelo de Osborne (1959) para re
presentar la distribución de equilibrio (2. 7) condicionada a la varianza (2.8) y así obtener
una distribución-in escalada ( n grados de libertad) que ajusta en mejor forma los cambios
en los precios respecto a la distribución estable de Pareto propuesto por Mandelbrot (1963).
Praetz (1972) argumenta de tres desventajas del modelo Paretiano:
l. La varianza infinita presente en la distribución estable que hace inaplicable la teoría
estadística convencional;
2. Las funciones de distribuciones que genera la distribución estable de Pareto son des
conocidas salvo en los casos cuando a=l que representa a una distribución de Cauchy
y cuando a=2 que representa a una distribución normal;
3. Los métodos de estimación de los parámetros no han sido satisfactorios.
Así mismo y conforme a los resultados obtenidos, la distribución-in escalada puede repre
sentar una distribución de Cauchy cuando v = l o una distribución normal cuando v = 2,
por lo que Praetz (1972) sugiere la aplicación de la distribución-tn como alternativa para
modelar los cambios en los precios dada su representación conjunta del riesgo e incertidum
bre: riesgo visto en la distribución normal e incertidumbre en la distribución de la varianza.
La función de densidad de una variable aleatoria que se distribuye bajo una t-student se
representa por (v+l)
f (v!l) ( x2)--2 Jv(x) = r (~) J"Íl1r 1 +-; , (2.11)
donde v = n - l es el parámetro que representa los grados de libertad y r(v) es la función
Gamma. Un ejemplo comparativo de la distribución t-student respecto a la Normal y de
Cauchy, se observa en la figura 2.2.
21
Posteriomente, Blattberg y Gonedes (1974) estiman y comparan una distribución
estable simétrica y de Student para modelar la distribución de los rendimientos de 30
emisoras norteamericanas. Ambos modelos fueron generados en el marco de procesos es
tocásticos subordinados, en donde las distribuciones estable simétrica y de Student son pro
cesos subordinados a un proceso estocástico estacionario Gaussiano. Un proceso estocástico
subordinado se define de la siguiente forma: Sean [ X ( s); s 2 O] y [h( s); s 2 O] procesos
estocásticos y se define otro proceso Z(s) = X[h(s); s 2 O], entonces el proceso [.Z(s)] se
dice que es subordinado al proceso [X ( s)] y el proceso [h( s)] es el proceso direccional.
Su investigación concluye que la distribución de Student ajusta de mejor forma los
rendimientos de los precios que la distribución estable, y a pesar de que ambas distribuciones
son de colas anchas, la distribución de Student converge a una normal para muestras de
tamaño grande.7 Los métodos que utilizan para discriminar entre una distribución estable y
de Student son (1) pruebas de convergencia a un distribución normal empleando un tamaño
de suma de 5 observaciones, y (2) el valor de la razón de verosimilutd logarítmica para los
rendimientos diarios. Así mismo detectan dependencia en las series de los rendimientos, ya
que largos rendimientos son superados por largos rendimientos pero de signo no predeci
ble. A pesar del fenómeno de dependencia en los rendimientos, concluyen que el modelo de
Student es de mayor validez descriptiva que el modelo estable simétrico propuesto desde
Mandelbrot (1963).
Upton y Shannon (1979) analizan y comparan la distribución de rendimientos de precios
mensuales, trimestrales, semestrales y anuales; donde primeramente aplican las pruebas de
Kolmogorov-Smirnoff para validar la hipótesis de normalidad y el estadístico del Rango de
Student para discriminar entre una distribución estable de Pareto y normal. Así mismo
aplican el estadístico-g de Fisher para probar sesgo y kurtosis.8 La importancia de su inves
tigación radica en que analizan la distribución del logaritmo en los rendimientos más que la
distribución en el cambio del logaritmo de los precios, por lo que el rendimiento de los ac
tivos en un intervalo de tiempo, R1 , se puede observar como el producto de los rendimientos
k sobre N subintervalos,
(2.13)
7Biattbcrg y Gone<les (l!J74) suponen que los rendimientos son independientes por lo que la distribución de Student no del todo describe adecuadamente los resultados empíricos.
8 La prueba de Kolmogorov-Smirnoff es una prueba de bondad de ajuste en tanto que las pruebas de sesgo y kurtosis son aplicables para tendencias asintóticas.
23
El producto de los rendimientos tendrá una distribución lognormal en tanto que la dis
tribución de k sea estacionaria, independiente y k > O para toda i; y en tanto el proceso
subyacente sea constante, los parámetros de la distribución de k serán estacionarios, en
tonces el Proceso Estocástico Subordinado9
Iím R1 ,...., lognormal. N-+oo
(2.14)
La función de densidad de una variable aleatoria que se distribuye como una lognormal se
representa de la forma:
Jµ,u(x) = ~ exp {-2
12 (log x - µ) 2
}, X<I 27í <7
(2.15)
donde x > O, y µ y u > O son la media y desviación estándar respectivamente, del logaritmo
de la variable aleatoria. La representación gráfica de una distribución lognormal se aprecia
en la figura 2.3, cuyo particular esµ= O y u2 = l.
Dislribuci n Log-Noma
0.8
0.6
0.2
O.O
10
Figura 2.3: Distribución Lag-Normal conµ= O y a= l
El estudio de Upton y Shannon (1979) arroja que la distribución leptokúrtika permanece
para horizontes mensuales, sin embargo en la medida que el horizonte de tiempo se alarga,
la distribución de los activos converge a una distribución lognormal aunque lo anterior no es
señal de que el parámetro a < 2. Aún así, se preferiría la propuesta del Proceso Estocástico
Subordinado respecto del modelo estable Paretiano.
Propuestas alternas al modelo Paretiano de Mandelbrot (1967), distribución de Student
por Practi (1972) y al enfoque de Procesos Estocásticos Subordinados, hacen referencia a la
hipótesis de mezcla de distribuciones propuesta por: Fiel (1983), Kon (1984), Harris (1986),
9Si Y"' N(µ, a 2) entonces exp(Y) "'Log-N(µ, a 2
)
24
Harris (1987), Hall, Brorsen e Irwin (1989) y, a la distribución hiperbólica propuesta por
Eberlein y Keller (1995). Una mezcla de distribuciones es una clase de distribuciones de
colas pesadas donde cada distribución se conoce como componente de la mezcla, la cual se
define como cualquier combinación convexa de los componentes de la forma
k k
I>di(x), ¿Pi=l k > 1, (2.16) i=l i=l
y en el caso continuo
g(x) = fe!(x l 0)h(0)d0 (2.17)
donde cada Íi representa comúnmente a una familia paramétrica con parámetros 0i des
conocidos. Un caso particular es la mezcla de distribuciones normales donde 0 representa la
media y varianza desconocidas.
25
2.2. Valor en Riesgo
La presente sección describe las diferentes metodologías de estimación del Valor en Riesgo
y especificaciones de los modelos propuestos para su estimación, la cual se basa en: Jorion
(2007), Manganelli y Engle (2001), Engle (2001), McNeil (2000), Longin (2000), y Enders
(2004).
2.2.1. Estimación Paramétrica
El método paramétrico considera una función de distribución conocida F( ·) junto con
el parámetro de comportamiento a que caracteriza dicha distribución de probabilidad. El
supuesto común que se ha hecho en cuanto a la distribución de los rendimientos diarios de
los activos financieros ha sido el de una normal, por lo que F(a) corresponde al cuantil
apropiado de la distribución normal estándar. Para efectos de estimación del riesgo, el VaR
es un múltiplo de la desviación estándar del activo en cuestión o de un portafolio de activos
y se representa de la forma
VaR = -Vocav, (2.18)
donde V0 es el valor inicial del activo, e es el parámetro correspondiente al nivel de confianza
establecido y av es la desviación estándar del activo, y el signo negativo identifica que el
valor crítico de la distribución para el nivel de confianza seleccionado es negativo.
Enfoque Varianza-Covarianza
El primer enfoque paramétrico se ha identificado como varianza-covarianza, en particular
cuando se habla del riesgo de un portafolio. Por lo que el VaR del portafolio se reduce a la
estimación de la matriz de varianzas y covarianzas de los factores de mercado que explican el
comportamiento del portafolio. Lo anterior junto con la información referente a las posiciones
que componen el portafolio, permite determinar la desviación estándar del portafolio y en
consecuencia el VaR del mismo.
Si el rendimiento del portafolio del periodo t a l + l se define como
N
RP,t+I = ¿ wiRi,t+I,
i=l
(2.19)
donde N es el número de activos en el portafolio, Ri,t+I es el rendimiento del activo i y
wi es el peso del activo en el portafolio. A diferencia del enfoque media-varianza, en VaR
cada activo se considera como un factor de riesgo del portafolio y wi la exposición lineal al
respectivo factor de riesgo.
26
En el contexto matricial, el rendimiento del portafolio se expresa de la forma
=w'R '
(2.20)
donde w' representa el vector traspuesto de los pesos de los activos y R el vector columna
que contiene cada uno de los rendimientos de los activos.
A partir de lo anterior, es posible expresar el rendimiento esperado del portafolio de la
forma
y la varianza del portafolio como
N
E(Rp) = µp = L wiµi,
i=l
N N N
var(Rp) = O"i = L w/O"/ + L ¿ W¡WjO"ij
i=l i=l j=l,jf,i
N N N
= L w/O"/ + 2 ¿ ¿ W¡WjO"ij,
i=l i=l j<i
la cual puede representarse en notación matricial como
O"N3
y su representación compacta se escribe de la forma
2 ,..., O"p = W L...,W,
y en términos de exposiciones en dólares x se tiene
2w2 ,..., O"p = X L...,X.
(2.21)
(2.22)
(2.23)
(2.24)
(2.25)
La medida de VaR se obtiene a partir de la varianza del portafolio para lo cual se debe
conocer la distribución de probabilidad de los rendimientos del portafolio. En el contexto de
normalidad, todos los activos individuales se consideran de distribución normal, por lo que
el rendimiento del portafolio es normal. Lo anterior es posible ya que al ser el portafolio una
27
combinación lineal de factores de riesgo que se distribuyen conjuntamente como variables
aleatorias normales, entonces éste será normal.
De la forma anterior es posible moverse de la varianza del portafolio a la medida de
VaR traduciendo el nivel de confianza e previamente definido al de una desviación estándar
normal a, tal que la probabilidad de observar la peor pérdida menor que -a es c. Por lo
tanto, el VaR de un portafolio cuyo valor inicial es W se expresa de la forma
VaRp = aapW = aVx'Ex. (2.26)
A partir de varianza del portafolio definida en (2.22), se observa que el VaR del portafolio
depende de las varianzas, covarianzas y número de activos; en donde la magnitud de la
covarianza entre los activos dependerá de la varianza de los mismos. Para tales efectos, el
coefiente de correlación es un estadístico que ayuda a medir la dependencia lineal entre
activos, la cual se expresa de la forma
(2.27)
y su valor cae en el intervalo de -1 a + l. Cuando p = 1, los activos estarán perfectamete
correlacionados y cuando p = O, los activos se encuentran no correlacionados. De lo anterior
se desprenden tres representaciones generales del VaR de un portafolio:
• Cuando existe correlación entre los activos, siendo ésta baja o alta:
(2.28)
• Cuando la correlación es cero:
(2.29)
• Cuando la correlación es igual a la unidad y las ponderaciones w1 y w2 son positivas:
VaRp = JvaR¡ + VaR~ + 2VaR1 xVaR2 = VaR1 + VaR2. (2.30)
De la expresión (2.28), se obtiene que una correlación baja ayuda a diversificar el riesgo del
portafolio. A partir de la expresión ( 2. 29), se obtiene que el riesgo del portafolio es menor
que cualquier de los activos, ya que p = O refleja un comportamiento independiente entre
los activos por lo que el riesgo del portafolio debe ser menor que la suma de los VaR's
28
individuales. Lo anterior hace que el VaR satisfaga el concepto de medida coherente de
riesgo siempre que las distribuciones sean normales y en general distribuciones elípticas.
Finalmente, la expresión (2.30) establece que el VaR de un portafolio es la suma de los
VaR's de los activos siempre que estén perfectamente correlacionados.
Enfoque de Volatilidad Condicionada: Riskmetrics y GARCH
U no de los hechos estilizados mayormente documentado referente a los rendimientos de
precios de los activos financieros es volatilidad agrupada (Engle (2001), Cont (2001)), la cual
se relaciona con el hecho en que eventos de alta volatilidad tienden a agruparse en el tiempo
debido a que diferentes medidas de volatilidad arrojan autocorrelación positiva en varios
días (Cont (2001)). Lo anterior es una descripción de que la volatilidad no es constante y
por lo tanto a depende del tiempo. Ante esta situación, el VaR de un activo o portafolio se
puede expresar de la siguiente forma
VaRt+Ilt = F(o:)at+I, (2.31)
donde ªt+l se define como la desviación estándar condicionada a la información disponible
en t.
Lo anterior ha sido motivación para proponer una parametrización del comportamiento
de los rendimientos de precios tal como Riskmetrics (1996) y la familia de modelos GARCH
inicialmente introducidos por Engle (1982) y Bollerslev (1986). El modelo de Riskmetrics
es un enfoque bajo el cual la varianza se calcula a través del método de medias móviles
ponderadas exponencialmente (EWMA), el cual corresponde a un modelo GARCH integrado
(caso particular de los modelos GARCH) de la forma
(2.32)
donde >. se conoce como el factor de decaimiento y toma valores menores a la unidad.
Usualmente el valor ha sido 0.94 y 0.97 para datos diarios y mensuales, respectivamente.
La modelación de la varianza condicionada a través del modelo GARCH tiene las ventajas
de modelar volatilidad no constante a través del tiempo, mostrar que la volatilidad tiene un
comportamiento a la alza y a la baja, identificar la existencia de memoria en el proceso y
predecir la volatilida futura. El modelo GARCH, una extensión del modelo ARCH propuesto
por Engle (1982), incorpora rezagos en la varianza condicionada y se describe como un
modelo GARCH infinito con una ecuación de la media
Rt =µ+Et, (2.33)
29
donde Et es una variable aleatoria normal, y la ecuación de la varianza se describe de la forma
q p
e7¡ = ªº + L O'¡E¡_¡ + ¿/3j<7¡_j, (2.34) i=l j=l
con las restricciones w > O, a¡~O, i = 1, ... , q y /31~0, j = 1, ... ,p.
El proceso GARCH es de orden p y q, y la ecuación de la varianza condicionada es una
función de tres términos:
• La media w;
• Innovaciones en la volatilidad respecto del periodo previo, medido como el rezago en
el residual al cuadrado de la ecuación de la media: t:z_¡ ( término ARCH); y,
• El pronóstico de la varianza en el último periodo: e7¡_¡ (término GARCH).
El caso particular es el proceso G ARCH ( 1, 1), el cual se refiere a la presencia de primer orden
en el término GARCH y de primer orden en el término ARCH. El modelo GARCH (1,1) se
puede interpetar en finanzas de la siguiente forma: un agente económico puede predecir la
varianza del periodo actual al establecer un promedio ponderado de un promedio de largo
plazo (la constante) , la varianza pronosticada en el último periodo (término GARCH) y con
información referente a la volatilidad observada en el periodo previo (término ARCH).
Por lo tanto, el modelo GARCH (1,1) se especificaría de la forma
Rt =µ+Et, (2.35)
(2.36)
con una varianza no condicionada de la forma
(2.37)
Una extensión al modelo GARCH se refiere a TGARCH (Threshold-GARCH), el cual busca
capturar el comportamiento asimétrico de la volatilidad toda vez que la evidencia empírica
ha mostrado que la volatilidad tiende a incrementar más ante noticias malas que noticias buenas (Black (1976)) , fenómeno identificado como efecto apalancamiento. Para tales efec
tos, el modelo EGARCH busca capturar el mayor riesgo asociado a rendimientos negativos
que positivos. La representación del modelo TGARCH es de la forma
(2.38)
30
donde dt-I es una variable dummy que toma el valor de uno si el rendimiento en el periodo
previo t - 1 se encuentra por debajo de su media, y el valor será cero si se encuentra por
arriba de la media,
d - { 1 ft-1 < o, t-1 -
o ft-120. (2.39)
Cuando ft-1 = Rt-I - µ < O (buenas noticias), la varianza condicionada se representa de la
forma
(2.40)
y cuando ft-1 = Rt-I - µ 2 O (malas noticias), la varianza condicionada se expresará de la
forma
(2.41)
en cuyo caso la varianza será mayor mostrando un mayor riesgo.
2.2.2. Estimación No Paramétrica
El enfoque no paramétrico simplifica sustancialmente la estimación del VaR ya que no
se hace supuesto alguno sobre la distribución de los rendimientos del activo o el portafolio.
El método más común es la Simulación Histórica (SH) el cual se basa en la rotación de
ventanas, en donde se utilizan los rendimientos históricos para estimar el VaR a través del
percentil empírico de la distribución muestral. Su expresión es de la forma
V aRt+Ilt = Percentil { {zt}~=l, alOO}. (2.42)
Lo anterior considera que la distribución de los rendimientos futuros es bien descrita por
la distribución histórica de los rendimientos. La principal ventaja de este método es que
al no suponer alguna distribución de los rendimientos, es posibles capturar distribuciones
no-normales y el fenómenos de colas pesadas; con la desventaja de no poder capturar la
volatilidad condicionada.
El método de SH se resume en los siguientes pasos:
• Elegir una ventana de observaciones la cual osicla comúnmente entre 6 y dos años de
historia;
• Ordenar en forma ascendente los rendimientos del activo o portafolio dentro de la
ventana y el q-cuantil de interés será aquel rendimiento que se encuentre q % de las
observaciones a la izquierda y (1 - q) % observaciones a la derecha;
31
• Cuando el cuantil de interés cae entre dos observaciones, será posible aplicar alguna
regla de interpolación; y,
• Para estimar el VaR un día siguiente, la ventana completa se moverá hacia adelante
en una observación y se repite el procedimiento anterior.
Una variación al método SH es el enfoque híbrido propuesto por Boudoukh, Richardson
y Whitelaw (1998); el cual combina las metodologías de Riksmetrics y SH con el propósito
de capturar la volatilidad condicinada, al aplicar pesos con decaimiento exponencial a los
rendimientos pasados del activo o portafolio. Este enfoque se resume en los siguientes pasos:
• A cada uno de los K rendimientos más recientes Yt, Yt-1, ... , Yt-K+l se le asocia un 1-.>. ( 1-.>. ) \ ( 1-.>. ) \ K -1 t' t peso 1_.>.R, 1_.>.R A, .•. , 1_.>.R /\ , respec 1vamen e;
• Los rendimientos se ordenan en forma ascendente; y,
• El q % del VaR se encuentra sumando los correspondientes pesos hasta que el q % se haya alcanzado iniciando del rendimiento más bajo. El VaR del activo o portafo
lio será entonces el rendimiento correspondiente al último peso utilizado en la suma
previa.
La diferencia entre el enfoque de SH y el híbrido, es que SH asigna el mismo peso a cada
rendimiento, en tanto que el enfoque híbrido asigna diferentes pesos a los rendimientos
dependiendo de que tan rezagada sea la observación.
2.2.3. Estimación Semiparamétrica
El enfoque semi-paramétrico es una combinación de la estimación paramétrica y no
paramétrica cuyas bondades se reflejan en que a través <le la aproximación paramétrica se
puede actualizar la volatilidad a partir de un modelo de volatilidad conocido como G ARCH
(1,1), y la ganancia en combinarla con la aproximación no-pararnétrica es que no se requiere
una distribución de los rendimientos.
Una de las primeras proposiciones de estimación semi-paramétrica del VaR la hacen
Hull y White (1998) y Barone-Adesi, et al (1996), al establecer una Simulación Histórica
Filtrada en donde es posible modelar las colas pesadas y actualizar la varianza. Por lo que
el VaR se estimaría de la forma
VaRt+llt = Percentil{ {t:t}~=1,o:lüü}at+l, (2.43)
donde Et y ªt+l son generados a través <le un modelo <le volatili<la<l conocido.
Una de las aplicaciones estadísticas de mayor aceptación en el enfoque semi-paramétrico
32
ha sido la Teoría de Valores Extremos, la cual se refiere a la modelación de las colas de una
distribución de probabilidad F; donde las observaciones X 1, X2, .. . , Xn se consideran una
secuencia de variables aleatorias idéntica e independientemente distribuidas (iid), las cuales
representan las pérdidas y riesgos con una función de densidad acumulada (FDA) de F.
Los eventos extremos se consideran aquellos valores de X¡ que exceden un umbral u, por lo
que la distribución de los excesos por arriba del umbral u se define como la probabilidad
condicional:
F(y + u) - F(u) Fu(Y) = Pr{X - u:Sy IX> u}= F( ) , 1 - 11,
y> O. (2.44)
Si u es lo suficientemente grande, entonces existe una función positiva /3( u) tal que la
distribución de los excesos se aproxima a través de una Distribución Generalizada de Pareto
(DGP):
(2.45)
1 - e-y/(J(u), V€ = O
donde f3(u) > O, y?_O cuando €?.0, y 0:Sy:S - /3(u)/€ cuando€< O.
Uno de los objetivos en la TVE es estimar el índice de la cola de la distribución a través
del cual se derivan las fronteras para los rendimientos en exceso de muy bajas probabilidades,
en donde la DGP ofrece una buena aproximación de la cola de F para un valor fijo de € y
/3, los cuales dependen a la vez de u. Los resultados de la TVE se deben a Fisher y Tippet
(1928) quienes especificaron la forma de la distribución límite para un máximo normalizado
teniendo tres posibles leyes de probabilidad límite sobre el máximo:
• Distribución tipo Gumbel
P [X < x] = exp { -e(x-µ)/rr} (2.46)
• Distribución tipo Fréchet
P[X < x] = { exp {- (X~JLr~}) x?.µ
Ü, X<µ
(2.47)
33
• Distribución tipo Weibull
¡ exp {- (7)-{}, x'S_µ
P[X < x] =
0, X>µ
(2.48)
donde µ, a, y ~ > O, son los parámetros de localización , escala y de forma, respectiva
mente.10
Las tres distribuciones se representan como miembros de una sola familia de distribu
ciones generalizadas propuestas por Jenkinson (1955) y conocidas como Distribuciones Ge
neralizadas de Valores Extremos (DGVE), cuya función de distribución acumulada es
(2.49)
donde 1 + ~(x - µ)/a> O, -oo < ~ < oo, y a> O.
Cuando ~ > O la distribución es de Fréchet; para~ < O la distribución es de Weibull, y
cuando ~ ---; oo ó -oo, la distribución es del tipo Gumbel. Por lo anterior, la expresión se
conoce como la distribución generalizada de valores extremos.
Una de las principales investigaciones de referencia en la aplicación de la TVE para la
estimación del VaR corresponde a Longin (2000), quien estima el VaR sobre los rendimientos
diarios del S&PSOO en el periodo de enero de 1962 a diciembre de 1993, cuya metodología
se describe en la figura 2.4.
El VaR que se estima en el último paso de la figura 2.4, el cual es un porcentaje del
valor de la posición, se obtiene de la distribución asintótica estimada de los rendimientos
mínimos
{ ( (-VaR _ f3 ) ) l/r}
pexc = 1 - F'z!int ( - V aR) = exp - 1 + T O'.n n , (2.50)
dando como resultado
VaR = -/3n + O'.n [1 - (-In (pexc) )] , T
(2.51)
10 Una de las tareas importantes en TVE es encontrar los estimadores apropiados del parámetro de forma ~, para lo cual existen tres metodologías (Ernbrechts, Klüppelberg y Mikosch (1997)):
1. Estimador de Pickands para ~ E IR.
2. Estimador de Hill para ~ = cx- 1 > O.
3. Estimador de Dekkers-Einmahl-de Haan para~ E IR.
34
Selección de la frecuencia/ de los rendimientos.
Construcción de los rendimientos históricos R, de la posición.
Selección de la longitud del horizonte de tiempo T.
Selección de los rendimientos mínimos z.
Estimación de los parámetros a,., p,., y rde la distribución asintótica de los rendimientos
mínimos.
Prueba de bondad de ajuste de la hipótesis: La distribución asintótica de los rendimientos
mínimos describe correctamente los rendimientos mínimos observados.
Se rechaza la hipótesis No se rechaza la hipótesis
Cálculo del VaR de la posición
Figura 2.4: Metodología de estimación aplicando TVE.
y cuyas especificaciones del modelo son:
• n es el número <le rendimientos básicos <le <lon<le se seleccionan los rendimientos
mínimos;
• D'n, fJn y T, son los parámetros <le la distribución asintótica F de los rendimientos
mínimos: y,
• pexc es la probabilidad de observar un rendimiento mínimo en que no exceda el VaR.
2.3. Pérdida Esperada en la Cola
La sección 2.1 trató sobre los diferentes modelos probabilísticos que se han propuesto
para ajustar los rendimientos de los precios de activos financieros y en consecuencia lograr
capturar aquellos fenómenos conocidos como hechos estilizados. En particular, se ha buscado
aquella distribución de probabilidad que meJor modele los rendimientos para efectos de
35
medir el riesgo de mercado, dada la importancia que tiene la distribución en el riesgo de
las inversiones. La sección 2.2 trató los métodos de estimación del riesgo de mercado en el
marco del Valor en Riesgo, haciendo énfasis en la Teoría de Valores Extremos como uno de
los principales enfoques aplicables en la aproximación semi-paramétrica.
La presente sección describe la medida de riesgo Pérdida Esperada en la Cola (PEC)
que surge como respuesta a las debilidades del contexto VaR, motivada de la presencia de
valores extremos en los rendimientos de los precios de activos y a la propia definición de
VaR. Artzner (1997) fue el precursor en proponer esta medida de riesgo también llamada
VaR Condicional, Pérdida Promedio en Exceso, Más allá del VaR, ó VaR en la Cola; la
cual se define como la pérdida esperada condicionada dada la pérdida por arriba del nivel
de VaR y se expresa como
(2.52)
donde VaR se define conforme a Artzner et al. (1999) de la forma
VaR0 (X) = sup {x I P [X2:x] >a}. (2.53)
Así como el VaR de la posición depende de una distribución F y su nivel de probabilidad
p, PEC se expresa igualmente de la forma (Longin (2001)):
J-VaR ( ) _
00 x.f n x dx
PEC(FR,P) = -E(RIR < -VaR) = - FR(-VaR) , (2.54)
donde f R corresponde a la función de densidad de probabilidad de los rendimientos y FR
la función de distribución acumualda de los rendimientos. De la expresión anterior, PEC
incorpora visto en el denominador, la frecuencia de las pérdidas más allá del VaR y a través
del numerador, captura el tamaño de las pérdidas más allá del VaR al considerar el primer
momento de la distribución de las pérdidas que exceden el VaR.
La relación que pueda guardar VaR y PEC depende sustancialmente de la distribución de
probabilidad. En un contexto normal el VaR y PEC son múltiplos escalares de la desviación
estándar, por lo que ambos proporcionarán la misma información en la cola. Ante este caso,
P EC se calcula de la forma
(2.55)
36
donde q0 representa el percentil 100a superior de la distribución normal estándar.
La relación asintótica entre VaR y P EC cuando la distribución de los rendimientos es
normal está dada por
(2.56)
La expresión anterior supone una cola fina de la distribución normal, por lo que las pérdidas
más allá del VaR están concentradas cerca del VaR. Conforme a la teoría de valores extremos,
el grado de anchura de una distribución se caracteriza a través del parámetro índice de la
cola. El valor del índice de la cola puede ser positivo, cero o negativo, correspondiente a una
distribución de cola ancha, cola fina o limitada.
La siguiente relación entre VaR y PEC se define para una distribución estable de Pareto
VaR PEC~VaR+--,
'P + l (2.57)
donde rp > 1 es el exponente característico de la distribución de Pareto, y se ha considerado
en la relación anterior un parámetro de locación igual a cero, parámetro de escala igual a
uno y parámetro de sesgo igual a cero. En consecuencia, entre más ancha sea la cola de
la distribución lo cual implica un valor del exponente característico menor, más dispersas
serán las pérdidas respecto del VaR.
37
Capítulo 3
Teoría de Wavelets
Wavelets son funciones de estructura especial descritas por funciones base que se re
presentan a través de aproximaciones sucesivas de series, similares a las series de Fourier
las cuales se representan por funciones seno y coseno. Las funciones wavelets ( ondas cor
tas) tienen la propiedad de concentrar su energía en el tiempo para brindar un análisis de
los fenómenos de temporalidad, no estacionariedad y variación en el tiempo, tal como lo
describen Burrus, Gopinath y Guo (1998). La estructura especial de waveletes radica en
que conservan su característica oscilatoria y la habilidad para permitir simultáneamente
el análisis de tiempo y frecuencia, por lo que será posible procesar los datos en diferentes
escalas y resoluciones; a diferencia del análisis de Fourier donde la señal (serie de tiempo)
procesada indica la cantidad de frecuencias y de energía que en cada frecuencia existe en
la señal original pero no brinda información en dón<le una frecuencia en particular aparece
en el dominio del tiempo. Al respecto, Graps (1995) comenta que el análisis por wavelets
es como mirar el bosque ( ventana grande) para detectar las grandes particularidades y a la
vez mirar los árboles (pequeñas ventanas) para detectar las pequeñas particularidades.
El campo de aplicación de wavelets tiene sus antecedentes en ingeniería para el proce
samiento de señales y compresión <le <latos; en el procesamiento <le señales ayudan a opti
mizar el proceso de codificación, compresión y transmisión de una señal, y a la separación de
la verdadera señal de observaciones viciadas por el ruido, y en la compresión de datos para
transformar grandes conjuntos de datos en pequeños conjuntos de datos y posteriormente
estos se puedan recuperar con un mínimo de pérdida de información. Una segunda aplicación
ha sido para el estudio de series de tiempo geofísicos, donde por ejemplo Grinsted, Moore
y Jevrejeva (2004), utilizan la transformada wavelet cruzada para analizar las relaciones
causales físicas entre la atmósfera ártica en estado de invierno y la severidad del invierno re
flejada en las condiciones del hielo, y para validar la significancia estadística de las dos series
estiman el coeficiente de coherencia wavelet de las dos series el cual es análogo al coeficiente
38
de correlación tradicional, con la diferencia que la coherencia wavelet brinda un análisis de
correlación localizable en el espacio y frecuencia de tiempo. Una tercer aplicación ha sido en
el análisis estadístico de series de tiempo con énfasis en el dominio tiempo-escala como lo
es para la estimación de la varianza y la estimación del exponente de escala para procesos
estocásticos fraccionales (1/ !), en general para la simulación de procesos con memoria de
largo plazo.
La aplicación de la teoría de wavelets en economía y finanzas tiene sus antecedentes
tiempo atrás de que Mandelbrot propusiera el enfoque Paretiano, aunque su uso formal no
data más de diez años. Roberts (1959) argumentó de su aplicación en el análisis financiero
al mencionar:
Un nombre común y conveniente para el análisis del patrón del mercado ac
cionario es el "análisis técnico". En parte estos enfoques son meramente empíri
cos; en parte se basan en analogía con procesos físicos, tales como mareas y
ondas.
Así mismo, se tiene registrado que Paul Lévy utilizó la función base de Haar para analizar
el movimiento browniano, en particular la expansión conocida corno "construcción del des
plazamiento del punto medio" . 1
El presente capítulo comprende de las siguientes tres secciones. La primera sección trata
sobre las bases matemáticas y propiedades de wavelets haciendo énfasis en las series y
transformada de Fourier, y el tratamiento de convolución. La segunda sección trata sobre el
análisis por multiresolución, cuya antesala es la Transformada de Fourier de Corto Tiempo
(STFT, por sus siglas en inglés), en donde se describe la Transformada Wavelet Continua
y Transformada Wavelet Discreta. Finalmente la tercera sección, trata sobre la varianza
wavelet y sus propiedades.
1Jaffard, S., Meyer, Y., and Ryan, R. Wavelets. Tools far Science and Technology, página 21. Una realización del movimiento browniano,
d dtX(t,w) = ¿g;(w)Z;(t),
iEJ
puede representarse a través de la expansión
1 00 .
X(t,w) = go(w)t + 2¿r112gn(w)~n(t), n=l
donde 9n(w) son variables aleatorias Gaussianas, independientes e idénticamente distribuidas con media cero y varianza uno.
39
3.1. Bases Matemáticas y Propiedades
Las funciones wavelets poseen dos propiedades que hacen conceptual y matemáticamente
su construcción, admisibilidad y regularidad. 2 La propiedad de admisibilidad hace referencia
al término de wave, la cual consiste en que la transformada de Fourier de una función decaiga
en la frecuencia cero; esto es, el valor promedio de una wavelet en el dominio del tiempo
debe ser cero por lo que la función es oscilatoria y en consencuencia representa una onda
( wave). La condición de regularidad hace referencia al término let o decaimiento rápido, e
implica que la función wavelet debe poseer suavización y concentración en el dominio de
tiempo y frecuencia, por lo que la función wavelet tendrá N momentos de desvanecimiento
u órdenes de aproximación. Por lo tanto, una wavelet hace referencia a una función que
oscila y que decae a cierto número de desvanecimientos o aproximaciones.
La construcción de wavelets se basa en la dilatación (W(x) - W(2x)) y translación
(W (2x) - W (2x - 1)) de una función; si la dilatación y translación se hace en forma
infinita, se tendría la familia de funciones base Wjk(x) = W(2Jx - k) en L2 [0, 1] que junto
con una función de escala </>(x) representaría la construcción de una wavelet, donde j ~ O
y O ::; k ::; 2J. Además, el producto interno de J </>( x) W ( x )dx es cero, teniendo como
resultado la propiedad de ortogonalidad mútua entre las dilataciones y translaciones de W.
Lo anterior hace la importancia de wavelets para analizar series de tiempo en diferentes
escalas y frecuencias a través del tiempo, esto es, la descomposición de la serie para analizar
a detalle sus características y su reconstrucción (síntesis) para obtener la serie original.
3.1. l. Series y Transformada de Fourier
U na de las principales bases en wavelets es el análisis de frecuencias desarrolladas por
Fourier, el cual establece que una señal periódica J ( x) con periodo fundamental L puede
expresarse como la suma de términos seno y coseno de la forma
a0 ~ [ (21rr.r) . (21rrx)] J(x) = 2 + ;=: arcos L + brsm L , -OO <X< +oo (3.1)
2Valens, A really friendly guide to wavelets, pp. 6-7.
40
donde ao, ar, y br son números reales, y 2rr / L es la frecuencia fundamental o angular
comúnmente representada por w;3 los coeficientes ar y br se definen de la forma
2 rxo+L (2rrrx) ar= LÍxo J(x)cos L dx,
b, = f,f+\{x)sin c:x}u El caso particular identificado por Fourier es L = 2rr.
La importancia de las series de Fourier recae en que
r = 1,2, ...
r = 1,2, .. .
... representan la respuesta de un sistema a un insumo periódico, y esta respuesta
comúnmente depende directamente del contenido de la frecuencia del insumo.4
(3.2)
(3.3)
Contrario a las series de Taylor, las series de Fourier pueden describir funciones que no son
del todo continuas y/ o diferenciables; y para que una función pueda representarse a través
de una expansión de series de Fourier, la misma debe satisfacer las siguientes condiciones
conocidas como condiciones de Dirichlet:
l. la función debe ser periódica;
2. la función debe ser de valor único (a cada punto en el dominio le corresponde un
único valor en el rango) y continua, excepto posiblemente en un número finito de
discontinuidades finitas;
3. la función debe poseer un número finito de máximos y mínimos en un periodo; y,
4. la integral de I J(x) 1 sobre un periodo debe converger.
Adicionalmente, cualquier función razonable ( aquella que satisface las condiciones de
Dirichlet) se puede representar como la suma de partes impares y pares de la forma,
1 1 J(x) = 2[J(x) + J(-x)] + 2[J(x) - J(-x)], (3.4)
donde J(x) = -J(-x) representa la parte impar y J(x) = J(-x) la parte par. Por lo que las
series de Fourier se justifica que sean series de suma de términos senos y cosenos, donde la
función seno representa la parte impar y la función coseno la parte par. En consencuencia,
3w = 21r / L = 21r f , donde f es la frecuencia de la señal y mide el número de ciclos por unidad de tiempo,
i.e. , una corriente eléctrica de 60 Hz indica que la onda seno pasa 60 veces por el mismo punto en un
segundo. 4 Riley, Hobson y Bence, Mathematical methods for physics and engineering, página 327.
41
cualquier función (razonable) podrá representarse como la suma <le términos de senos y
cosenos.5
Una de las propiedades que deben satisfacer los términos de las series de Fourier, es que
la integral sobre un periodo del producto de cualquiera de los dos términos sean ortogonales,
esto es,
¡xo+L . (2~rx) (2~px) sm -- cos -- dx = O, ~ L L
para toda r y p, (3.5)
t+L cm) (2KpX) { L parar= p = O,
cos -- cos -- dx = lL parar= p > O, xo L L 2
o para r/-p,
(3.6)
t+L . (2m). (2Kpx) { o parar= p = O,
sm -- sm -- dx= lL parar= p > O, xo L L 2
o para r-=l-p,
(3.7)
donde r y p son enteros mayores que o igual que cero.
Los coeficientes ar y br en (3.2) y (3.3) se pueden estimar de la siguiente forma, teniendo
el caso particular para a0 :
1. Sea una función periódica f ( x) con periodo L = 2~, f ( x + 2~) = f ( x) la cual se puede
representar en forma de series de Fourier
00
J(x) = ~o + í:)ar cos rx + br sin rx ), (3.8) r=l
2. La función J(x) se multiplica por cosp.r para obtener
00
J(x) cos px = ~o cos px +¿)arcos rx cos px + br sin rx cos px ), (3.9) r=l
3. Se integra sobre un periodo completo de -~ a ~ y se ordenan los términos de la
5Una función razonable no puede representarse únicamente por funciones seno, ya que éstas no pueden representar a una función par; así mismo, r.ualquier función razonable no podrá representarse únicamente por funciones coseno, ya que éstas no pueden representar a una función impar.
42
sumatoria e integrales,
r r 00 r }_'Tí J(x)cospxdx = ~o }_'Tí cospxdx+ ;ar }_'Tí cosrxcospxdx
00 r + ¿)r j _ sin r x cos pxdx
r=l -'Tí
4. Considerando el caso r = p =Ose tiene:
Por lo tanto
{ f(x)dx = ~o { dx+ ta, { dx
=ªºrdx 2 }_'Tí
= ~o [x['/í
= ao1r.
1¡'/í a0 = - J(x)dx. 7r -'Tí
(3.10)
(3.11)
Las series de Fourier son una representación particular de funciones las cuales están
definidas en un intervalo finito y en un solo periodo, por lo que el caso general es considerado
a través de la Transformada de Fourier que puede representar una función en términos de la
superposición de términos sinusoidales sobre un intervalo infinito y sin alguna periodicidad
en particular. La función principal de la Transformada de Fourier es medir el contenido de
frecuencia de una señal, información que no es fácil de detectar en el dominio de tiempo de
la señal original, y comúnmente las señales presentan más de un componente de frecuencia.
Para determinar la transformada de Fourier de una función, primeramente es necesario
representar una serie de Fourier en forma simplificada utilizando la expansión exponencial
43
compleja y la ecuación de Euler,6
~ ( 27rirx) J(x) = L.,¡ Cr exp -L- , r=-oo
(3.12)
donde los coeficientes de la serie compleja de Fourier se definen corno
1 ¡xo+L ( 27rirx) Cr = L xo J(x) exp --L- dx. (3.13)
Si la serie compleja de Fourier representa funciones que varían en el tiempo, entonces
00
J(t) = L Creiwrt, (3.14) r=-oo
y los coeficientes de la serie se expresan corno
1 ¡T/2 Cr = - J(t)e-iwrtdt T -T/2
(3.15)
donde Wr = 27rr /T y debe satisfacerse que J~00
1 J ( t) 1 dt sea finita.
Sustituyendo (3.15) en (3.14) se tiene
00
[ 1 {T/2 . l . J(t) = r~oo T j -T/2 J(t)e-,wrtdt eiwrt, (3.16)
6La expansión de Maclaurin de la función exponencial es
x 0 x1 x 2 x3 xn ex = -01 + -11 + -21 + -3, + · · · + 1 ' . . . . n.
cuando nos referimos a números complejos
donde z == i0, se tiene que . 02 i03 04 i05
e'9 == 1 + i0 - - - - + - + - - · · · 2! 3! 4! 5!
Reagrupando términos,
ei9 == 1 - 02 + 04 - ... + i (0 - 03 + 05 - ... ) 2! 4! 3! 5! '
encontramos la ecuación de Euler: e;o == cos 0 + i sin 0.
44
y en la medida que T tienda a infinito, el cambio en la frecuencia se va desvaneciendo y el
espectro de las frecuencias Wr se convierte en una variable continua. 7 Entonces,
f(t) = ,t ~: [1:: f(t)e-"''dt] e'"''
,t L [ 1:: f(t )e-'"'' dt] e'"'' liw
00 1 = L 21rh(wr)eiwrt l:::,.w,
r=-oo
(3.17)
y cuando T --+ oo, l:::,.w --+ O entonces Wr se convierte en una variable continua, por lo tanto
f(w) = lím fr(wr) = f 00 J(t)e-iwtdt, T---+oo -oo
es la Transformada de Fourier de f ( t), donde
es la Integral de Fourier.
J(t) = ~ roo J(w)eiwt(U,), 27!" }_00
(3.18)
(3.19)
Como conclusión, la Transformada de Fourier es el proceso de transformar la función
f ( t) en el dominio del tiempo en la misma función J( w) pero en el dominio de frecuencia y
se expresa como F{!(t)}; y al proceso inverso de regresar a J(t) a partir de J(w) se conoce
como la Transformada Inversa de Fourier, ;:--1 {J(w )}.8 Un aspecto importante al observar
detenidamente la transformada de Fourier (3.18), es que la integración de J(t) se realiza en
todo el intervalo de tiempo sin importar en dónde el componente de la frecuencia w aparece
en el tiempo (t1 , t2 , ... ), ya que el efecto de la frecuencia será el mismo en la integración.
La transformada de Fourier indica la existencia o no del componente de frecuencia w in
dependiente del momento en el tiempo que pueda aparecer, por lo cual su aplicación toma
sentido en señales (series de tiempo) que son estacionarias. En resumen, la Transformada
7
27í 27í ~w = Wr+I - Wr = T(r + l - r) = r·
Por lo que ów = .!. 211 T
8La importancia de transformar una fuución, es la posibilidad de obtener mayor información de la misma respecto de aquella disponible en la señal original.
45
de Fourier proporciona los componentes de frecuencia ( componentes espectrales) existentes
en una señal. 9
3.1.2. Funciones base y concentración de energía
El segundo antecedente radicó en expresar una función x(t) a través de funciones base
con cambio de escala, esto es, migración de análisis de frecuencia a análisis de escala, a
lo cual Graps (1995) define y explica una función base y cambio de escala de la siguiente
forma:
• Funciones base: Un vector de dos dimensiones (x, y) es el resultado de la combinación
de los vectores (1, O) y (O, 1) llamados vectores base, ya que al multiplicar x por (1, O)
resulta en el vector (x, O), y y por el vector (O, 1) resulta en el vector (O, y). Por lo
tanto la suma de ambos vectores, (x, O) y (O, y), resulta en el vector (.1:, y). Donde la
propiedad valúable en los vectores base es que son perpendiculares u ortogonales uno
al otro. En términos de una función J(x), ésta puede representarse a través de las
funciones base senos y cosenos debiéndose cumplir que sean ortogonales a través de
una combinación apropiada entre ellas por lo que el producto interno de las respectivas
funciones sea cero.
• Cambio de escala: Una función base cambia en escala "cortando en pedazos" dicha
función en diferentes tamaños de escala. Ejemplo de ello, sea una señal en el dominio
de O a 1, la cual puede dividirse en funciones de dos etapas con rango de O a ½ y de ½ a
l. Posteriormente se vuelve a dividir la señal original en funciones de cuatro etapas de
O a¼, ¼ a½, ½ a¾ y de ¾ a l. Por lo tanto cada conjunto de representaciones codifica
la señal original en una escala o resolución particular.
Con referencia a las funciones base, éstas son una extensión del espacio vectorial Euclideano a
espacios lineales normados, i.e., de una colección de vectores geométricos nos movemos a una
colección de funciones en donde ahora ese espacio se representa por funciones arbitrarias más
que vectores base. 10 Primeramente, un vector se define como un segmento de recta dirigido
que corresponde a un desplazamiento de un punto A hacia otro punto B, y se denota por -medio de AB. La representación de vectores se realiza a través de coordenadas, i.e., sea el -vector a = O A = [3, 2], el cual especifica que es un par ordenado donde las coordenadas
9EI principio de incertidumbre (de Heisenberg) establece que no es posible conocer exactamente qué frecuencia existe en qué instante del tiempo, si no únicamente conocer las bandas de frecuencia en intervalos de tiempo.
1ºLas definiciones y conceptos de vectores y funciones base en este apartado se basan en Poole, Álgebra Lineal: Una Introducción Moderna y en Goswarni y Chan, Fundamentals of Wavelets, respectivamente.
46
individuales se conocen como los componentes del vector; de modo que en el plano [x, y], X= 3 y y= 2.
A partir de un vector u con coordenadas (componentes) [u1, u2] le puede seguir otro
vector v con coordenadas [v1, v2], por lo que el resultado de seguir ambos vectores cor-
responde a la suma de los mismos, i.e., u+ v = [u1 + v1, u2 + v2]. Por lo tanto, la suma t
de dos vectores u y v en R2, corresponde al vector en posición estándar a lo largo de la
diagonal del paralelograma determinado por ambos vectores. Una de las operaciones básicas
en vectores es la multiplicación por escalares, la cual dado un vector u y un número real a,
el múltiplo escalar au es el vector que se origina en la multiplicación de cada componente ..
del vector u por a.
Cuando en el espacio se tiene un punto representado por tripletas ordenadas de números
reales como U=[l,2,3], entonces se tiene el vector u en R3. En general al conjunto de n
tupletas ordenadas de números reales y su representación vectorial u en Rn será de la forma
donde u¡ es el i-ésimo componente del vector u y la longitud o norma del vector en JRn es
el escalar no negativo II u II definido por
11 u 11= ~=Ju¡ +u~+··· +u;. (3.20)
Además, cuando el producto interno de dos vectores (u, v) = O, entonces se dice que son
ortogonales, y cuando un conjunto de vectores {u1, u2 , ... , un} que en parejas son ortogo
nales y todas con longitud de 1, entonces se dice que son ortonormales.
Si el vector u se encuentra asociado con vectores unitarios ortogonales { a1, a2, ... , ¾} entonces se habrá definirlo un espacio vectorial Euclideano. 11 Los vectores unitarios
ortogonales, { a1 }f=1, se conocen como los vectores base que forman un conjunto ortogonal
11 La definición más precisa de un espacio Euclideano es a<111el espacio (]Ue es métrico y de dimensión finita, donde un espacio métrico se define como al conjunto de puntos tal que a cada par de puntos existe un número real no-negativo llamado distancia que es simétrico y que satisface la desigualdad del triángulo. La desigualdad del triángulo establece que para todos los vectores u y v en IR"
llu+vll S llnll+llvll
47
' J.
'f' - ~ · ····-·
tal que
\/k, l E Z,
donde ók I es la delta de Kronecker definida como: 12
'
ó _ { 1, k = l k,l - o, k=/l.
Los componentes { Uj n=l del vector u se obtienen a través del producto interno
y el vector u es una combinación lineal de sus componentes
N
u=¿v1a1. k=l
En vez de trabajar con vectores base { aj }f=1, se trabaja con funciones arbitrarias.
(3.21)
(3.22)
(3.23)
(3.24)
El tercer antecedente se basa en las investigaciones de Littlewood, Paley y Stein quienes
proponen que la concentración de energía de una función f ( x) puede representarse de la
forma: 1 r2rr 210 1 J(x) 1
2 dx, (3.25)
el cual está relacionado con el teorema de Parseval referente a la ley de la conservación. El
Teorema de Parseval establece que la suma del módulo al cuadrado de los coeficientes de la
serie compleja de Fourier es igual al valor promedio sobre un periodo de I J(x) 12
, esto es
1 rxo+L oo
L J,, 1 f(x) l2dx = ¿ 1 Cr 1
2
xo r=-oc (3.26)
12La delta de Kronecker es una función que coincide con la función delta o distribución de Dirac, que en señales se identifica como el impulso unitario o(t). La delta de Dirac se define como
o(t) = o, t # o
¡,:,: 6(.X)d.X = 1, para cualquier número real E> O,
donde esta segunda condición establece que la función delta tiene área unitaria.
48
Si una función periódica que depende del tiempo f ( t + 21T) = f ( t) se puede representar como
una serie de Fourier 00
ªº ~ J(t) = 2 + L..)arcoswt + brsinwt], r=I
donde w = 21Tr /T, y dado que ( ar cos wt) representa una onda, entonces la energía de la
onda coseno es proporcional a
fT/2 (arcos wt)2dt = a; {T/
2 cos2wtdt
Í-T/2 Í-T/2
a2 ¡T/2 = ; (1 + cos 2wt)dt
-T/2
_ a; ([ ]T/2 1 [ . ]T/2 ) - 2 t -T/2 + 2w sm 2wt -T/2
2 = 1Tar.
Así mismo, la energía de la onda seno
{T/2
(br sinwt)2dt = b; {T/2
sin2 wtdt Í-T/2 Í-T/2
= b; {T/2
(1 - cos2 wt)dt Í-T/2
b2 ¡T/2 = ...!. (1 - cos 2wt)dt 2 -T/2
_ b; (¡ ]T/2 1 [ . ]T/2 ) - 2 t -T/2 - 2w sm 2wt -T/2
- b2 - 1T r·
De acuerdo al Teorema de Parseval se tiene que
{T/2 l oo
}_ 1 J(t) l2dt = 7T 2a~ + 1T ¿(a;+ b;),
-T/2 r=I
(3.27)
(3.28)
(3.29)
el total de energía de una onda es la suma de las energías de todos los componentes de
Fourier.
3. 1.3. Convolución
Convolución es la integral que expresa la cantidad de traslape de una función g(t) en
la medida que se traslada sobre otra función J(t), por lo que ambas funciones se estarán
49
mezclando.13 La convolución sobre un rango finito [O, t] se representa como
f(t) * g(t) = 1t f(T)g(t - T)dT, (3.30)
donde el símbolo J * g denota la convolución de f y g (la cual también se denota como f ®g).
La convolución suele tomarse sobre un rango infinito de la forma
f(t) * g(t) = 1: j(T)g(t - T)dT = 1: g(T)j(t - T)dT,
y el área debajo de la convolución es el producto de las áreas debajo de los factores,
1: U* g)dx = 1: [1: f(u)g(x - u)du] dx
= 1: f(u) [1: g(x - u)dx] du
= [1: J(u)du] [1: g(x)dx].
Si a la expresión (3.32) le aplicamos la transformada de Fourier, se tiene
h(k) = ~ ('° e-ikx [ ('° J(u)g(x - u)du] v21r}_oo J_oo
= ~ 100
f(u)du [ roo g(x - u)e-ikxdx] dx, v 21r -oo } -DO
se realiza cambio de variable, x = z + u, se tiene
h(k) = - 1- roo J(u)du [ roo g(z)e-ik(z+u)dz] J'h }_oo }_oo
= -- J(u)e-ikudu g(z)e-ikzdz . 1 1-00
. 1-00
.
./2-rr -oo -oo
Por lo tanto,
h(k) = ~ X ,/2; f(k) X ,/2;g(k) = ..¡¡; f (k)g(k), v21r
(3.31)
(3.32)
(3.33)
la cual denota la transformada de Fourier de la convolución f * g, y se conoce como el
Teorema de la Convolución que es igual al producto de las transformadas de Fourier por
separado de .f y g multiplicado por -/27r. 13 Las definiciones de convolución y conceptos asociados en esta sección se basan en:
Weisstein, E. CRC Concise Encyclopedia of Mathematics. USA, Chapman and Hall, 1999. Percival, D., and, Walden, A. Wavelet Methods far Time Series Analysis, Cambridge University Press, 2006.
50
La convolución en términos de series, suponiendo que { at} y {bt} son dos secuencias
infinitas de variables valuadas en los reales o complejos, se define corno la secuencia infinita
cuyo t-ésirno elemento.
3.1.4. Propiedades de Wavelets
Los tres antecedentes y el concepto de convolución son aplicables para establecer dos
propiedades o condiciones (suficientes) que wavelets deben satisfacer, admisibilidad y regu
laridad, tal que cualquier función valuada en los reales sea considerada corno wavelet. 14
La condición de admisibilidad sostiene que una función wavelet 1/;( ·) es admisible si su
transformada de Fourier
(3.34)
es tal que -¡00
1 \Jl(w) 1
2
C1/J= ---dw, o w
(3.35)
y se debe cumplir O < C'lj; < oo. Para que la condición de admisibilidad se cumpla, es
necesario que 1-: 1/J(t)dt = o,
y que la integral del cuadrado de 1/;(t) sea 1,
¡: vi(l)dt = 1.
(3.36)
(3.37)
Por lo tanto, la función 1/;(t) debe ser una onda tal que se satisfaga (3.36). La importancia
de la condición de admisibilidad recae en que permite reconstuir una función J(·) a partir
de su transformada wavelet (continua) .15
La segunda propiedad de una función wavelet es que la misma debe satisfacer la condición
de regularidad, la cual hace que la función se desvanezca a cierto número de aproximaciones.
14 Eu sí, se refiere a uua funcióu base couocida como wavelet madre, la cual sirve como prototipo para construir otras funciones.
15 EJ concepto de transformada wavelet continua se decribe a detalle en la sección 3.2.2.
51
3.2. Análisis por Multiresolución
La característica principal de la Transformada de Fourier es representar una función
compleja por medio de la suma ponderada de funciones simples que a la vez, éstas funciones
simples se obtienen a partir de una función más simple conocida como prototipo o función
base. Su principal ventaja es que es una representación de soporte compacto perfecto en el
dominio de la frecuencia, esto es, que es capaz de representar perfectamente el contenido
espectral de una señal pero no tiene alguna indicación de su localización en el tiempo. 16
Dada la última situación, la Transformada de Fourier no es capaz de representar señales
cuyo contenido espectral cambia a través del tiempo ( señales no estacionarias).
La modificación que sufrió entonces la Transformada de Fourier con el propósito de poder
representar señales no estacionarias fue desarrollada por Gabor al establecer la Transforma
da de Fourier de Corto Tiempo (TFCT). La TFCT trabaja segmentando la señal a través
de una función ventana localizable en el tiempo y posteriormente analiza cada segmento de
la señal. Sin embargo, la ventana que utiliza la TFCT es la misma para analizar toda la
señal, lo cual hace inadecuado su uso para analizar señales con componentes de frecuencia
muy altos pero con periodo de tiempo muy cortos y con componentes de frecuencia muy
bajos pero con periodo de tiempo muy largos.17
La problemática de la TFCT en no poder analizar conjuntamente componentes de alta
frecuencia con funciones ventana angostas y componentes de baja frecuencia con funciones
ventana amplias, permitió el desarrollo de las funciones base conocidas como wavelets. Estas
funciones base o funciones ventana tienen la característica de ser pequeñas (let) y oscilato
rias (wave), por lo que se caracterizan en tener soporte compacto en tiempo y frecuencia.
Posteriormente se desarrollaría la transición del análisis continuo de una señal al análisis
discreto, y dentro del contexto del análisis discreto ( transformada wavelet discreta) se desa
rrolló el análisis por multiresolución (AMR). La idea principal del AMR es descomponer una
señal discreta en bandas de frecuencia diádicas a través de una serie de filtros que permiten
el paso de frecuencias bajas (low-pass) y frecuencias altas (high-pass) con el propósito de
calcular la Transformada Wavelet Discreta de la señal. 18
16Un conjunto Ses compacto si, de cualquier secuencia de elementos X 1 , X2, ... de S, es posible extraer siempre una subsecuencia la cual tiende a algún elemento límite de X en S; los conjuntos compactos son por lo tanto cerrados y limitados (CRC Concise Encyclopedia of Mathematics, 1999).
17Este fenómeno fue analizado por J. Morlet a finales de los 70s. 18Los conceptos desarrollados en esta sección se basan en:
Goswami, J.C., and Chan, A. Fundamentals of Wavelets, Wiley and Sons, 1999. Addison, P. The Illustrated Wavelet Transform Handbook, Bristol, 2002.
52
3.2.1. Transformada de Fourier de Corto Tiempo (TFCT)
La transformada de Fourier tiene la principal característica en permitir el análisis de una
señal (serie de tiempo) en forma global, ello porque los términos coswt y sinwt son funciones
que representan funciones globales, por lo que se argumenta en que la transformada de
Fourier no es de soporte compacto en el tiempo. Esto es, la transformada de la función
original se integra en la línea de los reales (-oo, oo)
](w) = 1: f(t)e-iwtdt. (3.38)
Sin embargo, lo anterior no permitiría el análisis del contenido de la frecuencia de la señal
en forma local, ya que en diversas situaciones se requiere analizar una porción en particular
del espectro, y posteriormente conocer aquella porción de la señal en el dominio del tiempo
responsable de la característica del espectro. Dicha transición de análisis global a local, es
posible a través de la Transformada de Fourier de Corto Tiempo (TFCT), la cual trabaja
removiendo aquella porción de la señal deseada y posteriormente se aplica la transformada
de Fourier a dicha porción. Para ello, se requiere de una función conocida como ventana a
través de la cual es posible remover la porción deseada de la señal. Por lo anterior, la TFCT
es también conocida como transf armada de Fourier ventaneada.
Una función ventana es una función valuada en los reales, <j)(t) E L2 (IR), cuya finalidad
es remover alguna porción de la señal original, esto es, la convolución de la señal original
con la función ventana, J(t)<j)(t - b) =: fb(t). El resultado es la información contenida de
f ( t) en la vecindad de t = b, donde el valor de la convolución será cero fuera del intervalo
deseado,
( )-{ j(l), l E [b-T,b+T)
Íb t - ' O, de otro forma.
(3.39)
donde el parámetro b representa la magnitud con la cual se puede desplazar la función
ventana sobre el eje del tiempo.
La función ventana en </J(l), igualmente llamada ventana del tiempo, se describe por los
parámetros de centro y anchura, donde el parámetro centro se define por
t* := 11 : 1121: ti </J(t) l2dt, (3.40)
y un radio de raíz cuadrada media /j.<t> como
1 [100 ] 1/2 f;i<J;, := m -X (t - t*)21 </>(t) l2dt (3.41)
53
Así como una ventana del tiempo, existe una ventana de frecuencia, ~(w), con centro w*
1 ¡00 A 2 w* := -A - wl </>(w) 1 (Ú,.J,
11 </> 11 2 - 00
(3.42)
y un radio de raíz cuadrada media !).J definida por
1 [ roo l 1/2 Í),.J := m 1_00
(t - t*)21 <t>(t) 1
2dt (3.43)
Por lo tanto la función <f>(t) es conocida como ventana de tiempo-frecuencia. La importancia
de una ventana de tiempo y ventana frecuencia, radica en el Principio de Incertidumbre de
Heisenberg, el cual establece que no es posible conocer simultáneamente y con exactitud, el
momento y posición de una partícula en movimiento. Por lo tanto, lo mejor que se puede
conocer son los intervalos de tiempo en donde existen ciertas bandas de frecuencia.
La figura 3.1 representa las cajas de Heisenberg para una función ( señal) f ( t) de la cual
se desea obtener sus contenidos de frecuencia en una vencidad t = b, entonces ventaneando
dicha función a través de una función ventana </>(t), el producto será una función ventaneada
fb(t) = f(t)</>(t - b). El siguiente paso es aplicar la transformada de Fourier cuyo resultado
será la Transformada de Fourier de Corto Tiempo (TFCT).
ú)
.,; --------- cr,----m-Bt "-
t
Figura 3.1: Cajas de Heisenberg en el plano frecuencia-tiempo con funciones-ventana fijas.
Lo anterior permite representar la TFCT de una función f ( t) respecto de una función
ventana <f>(t), evaluada en (b, w) en el plano tiempo-frecuencia, de la forma
T FCT¡ = 1: J(t)</>(I, - b)e-iwtdt, (3.44)
donde la función sinusoidal e-iwt fluctúa dentro de la función ventana </>(t).
54
La versión discreta de la TFCT se define como la suma de series
donde
y
N-1
T FCTf :=:::: h L J(tk)<P(tk - bn)e-iwntk,
k=O
21rn Wn = Nh,
k =O, ... ,N -1
-N N n = -2-,· · · '2·
En el caso particular h = 1,19 se tiene
N-1
TFCTf ~ L J(k)cp(k - n)e-i(2TCkn)/N_
k=O
3.2.2. Transformada Wavelet Continua
(3.45)
(3.46)
(3.47)
(3.48)
La transformada wavelet así como la transformada de Fourier, en particular la Transfor
mada de Fourier de Corto Tiempo, es un método para convertir la señal (función) original en
alguna otra forma con el objetivo de analizarla de una manera más manejable, a diferencia
de la transformada de Fouricr que la transformada wavelet permite el análisis en el dominio
frecuencia-tiempo. Ello se aprecia en que la TFCT trabaja con una función ventana cons
tante para analizar toda la señal. A través de la transformada wavelet se permite corregir el
fenómeno de estacionariedad, ya que será posible incrementar el radio de la función ventana
en el tiempo cuando las frecuencias reduzcan, y disminuir el respectivo radio en el tiempo
cuando las frecuencias aumenten.
Retomando la importancia de la función ventana descrita en la sección anterior, la trans
formada wavelet no es más que la convolución de la función wavelet con la señal original,
donde la función wavelet depende de dos parámetros: 1) traslación (localización), el cual
representa el movimiento de la función wavelet sobre el eje del tiempo; y, 2) dilatación, el
19Donde h se conoce como el periodo de muestreo, y representa la distancia entre los puntos adyacentes de la muestra. El valor de h no debe exceder 1r/O. tal que la función f(t) pueda ser reconstruida. Lo anterior hace referencia al Teorema del Muestreo, el cual establece que si una señal f(t) está delimitada por un ancho de banda 20., entonces la señal se puede reconstruir exactamente a partir de los valores de la muestra en los puntos equidistantes. Cuando h = 1r/O., entonces la frecuencia del muestreo J.= 1/h = n/7r, y se conoce como la tasa de Nyquist. Una función o señal J(t) puede reconstruirse con la fórmula
J(t) = ¿f(kh)sin [O.(t - kh)]' kEZ kEZ 1r(t - kh)
55
cual permite la expansión y contracción <le la función wavelet, y a través del cual se pueden
capturar las frecuencias (altas o bajas) de la señal original. Lo anterior hace la transformada
wavelet flexible en permitir el análisis en el dominio tiempo-frecuencia de señales (series de
tiempo) en el contexto de no-estacionariedad.
La figura 3.2 ilustra las cajas de Heisenberg cuando se aplica la transformada wavelet
y se busca analizar una señal, en donde las cajas muestran la expansión y contracción <le
la función según las frecuencias que se busquen capturar y su ocurrencia en el tiempo. El gráfico inferior muestra la serie de tiempo y la flexibilidad de la función wavelet en cuanto
a su habilidad para trasladarse sobre el eje del tiempo y dilatarse o contraerse según las
frecuencias que esté capturando. El gráfico superior muestra las cajas de Heisenberg en el
plano frecuencia-tiempo, en donde se observa las diferentes amplitudes de las cajas según
las frecuencias que la función wavelet captura a través del tiempo: para frecuencias bajas
w1, las cajas se expanden para poderlas capturar con mejor resolución en el tiempo, lo cual
refleja la dilatación de la función wavclct; y, para frecuencias altas w2, las cajas se contraen
para poderlas capturar con mejor resolución cuando este tipo de frecuencias ocurren en
periodos de tiempo muy cortos, lo cual refleja la contraccción de la función wavelet .
. t 11 12
lfl a.b (1)
x(t) t
b¡ b2
Figura 3.2: Cajas de Heisenberg en el plano frecuencia-tiempo y la función wavelet.
La transformada wavclet trabaja en dirección opuesta respecto a la TFCT, la cual
primeramente descompone la señal original en bandas de frecuencia y después la analiza
56
a través del tiempo:
1 J (t-b) W(a, b) = va J(t)'l/;* -a- dt, (3.49)
y la señal original puede ser reconstruida ( transformada wavelet inversa) de la forma
J(t) = ºt 1 ¡w(a, b)'l/;* (t -b) dadb, a a>O b a
(3.50)
donde a > O y b son los parámetros de dilatación y localización, respectivamente; '1/; es
la wavelet madre,2° C"" es una constante que depende de '1/;, y W(a, b) es la transformada
wavelet continua (TWC). Asimismo, la transformada wavelet puede representarse como el
producto interno:
W(a, b) = (x, 'l/Ja,b)- (3.51)
Dos funciones wavelet continuas comunes, cuyas representaciones se muestran en la figura
3.3, son: 1 t2
'l/JM (t) = J21re-iwote- 2 , (3.52)
conocida como wavelet Morlet, donde i = FI es un número imaginario y w0 es la frecuencia
central de la wavelet; y,
(3.53)
conocida como wavelet sombrero mexicano. La wavelet sombrero mexicano es la segunda
derivada de la función de distribución Gaussiana, e-t212 , con varianza unitaria y factor de
normalización 1/ J27r.
:-~,\ V'
(a) Wavelet Morlet (b) Wavelet Sombrero Mexicano
Figura 3.3: Funciones wavelet continuas.
2ºLa función base o madre debe satisfacer la condición de admisibilidad, soporte compacto y oscilatoriedad, de ahí el nombre de wavelet: pequeña onda.
57
3.2.3. Transformada Wavelet Discreta
La transformada wavelet continua es una función que depende de dos parámetros con
tinuos, lo cual da como resultado información redundante, esto es, un número variante de
coeficientes con un número reducido de escalas. Dicho problema es resuelto discretizando los
parámetros a y b a través del análisis por multiresolución desarrollado por Mallat (1989),
en el cual se aplican iterativamente filtros de alto- y bajo-paso, y susbsecuentemente se
muestrean en forma de cascada. El anterior proceso resulta en la transformada wavelet dis
creta (TWD). 21
La TWD es la transformada ortonormal en el nivel J de un vector X, 22
W=WX, (3.54)
donde W es un vector columna de longitud N el cual contiene los coeficientes de la trans
formada: los primeros elementos N - N /21 representan los coeficientes wavclet y los últimos
elementos N /21 representan los coeficientes de escala; y, W es una matriz ortonormal N x N
valuada en los reales, esto es, una matriz que satisface wrw = l. La forma de construir una matriz W es a través de un filtro (de alto-paso) wavelet
h1,0, · · ·, h1,L1-l, (3.55)
para L1 ~ N, y
L 1 -1- 21 { l [ = Q L h1,nhl,n+21 = ' _ l=o O, l - 1, 2, ... , (L1 - 2)/2.
(3.56)
Lo cual satisface la propiedad de integración a cero
L-l
¿h1=0 (3.57) l=O
y energía unitaria
L-1
¿h¡ = 1, (3.58) 1=0
21 La presente subsección se basa en Percival y Mofjeld ( 1997). 22 X es una secuencia de N observaciones X 0 , X 1 , ... , XN-l provenientes de una serie de tiempo valuada
en los reales y que representa un vector de observaciones de longitud diádica (N = 21), donde X 1 es la
observación en el tiempo tD.t (ates el intervalo de tiempo entre cada observación adyacente).
58
donde h1,n es el filtro asociado a la escala l::l.t = .X11::l.t el cual se aproxima a un filtro de
alto-paso con una banda de paso definido en el intervalo de frecuencias [1/(41::l.t), 1/(2Lit)].
La transformación wavelet para escalas mayores Ajb.t se obtiene aplicando la transfor
mada discreta de Fourier al filtro wavelet rellanada por N - L1 ceros,
N-l
H = "h e-i2nnk/N 1,k - L 1,n , k =O, ... ,N - l. (3.59) n=O
Si ahora se denota a g1,n como un filtro de escalamiento también conocido como filtro espejo
de la cuadratura, definido por
n = O, ... , L1 - l, (3.60)
en donde debe satisfacerse la relación inversa respecto al filto wavelet
h¡ = (-l) 19L-l-l· (3.61)
Si G1,k representa la transformada discreta de Fourier del filtro de escalamiento, entonces
los filtros wavelet de órdenes mayores serán
N-l
h = _!__ ~ H · ei21rnk/N J,n - N L J,k ,
k=O
(3.62)
donde j-2
Hj,k = H1,2i- 1k mód N IT G1,21k mód N, (3.63) l=O
cuyos elementos hí,Li, hj,1,j+I, ... , hj,N-I serán O si Lí = (2í - l)(L1 - 1) + 1 < N; donde el
filtro hj,n se aproxima a un filtro de paso de banda con una banda de pase en el intervalo de
frecuencias [1/(2í+1f::l.t), 1/(2íf::l.t)]. El filtro de escalamiento para el orden J se define como
donde
N-I
= _!_ ~ G ei21rnk/N .91,n - N L 1,k ,
k=O
J-I
G1,k = IT G1.21k mód N,
l=O
59
(3.64)
(3.65)
y el filtro gJ,n se aproxima a un filtro de bajo-paso con banda de pase en el intervalo de
frecuencias [O, 1/(2J+1~t)].23 De esta forma, el proceso de filtración de las observaciones Xt
de una serie de tiempo a través de funciones de alto-paso (wavelet) se puede representar
como
Xt - H(w) __.. UJ,t,
donde J
H(w) = I1 Hi(w), (3.66) j=l
es la función transferencia de h1, y UJ,t es la convolución de Xt con h1•
En general, al proceso de filtración de una señal a través de filtros de alto- y bajo-paso
se le conoce como descomposición por multiresolución. En particular, cuando la filtración
es vía la transformada wavelet discreta, se le conoce como representación wavelet de la des
composición por multiresolución. Dicha representación fue desarrollada por Mallat (1989),
al proponer un algoritmo piramidal tanto para descomponer una señal en diferentes escalas
como en la reconstrucción de la misma. La figura 3.4 ilustra el proceso de descomposición
en un nivel de un vector X utilizando la función wavelet h1 y función de escalamiento g1,
donde el símbolo l 2 significa que de cada 2 muestras que producen los filtros, una es la
que se mantiene, por lo que la longitud en cada nuevo vector Wi de coeficientes wavelet
tendrá una longitud de N /2i. El mecanismo de descomposición es el siguiente:
H(w)-12-Wi
/ X
~ G(w) -- 12 --- Vi
Figura 3.4: RepresentaC'ión wavelet de la descomposición por multiresolución.
• La serie original X pasa a través <le un filtro de pase-alto H(w) y <le un filtro de
pase-bajo G(w), donde cada filtro está definido por un intervalo de frecuencias;
23 La transformada de Fourier H(w) y G(w) e.le los filtros h1 y g¡, respectivamente, también se co11oce11 como las funciones de transferencia en el dominio de la frecuencia; y, H(w) y Q(w), representan el cuadrado e.le las funciones ganancia e.le las funciones de transferencia, respectivamente.
60
• Del resultado de la primera filtración, se obtienen N /2 coeficientes de la función
wavelet contenidos en el vector W y N /2 coeficientes de la función de escalamien
to contenidos en el vector V:
L-l
WI,t = L h1X2t+1-l mód N
1=0
donde t = O, 1, ... , N /2 - l.
y L-l
VI,t = L 91X2t+l-l mód N
l=O
(3.67)
• Posteriormente y a partir de los coeficientes de escalamiento obtenidos en V en la
primeración iteración, se vuelve a aplicar la filtración, de la cual se obtendrán nuevos
coeficientes de la función wavelet y función de escalamiento:
L-l
W2,t = L h¡v1,2t+l-l mód N
l=O
donde t = O, 1, ... , N /4 - l.
y L-l
V2,t = L 9lVI,2t+l-l mód N
l=O
(3.68)
• Por lo tanto, en las dos primeras iteraciones se obtendrán los siguientes vectores de
coeficientes wavelet y uno de coeficientes de escalamiento
(3.69)
Si el algoritmo sigue, entonces el vector de coeficientes wavelet se representa por:
(3.70)
donde cada vector de coeficientes wavelet W 1 es de una longitud N /21 asociado a los
cambios en la escala de longitud ).,1 = 21- 1, y el vector de coeficientes de escalamiento
V.J de longitud N /2J.
• Retomando W = WX, la matriz W contiene en sus primeros N - N /21 renglones,
los coeficientes del filtro wavelet h1,n bajo una versión circular desplazada, esto es, en
orden reverso de la forma
(3.71)
Si T representa una matriz de N x N la cual desplaza circularmente a h1 en una
unidad, se tiene
(3.72)
61
De esta forma, la matriz wr se conforma de N /2i columnas asociadas a la escala Tj~t,
donde las primeras N/2 columnas corresponden al desplazamiento circular T 2k-
1h1
para k = 1, ... , N/2. Así mismo, las últimas columnas N/21 contienen las versiones
desplazadas del filtro de escalamiento 9J,n de orden J, esto es, T 2Jk- 1g1 para k
1, ... ,N/21 .
Un ejemplo de la versión circularmente desplazada en la primera escala >.1 de la matriz W
para una longitud del filtro L = 4 siendo N > 4, se muestra en la ecuación (3.73)
h1,1 h1,o o o o o ... o o o o o h1,3 h1,2
h1,3 h1,2 h1,1 o o o ... o o o o o o o o o h1,3 h1,2 h1,1 h1,o ··· o o o o o o o
W1 = (3.73) ..
o o o o o o ... 0 ht,3 h1,2 h1,1 o o o o o o o o o ... o o o h1,3 h1,2 h1,1 h1,o
donde W1 es una matriz de N /2 x N cuyos renglones h 1 son circularmente desplazados por
una cantidad 2m - 1 donde m = 1, ... , N /2. Las matrices restantes W2, ... , W1 se definen
en forma similar que en (3.73), siendo ahora los renglones desplazados por 2im - 1 para
m = 1, ... , N /2i, y la matriz V 1 es de una dimensión idéntica a W 1 pero que ahora contiene
versiones circularmente desplazadas de la función de escalamiento g1 en vez de h1 , por una
cantidad 21 m - 1 para m = 1, ... , N/21 .
Finalmente, ejemplos comunes de filtros wavelct discretos se refieren a las funciones de
Haar (1910) y de Daubechies (1988). El primero hace referencia a un filtro de longitud L = 2
y definido por filtros de escalamiento por
1 9o = 91 = J2'
equivalente a filtros de alto-paso
1 ho=-
v'2 y
(3.74)
(3.75)
La figura 3.5 muestra la representación de la función wavelet (alto-paso) y de escalamiento
de Haar (1910), cuya característica principal es ser el único filtro ortonormal de soporte
compacto simétrico. Sin embargo, es poco usual en aplicaciones reales ya que es una apro
ximación pobre a un filtro ideal de pase de banda.
El segundo ejemplo de filtro discreto, wavelet de Daubechies (1988), hace referencia a
una función de soporte compacto con un número máximo de momentos de decaimiento, y
aunque no existe una forma explícita de representar a este tipo de filtros se pueden definir
62
Función escala phi Función wavelet psi
0.8 0.5
0.6
o 0.4
-0.5 0.2
o.__ ________ ___, -1L------=====:::I
o 0.2 o.4 o.6 o.a o 0.2 0.4 0.6 0.8
Figura 3.5: Wavelet Haar.
a través del cuadrado de la función ganancia del filtro de escalamiento:
L/2-
1 (L/2 - 1 + l)
(J(J) = 2cosL(1rf) ~ l sin2/(1rf), (3.76)
donde la longitud L del filtro es un número par entero y el primero término de la suma se
define como
(ª) a! f(a + 1) b - b!(a - b)! - f(b + l)f(a - b + l)"
(3.77)
Así mismo, el cuadrado de la función ganancia del filtro wavelet se expresa de la forma
(3.78)
cuya función de transferencia expresada en notación polar es
H(J) =I H(J) 1 eiO(f) = [1t(J)]l/2eiO(f), (3.79)
por lo que la tarea será encontrar el número de mices de I H (J) 1 a través de un proceso
llamado factorización espectral. 24 Conforme al proceso de factorización espectral, es posible
clasificar a los filtros de Daubechies en dos tipos: filtros de mínima fase D(L), aquellos cuyas
raíces de I H(J) 1 caen dentro del círculo unitario; y, los filtros de mínima asimetría LA(L),
aquellos cuya fase es lineal en la medida posible.
La figura 3.6 muestra la comparación entre un filtro D( 4) y D(8), donde 4 y 8 representan
24 La factorización espectral es un método para recuperar la función de transferencia a través del cual se construyen filtros de mínima fase. Entre los diferentes métodos de factorización espectral se encuentra el de Kolmogoroff el cual trabaja únicamente en el dominio de frecuencia, y su alternativa ha sido el método de Wilson-I3urg el cual trabaja en el dominio del tiempo basado en el método de Newton (Fome!, Sava, Rirkctt y Claerbout (2003)).
63
la longitud del filtro equivalente a 2 y 4 momentos de desvanecimiento, respectivamente.
El caso particular cuando la longitud del filtro es 2, equivalente a 1 momento de desvane
cimiento, se tiene la función de Haar (Daubechies ( 1988)).
Función Wavelel psi Función Wavelel psi
1.5 1.5
0.5 0.5
o o -0.5
-0.5
-1 -1
o 0.5 1.5 2 2.5 3 o 2 3 4 5 6 7
(a) D(4) (b) LA(8)
Figura 3.6: Funciones de Daubechies de mínima f a.~e de longit,ud 4 y 8.
Daubcchies (1988) mostró, que cuando los parámetros a dilatación y b traslación de una
función wavelet se representan de la forma 2J y k2J, respectivamente, es posible construir
funciones base ortonormales de wavelets con soporte compacto. Por consiguiente, la integral
en (3.49) se vuelve
(3.80)
la cual se aproxima de la forma
(3.81) n
donde el periodo de muestreo h = l. Por lo tanto, dados a y b discretizados, y una función
J(t) en L2(JR) la cual puede representarse a través de la secuencia de funciones wavelet
(madre) y de escalamiento (padre), 1/; y </;, respectivamente, se tiene
(3.82)
·;2 . ·;2 (t -2J k) </J1,k(t) = r 1 q;(2-1t - k) = 2-1 </;
21 . (3.83)
64
Entonces la función f ( t) se representará de la forma
J(t) = L SJ,k</>J,k(t) + L d1,k<P1,k(t) + L d1-1, k'l/J1-1,k(t) k k k
+ · · · + L d1,k'l/JI,k(t), k
(3.84)
donde los coeficientes .SJ,k y d1,k, . .. , d1,k son los coeficientes de la transformada wavelet con
tenidos en W, los cuales miden la contribución de la función wavelet en la señal original. Los
coeficientes SJ,k son los coeficientes de suavización los cuales representan el comportamiento
suave implícito en la señal a escalas gruesas ( no refinadas) 21 ; d1,k son los coeficientes de
detalle también conocidos corno cristales los cuales representan las desviaciones del com
portamiento suave, donde d1,k describe las desviaciones en la escala gruesa y d1 _ 1,k, ... , d1,k
son las desviaciones a escalas finas.
En conclusión, la función f ( t) podrá representarse en términos de su serie de detalles
en diferentes resoluciones
Dj(t) = L dj,k'l/JJ,k(t) para j=l,2, ... ,J.
y variaciones suaves
dando corno resultado
k
S1(t) = L SJ,k<PJ,k(t), k
y lo anterior es descrito igualmente corno análisis por multiresolución.
3.2.4. Transformada Wavelet Discreta de Máximo Traslape
(3.85)
(3.86)
(3.87)
La transformada wavelet discreta de máximo traslape (TWDMT) es una versión mo
dificada no-diezmada de la transformada wavelet discreta la cual trabaja sobre cualquier
tamaño de muestra N sin limitarse a una longitud diádica de observaciones como lo es
la TWD. Lo anterior hace que la TWDMT no sea sensible al punto inicial de la serie
de tiempo y ello se logra eliminando el método del submuestreo al aplicar doblemente el
algoritmo piramidal de la TWD tomando aquellos resultados descartados del filtro TWD
vía filtración circularmente desplazada.
Los nuevos vectores columna, W 1, W 2 , W.1, contendrán los coeficientes wavclct resultado
65
de la TWDMT asociados a cambios en cada escala Aj= 21- 1, y V J contendrá los coeficientes
de escalamiento de la TWDMT asociados a los cambios en la escala AJ = 2J y mayores:
(3.88)
Similar al ejemplo de la TWD en la ecuación (3.73), la matriz W se construye con J + 1
matrices cada una de dimensión N x N de la forma
(3.89)
en particular para la matriz W1 con una longitud L = 4 y N > 4 se tiene
h1,o o o o o o ... o o o o h1,3 h1,2 h1,1
h1,1 h1,o O o o o ... o o o o o h1,3 h1,2
h1,2 h1,1 h1,o o o o ... o o o o o o h1,3
h1,3 h1,2 h1,1 h1,o o o ... o o o o o o o o h1,3 h1,2 h1,1 h1,o o ... o o o o o o o
W1 = o o h1,3 h1,2 h1,1 h1,o ··· O o o o o o o (3.90)
... o o o o o o ··· O h1,3 h1,2 h1,1 h1,o o o o o o o o o ... o o h1,3 h1,2 h1,1 h1,o O o o o o o o ... o o o h1,3 h1,2 h1,1 h1,o
donde W1 es una matriz de dimensión NxN. Los vectores wavelet h 1 y de escalamiento
g1 son los filtros y funciones de escalamiento rcescalados y circularmente desplazados por la
cantidad m - 1 para m = 1, ... , N, de la forma h.1 = h1/2112, j = 1, ... , J, y gJ = gJ/2Jf2
,
respectivamente, donde:
(3.91)
es un vector columna que contiene los elementos del filtro wavelet h1,n, y
gJ = [9J,O, 9J,N-l, 9J,N-2, · · ·, 9J,2, 9J,lir, (3.92)
es un vector columna que contiene los elementos del filtro de escalamiento 9J,n-
Por lo tanto, así como en (3.87) es posible llevar a cabo el análisis por multiresolución
de J(t), J
J(t) = ¿Í\ +81, (3.93) j=l
66
donde Di son las series de detalles y 81 son las variaciones suaves. En un sentido estricto,
Di es una representación matricial dada por
(3.94)
la cual contiene los coeficientes de detalle de máximo traslape de orden j. Por igual, la
representación matricial de Si es
- -T k-* S1 = V 1 T g1 , k =O, ... , N - 1; (3.95)
la cual contiene las variaciones suaves de máximo traslape de orden J, donde
(3.96)
y
(3.97)
En resumen, (3.94) se obtiene filtrando X a través de hi para obtener W y nueva-- -
mente W se filtra circularmente utilizando h;; donde el mismo resultado es posible obtener
utilizando un solo filtro cuya transformada de Fourier discreta (TFD) se define por
(3.98)
y (3.95) se obtiene de la misma forma aplicando el filtro
(3.99)
El resultado anterior se define como la propiedad de fase-cero, la cual permite alinear los
eventos a detalle y de suavización con aquellos ocurridos en la serie de tiempo original.
Finalmente, las diferencias entre la TWD y la TWDMT se enumeran a continuación:
l. La TWDMT de orden J-ésimo se define adecuadamente para una muestra de tamaño
N, mientras que la TWD se restringe a una muestra de tamaño diádica 21 .
2. Los coeficientes de detalle y suavización vía TWDMT se asocian a filtros de fase-cero,
lo cual significa que es posible alinear eventos de la serie de tiempo original con las
características del análisis por multiresolución.
3. La TWD~lT es invariante en desfasamiento, lo cual significa que desfasando circular-
67
mente la serie de tiempo en cualquier monto, se desafasará circularmente en el mismo
monto la TWDMT.
4. La TWDMT desarrolla un análisis de la varianza con estimadores asintóticamente
más eficientes que la TWD.
3.3. Varianza Wavelet
El desarrollo de la presente subsección se basa en Serroukh, Walden y Percival (2000),
y algunas demostraciones se remiten a Percival y Walden (2000). La varianza wavelet se
sustenta en la propiedad de conservación de energía de wavelets, en donde la ortonormalidad
de la matriz W, esto es, W = WX se pueda reconstruir X= wrw, implica que la TWD
sea una transformada que preserva la energía tal que 11 W 11 2=11 X IJ 2. Lo cual se demuestra
de la siguiente forma
(3.100)
Lo anterior hace que la energía en X pueda descomponerse de escala en escala de la forma
J
11 x 112
= 11 w 112
= ¿ 11 wj 112 + 11 vj 11
2, (3.101)
j=l
donde JI Wj JJ 2 representa la contribución a la energía de X debido a los cambios en la
escala Aj y JI Vj JJ 2 representa la contribución debido a las variaciones en las escalas A.J+I y
mayores.
En consecuencia, la varianza del proceso puede descomponerse de escala en escala
N-I
-2 1 ~ -)2 1 1 ¡ 2 2 <7x = N L..,.(X1 - X = NI W 1 - X t=O
J 1~ 2 1 2 2
= N L..,.11 Wj 11 + N JJ V J JI - X ,
(3.102)
j=l
donde aJ es la varianza muestra! de X y X= (1/N) ¿X1 es la media muestra!. De esta
forma, se puede definir la varianza wavelet independiente del tiempo como la varianza de
los coeficientes wavelet en la escala Aj
(3.103)
68
y mostrar que la varianza wavelet es la descomposición de escala en escala de la varianza
deXt 00
Var{Xt} = ¿11}(.Xj), j=l
y el estimador insesgado de la varianza wavelet se representa como
Ni-1 ~2 (, ) _ 1 ~ 2 llx l\j = 2.X .f¡. L.,¡ wj,t:
J J l=L'. J
donde Ní = N/2í, Ñí = Ní - L: y L: = f(L- 2)(1- 2-íl-25
(3.104)
(3.105)
Adicionalmente y dado que W es una matriz ortonormal, la varianza wavelet vía la TWD
se puede representar de la forma
(3.106)
donde 11 Dí 112
/ N se interpreta como la varianza muestra! de los N elementos en Dí y
(1/N)II S1 112 - X2 es la varianza muestra! de los N elementos contenidos en S1 .
Así mismo, y con base a las propiedades de la descomposición de energía y descom
posición aditiva de la TWD, es posible obtener la varianza wavelet vía TWDMT, cuya
representación es J
11 x 112= I: 11 wj 11
2 + 11 vJ 112
. (3.107) j=l
Sin embargo, dado que W es no-ortogonal, la igualdad entre 11 Wí 112 y 11 i\ 11
2 no se cumple,
teniendo la pérdida de la propiedad de fase-cero. Este problema fue resuelto por Daubechies
al filtrar los datos a través de funciones de mínima asimetría (LA), los cuales brindan
aproximaciones a filtros de fase-cero siempre que 11 Wí 112 y 11 V J 11
2 sean apropiadamente
desfasados circularmente.
Por lo anterior, la varianza wavelet vía TWDMT en cada escala Aj se define como
donde Li-1
wj.t = L hj,1Xi-1,
1=0
25Donde íl representa el mínimo de dos cantidades.
69
(3.108)
l E Z, (3.109)
es la señal filtrada a través de los filtros wavelet hi,l de longitud l = O, ... , LJ para niveles
j = 1, ... , J. En si, Wj,t representa un proceso estocástico filtrado utilizando la TWDMT.
El resultado anterior es posible bajo el supuesto de que la varianza wavelet en cada escala
>..i es invariante en el tiempo. Por lo anterior, si la varianza wavelet existe y es finita, su
representación cuando es dependiente del tiempo es de la forma
(3.110)
A partir de la varianza wavelet invariante al tiempo, son posibles tres resultados según el
tipo de estacionariedad de la serie de tiempo:
l. Varianza wavelet para un proceso estacionario Xt, cuyos coeficientes wavelet Wj,t son
también estacionarios;
2. Varianza wavelet para un proceso no-estacionario Xt que en diferencias de orden-d
es estacionario, entonces también los coeficientes wavelet Wj,t para t = O, ... , N - l
serán estacionarios;
3. Varianza wavelet para procesos estacionarios cuyo proceso en diferencias es esta
cionario localmente, y sera posible estimar la varianza wavelet para tiempos específicos.
De tal forma y análogamente a la descomposición de la varianza en (3.104), la varianza de
un proceso estocástico estacionario es de la forma
1/2 J
var(Xt) = r Sx(w)dw = L Vk(>..j) + var(Vi,t), 1-1/2 j=l
(3.111)
donde
1-
1/2 1-1/2 = Swi(w)dw = Hi(w)Sx(w)dw.
-1/2 -1/2
(3.112)
Lo anterior es posible ya que al ser Xi un proceso estacionario, en consecuencia su descom
posición Wj,t para j = 1, ... , J es un proceso estacionario con media O, autocovarianza .swj.k
para k E Z, y función de densidad espectral
(3.113)
donde
(3.114)
70
y L3-l
Hj(w) = L hj,le-i21rwz, (3.115) 1=0
es la función de transferencia del filtro wavelet. Adicionalmente, si la media µx del proceso
es desconocida, entonces el valor esperado del proceso W j,t es
L3-l L3-l
E(Wj,t) = L hj,1E(Xt-1) = µX L hj,I = o, (3.116) 1=0 1=0
donde se ha aplicado la propiedad Lt~~1 hj,I = O. De esta forma es posible obtener una
estimación insesgada de la varianza wavelet 11}(.Xj) de la varianza del proceso Wj,t·
(3.117)
donde Mj(N) = N - Lj - 1 y Wj,t = W1,1 si el módulo de N no es necesario.
3.3.1. Intervalos de Confianza
El intervalo de confianza para la varianza wavelet vía TWDMT bajo una aproximación
Normal y un porcentaje plOO %, se define como
[ (2A·) 1/2 (2A·) 1
/
2
] vi(.xj) - <I>-1(1 - p) M; , vi(.xj) + <I>-1(1 - p) 1vl (3.118)
donde un estimador insesgado aproximado de Aj para un tamaño grande de Mj está dado
por
Aj=! r112
[s;P)(w)] 2
dw (3.119) 2 J -1/2
y 2 N-l
5(P) = ~ '""' MI- e-i21rwt J - M- L J,t '
1 t=L3-1
(3.120)
para un tamaño grande de N, O <I w I< 1/2 y con igualdad en distribución de una chi
cuadrada se tiene
(3.121)
71
Por lo anterior, y aplicando el teorema de Parceval
1/2 M-j-1 ¡ [~ ]2 ~ (~(P))2 Sj(P)(w) dw = L.,¡ sj,r ,
-1/2 ( ) >-=- Mj-1
(3.122)
donde s;~) se define corno el estimador sesgado de la estructura de la autocovarianza de
W i,t de la forma
(3.123)
y s;~) = O cuando 1-XI > Mi, se obtiene el estimador de Ai
(3.124) >-=1
Sin embargo, la desventaja del anterior método para estimar los intervalos podría generar
un límite inferior negativo, cuando se esperaría un valor no negativo de vl(>.i). Este pro
blema se resuelve con la aproximación conforme a Percival y Walden (2000), al establecer
que la distribución de la suma de cuadrados de variables aleatorias normal correlacionadas
con media cero y de varianza común, puede aproximarse a través de una distribución chi
cuadrada con r¡ grados de libertad y de esta forma poder capturar la correlación entre las
variables aleatorias. Dicha aproximación se da la forma
(3.125)
donde r¡ se define como los grados de libertad equivalentes (EDOF, por sus siglas en inglés).
Por lo anterior, el intervalo de confianza aproximado 100(1- 2p) % para la varianza wavelet
se define por
(3.126)
donde Q..,(p) es el plO0 % de la distribución chi-cuadrada y los grados de libertad equivalentes
se pueden estimar de las siguientes tres formas:
(3.127)
72
_ 2(¿~,!1¡-l)/2lcj(wk)r
1/2 = "[(Mj-1)/2) C-2( ) ' L..,k=I J Wk
(3.128)
donde Cj es una función conocida que satisface Sj(w) = aCj(w) y wk = k/Mi. Finalmente,
(3.129)
Conforme a los resultados por Percival, sugiere aplicar i¡1 cuando el tamaño de muestra Mj
es grande (Mi = 128), r,2 para una muestra pequeña pero cuando se conoce la forma de
Si ( ·), y r¡3 como caso alternativo de T/2.
73
Capítulo 4
Metodología
La presente sección describe el tratamiento de las variables financieras utilizadas en la
investigación, descripción de los pruebas estadísticas realizadas a nivel espectral (global) y a
detalle, y la metodología de estimación del riesgo de mercado aplicando wavelets en el marco
de Valor en Riesgo así como la descripción del backtesting. El análisis por multiresolución y
estimación de la varianza wavelet se realizaron utilizando el software S-Plus versión 8.0. La
cstimacion del modelo benchmark GARCH se realizó a través de Eviews versión 6.0.
4.1. Preparación de los datos
1. Los datos corresponden a precios diarios del Índice de Precios y Cotizaciones (IPC) y
emisoras pertenecientes al IPC.
2. El primer estudio comprende del 7 de febrero de 2001 al 31 de diciembre de 2009, el cual
implica dos subperiodos: el primero para estimar el VaR y el segundo un horizonte de
250 días para el backtesting. Las series de tiempo en cuestión no presentan el mismo
número de observaciones, ya que aun en días hábiles o de trading, las emisoras no
cotizaron en todos esos días. Aquellos días de trading en que no cotizó la emisora
fueron eliminados; en términos de precio reflejó el mismo valor del día anterior y en
términos de rendimiento un valor de cero.
3. El seguno estudio comprende el periodo del 15 de abril del 2004 al 30 de abril del 2009,
igualmente con dos subperiodos como el inciso anterior. Este segundo estudio para
estimar el VaR se justifica en actualizar las estimaciones utilizando datos históricos
con base a una referencia de carácter oficial como lo es el Anexo-G de la Circular
CONSAR 15-22 del 28 de octubre de 2008, la cual estipula 1,000 observaciones de
historia al día en que se estime el VaR.
74
4. Los precios históricos se obtuvieron de Reuters y corresponden a valores de cierre sin
ajuste por pago de dividendos.
5. Los precios diarios se transformaron a rendimientos diarios de la forma
4.2.
Pt Rett = --¡:;- ,
•t-1 ( 4.1)
donde Pt representa el precio actual de la emisora y Pt-I el precio en un día anterior
de la respectiva emisora.
Estadísticos Descriptivos y Descomposición de las
Series de Tiempo
l. Se calculan cuatro momentos de los rendimientos de los precios a nivel global: media,
varianza, sesgo y kurtosis.
2. Se realiza la descomposición por multiresolución utilizando la TWD y TWDMT a
través de las funciones de Haar y mínima asimetría de Daubechies 1(8).
4.3. La Varianza Wavelet
l. A partir de las series de rendimientos descompuestas en escalas de tiempo del IPC y de
las emisoras, se estima la varianza wavelet insesgada a través de la TWDMT y sesgada
a través de la TWD, utilizando igualmente como wavelet la función de Daubechies
1(8).
2. La varianza wavelet estimada en cada escala se compara y presentan los resultados en
el apéndice B.
4.4. Estimación del Riesgo de Mercado
1. La estimación cfal riesgo de mercado se realiza en el marco de Valor en Riesgo VaR,
lfD11{-VaR{_0
::;: X} = 1 - a. (4.2)
75
2. A partir de la varianza wavelet estimada en cada escala de tiempo para cada serie de
rendimientos descompuesta, se estima el VaR en la respectiva escala de la forma
(4.3)
donde Vo es el valor inicial del portafolio, Z0 = <1>- 1(1-o:) es la probabilidad acumulada
inversa de una distribución normal estándar, y vri es la desviación estándar en cada
escala )..í·
3. El VaR total (aditivo) se calcula de la forma
J
VaR= ~VaR>.i L.., Q' (4.4)
j=l
donde la aditividad del VaR es posible debido a la propiedad de decorrelación del
análisis por wavelets. 1
4. El backtesting se realiza sobre una ventana de 250 días de la siguiente forma:
• Primeramente, el horizonte de tiempo se divide en dos subperiodos: el primer
periodo sirve como el punto de partida para estimar el VaR donde el número de
observaciones difiere para cada serie de rendimientos de precios de las emisoras
debido a que no todas cotizaron los mismos días de negociación, y el segundo
periodo comprende 250 días de negociación definido como el periodo de backtest
mg;
• La contabilización de los 250 días de backtesting se hace a partir de la fecha final
hacia atrás, por lo que la estimación de V aRt=O no coincide en la misma fecha
para todas las emisoras en cuestión debido a lo descrito en el punto anterior;
• El V aRt=O funje como el pronóstico de la pérdida esperada en t = l, V aRt=I
corresponde al pronóstico de la pérdida esperada en t = 2, y así sucesivamente
hasta V aRi=24g es el pronóstico de la pérdida esperada en t = 250;
• Lo anterior implica estimar 250 veces el VaR;
• Finalmente el VaRt-I se compara con la pérdida/ganancia (Ret) realizada en t,
y aquellas fechas donde Rett fue mayor a VaRt-I, entonces se considera como un
exceso o falla. Las pruebas estadísticas se aplican sobre las fallas obtenidas en el
periodo de backtesting.
1 La demostración de la decorrelación de los coeficientes wavelrt se remite a: Pe ter F. Craigmile y Donald B. Percival, J EEE Transactions on lnformation Theory, 2005.
76
5. El método de backtesting aplicado corresponde a la prueba de Proporción de Fallas
(PdF) de Kupiec (1995) junto con el apoyo de intervalos de confianza. El método
en cuestión parte del supuesto en que los excesos o fallas se distribuyen como una
binomial de la forma
(4.5)
donde x representa el número de excesos o fallas, p es la probabilidad de una falla
dado un nivel de confianza y n es el número de pruebas.
• Prueba de Proporción de Fallas (PdF) de Kupiec. Esta prueba estadística mide
la consistencia del nivel de significancia propuesta en el VaR con la proporción
de excesos o fallas del modelo, esto es, examina el número de veces en que el VaR
se viola en un periodo de tiempo. Por lo que la hipótesis nula por evaluar consiste
en comparar el nivel de significancia o: previamente establecido con el número
de violaciones en el periodo de tiempo definido de backtesting. Si el número de
fallas (violaciones) difiere considerablemente del ax 100 %, entonces la precisión
del modelo de riesgo se cuestionaría. Partiendo de que el número de fallas x
sigue una distribución binomial ( 4.5) y dada una muestra de n observaciones, la
prueba de Kupiec (1995) estima la probabilidad de la falla a través del método
de máxima verosimilitud, por lo que al tomar logaritmos de ( 4.5) se tiene
Ln(P) = Ln(:) + xLn(p) + (n - x)Ln(l - p). (4.6)
Al maximizar la anterior expresión se obtiene la condición de primer orden
8Ln(P) 1 1 o(p) = x- - (n - .r)- = O,
p 1-p (4.7)
de la cual se obtiene la probabilidad estimada p = x/n de las fallas en el VaR
y es comparada con la probabilidad teórica p aplicando la prueba de razón de
verosimilitud
(4.8)
donde el numerador corresponde al valor de la función de verosimilitud bajo
la hipótesis nula p y el denominador a la función de verosimilitud valuada en
el estimador no restringido de máxima verosimilitud x/n, y la distribución de la
proporción de fallas se distribuye corno una x-cuadrada con un grado de libertad.
El valor obtenido de la razón PdF se compara con el valor crítico de la x-cuadrada
77
al nivel de significancia a previamente establecido y con un grado de libertad. Si
el valor de la razón PdF es menor al valor crítico, entonces se argumenta que el
modelo de riesgo propuesto es adecuado para pronosticar las pérdidas.
• Intervalos de Confianza (Aproximación Normal). El motivo de construir un in
tervalo de confianza es para identificar si en el intervalo estimado contiene o no
contiene al parámetro de referencia, en este caso, que el intervalo contenga la
proporción de fallas equivalente a p = a bajo la hipótesis nula. La aproximación
normal para un intervalo de confianza binomial se representa de la forma
~ vp(l - p) P = ±zi-o/2 n , (4.9)
donde p representa la proporción de interés o también el estimador de máxima
verosimilitud no restringido de p, esto es, p = x/n; n es el tamaño de la muestra,
en este caso 250; a es el nivel de confianza deseado, y z1_ 012 es el valor z para
el nivel de confianza deseado, cuyos casos particulares de 95 % y 99 %, el valor z
corresponde a 1.9599 y 2.5758, respectivamente.
• Intervalo de Confianza de Clopper-Pearson (Distribución beta). Este intervalo
de confianza propuesto por Clopper y Pearson (1934) representa una alternativa
cuando np > 5 ó n(l - p) > 5, en donde se utiliza la distribución beta para
calcular la función de distribución acumulada de una binomial. El intervalo de
confianza se construye con los siguientes límites inferior y superior
(1-o: ) pis = 1 - B-1 -
2-, x + 1, n - x , (4.10)
( 1- a ) PLI = 1 - B- 1 1 - -
2-, x, n - x + 1 , (4.11)
donde Pis y PLI representan los límites superior e inferior del intervalo de con
fianza, respectivamente, y B-1 se refiere a la función beta-inversa.
6. La metodología del VaR propuesto a través de wavelets se compara con Riskmetrics
y el modelo de volatilidad condicionada GARCH (1,1):
• Riskmetrics. La modelación de la varianza se basa en el enfoque de Promedio
Móvil Ponderado Exponencialmente (PMPE), 2 en donde el pronóstico de la va
rianza en t + 1 es un promedio ponderado de la varianza actual con un ponderador
2 EWMA: Exponrntially Wcighted Moving Average, por sus siglas en inglés.
78
.X y el rendimiento actual al cuadrado con un ponderador (1 - .X):
o-?+i = .Xo-¡ + (1 - .X)r;, (4.12)
donde .X se conoce corno el factor de decaimiento y es menor que uno.
• GARCH(l,1). Modelo de volatilidad condicionada el cual relaja el supuesto de
volatilidad constante e introduce cambios en la volatilidad donde la varianza
del proceso se considera heteroscedástica. El modelo GARCH representa una
ecuación de la media del proceso y una ecuación de la varianza de la forma:
Rt =µ+Et, (4.13)
donde se asume que Et es una variable aleatoria normal con varianza condicional
ht de la forma q p
ht = ªº + í: O'.if.;_i + I: /3iht-i, ( 4.14) i=l i=l
con las condiciones p~O, q > O, o:0 > O, o:i > O, y /3i > O. El caso particular
GARCH(l,1) se especifica de la forma:
Rt =µ+Et, (4.15)
( 4.16)
La varianza no-condicionada del proceso se estima de la forma:
( 4.17)
Para ambos casos, el VaR se estará estimando de la forma
(4.18)
donde T corresponde al número de días en el horizonte de tiempo.
79
Capítulo 5
Análisis y Resultados
5.1. Análisis Exploratorio de Datos
El cuadro 5.1 muestra los estadísticos descriptivos de los rendimientos del IPyC y de los
precios de las emisoras, para lo cual se han considerado los cuatro momentos de referencia
y la prueba de normalidad parámetrica Jarque-Bera. Se observa en el cuadro que una pro
porción sustancial de emisoras arrojan un sesgo negativo, lo cual indica que en la ventana
histórica de cada emisora se han presentado más rendimientos negativos que positivos. Res
pecto al estadístico de kurtosis, todas las emisoras y el IPyC muestran un valor mayor que
tres indicando que la distribución de probabilidad es del tipo leptokúrtica, esto es, mayor
masa en las colas y en la parte central.
La prueba de Jarque-Bera indica que no se puede aceptar la hipótesis nula en que la
distribución de los rendimientos es normal. Junto con el valor de kurtosis se establece que la
distribución de los rendimientos es leptokúrtica como anteriormente mencionado, aunque los
valores del estadístico no difieren sustancialmente. Algunas excepciones se presentan como
los casos de Ara, Inbursa, Kimber y Peñoles.
Como ejemplo particular, la figura 5.1 muestra la serie histórica de los rendimientos del
IPyC y los rendimientos al cuadrado como proxy de la volatilidad histórica. En el gráfico de
la izquierda se aprecia el hecho identificado como agrupamiento de la volatilidad; en tanto
que en el gráfico de la derecha se observan picos muy altos asociados a los grandes cambios
que han mostrado históricamente los precios del IPC.
La descomposición de los rendimientos del IPyC vía TWDMT y utilizando como filtro la
función de Daubechies, se muestra en la figura 5.2. 1 El análisis por multiresolución se realiza
en seis niveles de resolución, donde cada nivel también llamado detalle o cristal, representa
1 El Apéndice A muestra la descomposición por multiresolución de todas emisoras.
80
Cuadro 5.1: Estadísticos Descriptivos del JPyC y Emisoras.
Emisora Muestra Media Desv. Sesgo Kurtosis Jarque-Est. Bera
IPyC 1739 0.000871 0.012363 -0.203935 5.410978 433.2409 ALFA 1715 0.001062 0.021807 -0.294617 6.599651 950.7307 AMXL 1714 0.001331 0.020323 0.000369 5.062584 303.8245 ARA 1663 0.000838 0.020154 -0.580092 10.20867 3694.002
BIMBO 1667 0.000976 0.018672 0.329450 6.735326 999.2836 CEMEX 1724 0.000666 0.017149 0.183418 4.535515 179.0357
COMERCI 1627 0.000811 0.020821 0.207456 5.478538 428.1248 ELEKTRA 1680 0.001111 0.022609 -0.141410 6.888541 1064.052
FEMSA 1718 0.000859 0.016953 -0.091636 5.286534 376.6589 GFBANORTE 1703 0.001450 0.020650 0.184959 5.965567 633.7593
GCARSO 1695 0.000943 0.018557 -0.045831 5.480572 435.1657 GEO 1667 0.001601 0.022853 0.110515 5.860899 571.8918
GFINBURSA 1659 0.000505 0.020366 -1.109346 19.13588 18338.12 GMEXICO 1684 0.001138 0.025799 -0.054791 4.854985 242.2838 GMODELO 1703 0.000419 0.015814 0.114336 5.205402 348.8375
KIMBER 1670 0.000381 0.015164 -0.380854 7.771283 1624.446 PEÑOLES 1600 0.002157 0.029126 -0.190690 7.638209 1443.895 SORIANA 1680 0.000707 0.018399 -0.018222 4.724815 208.3419 TELECOM 1709 0.000766 0.018801 -0.031407 4.137461 92.41153 TELEVISA 1715 0.000427 0.019759 -0.301650 6.781925 1048.074 TELMEX 1682 0.000588 0.014960 0.035394 3.878371 54.42302 WALMEX 1721 0.000705 0.017941 0.094738 5.444831 431.1895
la escala asociada a los componentes de frecuencia de la señal original. La primera serie
identificada como sum representa la serie de tiempo original de los rendimientos del IPyC.
La siguiente serie D 1 representa la serie de los componentes de frecuencias en la escala de
tiempo 21- 1 = 2° = 1 días, esto es, las frecuencias más altas de los rendimientos del IPyC
se presentan en escala de tiempo de un día.
El detalle D2 equivalente a una escala de 2 días, representa frecuencias más bajas res-
pecto de un día y que se presentan en una escala de tiempo de dos días. Así sucesivamente
hasta llegar al detalle D6, en donde las frecuencias más bajas de los rendimientos se están
presentando en intervalos de tiempo de 32 días. El último gráfico identificado corno S6,
equivale al ciclo de la serie original y captura las fluctuaciones por arriba de 32 días; a este
nivel también se le conoce como el componente de suavización.
81
.Oo,-------------~
.o
-.o
250 500 750 1000 ]250 1500 250 500 750 1000 1250 1500
(a) (b)
Figura 5.1: (a) Rendimientos del IPyC y {b} Rendimientos al Cuadrado del IPyC.
sum
D1
D2 '""'1,.,¡..,.,. ....... ~.,,.' . ., ,... • ",.¡,. .. ,. D3
D4
D5
D6
S6
O 500 1000 1500
Figura 5.2: Descomposición por Multiresolución del IPyC vía TWDMT.
82
5.2. Análisis de la Varianza Wavelet
Así como es posible la descomposición por multiresolución (DMR) de los rendimientos de
la variable financiera en diferentes escalas utilizando alguna transformada y función wavelet
en particular, es posible descomponer la varianza del proceso en diferentes escalas )..j para
j = 1, ... , J donde j representa el nivel de descomposición. Por lo que a través de la DMR
es posible identificar la microestructura de la variabilidad del proceso. La descomposición
de la varianza se le conoce como varianza wavelet y ello se logra debido a la propiedad de
conservación de energía que satisface el análisis por wavelets.
La figura 5.3 muestra el ejemplo particular de la evolución de la varianza wavelet
estimada a través de la TWD en siete escalas para el periodo de backtesting correspondiente
a 250 días de negociación del 3 de enero al 31 de diciembre de 2008, donde Dj representa la
evolución de la varianza en el detalle o cristal respecto al nivel j, por ejemplo: Dl representa
la varianza wavelet en la escala )..1 = 21- 1 = 1 días. En consecuencia D2 representa la
evolución de la varianza wavelet en la escala de dos días y así sucesivamente. La figura 5.4
igualmente muestra la evolución de la varianza wavelet pero descompuesta a través de la
TWDMT. 2
, ..... ~
OIOllC
0041Hl
H 110 no HI ne
"""[7ill '""' I\ """ - I \) '"º" ~
!C :10 ;,o acc 210
·'""Q . HHl"
. ffttl
·'"" ..w,¡JJ,W,l¡J,J,i,illJ
·ºº"ª '~ . OOIIII ~ IU lit lff nt
Figura 5.3: Evolución de la Varianza Wavelet del /PyC vía TWD: 03/0J/2008-31/12/2008
En ambos casos, varianza wavelet vía TWD y TWDMT, los valores estimados en cada
escala son cercanos entre sí y la suma cercana a la varianza de la señal original. Sin embargo,
la diferencia del comportamiento radica en el proceso de filtración ya que la TWD genera
los coeficientes wavelet y de escalamiento a través de un algoritmo piramidal, en <lon<le los
2Véase Apéndice B referente a la evolución de la varianza wavelet de cada una de las emisoras.
83
PCDl PCD2
.000090 .00005
.000085 .00005
.000010
·ºººº" .000015
·ºººº" .000070
.000065 ·ºººº" so 100 lSO 200 "' 50 100 150 200 250
PCD3 PCD4
.00003 .000010
.00003
.000009
.00002
.00002 .000009
.00002
.000008
.00002
.00002 .000008 so 100 lSO 200 "º 50 100 150 200 250
PCDS PCD6
.000005 1.9011·0
.000005 1.858·0
.000005
l.8011·0
.00000-t
1.1511-0 .00000-t
.00000-t 1.708-0 so 100 1'0 200 2SO 50 100 ¡50 200 250
Figura 5.4: Evolución de la Varianza Wavelet del /PyC vía TWDMT:03/01/2008-31/12/2008
coeficientes wavelet se interpretan como la diferencia entre dos promedios ponderados, el
cual hace que en cada nivel se elimine un décimo de los coeficientes (diezmar).
Conforme a Percival y Walden (2000), los intervalos sobre los cuales se construyen los
coeficientes wavelets se fijan rígidamente a priori, lo cual no permite su alineación con las
características de la serie de tiempo original. Por lo que un cambio en el punto inicial en
la serie de tiempo arrojará resultados diferentes debido a la yuxtaposición de la serie de
tiempo con los intervalos promediados predefinidos por la TWD.3
La figura 5.5 muestra la evolución de la varianza wavelet en diferentes escalas, estimada
a través de la DWT para el mismo horizonte de tiempo del backtesting pero en el periodo del
5 de mayo del 2008 al 30 de abril del 2009, donde ahora se ha utilizado un vector de datos x
de tamaño diádico divisble entre 26 .4 Los gráficos muestran un patrón de comportamiento
similar al de la figura 5.3, recordando que la diferencia en el proceso de descomposición
3Percival y Walden, Wavelet Methods for Time Series Analysis, p. 179. 4El número de observaciones utilizadas fueron 1,024, número cercano a las observaciones históricas que
se requieren para estimar el VaR según CONSAR.
84
entre la TWD y la TWDMT radica en la aplicación del algoritmo piramidal: la TWD utiliza
en cada nivel de filtración la mitad de los coeficientes wavelet estimados y los remanentes
son nuevamente filtrados a través de la función de escalamiento g para obtener nuevos
coeficientes wavelet y de escalamiento. Por el contrario, a través de la TWDT la filtración se
realiza directamente sobre los coeficientes de escalamiento sin el submuestreo de coeficientes.
Por lo tanto, la TWDMT hace que en cada vector de observaciones N existan coeficientes
wavelet redundantes y que la matriz W sea no-ortonormal y en consecuencia no se cumpla
11 cii 112
=11 wi 112
-
PCDl lPCD2
.0001 0001
.0001 0000
.0001 0000
.0001 0000
.0001 .0000
.0000 . 0000
.0000 0000
·ºººº .000 0 so )00 150 200 "º so 100 150 200 ,so
lPCD3 lPCD4
. 0000 .00002
.00001
0000 .0000¡
.00001
0000 .00001
.0000 .00001
,00000
.0000 ·ººººº so 100 150 200 ,so so 100 lSO ,oo ,so
JPCDS lPCD6
.00000 .000004
~~~M~\~~ .00000.f.Q
~~ 1 /1~ .00000&
.ooooon .00000·
.00000)
·ººººº' .000002
1~VVNV .000002
.ooooos .00000!!
.00000 .00000¡
so :.oo ~!iO ,oo m so 100 lSO ,oo ,so
Figura 5.5: Evolución de la Varianza Wavelet del JPyC vía TWD: 05/05/2008-30/04/2009.
Dado lo anterior y conforme a Percival y Walden (2000), el análisis de la varianza a
través de la TWDMT se limita a utilizar los coeficientes y no los detalles o cristales. Cabe
recordar, que el algoritmo piramidal de la TWDMT inicia con la filtración de la señal original
a través de funciones wavelet y de escalamiento reescalados y la filtración de la misma
pero circularmente desplazada. Por lo que la TWDMT induce a la correlación entre los
coeficientes int.ra-es,ala y entre-escalas, fenómeno que al menos entre-escala no es inducido
por la TWD y es explotado para estimar el riesgo de mercado.
85
5.3. Análisis del Riesgo de Mercado
La propiedad de decorrelación entre escalas de tiempo e intra escala de los coeficientes
wavelet estimados, permite estimar el VaR en cada escala y agregarlo para obtener un VaR
agregado. Aun bajo el supuesto de que la distribución de los coeficientes en cada escala de
tiempo es Normal, los resultados del backtesting muestran que la metodología propuesta es
adecuada en la estimación de la pérdida esperada congruente con el concepto de Valor en
Riesgo.
Primeramente, la Figura 5.6 como ejemplo particular, muestra el backtesting tradicional
para un nivel de confianza al 95 % y 99 %, en donde la hipótesis nula con base a 250 obser
vaciones (n) en la ventana tiempo se permiten 13 y 3 fallas (x) respectivamente. Se observa
que a través de la metodología propuesta para medir el VaR, resultaron 14 fallas al 95 % y
2 al 99 %, siendo las más representativas en los últimos tres meses de 2008, periodo en que
el principal indicador bursátil de México rebasó pérdidas por arriba del 4 % en un día de
operación .
. lJ....------------~ .lJ,------------~
.O .o
.,.l--l-~-----4-.J--lr-rt1Tl .O
25 50 75 100 125 150 175 200 225 250 25 so 75 100 125 150 175 200 225 250
1-VaR (-) -VaR e) -P/GI 1-VaR (-) -VaR e) -P/GI
(a) (b)
Figura 5.6: Valor en Riesgo en la Cola Inferior y Superior del !PyC al {a} 95 % y {b} 99 %.
El Cuadro 5.2 muestra el backtesting para la cola inferior al nivel de confianza del
95 % del IPyC y emisoras correspondientes al respectivo índice bursátil, basado en la pro
porción de fallas de Kupiec e intervalos de confianza, en donde ocho casos muestran que
la metodología no es adecuada para estimar el riesgo de mercado en el marco del VaR: en
un caso se subestima la pérdida realizada y en los restantes la metodología las sobrestima.
Los resultados del VaR se obtuvieron estimando la varianza wavelet vía TWDMT y como
función wavelet el de Daubechies ele Mínima Asimetría LA(8).
Así mismo, los resultados del backtesting utilizando wavelets se comparan con las
metodologías de Riskmetrics (>.. =0.94) y el modelo de volatilidad condicional GARCH
(1,1), éste último bajo el supuesto en que los residuales se distribución como una normal.
86
Cuadro 5.2: Backtesting Cola Inferior al 95 % del /PyC.
Emisora Muestra Fallas Proporción Prueba Prueba PdF Kupiec Intervalos de Confianza de Fallas Binomial Valor crítico = 3.8414 Aproximación Normal Clopper-Pearson
X p* RV Valor-p Inferior Superior Inferior Superior Hipótesis Nula 13 0.05 Ho : p=0.05 IPyC 1739 14 0.056 0.0995 0.1827 0.6691 0.0275 0.0845 0.0309 0.0922 ALFA 1715 10 0.040 0.0963 0.5634 0.4529 0.0157 0.0643 0.0193 0.0723 AMXL 1714 6 0.024 0.0183 4.3687 0.0366 0.0050 0.0430 0.0089 0.0515 ARA 1663 7 0.028 0.0336 3.0089 0.0828 0.0076 0.0484 0.0113 0.0568
BIMBO 1667 4 0.016 0.0033 8.1852 0.0042 0.0004 0.0316 0.0044 0.0405 CEMEX 1724 19 0.076 0.0202 3.0905 0.0787 0.0432 0.1088 0.0464 0.1161
COMERCI 1627 9 0.036 0.0760 1.1383 0.2860 0.0129 0.0591 0.0166 0.0672 ELEKTRA 1680 1 0.004 0.0000 18.4966 0.0000 -0.0038 0.0118 0.0001 0.0221
00 FEMSA 1718 9 0 .036 0.0760 1.1383 0 .2860 0.0129 0.0591 0.0166 0 .0672 -..J
GFBANORTE 1703 13 0 .052 0.1117 0.0208 0.8853 0 .0245 0.0795 0.0280 0.0873 GCARSO 1695 12 0 .048 0.1160 0.0213 0.8839 0.0215 0.0745 0.0250 0.0823
GEO 1667 14 0.056 0.0995 0.1827 0.6691 0.0275 0.0845 0.0309 0.0922 GFINBURSA 1659 1 0.004 0.0000 18.4966 0.0000 -0.0038 0.0118 0.0001 0.0221
GMEXICO 1684 6 0.024 0.0183 4.3687 0.0366 0.0050 0.0430 0.0089 0.0515 GMODELO 1703 7 0.028 0.0336 3.0089 0.0828 0.0076 0.0484 0.0113 0.0568
KIMBER 1670 6 0.024 0.0183 4.3687 0.0366 0.0050 0.0430 0.0089 0.0515 PEÑOLES 1600 7 0.028 0.0336 3.0089 0.0828 0.0076 0.0484 0.0113 0.0568 SORIANA 1680 6 0.024 0.0183 4.3687 0.0366 0.0050 0.0430 0.0089 0.0515 TELECOM 1709 8 0.032 0 .0537 1.9441 0.1632 0.0102 0 .0538 0.0139 0.0621 TELEVISA 1715 3 0 .012 0.0010 10.8123 0.0010 -0.0015 0.0255 0.0025 0.0347 TELMEX 1682 10 0.040 0.0963 0.5634 0.4529 0.0157 0.0643 0.0193 0.0723 WALMEX 1721 8 0.032 0.0537 1.9441 0.1632 0.0102 0.0538 0.0139 0.0621
En el caso particular del IPyC, la representación del modelo GARCH (1,1) fue de la forma: 5
Rt = 0.001521 + Et,
(J¡ = 0.0000119 + 0.130713(~-1 + 0.794318CJ¡_1,
donde E = Rt-I - µ. Por lo que la varianza pronosticada en t (primer día de backtest) se
determinó de la forma:
(J¡ = 0.0000119 + 0.130713(0.00561712-0.00087060)2 + 0.794318(0.00015283)2
= 0.00013624.
El Cuadro 5.3 muestra los resultados del backtesting para un nivel de confianza del 95 %
con base a las tres metodologías arriba mencionadas, en el cual es apreciable que en los casos
de Cemex y Grupo México, las fallas o excepciones superan sustancialmente las permitidas
conforme al nivel de confianza inicialmente planteado. En un solo caso (Cemex) las tres
metodologías subestiman las pérdidas en el marco de VaR. Cabe mencionar que el 27 % de
los casos a través de Riskmetrics y GARCH (1,1), el estimador de máxíma verosimilitud
no restringido se ubica en el rango de 0.04 < H0 =0.05¡0.06, y un 32 % es igual a 0.06. En
tanto que la metodología por Wavelets tan solo un 18 % de los casos se ubica en el respectivo
rango; en los demás casos dicha metodología está sobrestimando las pérdidas con excepción
de Cemex.
Los resultados del backtesting en la estimación del VaR utilizando wavelets se vuelven
cruciales debido al número de niveles de descomposición que se emplean en la estimación,
ya que a menor número de detalles en la descomposición se esperaría un mayor número <le
fallas. Una herramienta para determinar el número adecuado de niveles de descomposición
se basaría en la Distribución de la Energía o Energía Wavelet Relativa, la cual estima el
porcentaje que cada detalle contribuye a la energía total de la señal original y cuya aplicación
se describe más adelante.
Conforme a la propiedad de distribución <le energía, la TWD y TWDMT, arrojan va
lores similares de la varianza en cada nivel de descomposición, sin embargo el camino más
apropiado para estimar el VaR agregado es a través de la TWD. Por lo que su estimación se
realiza nuevamente bajo la TWD y el mismo filtro wavelet (Symmlet 8) con 7 y 6 escalas.
La figura 5.7 compara el backtesting tradicional al 95 % de nivel de confianza para (a) 7
y (b) 6 escalas, en el cual los resultados muestran que el VaR agregado con 7 y 6 escalas
presentan 12 y 14 fallas, respectivamente.
5El Apéndice C muestra los resultados econométricos del modelo GARCII ( L l) para cada emisora.
88
Cuadro 5.3: Backtesting Cola Inferior al 95 % del IPyC y Emisoras {n=250}.
Emisora Muestra Riskmetrics GARCH (1,1) Wavelets (,\=0.94) (Symmlet,6)
Fallas Kupiec Fallas Kupiec Fallas Kupiec Hipótesis Nula 13
IPyC 1739 20 4.0395 17 1.5403 14 0.1823 ALFA 1715 15 0.4961 15 0.4961 10 0.5633 AMXL 1714 15 0.4961 15 0.4961 6 4.3687 ARA 1663 15 0.4961 14 0.1827 7 3.0089
BIMBO 1667 12 0.0213 14 0.1827 4 8.1852 CEMEX 1724 23 7.5204 31 20.7920 19 3.0905
COMERCI 1627 18 2.2555 13 0.0208 9 1.1382 ELEKTRA 1680 11 0.1971 14 0.1827 1 18.4966
FEMSA 1718 15 0.4961 17 1.5403 9 1.1382 GFBANORTE 1703 13 0.0208 13 0.0208 12 0.0213
GCARSO 1695 16 0.9514 22 6.2590 14 0.1827 GEO 1667 18 2.2555 21 5.0972 13 0.0208
GFINBURSA 1659 11 0.1971 10 0.5633 1 18.4966 GMEXICO 1684 26 11.8655 23 7.5204 6 4.3687 GMODELO 1703 17 11.8655 23 7.5204 7 3.0089
KIMBER 1670 15 0.4961 14 0.1827 6 4.3687 PEÑOLES 1600 16 0.9514 17 1.5403 7 3.0089 SORIANA 1680 14 0.1827 18 2.2555 6 4.3687 TELECOM 1709 16 0.9514 19 3.0905 8 1.9441 TELEVISA 1715 15 0.4961 15 0.4961 3 10.8123 TELMEX 1682 14 0.1827 18 2.2555 10 0.5633 WALMEX 1721 15 0.4961 16 0.9514 8 1.9441
89
.1-----------~ .ll,------------~
.o .o
.o
2S SO 7S 100 125 150 17S 200 225 250 25 50 75 100 125 150 175 200 225 250
1-VaR (-) -VaR •> -P/GI 1-VaR 1-1 -VaR •1 -P/GI
(a) (b)
Figura 5.7: Valor en Riesgo en la Cola Inferior y Superior del IPyC al 95 % para (a) 7 y (b) 6 niveles de resolución.
En términos de la prueba de PdF de Kupiec, la probabilidad en que el estimador no
restringido sea igual a la hipótesis nula p=0. 05 y una razón de verosimilitud LR=0. 0213, en
tanto que el p-value de 14 fallas fue igual a 0.67 para un valor de LR=0.1826. Lo anterior
muestra que el número de escalas por considerarse en la agregación de los VaRs por escala
conlleve a la probabilidad en que el número de fallas aumente, por lo que el número de
escalas es determinante en la aceptación o rechazo de la metodología propuesta.
La determinación del número de niveles de multiresolución puede resolverse con la ayuda
de la Energía Wavelet Relativa, la cual especifica la distribución de la energía por escala de
la serie de tiempo descompuesta por multiresolución. El cuadro 5.4 muestra la distribución
de energía en siete escalas y una escala extra, en el cual se observa que hasta la escala d5 ya
sobrepasó el 90 % de la distribución de energía. Cabe mencionar que el periodo utilizado para
descomponer la serie de rendimientos del IPyC comprendió 1,739 observaciones, tamaño de
una señal que no corresponde a un vector de longitud diádica, por lo que la TWD genera
un detalle o cristal extra.
Cuadro 5.4: Distribución de Energía del IPyC con filtro Daubechies MA (8): 08/02/2001 - 31/12/2008.
Cristal d 1 d2 d3 d4 d5 d6 Energía(%) 45.91 26.418 13.853 6.095 3.863 0.928
d7 1.399
s7 extra 1.277 0.307
La segunda parte del estudio comprende estimar el VaR en un periodo más actualizado
y con información histórica cercana a las 1,000 observaciones, con el objetivo de obtener
un vector de longitud diádica para estimar la varianza wavclct a través de la TWD y a
la vez cifra cercana a los criterios de referencia para estimar el VaR establecidos en la
CONSAR. De esta forma, el VaR estimado para el IPyC al 2 de mayo del 2008, comprende
1,024 observaciones y horizonte de tiempo para el backtesting del 5 de mayo del 2008 al
90
30 de abril del 2009. Los resultados muestran que en 6 escalas de descomposición de los
rendimientos del IPyC, se obtuvieron 9 fallas a un nivel de confianza del 95 % y 2 fallas
respecto de un nivel de confianza del 99 %, lo cual se observa en la figura 5.8 .
. l.,-------------, .1-----------~
.o .o
- .o
25 50 75 100 125 150 175 200 225 250 25 so 75 100 125 150 175 200 225 250
1-VaR 1-1 -VaR f,) -P/GI 1-VaR 1-1 -VaR el -P/GI
(a) (b)
Figura 5.8: Valor en Riesgo vía TWD al (a) 95 % y (b} 99 %.
Asi mismo, la figura 5.9 muestra en forma comparativa el backtesting vía la varianza
wavelet contra Riskmetrics y GARCH (1,1). Se observa que la metodología de varianza
wavelet no condicionada presenta menos fallas respecto al modelo de varianza condicionada
de Riskmetrics. La PdF de Kupiec para el primer caso corresponde a un valor de LR=l.1382
con valor de probabilidad del estimador no restringido de p=O. 2860 y para el segundo caso
un LR=2.2555 y valor del estimador no restringido de p=0.1331. En ambos casos el valor
del estadístico de razón de verosimilitud es menor al valor crítico de 3.8414, por lo que se
pueden considerar modelos adecuados en el pronóstico de las pérdidas bajo el marco de
VaR.
El número de escalas propuesto originalmente en esta segunda parte se justifica en que
la escala .\6 = 26- 1 = 32 cubre hasta un horizonte de 32 días y conforme a la distribución de
la energía wavelet. El cuadro 5.5 muestra que el cristal d6 ha logrado cubrir hasta un 98 % de la energía de la señal original. Asi mismo, el detalle d7 tiene una contribución inferior
a la unidad porcentual y el detalle s7 concentra el 1.3 % de la distribución de energía para
frecuencias en escalas mayores a 64 días. Al formar un vector X de longitud diádica y muy
cercana a las 1,000 observaciones, ya no es necesario el detalle extra como ocurrió en la
TWD para rendimientos del IPyC de una longitud arbitraria.
Cuadro 5.5: Distribución de Energía del /PyC con filtro Daubechies MA (8): 16/04/2004 - 30/04/2008.
Cristal dl d2 d3 d4 Energía( % ) 45. 709 27.068 12.616 6.431
d5 3.102
d6 d7 1.463 0.310
s7 1.300
Nuevamente el VaR se estima para 5 niveles de descomposición los cuales logran capturar
91
.!>.-------------~ .!.>.--------------
.o .o
--•·1-------l--+'WJUI
25 50 75 100 125 150 175 200 225 250 25 so 75 100 125 150 175 200 225 250
1-VaR 1-1 -VaR ~I -P/GI 1-VaR 1-1 -VaR ~I -P/GI
(a) (b)
.!>.-------------~
.o
25 so 75 100 125 150 175 200 225 250
1-VaR 1-1 -VaR ~I -P/GI
(e)
Figura 5.9: Valor en Riesgo al 95 % a través de (a) Varianza Wavelet, (b) Riskmetrir,;s y (e) GARCH (1,1)
las frecuencias hasta un horizonte de 16 días. Los resultados muestran que ahora el número
de fallas se incrementa a 13, número de fallas equivalente a la hipótesis nula, con valor del
estadístico de razón de verosimilitud de LR=0. 0208 y valor de probabilidad del estimador
de MV no restringido de 0.8853.
92
Capítulo 6
Conclusiones
En esta investigación se aplicó la teoría de wavelets para estimar el riesgo de mercado
en el marco de Valor en Riesgo. La aplicación se realizó sobre el principal índice accionario
mexicano y las emisoras que lo conforman. En particular, se utilizaron la transformada
wavelet discreta y su versión no-decimada conocida como transformada wavelet discreta de
máximo traslape.
Una de las principales motivaciones en la aplicación de wavelets para el análisis de
fenómenos económico-financieros se basa en Graps (1995), al argumentar que una señal se
puede mirar a través de ventanas grandes para percatarnos de sus característics generales;
y si la miramos a través de ventanas pequeñas, nos percataremos de sus detalles. El análisis
permitirá entonces mirar al bosque y los árboles.
El Valor en Riesgo es una de las medidas de riesgo de mercado más utilizadas, la cual
indica la pérdida máxima esperada en un ax 100 mejor de los casos. El valor en riesgo cor
responde al a-ésimo cuantil de la distribución de pérdidas y ganancias del activo financiero.
A pesar de su gran uso y medida estándar del riesgo de mercado, VaR no es una medida
coherente de riesgo bajo ciertas condiciones. El enfoque alternativo ha sido la medida de
riesgo Pérdida Esperada en la Cola.
Los resultados obtenidos en la investigación muestran que a través de la descomposición
por multiresolución es posible capturar las frecuencias altas y bajas en diferentes duraciones
de tiempo, en donde la escala de tiempo tiene una relación inversa con las frecuencias de los
rendimientos de los precios de las emisoras. Los diferentes niveles de resolución conocidos
en la teoría de wavelets como detalles o cristales, mostraron que las frecuencias más altas
de los rendimientos se presentan en una escala de tiempo de un día y las más bajas fueron
posibles capturarlas en una escala de tiempo de 32 días. La distribución de energía relativa
es una herramienta funcional para identificar el peso que cada nivel de descomposición tiene
respecto de la señal original.
93
El VaR estimado vía TWD y TWDMT arroja resultados similares. Sin embargo, la
TWDMT no es aplicable en la metodología de agregación de VaR's de cada escala, ya que
la misma induce correlación entre los coeficientes de cada escala. Lo apropiado para tales
efectos fue la TWD, aun y que la reconstrucción de la varianza por ambas transformadas
arroja un valor cercano a la varianza de la serie de tiempo original. Lo anterior debido al
algoritmo piramidal que en particular se utiliza en la TWD, el cual permite la decorrelación
de los coeficientes tanto a nivel entre-escala como intra-escala.
En particular se utilizó como filtro la función wavelet de Daubechies de mínima asimetría
y longitud ocho, ya que este tipo de función la literatura y estudios empíricos, han mostrado
que la correlación de los coeficientes entre escalas disminuye. Además, de que este tipo de
función es una mejor aproximación a filtros de pase de banda ideales respecto de otros filtros
comúnmente utilizados en finanzas como las funciones de Haar al permitir lo menos posible
fugas de información.
Los resultados del backtesting utilizando la TWD para descomponer los rendimientos de
cada serie de precios, muestran ser "cruciales" en el sentido de que el número de niveles de
resolución influye sustancialmente en el número de fallas en el horizonte de tiempo definido
para la aplicación de la prueba. Lo anterior hace que la metodología se mueva de "adecuada"
a "no adecuada", teniendo el resultado de subestimación de las pérdidas.
El enfoque de wavelets para estimar el VaR se contrastó con el modelo EWMA
de Riskmetrics y el modelo GARCH (1,1). Bajo estos últimos dos enfoques, los resultados
arrojan un mayor número de fallas que el enfoque de wavelets, aunque los resultados bajo
GARCH (1,1) pueden cambiar si la estimación se ejecuta bajo el supuesto de que los resi
duales no se distribuyen como una normal y la aplicación de algún otro modelo de la familia
GARCH como el modelo TGARCH o M-GARCH.
La estimación del VaR se puede clasificar en el método semi-paramétrico, en donde se ha
considerado que los coeficientes obtenidos en cada nivel de resolución se distribuyen como
una normal. Así mismo, el tipo de varianza obtenida vía wavelets se ha considerado como no
condicionada al no permitir innovaciones de la misma de un periodo previo. Por lo anterior,
se proponen las siguientes alternativas para continuar la investigación:
• Estimación del VaR aplicando Relative Wavelet Energy (RWE) bajo la transformada
wavelet discreta de máximo traslape. Lo anterior implica estimar un factor de es
calamiento en cuyo caso estudios previos emplean valores arbitrarios (Karandikar et
a.l.(2009)).
• Estimación del tipo no-paramétrica de los parámetros de la densidad de la distribución
de probabilidad de los rendimientos de los precios vía wavclcts
94
• La aplicación del enfoque híbrido ARMA-GARCH (Lai, He, y Chen (2006)), aunque
sus resultados son igualmente cruciales con base al número de niveles de resolución
utilizados. Igualmente, el número de observaciones históricas debe ser significativo
para estimar el modelo GARCH sobre los coeficientes obtenidos en cada nivel de
resolución, ya que en cada nivel de resolución el número de coeficientes es menor en
tanto la escala de tiempo es mayor.
95
Apéndice A
Descomposición por Multiresolución
de Emisoras
DI ..... ,, 11111 1 • IIO" 1 lit ~ ll ., .. ,.
D2 D2
D3 D3
O< O<
D5 D5
D6 D6
S6 S6
500 1000 1500 500 1000 1500
Figura A.1: MRD de Alfa Figura A.2: MRD de América Móvil
01 ... ~~ , ... ,. ... 8 lt. 1 1 1 1111 V 1 •111 01 .. I~ tt+.. 1 ~ a J, • t a • ' 1 f t 1 • P J 14~
D2 D2
D3 D3
O< O<
D5 D5
D6 D6
S6 S6
500 1000 1500 500 1000 1500
Figura A.3: MRD de Ara Figura A.4: MRD de Bimba
96
o, 01 • • • •ttr,111~ 1 tlu• t-• •fal•,.l 111 ,1 .. , 01 t.,, ' 1 1 , .. 1 " 1 141 1 al • ,. ,+ .... J ,., • .11
D2 D2
DJ DJ
"' "' DS DS
[)6 D6
S6 S6
500 1000 1500 500 1000 1500
Figura A.5: MRD de Cemex Figura A.6: MRD de Comercial Mexicana
,.~1,1,, ,,111,tr1u1ru.,._.,,..,..,~i.A
DI .. .. , ,,,~ 111 -·· 11 ... • • 1 .... 01 ..... ,,,n_• 1 ... ll : 1• t ~t11.fl
D2 D2
DJ DJ
"' "' D5 DS
[)6 [)6
S6 S6
500 1000 1500 500 1000 1500
Figura A.7: MRD de Elektm Figura A.8: MRD de Femsa
o, .1, ~~ • 11 Mttit1t , 11 .. • ' ' l .... 1 .. , ....... ..... DI
D2 D2
DJ DJ
"' "' DS DS
[)6 [)6
S6 S6
500 1000 1500 500 1000 1500
Figura A.9: MRD de Grnpo Carso Figura A.10: MRD de Ceo
DI •••11111 ~111• 1 111 ,, 1 r ,. 1 r 11• t ~ l ll ,,1 01 ,,,1u1 ... _1llllf4 M•• 1 1 11 • PI •• t l~I •l9M D2 D2
DJ D3
"' DS DS
[)6 [)6
S6 S6
500 1000 1500 500 1000 1500
Figura A.11: MRD de r:rnpo México Figura A.12: MRD de Grnpo J\Jodelo
97
lt#r ,~:111 1 .. , 1 •• t 1uml1 • , .., ,.. ,- 1 • 1 .......
D1
D2
D3
DS
D6
56
500 1000 1500
Figura A.13: MRD de Inbursa
DI
14 1r11J1 "''', • ,1 • D2
DJ
D4
DS
D6
56
500 1000 1500
Figura A.15: MRD de Banorte
D2 lbl ... l - .. 11., U. l 1 1al11 ... tll1 PI 11
D3
D4
DS
D6
56
500 1000 1500
Figura A.17: MRD de Soriana
D2 ·~' 1 a• 11 • 11 ..... ¡p ..
DJ
D4
DS
D6
56
500 1000 1500
Figura A.19: AfRD de Tl'léfono8 de !11é.Tico
,... M'1' t,o'I~ /,,t 4 ~"' •
D1 ,. ~ 1 t 11 1 tf J 11 l 1h 1 1 ... 1 •1
D2
DJ
D4
DS
D6
56
500 1000 1500
Figura A.14: MRD de Kimberly
D1 ~~J fl ~ ~ 1 N ,~, ¡u • 1111 11 • 11 ,, 1111 u•I , .., D2
DJ
D4
DS
D6
56
500 1000 1500
Figura A.16: MRD de Peñoles
01 :t ~._, ... , '" • I
D2
111 1 r ·~···· ..... 1,,1 ••
D3
D4
DS
D6
56
500 1000 1500
Figura A.18: MRD de Telecom
DI , 1 .. 11
D2
DJ
"' DS
D6
500 1000 1500
Figura A.20: MRD de Televisa
98
un ~O*"*'b .... "fl.MI Jllt, 1wtt..-,:"l',.,¡p t,lila
o, '~"'"' tlll~JI 1 ''" ,..... 1 1tN• E ••• , J l~NN
D2
º' °' D5
D6
S6
500 1000 1500
Figura A.21: MRD de Wal-Mart
99
Apéndice B
Descomposición de la Varianza de
Emisoras en 6 Niveles
F7 ,o ,,. ,,. m m ,o ,oo "' ,oo m ..______,.._,o ~,., --r,.,~,,.---,,;, Lbd,
ALf'.lD! Allktl' Jt.lULII,
i[~ ·~[SJ ~:~·~bd - - - -HOOJ .000001 .000001 .MOOOI
so ltO :so HO ,so U 100 ISO lDD no so 100 ,se •to .u H ,01 110 '" ªº
Figura B.1: Varianza Wavelet Alfa Figura B.2: Varianza Wavelet América Móvil
100
.....
.... , ..... IIIIIODJ IJIIIODt
_,_ ... " . OIOHI
.0-,1
-·- j
..... .. ... IJUODI
Figura B.3: Varianza Wavelet de Ara Figura B.4: Varianza Wavelet de Bimbo
_, -·c:a :0002 . 0001
.0001
0001
llfl SI IOf 110 200 2U
"" -- --o -... ., . '"
·'" 10 IN 110 ltll lH
--~o --·o '"Q'
- - -·"°" .0001 - ---· - ---· --~ - ·-º
oeO~ 10 IN aO 100 l10 .OOOO M :U IH 200 UO .OOH 1°0 100 110 11D 310
---62] -"'~ -.-- .IOHl2 .too ... .ooo,u -~ .C.OOIU
.NDOCM.
INOC4 .IWIIII
--- .000011 10 100 no 100 110 'º 10, ISO ªº ,u
Figura B.5: Varianza Wavelet de Cemex Figura B.6: Varianza Wavelet de Comercial Mexicana
101
Figura B.7: Varianza Wavelet de Elektra Figura B.8: Varianza Wavelet de Femsa
""Q ·-·o .-'O ·'ª'D - - - --2 ,0001
.0002 .OOII
0001 .l{IDI
oon ,OMI __ ¡ .0000
- - - -ID 100 IID 2DO no so 100 Llll ªº ªº 10 100 110 ªº ª' 10 100 110 lOO ac
OCUIOD(
-~~ -~ ·-~ _,, -~· H 100 110 ne 210
Figura B.9: Varianza Wavelet de GCarso
. 010g)
·"'"[] .COOOI
00001
00001 ,o 100 no 2~0 a,
Figura B.10: Varianza Wavelet de Geo
102
IOlffDl •01ffD2 •10101 •1u1D2 -o .MIi
.... , ·-· ·-· ·-· M 1• IM MI 211
IOl'TIDJ IOlffDt •1UIDJ ::l'ltJIDt
Figura B.11: Varianza Wavelet de Banorte Figura B.12: Varianza Wavelet de Inbursa
-·~ ·""D ·-"E;] .CIOOJ .-I .OIOIU ... , KO:J OOOJ __ ¡¡
wouo on> .0001 - --·ºªº .0001 .00012 - . ,. """ "' - . , .. ,. "' '""' . . .... ,.
.NOO,rn .-mts;J .OOIOII .HUI
.MIOU
.HIOI --011
HIOJ .MOOll
.000011
IOHJ· .10001;
OIIOI SO 1~0 11~ 200 al .ODQOII 10 ICIO IH lt-fl ao
·-"~ ·--~ -·~[;!J ·'""'[;d .ooo~ ___ .OOOOGol .ooo.m
.00011 __ 101 .o;,;oo,i .o.o;e1
GOOI OO ,ooou .OOl!IO'I .110112
.OMOll<I
HUI .00100, .UUOJ .OHOOol
IOOOI .000006 .OOOIH . 1111161
'"" '"'~ ·""" . . .... ., 10 JIO 1,0 211 11 1 U 1,0 \U 100 aO 10 )U ;1~ UO HO 10 100 ISO ~00 1~~
Figura B.13: Varianza Wavelet de GMéxico Figura B.14: Varianza Wavelet de Modelo
103
·-g --· --.o .. ,
--· .MOi
--· --· so 1,a 1n :ioe no
--"w ·-w --·Q .OHM .-DI .1001 __ ,
.MOk --·1 .0001
IOOOl .-H ,MOi
.00001
__ , 00011 __ 01
- - = . - - - - - - - - - - - - - ---·0 --. __ .. , --'"
.otGU2 50 IOI 110 JU ~H
Figura B.15: Varianza Wavelet de Kimberly Figura B.16: Varianza Wavelet de Peñoles
-~·o .a.ooec,
OODIDI
._ºººº" . -··, ·ººº'°' ,o ;oo :so 20& 2u
__ ... o .ooo,c,
.IMIIOO
.MOU5
-·" -OH
so 1n no 210 ,;,
Figura B.17: Varianza Wavelet de Soriana
"-·0 "'~
----·" "º~
-· . . ...... . Figura B.18: Varianza Wavelet de Telecom
104
·-"'t;J .-oo,
-"' -DOtl001
""" . to0002
" 1ot 1se 1to ue
Figura B.19: Varianza Wavelet de Televisa
·-·rs;J .NHI
•• OOHH
00011
OGDOII
. OOUl4
onou ,. llMI ¡to uo u.o
º""'6ZJ ... "~
··"º'º~
IL IN :n JU lM
Figura B.21: Varianza Wavelet de Wal-Mart
,.,.. .. ,
,.,.. .. ,
Figura B.20: Varianza Wavelet de Telmex
105
Cuadro C.1: Resultados Modelo GARCH {1,1).
Emisora Ecuación Ecuación de la Varianza AIC Schwartz Media Constante ARCH GARCH
IPyC 0.001521 0.0000119 0.130713 0.794318 -6.056001 -6.043439 (5.653285) (6.003545) (7.971036) (32.98045)
ALFA 0.001161 4.03E-06 0.038397 0.951813 -4.984434 -4.971729 (2.499752) (4.628465) (7.98051) (200.957)
AMXL 0.001989 2.52E-05 0.074574 0.861124 -5.032896 -5.020185 (4.355953) (4.590909) (6.509121) (39.21984)
ARA 0.001497 2.13E-05 0.098065 0.856606 -5.028463 -5.015435 (3.134407) (5.194844) (8.20459) (51.67446)
BIMBO 0.001047 2.65E-05 0.109867 0.817135 -5.213806 -5.200804 (2.565291) (5.984273) (7.275223) (36.3291)
CEMEX 0.001143 1.48E-05 0.062486 0.887903 -5.336703 -5.324053 (2.980602) (3.857807) (5.286258) (40.66154)
COMERCI 0.001113 2.70E-05 0.124561 0.817211 -5.003206 -4.989944 (2.302668) (5.120697) (8.122154) (38.91313)
ELEKTRA 0.001825 2.88E-05 0.179274 0.778495 -4.910497 -4.897577 (3.948148) (7.24745) (12.07525) (50.23795)
FEMSA 0.001167 4.36E-06 0.07097 0.916271 -5.429739 -5.417052 (3.207766) (3.159069) (8.043524) (84.642179
GFBANORTE 0.002001 3.58E-05 0.10491 0.813483 -4.991283 -4.978505 (4.339093) (5.264108) (7.996564) (34.81662)
GCARSO 0.001267 2.18E-05 0.133271 0.811097 -5.217813 -5.204986 (3.188313) (6.322051) (9.837445) (44.08776)
GEO 0.002429 4.09E-05 0.156036 0.772971 -4.824319 -4.811317 (4.83229) (6.637878) (10.80673) (40.75986)
GFINBURSA 0.000572 3.45E-05 0.111649 0.816747 -4.987502 -4.974449 (1.251984) (5.188117) (7.351579) (31.5294)
GMEXICO 0.002091 l.68E-05 0.075 0.902222 -4.566949 -4.554053 (3.817174) (4.537883) (6.959393) (69.28219)
GMODELO 0.000552 2.30E-06 0.045812 0.946194 -5.570946 -5.558168 (1.690244) (3.742365) (7.185639) (132.5803)
KIMBER 0.000499 l.18E-05 0.074932 0.875525 -5.623191 -5.610207 (1.483905) (5.988984) (8.806049) (63.95121)
PEÑOLES 0.001594 2.35E-05 0.063056 0.911438 -4.321679 -4.308234 (2.515648) (5.180397) (9.529724) (97.28021)
SORIANA 0.001168 3.57E-05 0.129798 0.768576 -5.221662 -5.208742 (2. 761393) (5.760255) (7.366943) (26.79027)
TELECOM 0.001028 l.38E-05 0.065112 0.89639 -5.156903 -5.144162 (2.331285) (3.120555) (5.33086) (42.97311)
TELEVISA 0.001158 4.32E-06 0.0494 0.937636 -5.186652 -5.173948
(2.860205) (3.262662) (7.447001) (104.5091)
TELMEX 0.000723 4.15E-06 0.045158 0.936933 -5.628583 -5.615675
(2.1311079) (2.425497) (5.256569) (65.91169)
WALMEX 0.000907 6.04E-06 0.067074 0.91535 -5.318087 -5.305418
(2.332996) (4.249008) (8.15721) (95.33118)
107
Bibliografía
[1] Abrarnovich, F., Bailey, F., and Sapatinas, T., 2000; "Wavelet Analysis and Its Sta
tistical Applications", The Statistician, 49 ( 1), 1-29.
[2] Aguiar-Conraria, L., Soares, M., and Azevedo, N., 2007; "Using Wavelets to Decorn
pose Tirne-Frequency Econornic Relations", NIPE Working Papers, Universidade do
Minho, 17.
[3] Artzner, P., et al., 1999; "Coherent Risk Measures of Risk", Mathematical Finance,
9, 203-228.
[4] Artzner, P., et al., 2001; "Thinking Coherently", RISK, 10(11), 68-71.
[5] Bachelier, L., 1900; Theory of Speculation, Translation of Louis Bachelier's thesis, in
The Randorn Character of Stock Market Prices by P. Cootner, MIT, 18-91.
[6] Barnea, A., and Downes, D., 1973; "A Reexarnination of the Ernpirical Distribution
of Stock Price Changes", Finance, 68, 348-350.
[7] I3arndorff-Nielsen, O. E., 1977; "Exponentially Decreasing Distributions for the Log
arithrn of Particle Size", Proceedings of the Royal Society of London. Series A, Math- -
ematical and Physical Sciences, 353, 401-419.
[8] Barone-Adesi, G., and Giannopoulos, K., 1996; "A Simplified Approach to the Con
ditional Estirnation of Value at Risk", Futures and Options World, October, 68-72.
[9] Blattberg, R., and Gonedes, N., 1974; "A Cornparison of the Stable and Student
Distributions as Statistical Models for Stock Prices", The Joumal of Business, 47(2),
244-280.
(10] Bollerslev, T., 1986; "Generalized Autoregressive Conditional Heteroskedasticity",
Journal of Econometrics, 31(3), 307-327.
108
[11] Boudoukh, J., Richardson, M., and Whitelaw, R., 1998; "The Best of Both Worlds",
RISK, 11, 64-67.
[12] Brada, J., Ernst, H., and Tassel, J., 1966; "The Distribution of Stock Price Differences:
Gaussian after ali", Operations Research, 14(2), 334-340.
[13] Burrus, C. S., Gopinath, R. A., and Guo, H., 1998; Introduction to Wavelets and
Wavelet Transforms, A Primer, Prentice Hall, New Jersey, USA.
[14] Clopper, C., and Pearson, S., 1934; "The Use of Confidence or Fiducial Limits Illus
trated in the Case of the Binomial", Biometrika, 26(4), 404-413.
[15] Cont, R., 2001; "Empirical Properties of Asset Returns: Stylized Facts and Statistical
Issues", Quantitative Finance, Institute of Physics Publishing, 1, 223-236.
[16] Coronado, M., 2001; "Extreme Value Theory for Risk Managers: Pitfalls and Oppor
tunities in the use of EVT in Measuring VaR", Proceedings of the V Spanish and 111
Italian-Spanish Conference on Actuaria[ and Financia[ Mathematics, Madrid, Spain.
[17] Craigmile, P. F., and Percival, D. B., 2005; "Asymptotic Decorrelation of Between
Scale Wavelet Coefficients", IEEE Transactions on Information Theory, 51(3), 1039-
1048.
[18] Daubechies, l., 1988; "Orthonormal Bases of Compactly Supported Wavelets", Com
munications on Pure and Applied Mathematics, 41, 909-996.
[19] Dijkerman, R., and Mazumdar, R., 1994; "Wavelet Representation of Stochastic Pro
cesses and Multiresolution Stochastic Models", IEEE Proceedings Transactions on
Signal Processing, 42, 1640-1652.
[20] Donoho, D., Johnstone, l., Kerkyacharian, G., and Picard, D., 1996; "Density Esti
mation by Wavelet Thresholding", The Annals of Statistics, 24(2), 508-539.
[21] Eberlein, E., and Keller, U., 1995; "Hyperbolic Distributions in Finance", Bernoulli,
1(3), 281-299.
[22] Embrechts, P., Klüppelberg, C., and Mikosch, T., 1997; Modelling Extrema[ Events
for lnsurance and Finance, Springer, New York, USA.
[23] Enders, W., 2004; Applied Econometric Time Series, John Wiley and Sons, 2nd. Edi
tion, New Jersey, USA:
109
[24] Engle, R.F., 1982; "Autoregressive Conditional Heteroskedasticity with Estimates of
the Variance of United Kingdom lnflation", Econometrica, 50(4), 345-359.
[25] Engle, R.F., 2001; "GARCH 101: The Use of ARCH and GARCH Models in Applied
Econometrics", Journal of Economic Perspectives, 15, 157-168.
[26] Fama, E., and Roll, R., 1963; "Parameter Estimates for Symmetric Stable Distribu
tions", Joumal of the American Statistical Association, 66(334), 331-338.
[27] Fama, E., 1965; "The Behavior of Stock-Market Prices", The Joumal of Business,
38(1 ), 34-105.
[28] Fernandez, V., 2005; "The International CAPM anda Wavelet-Based Decomposition
of Value at Risk", Studies in Nonlinear Dynamics and Econometrics, 9, 1-35.
[29] Fielitz, B., and Rozelle, J., 1983; "Stable Distributions and the Mixtures of Distri
butions Hypotheses for Common Stock Returns", Joumal of the American Statistical
Association, 78(381), 28-36.
[30] Fisher, R.A., and Tippett, L.H.C., 1928; "Limiting Forms of the Frequency Distribu
tion of the Largest or Smallest Member of a Sample", Mathematical Proceedings of
the Cambridge Philosophical Society, 24, 180-190.
[31] Fomel, S., Sava, P., Rickett, J., and Claerbout, J., 2003; "The Wilson-Burg Method
of Spectral Factorization with Application to Helical Filtering", 51, 409-420.
[32] Graps, A., 1995; "An lntroduction to Wavelets", IEEE Proceedings Computational
Science and Engineering, 2, 50-61.
[33] Grinsted, A., Moore, J., and Jevrejeva, S., 2004; "Application of the Cross Wavelet
Transform and Wavelet Coherence to Geophysical Time Series", 11, 561-566.
[34] Haar, A., 1910; "Zur Theorie der Orthogonalen Funktionensysteme", Mathematische
Annalen, 69, 331-371.
[35] Hall, J., Brorsen, W., and Irwin, S., 1989; "The Distribution of Future Prices: A Test
of the Stable Paretian and Mixture of Normals Hypotheses", 24(1), 105-116.
[36] Harris, L., 1986; "Cross-Security Tests of the Mixture of Distributions Hypothesis",
The Journal of Financia[ and Quantitative Analysis, 21(1), 39-46.
[37] Harris, L., 1987; "Transaction Data Tests of the Mixture of Distributions Hypothesis",
The Journal of Financia[ and Quantitative Analysis, 22(2), 127-141.
110
[38] Hull, J., and White, A., 1998; "Value at Risk when Daily Changes in Market Variables
are not Normally Distributed", The Journal of Derivatives, 5(3), 9-19.
[39] Hull, J., and White, A., 1998; "Incorporating Volatility Updating into the Historical
Simulation Method of VaR", The Journal of Risk, 1, 5-19.
[40] Jacques, G., Frymiare, J., Kounios, J., Clark, C., and Polikar, R., 2004; "Multires
olution Analysis for Early Diagnosis of Alzheimer's Disease", IEEE Proceeding 26th
Annual International Conference of the IEEE EMES, 251-254.
[41] Jenkinson, A.F., 1955; "The Frequency Distribution of the Annual Maximum (or
Minimum) Values of Meteorological Elements", Quarterly Journal of the Royal Mete
orological Society, 81(348), 158-171.
[42] Jorion, P., 1996; "Risk: Measuring the Risk in the Value at Risk", Financia[ Analysis
Journal, 52, 47-56.
[43] Jorion, P., 2007; Value at Risk, The New Benchmark far Managing Financia[ Risk,
McGraw-Hill, 3rd. Edition, New York, USA.
[44] Khindanova, l., Rachev, S., and Schwartz, E., 2000; "Stable Modelling of Value at
Risk", Economics Working Paper Series, University of California at Santa Barbara, 4.
[45] Kon, S., 1984; "Models of Stock Returns - A Comparison", The Journal of Finance,
39(1), 147-165.
[46] Kupiec, P., 1995; "Techniques for Verifying the Accuracy of Risk Management Mod
els", The Journal of Derivatives, 3, 73-84.
[47] Lee, H. S., 2004; "International Transmission of Stock Market Movements: A Wavelet
Analysis", Applied Economics Letters, 11(3), 197-201.
[48] Longin, F., 1991; "Long-term Memory in Stock Market Prices", Econometrica, 59,
1279-1313.
[49] Longin, F., 2001; "Beyond the VaR", The Journal of Derivatives, 8, 36-48.
[50] Longin, F., 2000; "From Value at Risk to Stress Testing: The Extreme Value Ap
proach", The Journal of Banking and Finance, 24, 1097-1130.
[51] McNeil, A.J., and Frey, J., 2000; "Estimation of Tail-Related Risk Measures for Het
eroscedastic Financia} Time Series: An Extreme Value Approach", Journal of Empir
ical Finance, 7, 271-300.
111
[52] Mallat, S., 1989; "A Theory for Multiresolution Signal Decomposition: The Wavelet
Representation", IEEE Transactions on Patterns Analysis and Machine Intelligence,
11(7), 674-693.
[53] Mandelbrot, B., 1963; "The Variation of Sorne Speculative Prices", The Journal of
Business, 36(4), 394-419.
[54] Mandelbrot, B., 1967; "The Variation of Sorne Other Speculative Prices", The Journal
of Business, 40(4), 393-419.
[55] Manganelli, S., and Engle, R., 2001; "Value at llisk Models in Finance", Working
Paper, European Central Bank, 75.
[56] Mikosch, T., and Starica, C., 2000; "Limit Theory for the Sample Autocorrelations
and Extremes of a GARCH (1,1) Process", The Annals of Statistics, 28(5), 1427-1451.
[57] Nason, G., and Sachs, R., 1999; "Wavelets in Time-Series Analysis", Philosophi
cal Transactions: Mathematical, Physical and Engineering Sciences, 357(1760), 2511-
2526.
[58] Norsworthy, J., Li, D., and Gorener, R., 2000; "Wavelet-Based Analysis of Time Series:
An Export from Engineering to Finance", IEEE Proceedings Engineering Management
Society, 126-132.
[59] Officer, R., 1972; "The Distribution of Stock Returns", Joumal of the American Sta
tistical Association, 67(340), 807-812.
[60] Osborne, M., 1959; "Brownian Motion in the Stock Market", Operations Research,
7(2), 145-173.
[61] Percival, D., and Mofjeld, H., 1997; "Analysis of Subtidal Coastal Sea Level Fluc
tuations Using Wavelets", Joumal of the American Statistical Association, 92(439),
868-880.
[62] Percival, D., and Walden, A., 2000; Wavelet Methods for Time Series Analysis, Cam
bridge University Press, London, England.
[63] Perry, P., 1983; "More Evidence on the Nature of the Distribution of Security Re
turns", Journal of Financia[ and Quantitative Analysis, 18(2), 211-221.
[64] Praetz, P., 1972; "The Distribution of Share Price Changes", The Joumal of Business,
45(1), 49-55.
112
[65] Ramsey, J., and Lampart, C., 1999; "The Decomposition of Economic Relationships by
Time Scale using Wavelets: Expenditure and Income", Studies in Nonlinear Dynamics
e3 Econometrics, 3, 23-42.
[66] Ramsey, J., 1999; "The Contribution of Wavelets to the Analysis of Economic and
Financia! Data", Philosophical Transactions: M athematical, Physical and Engineering
Sciences, 357(1760), 2593-2606.
[67] Roberts, H., 1959; "Stock-Market Patterns and Financia! Analysis: Methodological
Suggestions", The Journal of Finance, 14(1), 1-10.
[68] Serroukh, A., Walden, A., and Percival, D. B., 2000; "Statistical Properties and Uses
of the Wavelet Variance Estimator for the Scale Analysis of Time Series", Journal of
the American Statistical Association, 95(449), 184-196.
[69] Strang, G., 1989; "Wavelets and Dilation Equations: A Brief Introduction", SIAM
Review, 31(4), 614-627.
[70] Upton, D., and Shannon, D., 1979; "The Stable Paretian Distribution, Subordinated
Stochastic Processes, and Asymptotic Lognormality: An Empirical Investigation", The
Journal of Finance, 34( 4), 1031-1039.
[71] Valens, C., 1999; "A Really Friendly Guide to Wavelets", Unpublished.
[72] Venegas-Martínez, F., 2006; Riesgos Financieros y Económicos, Thomson, Ciudad de
México, México.
[73] Xiong, X., Zhang, X., Zhang, W., and Li, C., 2005; "Wavelet-based Beta Estimation of
China Stock Market", IEEE Proceedings Fourth International Conference on Machine
Learning and Cybernetics, 6, 3501-3505.
[74] Zangari, P., 1996; "An Improved Methodology for Measuring VaR", Riskmetrics Mon
itor, 7-25.
113