Post on 25-Oct-2020
Instituto Politécnico Nacional Centro de Investigación en Computación
“Análisis de la Predictibilidad de Series de Tiempo usando algoritmos de extracción de reglas gramaticales”
Tesis que para obtener el grado de:
Maestro en Ciencias en Ingeniería de Cómputo
Presenta el:
Ing. Oscar Ricardo Delfín Santiesteban
Director de tesis
Dr. Jesús Guillermo Figueroa Nazuno
México D. F., Junio 2006
2
3
4
A quien resulte responsable: agradecimientos.
Quiero agradecer, en primer lugar, al Dr. Jesús Guillermo Figueroa Nazuno, por
haberme dado la oportunidad de cerrar este ciclo. Un ciclo difícil, lleno de trampas y
esfuerzos inútiles. Me gustaría decir que mi paso por CIC fue, hasta antes de
conocerlo, aventurado y prodigioso; más sin embargo, no ha sido así. Quienes me
conocen, saben mi historia, quienes no, no tienen porque saberla. Gracias Doctor, por
su confianza y el tiempo dedicado a todas mis inquietudes. Por haber puesto en orden
mis ideas, por los jalones de oreja y por el entrenamiento a patadas. Quiero decirle,
que puede usted estar tranquilo, aprendí mucho de su persona y todo eso lo plasmare
con mis estudiantes. Gracias.
Agradezco a mi Padre que desde chamaco, a través de su ejemplo, me inculco
el hábito del estudio y la curiosidad. No sé si he sido un buen hijo, pero tú si haz sido
un buen padre. A mi madre, que siempre ha estado es todo momento a mi lado y al
pendiente de todo. No sé si he sido un buen hijo, pero tú si haz sido una buena madre.
Agradezco a mi esposa Elizabeth y a través de este medio le digo lo siguiente:
sé que este proyecto nos ha traído desavenencias y discusiones interminables. Sé que
he cometido errores irreparables y que no habrá modo alguno de recuperar lo perdido.
De cualquier forma, quiero que sepas que tú fuiste parte fundamental de esto y que,
desde el sitio donde siempre estoy pensando en ti, te agradezco profundamente que
hayas estado a mi lado.
Gracias al Instituto Politécnico Nacional y al CIC por haberme dado la
oportunidad de seguir avanzando en la búsqueda de mi verdad.
Quiero agradecer de forma especial a todas las personas que no fueron parte
de este trabajo. Gracias a ustedes, entes mezquinos y sucios, que lejos de ayudar,
estorban; tuve la necesidad de buscar otras alternativas. Búsqueda que culmina con
esta tesis bajo la tutela del Dr. Nazuno. Gracias.
Vale, pues, a quien resulte responsable: Gracias a todos los que directa o
indirectamente, responsable o irresponsablemente me ayudaron.
5
Abstract
In this work is presented an experimental study of time series predictability using
algorithms for extracting grammar rules. Firstly, we discuss the concepts of Forecasting and
Predictability, then we describe the difference among both of them and finally we emphasize
their importance. The employed algorithms were designed for classifying DNA-patterns and for
information compressing respectively, both occupy free-context grammars for their purposes.
Afterward, we show the manner on how the obtained indexes are integrated for estimating
predictability on time series, in order to generalize their use on any series. Finally, we describe
the advantages for using our method while it is compared with others.
6
Resumen
En este trabajo de Tesis se presenta un estudio experimental sobre la predictibilidad de
Series de Tiempo utilizando algoritmos de extracción de reglas gramaticales. Se mostrará los
conceptos de Predicción y Predictibilidad, describiendo la diferencia entre ambos y cual es la
importancia de su estudio. Explicaremos la operación de dos algoritmos que fueron diseñados
para clasificar y comprimir información respectivamente, y que utilizan Gramáticas Libres de
Contexto para tal propósito. Presentaremos la forma en que hemos integrado los índices que
se obtienen de estos dos algoritmos para estimar la predictibilidad de Series de Tiempo,
tratando de generalizar su uso a cualquier Serie. Además, expondremos las ventajas que se
tienen al utilizar nuestra metodología en comparación con otras.
7
Índice Abstract Resumen A quién resulte responsable: agradecimientos Capítulo 1. Introducción.
1.1 Motivación………………………………………………………………………………….9 1.2 Objetivos………………………………………………………………………………….10 1.3 Descripción del contenido de la Tesis…………………………………………………10
Capítulo 2. Análisis de la predictibilidad de Series de Tiempo. 2.1 Introducción……………………………………………………………………………….12 2.2 Series de tiempo………………………………………………………………………….13
2.2.1 Series de tiempo de origen natural y de origen artificial……………….14 2.3 Predicción y Predictibilidad……………………………………………………………...16 2.4 Técnicas de Predicción……………….………………………………………………….18
2.4.1 Técnicas Estadísticas……………………………………………………...19 2.4.2 Técnicas de Inteligencia Artificial…………………………………………21 2.4.3 Predicción en el espacio de fase (Dinámica de Sistemas no
Lineales)……………………………………………………………………..28 Capítulo 3. Índices de predictibilidad de Series de Tiempo.
3.1 Introducción……………………………………………………………………………….32 3.2 Métodos de extracción de reglas gramaticales……………………………………….34
3.2.1 Gramáticas Libres de Contexto…………………………………………..34 3.2.2 Algoritmo Sequitur…………………………………………………………36 3.2.3 Algoritmo NvoGramm……………………………………………………..39
3.3 Extracción de reglas gramaticales cómo indicador de predictibilidad……………..40 3.3.1 Índice de Predictibilidad Gramatical (IPG, Algoritmo Sequitur)………40 3.3.2 Complejidad Gramatical (Algoritmo NvoGramm)………………………42
3.4 Indicadores de predictibilidad…………………………………………………………..43 3.4.1 Estadísticas…………………………………………………………………43 3.4.2 Teoría de Sistemas Dinámicos no Lineales…………………………….43 3.4.3 Teoría de la información…………………………………………………..44 3.4.4 Análisis de mapas de recurrencia………………………………………..44 3.4.5 Teoría de la computación…………………………………………………44
Capítulo 4. Procedimiento experimental y análisis de resultados. 4.1 Introducción………………………………………………………………………………46 4.2 Procedimiento experimental……………………………………………………………46
4.2.1 Descripción del conjunto experimental de Series de Tiempo………………………………………………………….48
4.2.2 Parámetros obtenidos de los algoritmos estudiados…………………..62 4.2.3 Parámetros conocidos…………………………………………………….63 4.2.4 Primer análisis de correlación……………………………………………66 4.2.5 Parámetros en el espacio de fase……………………………………….67 4.2.6 Segundo análisis de correlación…………………………………………68
4.3 Análisis de resultados, comparación de metodologías y alcances……………..……………………………………………………………………71
Capítulo 5. Contribuciones, conclusiones y líneas de trabajo futuro. 5.1 Contribuciones……………………………………………………………………………73 5.2 Conclusiones……………………………………………………………………………..73 5.3 Líneas de trabajo futuro…………………………………………………………………77 Apéndice A…………………………………………………………………………………………….75 Apéndice B…………………………………………………………………………………………….77 Referencias……………………………………………………………………………………………88
8
Capítulo 1
Introducción
“La verdadera ciencia enseña, por encima de todo, a dudar y a ser ignorante.”
Miguel de Unamuno
1.1 Motivación. 1.2 Objetivos. 1.3 Desarrollo de la tesis.
9
1.1 Motivación
Desde el año de 1684, cuando Sir Isaac Newton formalizó matemáticamente el
conocimiento empírico de diversas observaciones de fenómenos astronómicos en su obra
Philosophiae Naturalis Principia Mathematica; la caída libre de una piedra desde lo alto de un
edificio, el disparo de un proyectil cuya trayectoria precisa una parábola o la colisión de un par
de bolas de billar; son tan solo algunos ejemplos de sistemas cuyos modelos matemáticos
permiten realizar predicciones con alto grado de certidumbre.
Sin embargo, sistemas más complejos como: la generación de una serie de números
primos, un conjunto de ecuaciones diferenciales cuya trayectoria en el espacio de fase cambia
en función de las condiciones iniciales, el doble péndulo, etc., presentan algunas limitantes en
el momento de tratar de construir sus respectivos modelos matemáticos con los que podamos
modelar y predecir su dinámica. Esto ha motivado el desarrollo de diversas técnicas no
tradicionales como los modelos algorítmicos, que permiten resolver el problema (modelar y
predecir) a partir de los datos experimentales que arroja el sistema. Las técnicas de análisis
que estudian este conjunto de datos (Series de Tiempo), son el primer paso para la
determinación de las características de la dinámica de un sistema a través de las cuales
podemos hacer una clasificación, construir un modelo y/o realizar una predicción.
Existen numerosas técnicas de análisis de Series de Tiempo que provienen de diferentes
disciplinas como: Análisis de Fourier, Estadística, Análisis Espectral Singular, Teoría de
Sistemas Dinámicos No Lineales, Teoría de la Información y Teoría de la Computación; y cada
una de ellas aportan información que nos ayudan a comprender mejor la dinámica de un
sistema.
Dentro del área de la Teoría de la Computación encontramos dos técnicas de análisis:
Complejidad Relativa LZ y Análisis de Gramáticas. La primera es una medida de la complejidad
algorítmica que mide el número de nuevas subcadenas descubiertas conforme una secuencia
de símbolos evoluciona de izquierda a derecha. En tanto que, la segunda, tiene su base en la
dinámica simbólica y es útil en la identificación de patrones dentro de una serie de tiempo [1].
Existen dos algoritmos que utilizan el Análisis de Gramáticas para representar el
comportamiento dinámico de una Serie de Tiempo: Sequitur, que fue diseñado en 1996 por
Craig G. Nevill-Manning en la Universidad de Waikato, Nueva Zelanda, cuyo propósito fue
mostrar en forma automática la existencia de cadenas de símbolos repetidas dentro de una
secuencia de datos que bien puede ser de tipo musical, algún texto en algún idioma,
información genética, bases de datos genealógicos, lenguajes de programación, etc., y que
podría ser utilizado para la compresión de información entre muchas otras aplicaciones[Nevill];
y el algoritmo NvoGramm, que fue propuesto en 2003 por Miguel A. Montaño en la Universidad
de Veracruz y fue diseñado para detectar patrones significativos en cadenas de DNA, RNA y
clasificación de proteínas [Montaño].
En este trabajo de tesis, estudiaremos estos dos algoritmos (Sequitur y NvoGramm) y
veremos como es posible integrarlos para obtener indicadores de predictibilidad.
10
1.2 Objetivos
En el apartado anterior mencionamos que existen dos algoritmos llamados Sequitur y
NvoGramm, que emplean el Análisis de Gramáticas para detectar patrones de símbolos dentro
de una secuencia de datos. Pues bien, estos algoritmos serán el punto de partida de esta tesis
y a continuación, comenzaremos señalando los objetivos que se persiguen.
Objetivo General:
☞ Proporcionar un Índice de Predictibilidad basado en las Reglas de Producción
que generan las Gramáticas Libres de Contexto para evaluar un método de
predicción.
Objetivo Particular:
☞ Explorar sí la incorporación de las técnicas de análisis gramatical (Algoritmo
Sequitur y NvoGramm) aportan información relevante e independiente sobre
la predictibilidad de una Serie de Tiempo. 1.3 Descripción del contenido de la Tesis
Comenzaremos el desarrollo de esta tesis en el capítulo siguiente, donde
definiremos formalmente el concepto de Serie de Tiempo y sus diferentes orígenes.
Además, estableceremos la diferencia entre los conceptos de Predictibilidad y Predicción
y finalizaremos con una breve descripción de las Técnicas de Predicción que existen.
Posteriormente, en el capítulo 3, presentamos a detalle la forma en que operan los dos
algoritmos empleados para la extracción de reglas gramaticales. El capítulo 4,
expondremos la metodología con la que integramos los algoritmos mencionados para
obtener indicadores de predictibilidad y finalmente, mostramos las conclusiones que se
derivan de nuestro trabajo, las referencias bibliografícas e información adicional en los
apéndices.
11
Capítulo 2
Análisis de la predictibilidad
de Series de Tiempo
2.1 Introducción. 2.2 Series de tiempo.
2.2.1 Series de tiempo de origen natural y de origen artificial. 2.3 Predicción y Predictibilidad. 2.4 Técnicas de Predicción.
2.4.1 Estadística clásica. 2.4.2 Inteligencia Artificial. 2.4.3 Predicción en el espacio de fase.
(Dinámica de Sistemas no Lineales).
“No hay cosas sin interés, tan solo personas incapaces de interesarse. El que no posea el don de maravillarse, más le valdría estar muerto, porque sus ojos están cerrados”.
Albert Einstein
12
2.1 Introducción
Las series de tiempo son un conjunto de valores que representan la información que
describe la dinámica de un fenómeno y al estudiarlos buscamos básicamente dos cosas: un
modelo matemático o un conjunto de algoritmos que extraigan la mayor cantidad de
información que posee de manera intrínseca una serie, de tal forma que reproduzca su
comportamiento, o bien, un modelo de predicción que se encargue de extrapolar su dinámica.
Existen, sin embargo, algunas limitantes en los modelos que hasta el momento se han
construido: están hechos para un tipo de serie en particular, es decir, no son generalizables a
otro tipo de series que no sea para el cual fue diseñado.
Por otra parte, el proceso de predicción también está limitado por la dinámica de las
series; influye directamente en la dificultad para ser predecidas por algún modelo, dado que,
todas las series tienen diferentes comportamientos. Estas limitaciones nos obligan a la
búsqueda de nuevos parámetros que caracterizarán a una serie y, a través de éstos, definir un
indicador de predictibilidad que ayuden a identificar que tan difícil será su predicción.
Para comenzar, en la sección 2.2 de este capítulo describiremos formalmente lo que es
una serie de tiempo, posteriormente, expondremos la clasificación básica de las mismas. A
continuación, en el apartado 2.3, explicaremos qué es lo que se entiende por predictibilidad,
bajo qué criterios y métodos sean hecho medidas de ésta y cual es su relación con las series
de tiempo. Finalmente, en la última sección, veremos las técnicas de predicción que se han
utilizado.
13
2.2 Series de Tiempo
Una serie de tiempo es un conjunto de datos numéricos obtenidos a partir de una
observación experimental o mediante el cálculo numérico de las ecuaciones de evolución de un
sistema. Contiene información sobre sus variables independientes que determinan su dinámica
y la extracción de está información nos ayuda a construir modelos que reproduzcan o
extrapolen el comportamiento de la serie.
Una Serie de Tiempo es un conjunto
( ) ( ) ( ) ( ) ( ){ }1 , 2 , 3 , , , ,ST x x x x t x N= K K
Siendo una secuencia de datos experimentales para un intervalo de tiempo T N= de una
variable observable ( )x t de un sistema.
Las series de tiempo se caracterizan porque se evolución temporal no depende
explícitamente de la variable tiempo, sino de los valores de la serie en instantes anteriores o
incluso de otras variables temporales que pudieran afectar a la evolución de la serie. En la
figura 2.1 se muestra un ejemplo de serie de tiempo conocida como logística cuyo
comportamiento viene dado por la ecuación de diferencias:
1 (1 )n n nx rx x+ = − (2.1)
donde n = año, x= número de insectos que nacen y r número de huevos puestos por cada
insecto que eclosionan al año n+1.
14
0 100 200 300 400 500 600 700 800 900 1000-4
-2
0
2
4
6
8
t
y
2.2.1 Series de Tiempo de Origen Artificial y Natural
En la naturaleza existen sistemas que llamamos de origen natural tales como los de
tipo biológico, por ejemplo: sistemas de organismo multicelular, bioquímicos, ecológicos, etc.
Otros sistemas de origen natural son del tipo físico como los de dinámica atmosférica y
oceánica, energía solar, velocidad del viento, temperatura máxima diaria, etc. Existen también
los sistemas de origen artificial como de tipo socio-económico: tasa de desempleo, tasa de
inflación, índice de precios, índices demográficos, entre otras. Estos dos tipos de fenómenos
son estudiados en forma experimental y se puede medir una gran cantidad de información
expresada como una secuencia de datos numéricos, mismos que en la sección anterior hemos
definido como Serie de Tiempo.
Figura 2.1 Ejemplo de una Serie de Tiempo.
15
Otra forma de generar series de tiempo, es a partir del estudio de la dinámica de
sistemas que surgen de experimentos computacionales como por ejemplo los autómatas
celulares. También es posible obtener series de tiempo a partir de la solución numérica de
expresiones matemáticas de modelos físicos como en el caso del sistema de ecuaciones
diferenciales de Lorenz [2]1 o de construcciones matemáticas abstractas como el problema de
Collatz en Teoría de Números [1]. A continuación se muestra un cuadro sinóptico con la
clasificación de series de tiempo de acuerdo a su origen.
1 Edward Lorenz, meteorólogo norteamericano nacido en 1916 en West Hartford, pionero en el estudio del Caos determinista.
Series de Tiempo
Series de tipo Natural
Series de tipo Artificial
Físicas: Meteorología, Temperatura máxima diaria, Velocidad del viento, Energía Solar. Geofísica: Sismología. Económicas: Tasas de desempleo, Tasa de inflación, Índice de precios. Demográficas: Crecimiento poblacional, tasa de natalidad, Censos poblacionales. Transporte: Tráfico.
Matemático: Sistemas de ecuaciones diferenciales no lineales
Figura 2.2 Una clasificación de las series de Tiempo.
16
2.3 Predicción y predictibilidad
Antes de hablar de la predictibilidad, es preciso comentar que es predicción. De forma
general, el problema de predicción de series de tiempo se puede plantear del siguiente modo:
dado un conjunto de muestras en la serie, conocer los valores después de la última muestra, es
decir, su evolución a lo largo del tiempo. Bajo esta idea tenemos dos casos:
• Predicción en un paso de tiempo
La predicción en un paso de tiempo consiste en conocer el valor de la serie en
el instante de tiempo inmediatamente siguiente al instante actual t, a partir de
las muestras disponibles hasta dicho instante de tiempo. Es decir, conocer el
valor x(t + 1) utilizando el número de muestras anteriores x(t), x(t - 1), x(t - 2).
• Predicción en múltiples pasos de tiempo
Esta consiste en conocer el comportamiento de la serie, no únicamente en el
instante siguiente del último, sino en un futuro más lejano, concretamente en el
llamado intervalo de predicción [t + 1, t + h + 1], siendo h un número natural que
representa el horizonte de predicción. Es decir, consiste en conocer los valores
x(t + 1), x(t + 2),… y x(t + h +1) a partir de la información disponible en el
instante t.
Una vez que hemos definido predicción, es muy importante recordar cuales son los
problemas a los que nos enfrentamos al predecir una serie de tiempo:
• Como mencionamos en la introducción, los modelos actuales de predicción de
Series de Tiempo están construidos para un tipo particular de series y por tanto
no son generalizables. Además, dado que los modelos son aproximados, existe
un error en la predicción, el cual, bajo ciertos criterios no es muy aceptable.
• La dificultad de predicción depende sustancialmente del comportamiento
dinámico de las series de tiempo. Dado que, existen series que poseen
comportamientos periódicos y estables que pueden ser explicados y
predecidos utilizando modelos basados en técnicas clásicas. Sin embargo,
existen otras series más complejas, para las cuales éstas técnicas podrían ser
deficientes.
17
Ya que hemos explicado en que consiste la predicción, a continuación expondremos
que es, a lo largo de los estudios de series de tiempo, lo que se ha entendido por predictibilidad
y que características presenta.
En relación con las investigaciones realizadas en la predicción de series de tiempo, la
predictibilidad es un concepto que no ha gozado de gran interés en su estudio. En los primeros
trabajos se define como las varianzas relativas del error de predicción [1], es decir, es el error que
se tiene en la predicción dado un modelo. Este concepto ha surgido de las áreas de Estadística
y Econometría y significa que la predictibilidad se considera como dependiente del modelo y no
se le atribuye a la dinámica de la serie.
Otros ejemplos de predictibilidad en estas mismas áreas fueron desarrolladas por
Kaboudan (1998) y una variante de la misma por Duan & Povinelli (2001) las cuales la definen
como la capacidad de que un algoritmo de Programación Genética pueda generar un modelo
para una serie en particular.
En el área de Teoría de Sistemas Dinámicos no Lineales, el concepto es manejado de
forma similar a las anteriores pero la forma de medirlo es diferente. Para cuantificarlo se
considera el horizonte de predicción, es decir, la expansión que va tomando del error de
predicción a medida que transcurre el tiempo y es calculado usando el exponente de
Lyapunov4.
A diferencia de los anteriores, la predictibilidad se considera como dependiente tanto
del modelo como de la dinámica de la propia serie. Además, en la Teoría de Sistemas
Dinámicos no Lineales, la predictibilidad es considerada, junto con otras métricas, como un
conjunto de parámetros que caracterizan de forma particular a una serie de tiempo.
Otra forma de entender la predictibilidad es a través de diferentes parámetros derivados de
la Teoría de la Información: Entropía de Shannon, Entropía condicional, Información Mutua y
Funcionales de Información [1]. También se ha propuesto medidas de predictibilidad que sirven
como indicadores de la complejidad de una serie como diferentes medidas de complejidad de tipo
algorítmico como las de Kolmogorov5.
En resumen, la predictibilidad es un indicador que nos permite caracterizar a un
sistema que es representado por medio de una serie de tiempo, además, es un indicador que
estima la dificultad de una serie para ser predecida con un determinado modelo. Bajo esta idea,
la predictibilidad está en función del modelo utilizado y la dinámica de la serie. La
predictibilidad es problematizar el proceso de predicción; es decir, el estudio de los fenómenos
y herramientas que participan en el proceso de predicción.
4 Aleksandre Mikhailovich Lyapunov, matemático soviético (1857-1918). Realizó importantes trabajos sobre ecuaciones diferenciales, teoría de funciones potenciales, estabilidad de sistemas y teoría de la probabilidad. Su labor se concentró en la estabilidad del equilibrio y la rotación uniforme de un fluido. El “método Lyapunov” introducido en 1899, proporciona formas de determinar la estabilidad de sistemas de ecuaciones diferenciales. 5 Andreí Nicoláievich Kolmogorov, matemático soviético (1903-1987) Sus trabajos sobre Lógica, topología y probabilidades revolucionaron la estadística que hoy parte de su definición de la ley de azar.
18
2.4 Técnicas de predicción
La predicción de una serie de tiempo requiere la construcción de un modelo adecuado;
que se ajuste a una serie en particular cuando esto sea posible y debido a esto, no es posible
generalizar la capacidad de predicción de un modelo para que se adapte a un conjunto Series
con comportamientos muy diferentes entre sí.
Ya que en el apartado anterior hablamos de predicción, definimos predictibilidad y
establecimos que ambas tienen una estrecha relación, es oportuno finalizar este capitulo
comentando brevemente los modelos de predicción que se han utilizado en las series de
tiempo que se estudiaron en este trabajo. Y, para comenzar, a continuación mostraremos, en
un cuadro sinóptico estos modelos.
Técnicas de predicción
Estadísticas
Inteligencia Artificial
Teoría de SistemasDinámicos no Lineales
Modelos Autoregresivos
ARIMA
Perceptrón Multicapa Red Neuronal FIRNet Red Neuronal Probabilística Máquinas de Soporte Vectorial Funciones de Base Radial Árboles de decisión Autómatas Sistemas basados en conocimiento
Modelo Lineal en el Espacio de Fase Funciones Polinomiales en el Espacio de Fase K-Vecinos Cercanos
Figura 2.3. Clasificación de las técnicas de predicción.
19
2.4.1 Técnicas Estadísticas Los modelos de series de tiempo han cobrado fuerza en las últimas décadas en
aplicaciones de todo tipo. La filosofía de los modelos estadísticos se basa en el hecho de que
la gran mayoría de las series temporales, muestran una fuerte correlación con sus valores en
instantes pasados. La metodología propuesta por Box y Jenkins de la década del setenta, para
el análisis y modelado de series de tiempo, se convirtió en una de las herramientas más
difundidas cuando se cuenta con número grande de muestras. Básicamente, estos modelos
permiten hacer estimaciones de la serie, expresando el valor futuro como una combinación
lineal de los valores que tomó la serie en instantes precedentes [3].
El auge de estos modelos se ha traducido en un gran número de trabajos que utilizan
esta estructura de modelación en el pronóstico de series de tiempo. Sin embargo, los
principales problemas de estos modelos derivan del hecho de que los registros estadísticos
suelen ser de mala calidad debido a la existencia de perturbaciones en las mediciones en el
caso de series de tipo natural y además, al ser modelos estadísticos, serán tanto mejores
mientras más grande sea el registro disponible para ajustar sus parámetros.
Veremos a continuación la familia de modelos que deriva de la metodología propuesta
por Box y Jenkins conocidos como modelos autoregresivos.
Modelo autoregresivo En un modelo de series de tiempo autoregresivo de orden p , el valor real observado
de una serie tX en el instante t , es expresado como una combinación lineal de los p valores
previos del proceso, más un ruido blanco, llamada innovación y que estructura al modelo como
estocástico. Es decir, un modelo autoregresivo se compone de dos partes, una determinística,
construida como una combinación lineal de los valores recientes pasados y una estocástica
determinada por al innovación.
Denotemos a los valores que toma el proceso a intervalos de tiempo equiespaciado
, 1,...,t t t p− − por 1, 2,...,,t t t t pX X X X− − − . Sean también 1, 2,...,,t t t t pX X X X− − − las
desviaciones de dichos valores con respecto a la media μ , t tX X μ= − . Con esto escribimos:
1 21 2 ...t t t t pp tX X X Xφ φ φ ε− − −= • + • + + • + (2.2)
20
Si una serie sigue una relación como el de la expresión anterior, se dice que es un
proceso Autoregresivo de orden p (AR (p)). El factor tε es el ruido o innovación y el modelo se
construye de manera que sea ruido blanco, es decir, se impone que sea no correlacionado en
el tiempo y que se distribuya en forma normal 2(0, )N εσ en cada instante. Este modelo se
ajusta de manera que estas condiciones sobre la innovación se satisfagan.
Modelo Autoregresivo de Medias Móviles (ARMA) En un modelo autoregresivo de Medias Móviles de orden (p, q), ARMA (p, q), el valor
observado de la series tX en el instante t, no solo se expresa como una combinación lineal de
los p valores pasados, sino que además, se toma en cuenta los q ruidos o innovaciones
pasados de ésta, más la innovación tε en el instante t . Así, la formulación matemática es:
2 11 1
p q
t t ii t i ti i
X Xφ ε φ θ ε− −= =
= • + − •∑ ∑ (2.3)
Es necesario recordar que este modelo sólo es valido para series que presentan
comportamiento estacionario y periódico. Esto resulta obvio dado que, sí los parámetros del
modelo tienen un valor fijo invariante en el tiempo, las propiedades estadísticas de la serie
serán las mismas en todo instante, por lo que la serie seguirá una relación como la ecuación
anterior.
Existe un gran número de modelos dentro de la familia propuesta por Box y Jenkins
que intentan superar las limitaciones de los modelos ARMA. Se distinguen los modelos ARIMA2
diseñados para la modelación de series no estacionarias, los SARMA3 para la aplicación en
series que poseen una componente estacional, y los modelos mixtos SARIMA.
Estos modelos presentan básicamente las mismas limitaciones de los modelos ARMA
clásicos; sí bien permiten modelar la estacionalidad, siguen estando limitados por su estructura
estática en el tiempo.
2 Autoregresive Integrated Moving Averange, por siglas en íngles. 3 Stational ARMA, por sus siglas en inglés.
21
Modelo PARMA Existe un tipo adicional de modelos de predicción de series de tiempo que permiten
abordarlas con características estacionarias, evitando así, las dificultades propias de los
modelos SARIMA. Este modelo denominado PARMA4 se basa en la idea de que las
características periódicas de las series estacionarias pueden ser modeladas permitiendo que
los coeficientes del modelo ARMA, ,i iφ θ presentado en la ecuación 2.3, cambien también en
forma periódica, permitiendo así, que el modelo no sea estático en el tiempo.
En general, los modelos PARMA son los más adecuados para la modelación de series
estacionarias, permitiendo interpretar el comportamiento futuro de una serie en función de su
pasado reciente con una estructura de dependencia que cambia en el tiempo
2.4.2 Técnicas de Inteligencia Artificial Dentro de la Inteligencia Artificial, se distingue un área que en las últimas décadas han
tomado gran importancia: las Redes Neuronales Artificiales. Las neuronas artificiales, son
elementos de proceso que poseen un estado interno llamado nivel de activación y recibe
señales que le permiten cambiar de estado. Este cambio de estado esta condicionado por una
función a la cual se le denomina función de activación. Las señales que recibe cada neurona
pueden provenir del exterior o de las neuronas a las cuales está conectada.
En la figura 2.4 se muestra un modelo que representa esta idea. En este ejemplo, dos
entradas x1 y x2 son introducidas a una neurona. Cada una de estas señales se multiplica por
su peso asociado w1 y w2 para posteriormente, aplicar la sumatoria de estos elementos.
(2.4)
Esta sumatoria es, además, procesada por la función de activación, misma que
determinará la salida final del elemento de proceso. Existen modelos muy diversos de redes
neuronales en los cuales se siguen condiciones de diseño y reglas de aprendizaje. En el
4 Periodic ARMA, por sus siglas en inglés.
Figura 2.4 Esquema de una unidad de proceso típica.
1
D
i ii
y f w x b=
⎛ ⎞= +⎜ ⎟⎝ ⎠∑
22
siguiente apartado describiremos los que comúnmente se utilizan para la predicción de series
de tiempo.
Red Neuronal Multicapa hacia Adelante Este modelo neuronal llamado Perceptrón, fue introducido por Rosenblatt5 a finales de
los años cincuenta. Este es un modelo unidireccional compuesto en su forma básica por dos
capas de neuronas. La operación de este tipo de red, con n neuronas de entrada y m de salida
se expresa como sigue:
1
( ) ( ), ,1n
i ij j i ij
y t f w x i mθ=
= − ∀ ≤ ≤∑ (2.5)
Las neuronas de entrada no realizan ningún tipo de cómputo, únicamente envían la
información a las neuronas de salida como se muestra en la figura 2.3. La función de activación
de las neuronas de la capa de salida puede ser de tipo escalón, de tipo sigmoide o bien, de tipo
logística. Figura 2.6.
La importancia histórica del perceptrón radica en su carácter de dispositivo entrenable,
pues el algoritmo de aprendizaje permite determinar en forma automática los pesos sinápticos
que predicen un conjunto de patrones a partir de otros [6].
5 Frank Rosenblatt. Sicólogo Norteamericano (1928 - 1969) creador del Perceptrón que fue simulado por primera vez en una IBM 704. Este modelo supone la unión entre el Pandemoniium de Selfridge y las neuronas de McCulloch y Pitts.
Figura 2.5 Perceptrón con D entradas y M salidas.
Figura 2.6. Funciones de activación típicas en arquitecturas neuronales. A) Tangencial, B) logística
y C) escalón.
23
Partiendo de un Perceptrón monocapa y observando sus limitaciones computacionales,
se llegó a la arquitectura multicapa (figura 2.7) y aplicándolo a numerosos problemas se
comprobó experimentalmente que éste era capaz de representar complejos mappings y
abordar problemas de clasificación y predicción de gran dificultad. Esta arquitectura suele
entrenarse mediante el algoritmo denominado retropropagación de errores y es considerado un
aproximador universal de funciones.
Este algoritmo de aprendizaje es de tipo supervisado: una vez que se ha aplicado un
patrón de entrada como estímulo de la red, éste se propaga desde la primera capa hasta la
última generando una salida. Esta se compara con un patrón deseado y se calcula un error
para cada una de las salidas.
Posteriormente el error se propaga hacía atrás, partiendo de la capa de salida a través
de las capas ocultas. Este proceso se repite, capa por capa, hasta que todas las neuronas de
la red hayan recibido el error correspondiente a su contribución relativa al error total. Dado el
error recibido, se actualizan los pesos de las conexiones de cada neurona para hacer la red
converja hacía un estado que permita clasificar correctamente todos los patrones de
entrenamiento.
Red Neuronal FIRNet La red FIRNet posee una arquitectura de red neuronal multicapa en la cual cada peso
sináptico está formado por un filtro lineal FIR (Respuesta de impulso finito). Esto implica que
para una excitación de una entrada de duración finita, la salida del filtro también es de duración
finita. Figura 2.8.
Figura 2.7 Perceptrón multicapa con D entradas y M salidas.
24
Para este filtro, la salida ( )y k corresponde a una suma ponderada de los valores
pasados retardados de la entrada:
0
( ) ( ) ( )T
n
y k w n x k n=
= −∑ (2.6)
Observe que la ecuación anterior corresponde a una componente de promedio móvil de
un modelo autoregresivo (ARMA). El algoritmo de aprendizaje es una modificación del de
retropropagación; la diferencia consiste en las relaciones temporales implícitas y las
operaciones de filtrado y, debido a esto se le denomina retropropagación temporal.
Ahora bien, si deseamos modelar una serie ( )y k , para cada paso de tiempo la entrada
a la red FIR es el valor conocido ( 1)y k − y la salida $( ) [ ( 1)]qy k N y k= − que es la estimación
del valor original de la serie. Entonces, el modelo queda de la forma:
$( ) [ ( 1)] ( )qy k N y k e k= − + (2.7)
Durante el entrenamiento, el error cuadrático medio (RMS), $2 2( ) (( ( ) ( ))e k y K y K= − ,
se minimiza utilizando la retro-propagación temporal, tomando a ( )y K como repuesta
deseada. Una vez que la red es entrenada la red, la predicción, la predicción a largo plazo se
logra tomando la estimación $( )y K y alimentando ésta de regreso a la entrada de la red [6].
Figura 2.8. Red FIRNet.
25
Red Neuronal Probabilística Este tipo de red es básicamente un clasificador cuyas bases formales se encuentran en
la Teoría de Probabilidad. Fue diseñada como un algoritmo de clasificación que se entrena con
miembros de una o más clases, para posteriormente asignar nuevos elementos a las clases
conocidas. Esta red se basa en la estadística de Bayes6, lo que implica conocer la función de
densidad de probabilidad y para inferirla a partir de los datos de entrenamiento, se aplica el
método de estimación de la densidad de Parzen, el cual estima la función de densidad
univariada a partir de una muestra aleatoria, el estimador converge en forma asintótica a la
distancia verdadera conforme la muestra de daEos se incrementa.
Éste método utiliza una función de peso ( )W d llamada kernel, la cual tiene su valor
más grande en 0d = , mismo que decrece rápidamente conforme el valor absoluto de d se
incrementa. Estas funciones de peso están centradas en cada dato de entrenamiento y el valor
de cada función de la muestra de datos está determinado por su distancia d respecto del dato
muestra.
Matemáticamente la función de densidad de probabilidades para una muestra de
n datos se expresa como:
1
1( ) ( )n
i
i
x xg x Wnσ σ=
−= ∑ (2.8)
El parámetro de escalamiento define el ancho de la curva de campana que rodea a
cada muestra. La función de peso W más usada es la función Gaussiana. La arquitectura de
esta red consiste de una capa de entrada, una capa de patrones, una capa que suma las
funciones de densidad de probabilidad y una capa de salida [6].
6 Thomas Bayes. Matemático Británico (1702 - 1761) que estudio el problema de la determinación de la probabilidad de las causas a través de los efectos observados. El teorema que lleva su nombre se refiere a la probabilidad de un suceso que se presenta como suma de diversos sucesos mutuamente excluyentes [7].
26
Capa de Kernel producto interno
Support Vector Machines Las SVM son sistemas de aprendizaje introducidos por Vladimir Vapnik7 que utilizan un
espacio de hipótesis de funciones lineales en un amplio espacio de características, las cuales
son entrenadas con un algoritmo de optimización que implementa una tendencia de
aprendizaje estadístico.
Estas máquinas pueden ser aplicadas a resolver el problema de predicción de series
de tiempo mediante la siguiente representación: si tenemos una serie de tiempo
1 2{ , ,..., }NST x x x= podemos separarla en ventanas 1( ,..., )i i pw x x + −= de tamaño p. En la
figura 2.9 se muestra su arquitectura.
La característica de estos modelos, es el uso de funciones de kernel para extender la
clase de funciones de decisión al caso no lineal. Esto se hace mapeando los datos desde el
espacio de entrada X a un amplio espacio de características χ mediante una función Φ y
resolviendo el problema de aprendizaje lineal enχ. La función real Φ no necesita ser conocida,
es suficiente tener información del kernel k que calcule el producto interno en espacio de
características. Para las series de tiempo, se ha demostrado que información dentro de una
ventana puede ser obtenida de otras que son similares en términos de la distancia euclidiana
entre ellas [1].
7 Vladimir Naumovich Vapnik. Matemático Soviético pionero en la Teoría del Aprendizaje. Trabajo en el “Institute of Control Science” en Moscú de 1961 a 1990. Con su teoría de Support Vector Machina demostró su utilidad en numerosos problemas en el área de Machina Learning.
Figura 2.9 Arquitectura de una Máquina de Soporte Vectorial.
27
Funciones de Base Radial Este modelo es unidireccional empleado para aproximación de funciones que puede
considerarse de tipo híbrido porque puede implementarse tanto con aprendizaje supervisado
como no supervisado.
Como sucede en el caso de los MLP8, las RBF12 permiten modelar con relativa
facilidad sistemas no lineales, con la particularidad de que el tiempo requerido para su
entrenamiento suele ser mucho más reducido que el del BackPropagation Clásico.
Las redes de base radial se caracterizan porque están formadas por una única capa
oculta y cada neurona posee un carácter local, en el sentido de cada neurona oculta se activa
en una región diferente del espacio de patrones de entrada. Este carácter local viene dado por
el uso de las llamadas funciones de base radial como funciones de activación. Las neuronas de
la capa de salida simplemente realizan una combinación lineal de las activaciones de las
neuronas ocultas. Figura 2.10.
Las RBF y el MLP son redes de ajuste funcional muy relacionadas: ambas son
arquitecturas en capas y unidireccionales. El aprendizaje de las RBF es más rápido que el del
BP, aunque en fase de ejecución las primeras son más lentas, debido a que normalmente
precisan de un elevado número de nodos ocultos. La razón es que las neuronas intermedias de
las RBF actúan localmente, mientras que las del MLP lo hacen globalmente [8].
8 Multi-Layer Perceptron, Perceptrón Multi-Capa por sus siglas en íngles. 12 Radial Basis Function, Funciones de Base Radial por sus siglas en íngles.
Figura 2.10 Arquitectura de las Funciones de Base Radial.
28
2.4.3 Predicción en el espacio de fase. Las siguientes tres técnicas de predicción se realizan en lo que se conoce como
espacio de fase; una representación gráfica que describe la dinámica de un sistema. A
continuación explicaremos brevemente en que consiste esta idea para posteriormente describir
cómo se realiza la predicción sobre la misma.
La representación en el espacio de fase se utiliza frecuentemente en física e ingeniería
para representar la evolución de un sistema. Normalmente, la magnitud utilizada como
referencia es el tiempo y el lugar geométrico de los puntos que describen la secuencia llamada
trayectoria en un espacio vectorial de dos dimensiones. Cuando las trayectorias convergen en
el tiempo en un patrón determinado, se dice entonces que el espacio de fase es un atractor. En
la figura 2.11 se presenta un diagrama en el espacio de fase de la series de tiempo de Lorenz
[1].
El espacio de fase de una serie de tiempo se puede obtener empleando la técnica de
Delay Coordinate Embeding (DCE) que consiste en calcular para cada una de las muestras
( )x t de la serie un vector m-dimensional ( )y i dado por:
{ }( ) ( ), ( ), (1 2 ),..., ( ( 1) )y i x i x i d x D x i m d= + + + − (2.9)
donde:
i es el índice del eje temporal,
d es el retardo temporal (Time Delay) y
m es la Dimensión Embebida (Embedded Dimention).
Figura 2.11. Diagrama de fase de la serie de Lorenz.
29
Como se advierte en la figura 2.11, el espacio de fase es tan solo una trayectoria que
describe como evoluciona, a través del tiempo, el comportamiento de un sistema. El proceso
de predicción de un sistema que está representado por medio de una serie de tiempo, consiste
en estimar las trayectorias siguientes a partir de las anteriores [1]. En el capítulo 4, Análisis de
resultados, se describe el conjunto de predictores que fueron utilizados en [1] y comentaremos,
además, otras características de los mismos que nos servirán para comparar nuestros
resultados.
Modelo Lineal en el Espacio de Fase (Nstep) Este modelo de predicción consiste en asumir que es posible ajustar un modelo lineal
de carácter local para cada punto del sistema en el espacio fase para resolver la siguiente
ecuación:
1 ( )n ns f s+ = (2.10)
donde ( )nf s es una función suave no conocida. Realizando la aproximación local para esta
función mediante una expansión de Taylor es posible encontrar la solución a la expresión
anterior. El requisito que se pide en este modelo es la minimización de la varianza de los
puntos. La predicción en este caso es:
1n n n ns a s b+ = + (2.11)
El problema de minimizar la varianza se resuelve mediante un sistema de ecuaciones
lineales acopladas [1].
Modelo de Funciones Polinomiales en el Espacio de Fase (Polynomp)
En este modelo se considera la construcción de un modelo de carácter global que
ajuste los puntos del sistema mapeados en el espacio de fase. La expresión a resolver es:
2 21( ( ))n p n
ns f sσ += −∑ (2.12)
donde pf es una función no lineal en forma cerrada con p parámetros con respecto a los
cuales la expresión anterior debe ser minimizada. Es posible utilizar polinomios, funciones de
base radial, redes neuronales, polinomios octagonales, etc. Los resultados dependen de que
esta función pf sea adecuada para modelar la función no lineal desconocida y de qué tan
deterministas son los datos a modelar.
30
K-Vecinos cercanos (K-Nearest-Neighbours) La idea principal detrás de este método es predecir el valor objetivo de una nueva
observación a partir de observaciones realizadas en el pasado. La nueva observación es
comparada con todos los elementos de la base de casos. Las k observaciones pasadas más
similares son seleccionadas como referencias para el nuevo candidato. La medida de similitud
se define frecuentemente como la distancia entre las nuevas y las viejas observaciones. Los
valores objetivo de las k referencias son combinadas con un promedio simple para obtener el
valor objetivo de la nueva observación. Este método imita la habilidad humana de reaccionar a
una nueva situación con la ayuda de la experiencia pasada y pertenece a la clase de
algoritmos de aprendizaje basados en el campo de aprendizaje de máquina (Machine Learning).
En el caso de la predicción de series de tiempo, la aplicación de este método consiste
en la reconstrucción del atractor en el espacio fase para después identificar los k vecinos
cercanos que corresponden a estados similares del sistema y que pertenecen a trayectorias
cercanas a otras donde se predice el estado siguiente no conocido [1].
31
Capítulo 3
Índices de Predictibilidad
de Series de Tiempo
3.1 Introducción. 3.2 Métodos de extracción de reglas gramaticales.
3.2.1 Gramáticas Libre de Contexto. 3.2.2 Algoritmo Sequitur. 3.2.3 Algoritmo NvoGramm.
3.3 Extracción de reglas gramaticales cómo métrica de predictibilidad. 3.3.1 Índice de Predictibilidad Gramatical (algoritmo Sequitur). 3.3.2 Complejidad Gramatical (algoritmo NvoGramm).
3.4 Indicadores de predictibilidad. 3.4.1 Estadísticas. 3.4.2 Teoría de Sistemas Dinámicos no Lineales. 3.4.3 Teoría de la Información. 3.4.4 Análisis de mapas de recurrencia. 3.4.5 Teoría de la computación.
“Hacer preguntas es prueba de que se piensa”
Tagore
32
3.1 Introducción
El considerar un solo parámetro para medir la predictiblidad como el exponente de
Lyapunov o la entropía de Shannon, no proporciona información suficiente sobre la dinámica
de las series de tiempo, dadas las diferentes interacciones y relaciones entre sus variables. De
este modo, resultaría poco probable determinar si dicho parámetro es un buen indicador de
predictibilidad.
Entre más parámetros o mediciones podamos hacer a un mismo sistema, visto como
una serie de tiempo, con mayor facilidad podremos inferir estas relaciones, construir un modelo
adecuado para, finalmente, determinar su comportamiento futuro. Existen diferentes métricas
de predictibilidad que se han derivado de diferentes campos de estudio: Estadística, Teoría de
Sistemas Dinámicos no Lineales, Teoría de la Información, Análisis de Mapas de Recurrencia y
Teoría de la Computación. De esta última, se desprende el estudio de las reglas de producción
que las gramáticas libres de contexto generan.
Ésta técnica es particularmente interesante, ya que, en vez de analizar una serie bajo
un orden numérico, se realiza a través de secuencias de símbolos que se van repitiendo en
función de la dinámica del sistema, es decir, esta secuencia de símbolos llamadas
producciones, van absorbiendo el comportamiento de la serie, de forma tal, que al final
obtenemos solamente un número total de reglas en las cuales, se encuentra el comportamiento
dinámico de toda la serie.
En este capítulo, describiremos una serie de índices de predictibilidad9 tomadas de [1]
que cumple dos funciones: mostrar un panorama de todos los indicadores desarrollados hasta
el momento tomando en cuenta sus diversos orígenes y serán el punto de referencia con el
cual compararemos nuestros resultados en el capítulo siguiente. Además, en el apartado 3.3
describiremos con detalle las gramáticas libre de contexto y los métodos de extracción de
reglas gramaticales. Y, para finalizar, cual es el indicador que proporciona cada técnica.
9 En la figura 3.1 se muestra, a través de un cuadro sinóptico, un resumen de todas las métricas de predictibilidad de acuerdo a su origen.
33
I
Índices de predictibilidad
Estadística
Teoría de Sistemas Dinámicos no Lineales
Teoría de la información
Análisis de mapas de recurrencia
Teoría de la Computación
Correlación de Pearson Tiempo de correlación Exponente de Hurst
Exponente de Lyapunov Dimensión de Capacidad Dimensión de Correlación Dimensión Fractal Dimensión Embebida
Información Mutua Promedio Entropía de Shannon
Entropía Espacio-Temporal Porcentaje de Determinismo Porcentaje de Recurrencia
Complejidad relativa Complejidad gramatical
Figura 3.1. Índices de predictibilidad de acuerdo a su base teórica.
34
3.2 Métodos de Extracción de Reglas Gramaticales
A continuación definiremos formalmente el concepto de Gramáticas Libres de Contexto y
enseguida, veremos como son utilizadas por los dos algoritmos que hemos seleccionado para
nuestro estudio experimental.
3.2.1 Gramáticas Libre de Contexto Definición
Una gramática libre de contexto (GLC) es una cuádrupla ( , , , )N P SΣ donde:
• N es un conjunto finito no vacío de símbolos llamados No Terminales.
• Σ es un conjunto finito no vacío de símbolos llamados Terminales, con N ∩ Σ = ∅.
• S ∈ N, símbolo especial llamado símbolo inicial.
• P es un conjunto finito de reglas de producción de la forma β∞→ y denominada
“∞ se rescribe como β ” tal que , Pβ∞ ∈
Por convención, representaremos a los símbolos No Terminales con letras mayúsculas
y a los Terminales con minúsculas. De esta forma, una regla de la forma S xN→ significará
que el No Terminal S puede rescribirse como el Terminal x seguido por el No Terminal N .
Se dice que una gramática genera una cadena de terminales si, al comenzar con el
símbolo de inicio, se puede producir esa cadena sustituyendo sucesivamente los patrones que
se encuentran en el lado izquierdo de las reglas de producción de la gramática con las
expresiones correspondientes de la derecha, hasta que solo queden terminales. La secuencia
de pasos de este proceso se le conoce como derivación de la cadena.
A diferencia de otro tipo de gramáticas10, las gramáticas libres de contexto no tienen
restricciones con respecto a la forma del lado derecho de sus reglas de producción, se requiere
tan solo, que el lado izquierdo de cada producción tenga un solo no terminal [4].
El término “libre de contexto” refleja el hecho de que, como el lado izquierdo de cada
regla gramatical únicamente puede contener un solo No Terminal, la regla puede aplicarse sin
importar el contexto donde se encuentre dicho No Terminal. Por ejemplo, considere una regla
de producción como xNy xzy→ . Esta regla dice que el No Terminal N puede sustituirse con
el Terminal z sólo cuando esté rodeado por los Terminales x y y . Por tanto, la capacidad de
eliminar N aplicando la regla dependerá del contexto en vez de ser independiente.
10 Por ejemplo Gramáticas Regulares, Irrestricta [10].
35
Analizaremos un sencillo ejemplo que demuestra por qué este tipo de gramáticas
resulta el método idóneo como algoritmo indicador de predictibilidad. Al generar una gramática como la de la figura 3.2, el primer paso produce la cadena
zMNz , que presenta la opción de reemplazar el No Terminal M o N en el siguiente paso.
S zMNzM aMaM zN bNbN z
→→→→→
Por consiguiente, para generar la cadena zazabzbz, se puede producir la derivación
siguiendo la regla de aplicar siempre una producción al No Terminal situado más a la izquierda,
dando origen a lo que llamamos derivación por la izquierda. Figura 3.2.
S zMNz zaMaNz zazaNz zazabNbz zazabzbz⇒ ⇒ ⇒ ⇒ ⇒
También puede producirse la derivación aplicando la regla de producción al No
Terminal situado más a la derecha, que daría como resultado una derivación por la derecha.
Figura 3.3
S zMNz zMbNbz zMbzbz zaMabzbz zazabzbz⇒ ⇒ ⇒ ⇒ ⇒
Con esto hemos mostrado que el orden en que se apliquen las reglas gramaticales no
afecta en la generación de la cadena final y resulta evidente cuando reconocemos que, si una
cadena puede generarse a partir de alguna derivación, entonces puede ser generada por una
derivación por la izquierda [4].
Una vez que se ha explicado a detalle lo que son las gramáticas libre de contexto,
continuaremos describiendo dos algoritmos de extracción de reglas gramaticales que se
proponen como métricas de predictibilidad, mismos que más adelante se utilizarán para
compararlos con otras técnicas.
Figura 3.2. Gramática libre de Contexto
Figura 3.3. Derivación por la izquierda
Figura 3.4. Derivación por la derecha
36
3.2.2 Algoritmo Sequitur
Sequitur es un algoritmo que infiere la estructura jerárquica de una secuencia de
símbolos reemplazando las repeticiones encontradas por una regla gramatical llamada regla de
producción [5]. La secuencia de símbolos mostrada en la figura 3.5, es una secuencia que
contiene la cadena repetida bc. Sequitur forma una regla A → bc, que como se observa
remplaza las cadenas repetidas.
La secuencia de la figura 3.6 muestra como las reglas pueden ser reusadas en reglas
más largas.
Observe como en el ejemplo anterior es posible generar la regla A → abcdbc y
reemplazarla dos veces en la gramática S; o bien, generar en primer lugar la regla B → bc y
posteriormente introducirla en S.
La generación de las reglas tienen dos propiedades: 1) ningún par de símbolos
adyacentes, variables o terminales, aparecen más de una vez en la gramática, si esta
propiedad es violada, el algoritmo añade una nueva variable con su respectiva producción y 2)
cada regla es usada más de una vez, cuando esta propiedad no se cumple la regla es borrada.
La figura 3.7 muestra qué es lo que ocurre cuando estas dos propiedades son violadas.
Secuencia Gramática S → abcdbc S → aAdA A →bc
Figura 3.5. Secuencia con una repetición.
Secuencia Gramática S → abcdbcabcdbc S → AA A → aBdB B → bc
Figura 3.6. Secuencia con varias repeticiones
37
La primer gramática contiene dos repeticiones de bc, por lo que, la propiedad uno no se
cumple. En la segunda gramática, la regla B solo es utilizada una vez, por tanto la propiedad
dos es violada. Hasta ahora la longitud máxima de las reglas ha sido de solo dos símbolos. Las
reglas de una longitud mayor son formadas por efecto de la restricción de utilidad, con la que
se asegura que cada regla es usada más de una vez.
Este mecanismo se logra ya que si existe una regla corta y después de ésta le siguen
símbolos con los cuales sea igual una ocurrencia en cualquier otro lado, permitirá crear una
nueva regla que contenga símbolos (ya sean Terminales o No Terminales), colocándola en
lugar de estos.
En la figura 3.8 se muestra el resultado de procesar la secuencia de símbolos
abcdbcabcd. En la segunda columna muestra cómo se va leyendo la cadena de caracteres y la
tercera cómo el algoritmo va generando las reglas y de que manera resuelve la violación a las
restricciones que hemos mencionado.
Cuando SEQUITUR advierte el carácter c en el paso 6, el patrón repetido es bc; por
tanto se genera una regla A que lo reemplaza en ambas repeticiones. Notar que el hecho de
que aparezcan patrones duplicados no siempre resultará en una nueva regla. Si un nuevo
patrón aparece en el lado derecho de una regla que ya existe, entonces, no es necesario crear
otra diferente. Esto se refleja en el símbolo 9, en el que el patrón bc se vuelve a repetir. Pero,
como la regla A ya ha sido creada, ésta se vuelve a utilizar reemplazándolo nuevamente. Esto
forma el patrón aA que forma la regla B que lo reemplaza.
Hasta ahora, el lado derecho de las reglas gramaticales ha sido de dos símbolos
únicamente. Las reglas más grandes son formadas por la “regla de utilidad” que asegura que
una regla es usada más de una vez. Esto se muestra en el símbolo 10 de la figura 3.3. Cuando
d aparece en la regla S, el nuevo patrón Bd pudiera generar la regla C. Sin embargo, con la
formación de esta regla, B solo se utilizaría una vez, violando la segunda restricción de
Sequitur. Entonces se remueve B y se utiliza para formar la regla C que la contiene. Este
proceso se realiza exhaustivamente asegurando que efectivamente una regla sea utilizada más
de una vez.
Secuencia Gramática S → abcdbcabcdbc S → AA
A → abcdbc S → CC A → bc B → aA C → BdA
Figura 3.7. Dos gramáticas que violan las dos propiedades
38
Figura 3.8 Procesamiento de una cadena con el algoritmo SEQUITUR
1 a S → a_________ 2 ab S → ab________ 3 abc S → abc_______ 4 abcd S → abcd______ 5 abcdb S → abcdb_____ 6 abcdbc S → abcdbc_____ bc aparece mas de una vez S → aAdA
A → bc________ 7 abcdbca S → aAdAa
A → bc________ 8 abcdbcab S → aAdAab A → bc________ 9 abcdbcabc S → aAdAabc A → bc S → aAdAaA B → aA S → BdAB_____ 10 abcdbcabcd S → BdABd A → bc B → aA C → Bd________ S → CAC A → bc C → aAd
39
3.2.3 Algoritmo NvoGramm El algoritmo NvoGramm fue diseñado para detectar patrones significativos en cadenas
de DNA, RNA y clasificación de proteínas. Este es un algoritmo, que estima una medida de
complejidad dentro de una secuencia de símbolos. En comparación con el algoritmo Sequitur,
éste opera de manera más sencilla.
NvoGramm toma un par de símbolos consecutivos de la cadena original y lo busca de
forma exhaustiva a lo largo del resto de la cadena. Si este par se repite más de dos veces le es
asignada una regla, en caso contrario se buscarán el siguiente par. Después, toma
nuevamente dos símbolos, Terminales o No Terminales, vuelve a hacer su búsqueda y lo
asigna a otra regla si se cumple con la condición mencionada. Una vez que ha terminado de
buscar todos los pares o bien, no ha encontrado ninguno; procede a buscar conjuntos de tres
símbolos que estén repetidos al menos dos veces y nuevamente generará reglas de acuerdo a
la condición mencionada. El algoritmo seguirá aumentando en uno el conjunto de símbolos que
buscará y finalizará cuando haya terminado con todos los No terminales de la secuencia
original. Se advierte de inmediato, que las reglas que se van formando pueden ser parte de
otras reglas [11]. Para tener una mejor idea de la operación de ese algoritmo mostraremos un
ejemplo. Por comodidad, escogemos la misma cadena que utilizamos en el algoritmo anterior:
abcdbcabcd. En la figura 3.9 se detalla la explicación.
abcdbcabcd abcdbcabcd aAdAaAd BAB
El par ab es tomado y buscado a lo largo de toda la cadena y solo se repite dos veces, por tanto no es candidato. El par bc es asignado a una regla porque se repite más de dos veces. A bc→ El par aA y Ad solo se repiten dos veces. Entonces se toma la terna aAd que se repite al menos dos veces y se le asigna una regla. B aAd→ De esta manera el conjunto de reglas generadas de la secuencia original son:
S BABA bcB aAd
→→→
Figura 3.9. Generación de Reglas de producción.
40
3.3 Extracción de Reglas Gramaticales como indicador de Predictibilidad Una vez que hemos explicado la operación de los dos algoritmos que extraen reglas de
producción gramatical, a continuación, mostraremos los indicadores de predictibildad que cada
uno de ellos genera.
3.3.1 Índice de Predictibilidad Gramatical (IPG, Algoritmo Sequitur)
Como se dijo en secciones anteriores, Sequitur genera reglas gramaticales que
extraen la dinámica de una serie de tiempo. Además, este algoritmo nos proporciona el número
de reglas de producción encontradas en cada instante conforme va leyendo la cadena de
símbolos. En la figura 3.10 se muestra esta gráfica para el caso particular de la función seno de
la que se generaron 23 reglas de producción.
0
5
10
15
20
25
30
35
1 100 199 298 397 496 595 694 793 892 991
Serie1
Estas gráficas indican si la búsqueda del número de reglas de producción se estabiliza
después de cierto tiempo o no, en este último caso, significa que el algoritmo seguirá
encontrando reglas.
Número de muestras de la serie.
Figura 3.10. Gráfica de reglas de producción contra el tamaño de la muestra
41
Si trazamos una recta que se ajuste a la dinámica de la curva como se muestra en la
figura 3.10 y tomamos una pareja de puntos (número de muestras leídas, reglas encontradas),
podemos encontrar fácilmente la pendiente aproximada con la siguiente expresión∗:
m = 12
12
xxyy
−−
(3.1)
Con el valor de esta pendiente, hemos encontrado un índice de complejidad de
predicción de la serie de tiempo analizada. Por comodidad y para que el manejo de este
indicador sea más claro lo hemos multiplicado por 100 para expresarlo como un porcentaje.
Cabe señalar que, el cálculo de este índice en algunos casos, requiere del trazo de varias
rectas, dado que algunas gráficas muestran un comportamiento que no permite hacerlo con
una sola. Ahora bien, ¿por qué decimos que es un indicador de predictibilidad?. Observe que,
si la recta que hemos trazado llega en un momento determinado a ser paralela al eje y, su
pendiente tenderá al infinito, lo que habrá significado que el número de reglas de producción se
incrementa continuamente por tanto, el comportamiento posterior de la serie será poco
probable de ser predecible. Caso contrario, si la línea es paralela al eje x, entonces, el
comportamiento posterior de la serie puede ser descrito con las mismas reglas que ya se
generaron, lo cual implica que, la predicción se puede llevar acabo.
∗ En el apéndice B encontraremos un ejemplo detallado del cálculo de este índice y se mostrarán las graficas que relacionan las reglas de producción contra el número de muestras de todas las series estudiadas.
Figura 3.11. Trazo de un recta para encontrar el Índice de Predictibilidad Gramatical
y = mx + b
42
3.3.2 Complejidad Gramatical (Algoritmo NVOGRAMM)
Esta medida de complejidad propuesta por Ebeling y Jiménez-Montaño en 1980,
representa un intento por determinar el algoritmo de complejidad de una secuencia. La esencia
de este concepto es comprimir una secuencia de símbolos introduciendo nuevas variables. La
longitud de la secuencia comprimida es tomada como medida de complejidad. Sin embargo,
existen diferentes maneras de medir el tamaño de la secuencia comprimida. El conjunto de
todas las cadenas finitas formadas por los miembros del alfabeto X es llamado semigrupo libre
generado por X denotado por X*. Un lenguaje sobre un alfabeto X es cualquier subconjunto de
X*. Si p y q son símbolos de X*, entonces su concatenación pq es también miembro de X*.
Como se mencionó en apartados anteriores, una gramática libre de contexto es una 4-
tupla G = {N, T, P, S} donde: N es un conjunto finito de elementos llamados no terminales,
incluyendo en símbolo de inicio, T es un conjunto finito de símbolos llamados símbolos
terminales, P es un conjunto de pares ordenados A → q, llamados reglas de producción, tal que
q ∈ (N ∪ T) y A es un miembro de N.
Consideremos una gramática G tal que L(G) = w, el lenguaje generado por G cosiste
en la secuencia w. Estas gramáticas son llamadas descripciones de w. Entonces, la
complejidad gramatical libre de contexto esta definida como:
La complejidad de una regla de producción A → q esta definida por la estimación de la
complejidad de la palabra del lado derecho: q → a1v1… am
vm:
K(A → q) = Σ{[log vi]+1}, (3.2)
donde aj ∈ (N ∪ T), para toda j = 1,2,3,…,m. Donde [x] denota la parte integral del número real.
La complejidad K (G) de una gramática G es obtenida sumando las complejidades de las reglas
individuales. Finalmente, la complejidad de la secuencia original es:
K (w)=K (G (w)) = min {K (G) | G → w} (3.3)
43
3.4 Indicadores de Predictibilidad A continuación se enlistan algunos indicadores de predictibilidad.
3.4.1 Estadísticas Correlación de Pearson (CP). La correlación mide la relación entre las variables o un rango
de ordenes están relacionados, en particular el coeficiente de Pearson es una medida de
asociación lineal.
Tiempo de Correlación (TC). Es el intervalo de tiempo correspondiente a la correlación entre
una variable y otra variable o consigo misma.
Exponente de Hurst (EH). El exponente de Hurst permite determinar si el fenómeno
representado por la serie de tiempo presenta correlaciones de largo alcance (memoria y
persistencia de largo alcance). Si la serie de tiempo posee un comportamiento con persistencia
de tendencia positiva entonces EH > 0.5, si no hay comportamiento predecible entonces EH =
0, o bien, hay un comportamiento con persistencia de tendencia negativa si EH < 0.5.
3.4.2 Teoría de Sistemas Dinámicos no Lineales Exponente de Lyapunov (EL). El exponente de Lyapunov, mide la evolución de trayectorias
vecinas en el espacio de fase. Mide la inestabilidad de la dinámica del sistema debido a
cambios en sus condiciones iniciales.
Dimensión de Capacidad (DCA). La dimensión de capacidad mide el grado de auto-similitud
del sistema (comportamiento invariante ante cambios de escala espacial), permite cuantificar el
grado de heterogeneidad de la señal a diferentes escalas.
Dimensión de Correlación (DCO). La dimensión de correlación mide la cantidad de veces que
la trayectoria del atractor del sistema pasa por una vecindad dada en el espacio de fase,
cuantifica la correlación espacial local entre puntos de la trayectoria en el espacio de fase, sin
tomar en cuenta el grado de correlación temporal.
Dimensión Fractal (DF). La dimensión fractal mide el número de estados N del sistema
presentes en un volumen de radio R.
Dimensión Embebida (DE). Define la dimensión para la reconstrucción del espacio de fase
donde se encuentra la trayectoria de la dinámica del sistema representado por la serie de
tiempo.
44
3.4.3 Teoría de la información Información Mutua Promedio (IMP). Mide el promedio de información que poseen en común
una medición en el instante t1 respecto a una medición en el instante t2.
Entropía de Shannon (ES). La entropía de Shannon, es una medida de la cantidad de
información que se obtiene al tomar una medida para especificar el estado del sistema.
3.4.4 Análisis de Mapas de Recurrencia
Entropía Espacio-Temporal (EET). La entropía espacio-temporal, cuantifica de forma global
grado de no correlación de los datos mediante el análisis de recurrencia. A mayor porcentaje
de EET menor cantidad de estructuras en el mapa y por lo tanto menor correlación entre los
datos.
Porcentaje de Determinismo (DET). Permite medir el grado de determinismo en el sistema
por medio del análisis de mapas de recurrencia.
Porcentaje de Recurrencia (REC). Permite medir el grado de recurrencia (periodicidad y
estructura) entre los datos de la serie de tiempo. Indica la presencia de patrones repetitivos en
la serie de tiempo por medio de mapas de recurrencia.
3.4.5 Teoría de la Computación
Reglas de Producción (RP). La generación de gramáticas a partir de una serie de tiempo
permite dar una medida de complejidad (computacional) en la cual a mayor número de reglas
de producción necesarias para generar una gramática, mayor es la dificultad para la predicción
o modelado de la serie. Abundaremos más en este tema en el próximo apartado.
Complejidad Relativa LZ (CRLZ). Mide el número de nuevas subcadenas descubiertas
conforme la secuencia evoluciona de izquierda a derecha. Cada nueva subcadena incrementa
en 1 la complejidad. Esta medida esencialmente toma en cuenta las repeticiones de
subcadenas a todos los niveles estructurales tomando en cuenta no solo la dinámica de la
cadena sino también su jerarquía.
45
Capítulo 4
Procedimiento experimental y
análisis de Resultados
4.1 Introducción. 4.2 Procedimiento experimental.
4.2.1 Descripción de las series de estudio. 4.2.2 Parámetros obtenidos de los algoritmos estudiados. 4.2.3 Parámetros conocidos. 4.2.4 Primer análisis de correlación. 4.2.5 Parámetros en el espacio de fase. 4.2.6 Segundo análisis de correlación.
4.3 Análisis de resultados, comparación de metodologías y alcances.
“Hasta el más grande de los viajes empieza dando un paso”.
Benjamín Franklin
46
4.1 Introducción
Hasta el momento se han definido las técnicas de predicción en tres diferentes campos:
Estadística Clásica, Inteligencia Artificial y predicción en el Espacio de Fase. También, se ha
explicado como operan los algoritmos de extracción de reglas gramaticales y qué índices de
predictibilidad proporcionan cada uno de ellos. En este capítulo describiremos el método
experimental que se ha desarrollado, la metodología que se llevó a cabo para evaluar los dos
algoritmos de extracción de reglas gramaticales utilizados, analizaremos resultados obtenidos y
finalmente haremos una reflexión acerca de los mismos.
4.2 Procedimiento Experimental La metodología realizada para analizar los algoritmos de extracción de reglas
gramaticales es la siguiente:
1. Describiremos el conjunto de series de tiempo que fueron utilizadas.
2. Este conjunto de series se someterán a los algoritmos de extracción de reglas
gramaticales que fueron descritos en el capítulo anterior (Algoritmo Sequitur y
Algoritmo NvoGramm) y se mostraran los resultados correspondientes.
3. Se mostrarán los índices de predictibilidad que fueron tomados de [1].
4. Realizaremos un primer análisis de correlación con estos resultados.
5. Mostraremos los errores asociados con la predicción de series de tiempo en el espacio
de fase tomados de [9].
6. Se realizará un segundo análisis de correlación del índice de complejidad de predicción
y complejidad gramatical con estos últimos.
En la figura 4.1 se muestra un diagrama a bloques de la metodología propuesta.
47
Esta metodología nos permitirá observar cual es el comportamiento de los resultados que
reportan las técnicas gramaticales en función de los que se obtienen con otras técnicas para,
finalmente, corroborar si efectivamente la hipótesis planteada corresponde con lo que se
obtuvo.
Descripción de 25 Series de Tiempo,
normalizadas a 1000 datos
cada una
Extracción de parámetro que caracterizan a las Series de
tiempo
14 parámetros conocidos
Índice de Predictibilidad gramatical de Algoritmo
Sequitur(IPG)
Complejidad Gramatical del algoritmo NvoGramm
Correlación de Pearson entre todos los índices
Primer Resultado: Ortogonalidad de
parámetros
Medición del error RMSE de la predicción en
el espacio de fase.
Correlación de Pearson
entre El error RMSE y los índices de técnicas
gramaticales
Segundo Resultado:
elección de un predictor en base
al valor de correlación
Figura 4.1. Metodología propuesta para el análisis de predictibilidad de Series de Tiempo
48
4.2.1 Descripción del Conjunto Experimental de Series de Tiempo
Para realizar el análisis se seleccionaron un conjunto de 25 series. Este conjunto es
una muestra representativa de las series de tiempo utilizadas en el análisis y evaluación de
técnicas de predicción que se han reportado en la literatura especializada [1]. Son también
representativas de una clasificación básica de referencia, en este caso, en base a su
comportamiento dinámico (periódico, cuasi periódico, caótico, complejo y estocástico) y fue
propuesta originalmente por Figueroa-Nazuno et. al. en diversas publicaciones [1]. Es
importante señalar que este conjunto de series fue estandarizado a los primeros 1000 datos. A
continuación se describe cada una de las series estudiadas en esta tesis.
1. Serie Seno. Serie Periódica de diez ciclos generada por la función: ( ) ( )f x seno x=
Figura 4.2. Serie Seno.
49
2. Vanderpol: Serie periódica generada por la ecuación diferencial que es un modelo de un circuito oscilador de un tubo de vacío. Su ecuación es de la forma:
2
2 22 ( ) 0d y dyy y
dt dtη ω+ − + =
3. Serie Qperiodic2. Serie cuasi-periódica obtenida de la medición de una variable de
velocidad (cm/s) en un experimento anular para reproducir un flujo de Coutte (Reológía). Nota:
las condiciones experimentales no se proporcionan en la literatura.
Figura 4.3. Serie Vanderpol.
Figura 4.4. Serie Qperiodic2.
50
4. Serie Qperiodic3. Serie cuasi-periódica obtenida de la medición de una variable de
velocidad (cm/s) en un experimento anular para reproducir un flujo de Coutte (Reológía). Nota:
las condiciones experimentales no se proporcionan en la literatura.
5. Mackey-Glass. Serie caótica generada por una ecuación diferencial de retardo temporal:
modelo de formación de células sanguíneas blancas (linfoncitos). La ecuación es de la forma:
10
( )( )1 [ ( )]
dx ax tbx tdt x t
ττ
−= − +
+ −
Figura 4.5. Serie Qperiodic3.
Figura 4.6. Serie Mackey-Glass.
51
6. Logistic. Serie Caótica generada por un mapa: este mapa se puede pensar como un
modelo ecológico de las variaciones anuales de insectos. Su expresión matemática es:
1 (1 )n n nx rx x+ = −
donde n = año, x= Número de insectos que nacen y r número de huevos puestos por cada
insecto que eclosionan al año n+1.
7. Lorenz. Serie caótica generada por un sistema de ecuaciones diferenciales: modelo de
convección de fluidos (convección Rayleigh-Benard) la cual se presenta en la
atmósfera terrestre. El sistema de ecuaciones es de la forma:
dX X YdtdY XZ rX YdtdZ XY bZdt
σ σ= − +
= − + −
= −
%
%
donde σ , r% , b% son parámetros adimensionales, X es proporcional a la velocidad del flujo de
fluido circulatorio, Y caracteriza la diferencia de temperatura entre regiones de fluido
ascendentes y descendentes y Z caracteriza la distorsión del perfil de temperatura vertical con
respecto de su variación de equilibrio.
Figura 4.7. Serie Logistic.
52
8. Rossler. Series caótica generada por un sistema de ecuaciones diferenciales: modelo
simplificado de Lorenz; el sistema de ecuaciones tiene la forma:
( )
0.2
0.4 5.7
x y z
y x y
z xz z
= − +
= +
= + −
9. Ikeda. Serie caótica generada por un mapa: modelo de la dinámica de pulsos de luz que
viajan a través de un medio no lineal. La expresión matemática es como sigue:
2
( 1) *exp( ( ))(1 ( ) )
pz n a R iz n
φ+ = + −+
donde ( )z n representa al pulso que viaja a través de dicho medio.
Figura 4.8. Serie Lorenz.
Figura 4.9. Serie Roosler.
53
10. Henon. Serie caótica generada por un mapa. Modelo simplificado del mapa de Poincaré
para el modelo de Lorenz. La expresión matemática es de la forma:
2
1.40.3
( 1) 1 * ( ) ( )( 1) * ( )
abx n a x n y ny n b x n
==
+ = − ++ =
11. Cantor. Serie caótica generada por el conjunto de Cantor (teoría de conjuntos), el cual es
un conjunto cerrado que consiste enteramente de puntos de frontera cada uno de los cuales es
un punto límite de dicho conjunto [1].
Figura 4.10. Serie Ikeda.
Figura 4.11. Serie Henon.
54
12. D1 (Concurso Santa Fe). Serie compleja generada por el modelo de la dinámica de una
partícula amortiguada en un potencial de interacción. El potencial de interacción es de la forma:
( ) 122 2 2 2 2 2
4 1 2 3 4 2 1 2 1 1( * ) *V a x x x x a x x a x= + + + − −
La fuerza se expresa como:
( )* *F A Sen w t=
en la dirección 3x y la disipación es igual a:
*disipación velocidadγ= − . El valor de 1a tiene un pequeño desplazamiento producido por
la integración de una variable aleatoria Gaussiana. El observable que se obtiene es:
( ) ( )2 2 2 21 2 3 40.3 0.3x x x x− + − + +
Figura 4.12. Serie Cantor.
55
13. Láser (Concurso Santa Fe). Serie compleja obtenida a partir de mediciones experimentales
de la intensidad de pulsos de láser NH3 infrarrojo lejano. Condiciones de la frecuencia:
frecuencia serie láser ≥ 3*frecuencia serie A1 [1].
Figura 4.13. Serie D1.
Figura 4.14. Serie Láser.
56
14. Dow Jones. Serie compleja obtenida a partir del Índice Dow Jones del NYSE
(New York Stock Exchange).
15. Kobe. Serie compleja obtenida a partir de un acelerograma del sismo de Kobe del 16 de
enero de 1995.
Figura 4.15. Serie Dow Jones.
Figura 4.16. Serie Kobe.
57
16. El niño. Serie compleja obtenida a partir de la medición experimental de la dinámica de una
variable del fenómeno climático del El niño.
17. HIVDNA. Serie compleja obtenida a partir del código del DNA del virus de
Inmunodeficiencia Humana HIV (1=A, 2=C, 3=G, 4=T).
Figura 4.17. Serie El niño.
Figura 4.18. Serie HIVDNA.
58
18. Human DNA. Serie compleja obtenida a partir del código del DNA humano.
19. Lovaina (Concurso Universidad Lovaina). Serie compleja generada a partir de datos en
formato ASCII.
Figura 4.19. Serie Human DNA.
Figura 4.20. Serie Lovaina.
59
20. Plasma. Serie compleja generada a partir de la medición de una variable de un
experimento con plasma.
21. PRIMOS. Serie compleja generada a partir de la generación de números primos.
0 100 200 300 400 500 600 700 800 900 10000
5
10
15
20
25
30
35
22. S&P500. Serie compleja obtenida a partir del Índice financiero de Standard & Pool para las
500 empresas más importantes de la bolsa de valores de Nueva York.
Figura 4.21. Serie Plasma.
Figura 4.22. Serie Primos.
60
0 100 200 300 400 500 600 700 800 900 1000-3
-2
-1
0
1
2
3
4
23. Star. Serie compleja obtenida a partir de la medición de la intensidad luminosa de una
estrella variable.
0 100 200 300 400 500 600 700 800 900 1000-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
24. Browian Motion. Serie estocástica generada a partir del modelado del movimiento
browiano (proceso de ruido blanco integrado).
Figura 4.23. Serie S&P500.
Figura 4.24. Serie Star.
61
0 100 200 300 400 500 600 700 800 900 1000-4
-2
0
2
4
6
8
25. White noise. Serie estocástica generada a partir del modelado de proceso de ruido blanco
(ruido aleatorio uniforme).
0 100 200 300 400 500 600 700 800 900 10000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Figura 4.25. Serie Browian Motion.
Figura 4.26. Serie White Noise.
62
4.2.2 Parámetros obtenidos de los algoritmos estudiados A continuación se muestran las tablas con los resultados obtenidos de los algoritmos
Sequitur y NvoGramm de extracción de reglas gramaticales. En la figura 4.30 encontraremos
los resultados obtenidos con el algoritmo Sequitur: ICP y número de reglas. La figura 4.31
muestra los correspondientes al algoritmo NvoGramm: complejidad gramatical.
Serie de tiempo
Número de
Reglas
IPG (%)
Browian motion 84 20.0 Cantor 11 10.0 D1 91 60.6 Dow jones 64 50.4 El niño 82 60.6 Henon 68 30.6 Hivdna 72 50.5 Humandna 50 40.2 Ikeda 8 10.0 Kobe 78 40.5 Laser 65 40.0 Logistic 60 50.0 Lorenz 60 14.2 Lovaina 79 23.0 Mackey glass 74 17.0 Plasma 90 36.0 Primos 76 28.0 Qperiodic2 65 37.0 Qperiodic3 74 19.0 Rossler 71 27.0 S&p500 82 21.0 Sine 26 25.0 Star 89 34.0 Vanderpol 27 15.0 whitenoise 72 37.0
Figura 4.27. Tabla de Número de reglas de producción e IPG del algoritmo Sequitur.
63
4.2.3 Parámetros conocidos
En la figura 4.32 se muestra la lista de parámetros, derivados de las técnicas de
Sistemas Dinámicos no Lineales, con los cuales haremos el análisis de correlación.
Serie de tiempo
Complejidad Gramatical
Browian motion 649 Cantor 806 D1 711 Dow jones 554 El niño 674 Henon 507 Hivdna 466 Humandna 435 Ikeda 335 Kobe 776 Laser 661 Logistic 381 Lorenz 416 Lovaina 650 Mackey glass 782 Plasma 668 Primos 600 Qperiodic2 532 Qperiodic3 676 Rossler 596 S&p500 746 Sine 170 star 777 Vanderpol 342 whitenoise 934
Figura 4.28.Tabla de complejidad gramatical del algoritmo NvoGramm.
64
Seri
e d
e T
iem
po
Exp
onen
te d
e L
yapu
nov
Dim
ensi
ón d
e co
rrel
ació
n
Dim
ensi
ón d
e ca
paci
dad
Dim
ensi
ón
frac
tal
Dim
ensi
ón
embe
bida
Ent
ropí
a es
paci
o te
mpo
ral
(%)
Rec
urre
ncia
Browian motion
2.043 1.103 0.907 2.78 5 0 11.77
Cantor 5.728 0.658 0.661 0 5 84 2.193 D1 1.288 2.053 0.986 1.05 7 39 3.30 Dow jones 0.144 1.035 0.887 2.31 12 2 98.85 El niño 2.322 1.637 0.971 2.59 9 65 0.32 Henon 2.301 0.991 0.997 1.67 2 51 9.43 Hivdna 0.00 5.017 0.953 0.00 8 0 0.004 Humandna 0.322 1.037 0.983 0.55 12 0 24.915 Ikeda 1.452 1.019 0.983 4.14 5 53 0.548 Kobe 1.102 1.053 0.904 1.8 6 78 57.046 Laser 0.949 2.096 0.961 1.94 9 47 10.71 Logistic 0.76 0.93 0.941 1.28 2 78 8.61 Lorenz 0.601 1.025 0.965 1.44 5 57 32.88 Lovaina 1.069 1.027 0.958 2.39 5 47 0.547 Mackey glass 1.481 1.025 0.983 2.25 7 50 0.510 Plasma 3.383 0.967 0.821 0.52 10 81 1.683
Primos 0.594 3.55 0.044 0.79 3 80 9.705
Qperiodic2 0.925 0.923 0.679 1.1 5 0 16.13 Qperiodic3 1.383 0.96 0.605 2.76 5 0 16.13 Rossler 1.049 1.026 0.994 1.82 2 0 6.38 S&p500 3.569 1.0260 0.859 0.6 3 87 20.86 Sine 0.517 0.228 0.246 0.85 2 0 19.55 star 3.289 1.144 0.963 3.39 7 53 16.43 Vanderpol 1.864 0.984 0.989 1.14 2 0 7.82 whitenoise 1.606 2.086 0.983 6.09 10 79 0
Figura 4.29 .Medición de las características de las Series de Tiempo (1).
65
Seri
e d
e T
iem
po
Det
erm
inis
mo
Ent
ropí
a de
sh
anno
n
info
rmac
ión
mut
ua p
rom
edio
Frec
uenc
ia
dom
inan
te
Com
plej
idad
re
lativ
a L
Z
Exp
onen
te d
e H
urst
Cor
rela
ción
de
Pear
son
Browian motion
62.19 3.71 23 0 0.169 0.537 0.991
Cantor 0 0 1 0.421 1.056 0.0008 -0-023 D1 60.22 0.852 7 0 0.229 0.312 0.960 Dow jones 98.88 6.43 26 0 0.199 0.563 0.995 El niño 44.212 3.52 8 0 0.209 0.447 0.982 Henon 0.637 0.020 17 0.460 0.637 -0.033 -0.32 Hivdna 31.33 1 4 0 0.807 0.0013 0.005 Humandna 98.24 7.28 20 0 0.049 0.5624 0.998 Ikeda 0.00 0 6 0.323 0.787 -0-019 -0.244 Kobe 44.36 3.74 2 0.225 0.787 0.015 0.493 Laser 71.46 2.93 2 0.130 0.378 0.087 0.531 Logistic 0.851 0.035 9 0.397 0.717 -0.059 -0.514 Lorenz 92.06 4.78 17 0.0005 0.179 0.755 0.998 Lovaina 69.79 5.57 9 0 0.308 0.509 0.986 Mackey glass 37.51 0.159 4 0.0685 0.478 0.0781 0.852 Plasma 0.748 2.86 3 0.0795 0.976 0.061 0.400 Primos 0.412 1.29 3 0.499 0.976 -0.009 -0.0622 Qperiodic2 97.76 2.44 18 0.13 0.149 0.0015 0.997 Qperiodic3 36.73 4.23 6 0.447 0.438 -0.007 0.942 Rossler 88.04 2.45 13 0.017 0.169 0.561 0.993 S&p500 4.38 2.58 2 0.035 1.036 0.0146 0.158 Sine 62.19 3.71 3 0.0005 0.059 0.94 0.999 star 11.137 3.102 13 0.0185 0.587 0.164 0.879 Vanderpol 66.35 4.98 7 0.112 0.079 0.496 0.968 whitenoise 0 0 1 0 1.066 0.00179 0.0315
Figura 4.30 .Medición de las características de las Series de Tiempo (2).
66
4.2.4 Primer análisis de correlación.
Para tener una idea de la relación que existe entre las variables de la tabla 4.32 con las
que hemos obtenido de los algoritmos de extracción de reglas gramaticales, recurrimos al
Análisis de Correlación Bivariada. En el apéndice A se describe a detalle en qué consiste este
análisis. En la figura 4.24 se muestran los resultados.
Variables Reglas de Producción ICP Complejidad
Gramatical
Exponente de lyapunov -0.0003 0.0149 0.4357(*)
Dimensión de correlación 0.2957 0.2565 0.0567
Dimensión Capacidad 0.0980 0.1433 0.2478
Dimensión Fractal 0.1170 0.0884 0.4666(*)
Dimensión Embebida 0.2482 0.3905(*) 0.3279
Entropía Espacio-Temporal 0.1090 0.1337 0.4539(*)
Recurrencia -0.0351 -0.0483 -0.1432
Determinismo -0.1186 -0.1020 -0.3451
Entropía de Shannon -0.0164 0.0002 -0.3265
Información Mutua Promedio -0.0267 0.0649 -0.2009
Frecuencia Dominante -0.1853 -0.1883 0.0188
Complejidad Relativa LZ 0.1328 0.1368 0.4709(*)
Exponente de Hurst 0.4093(*) 0.3551 -0.1587
Correlación de Pearson 0.4134(*) 0.3561 -0.2321
Reglas de Producción 1.0000 0.9516(**) 0.3771
ICP 1.0000 0.4401(*)
Complejidad Gramatical 1.0000
Figura 4.31. Tabla del primer análisis de correlación entre los datos de las técnicas de predicción y los datos de los algoritmos estudiados.
67
En la tabla anterior podemos observar que algunos valores están marcados con uno o
dos asteriscos; esto indica el grado de independencia de unas variables con otras. Esto es,
vemos que las reglas de producción tiene un grado significativo de correlación con la
Correlación de Pearson y el Exponente de Hurst, lo que indica que, la información que
proporciona las Reglas de Producción puede ser la misma que las otras dos. En cambio, con el
resto de las variables, no existe tal correlación, lo que implica que son ortogonales, es decir,
existe nueva información que las demás no tienen.
Se observa también, que el Índice de Complejidad de Predicción (ICP) está
correlacionada con las Reglas de Producción y con la Dimensión Embebida y es ortogonal al
resto. Finalmente, podemos apreciar que la Complejidad Gramatical está correlacionada con el
ICP, Complejidad Relativa LZ, Entropía Espacio-Temporal, Dimensión Fractal y el Exponente
de Lyapunov. Más adelante abundaremos más acerca de estos resultados y lo que significa;
por lo pronto, daremos paso, al segundo análisis de correlación realizado.
4.2.5 Parámetros en el Espacio de Fase.
Como se mencionó en el Capítulo 2, la predicción en el espacio de fase consiste en
estimar las trayectorias que describe el comportamiento de un sistema. Como es de esperar,
esta técnica de predicción no está exenta de presentar errores. Pues bien, en este segundo
análisis de correlación, mediremos la relación que existe entre los resultados obtenidos de los
algoritmos de extracción de reglas gramaticales con los errores derivados de la predicción en el
espacio de fase que se hizo en [6] con el mismo conjunto de series de tiempo.
Estos errores fueron obtenidos utilizando cuatro predictores, diferentes funciones de
base radial y diferentes tipos de distancias. En la figura 4.34 se muestran estas características.
Predictores empleados ☞ Nearest Neighbor
☞ Locally Constant
☞ Radial Basis ☞ Locally Linear
Funciones de Base Radial empleadas ☞ Linear
☞ Cubic
☞ Thin Plate Spline ☞ Guasssian ☞ Multicuadric
Distancias empleadas ☞ Euclidean
☞ Manhattan
☞ Max Norm ☞ Distancia by Cosine ☞ Distance by
Correlation
Figura 4.32. Relación de Predictores, Funciones de Base Radial y Distancias empleadas en el cálculo de errores de
predicción en el espacio de fase.
68
En [9] se realiza una combinación de todos estos elementos, dando como resultado el
error de predicción en el espacio de fase de cada una de estas combinaciones. Por ejemplo, se
combina el predictor Nearest Neighbor con la función de base radial llamada Linear y con una
distancia Euclidean, posteriormente se hace la medición del error con el mismo predictor pero
con Cubic como función de base radial y con distancia Euclidean, y así sucesivamente. Para
identificar cada una de estas combinaciones, se mostrará una tabla donde se exhiben cada una
de ellas. Figura 4.35.
4.2.6 Segundo análisis de Correlación
En este segundo análisis, correlacionaremos los resultados obtenidos de los algoritmos
de extracción de reglas gramaticales con los errores obtenidos al realizar la predicción en el
espacio de fase. En la figura 4.36 se muestra la correlación realizada de los algoritmos
estudiados con el error que se obtiene de un predictor de referencia y, en la figura 4.37,
mostramos la correlación con el RMSE que se obtuvo.
Thin Plate Spline Cubic Multicuadric Linear
Euclidean A
Manhattan Block B Max Norm C
By Cosine D
By Correlation E
Euclidean F
Manhattan Block G Max Norm H
By Cosine I
By Correlation J
Euclidean P
Manhattan Block Q Max Norm R
By Cosine S
By Correlation T
Euclidean K
Manhattan Block L Max Norm M
By Cosine N
By Correlation O
Euclidean Z
Manhattan Block AA Max Norm BB
By Cosine CC
By Correlation DD
Nearest Neighbor Euclidean EE
Manhattan Block FF Max Norm GG
By Cosine HH
By Correlation II
Euclidean JJ
Manhattan Block KK Max Norm LL
By Cosine MM
By Correlation NN
Locally Linear Locally Constant
Predictor RBF Distancia Identificador
Euclidean U Manhattan Block V Max Norm W By Cosine X By Correlation Y
RADIAL BASIS
69
Reglas de
Producción ICP Complejidad Gramatical
Reglas de Producción 1 IPG 0.952(**) 1 Complejidad Gramatical 0.377 0.440(*) 1 A -0.294 -0.369 -0.529(**) B -0.294 -0.368 -0.529(**) C -0.294 -0.368 -0.529(**) D -0.294 -0.368 -0.528(**) E 0.004 0.044 -0.134 F -0.294 -0.368 -0.529(**) G -0.074 0.002 -0.187 H -0.294 -0.368 -0.529(**) I -0.085 -0.018 -0.190 J -0.108 -0.039 -0.239 K -0.204 -0.299 -0.331 L 0.126 0.058 0.191 M -0.255 -0.250 -0.196 N 0.095 0.068 0.072 O -0.286 -0.395(*) -0.324 P -0.046 0.092 0.142 Q -0.088 0.068 0.172 R -0.104 0.059 0.131 T 0.069 -0.004 -0.023 U -0.098 -0.024 -0.213 V -0.098 -0.023 -0.212 W -0.294 -0.368 -0.529(**) X 0.018 0.049 -0.106 Y -0.102 -0.027 -0.214 Z 0.221 0.216 0.190 AA 0.260 0.299 0.219 BB -0.294 -0.368 -0.575(**) CC 0.023 0.047 -0.122 DD -0.074 0.004 -0.200 EE -0.097 -0.023 -0.247 FF -0.095 -0.022 -0.247 GG -0.099 -0.025 -0.243 HH -0.097 -0.023 -0.385 II -0.117 -0.045 -0.328 JJ -0.203 -0.136 -0.462(*) KK -0.178 -0.112 -0.474(*) LL -0.587(*) -0.585(*) 0.280 MM -0.174 -0.112 -0.487(*) NN -0.188 -0.069 -0.434
Figura 4.34. Correlación con los errores RMSE en el espacio de fase.
70
4.3 Análisis de Resultados, comparación de metodologías y alcances.
Como hemos podido observar, el análisis de correlación nos permite determinar el grado
de asociación entre dos o más variables. En el caso del primer análisis de correlación, en la
figura 4.33 vemos por ejemplo que la Complejidad Gramatical que se deriva del algoritmo
NvoGramm tiene una correlación alta con el Exponente de Lyapunov, la Dimensión Fractal,
Entropía Espacio-Temporal, Complejidad Relativa LZ y como era de esperarse con el ICP. Esto
quiere decir que la información que el algoritmo extrae de la serie de tiempo no es nueva ya
que, un incremento de cualquiera de estos indicadores, exige un incremento de la complejidad
gramatical y viceversa. No así en el caso de los parámetros restantes, donde la Complejidad
Gramatical es ortogonal a todos ellos. Lo mismo ocurre con el ICP y las Reglas de Producción.
Esta situación nos siguiere, que sí todos los parámetros conocidos son indicadores de
predictibilidad y la Complejidad Gramatical es ortogonal a ellos, entonces ésta última también
es un índice de predictibilidad ya que se obtiene información nueva, información que no poseen
el resto de los parámetros. Además, con esta información podemos calcular el Coeficiente de
Complejidad de Predicción (CCOP) y las Métricas de Predictibilidad (CDP1 y CDP2) que
sugiere [1], esperando mejorar la predictibilidad y en consecuencia el proceso de predicción.
Para el caso del segundo análisis de correlación, cuyos resultados se muestran en la
figura 4.32 y 4.33, vemos que en la primera, la complejidad gramatical presenta una correlación
alta con los predictores A, B, C, D, F, H, W, AA, JJ, KK y MM pero en forma negativa. Esto
significa que si una Serie de Tiempo que es sometida al algoritmo NvoGramm presenta un
valor muy alto de Complejidad, el error de predicción en el espacio de fase utilizando estos
predictores será muy pequeño. Lo mismo ocurre para el indicador ICP con los predictores O y
LL, y para la Reglas de Producción con el predictor LL.
En [1] se propone una metodología para el estudio de la predictibilidad que incluye:
☞ Cálculo de 14 parámetros ortogonales y
☞ Teniendo lo anterior, se determinan 3 métricas utilizando parámetros libres
conocidas como CCOP, CDP1 y CDP2.
71
En comparación con nuestra metodología, solamente tenemos que determinar el Índice
den Complejidad Gramatical (IPG) que se deriva del algoritmo Sequitur y la Complejidad
gramatical del algoritmo NvoGramm. Esto nos lleva a presentar las siguientes ventajas:
☞ Menos costo computacional.
☞ Más rápido.
☞ Permite determinar la elección de algún predictor.
En cuanto a los alcances del método, basta decir que si queremos utilizar este método
con una Serie distinta al conjunto que hemos descrito, tenemos que acotarla a los primeros
1000 puntos para que sea congruente con los experimentos realizados y, de esta manera
garantizar que los resultados sean confiables.
72
Capítulo 5
Contribuciones, Conclusiones
y líneas de
trabajo futuro
5.1 Contribuciones.
5.2 Conclusiones.
5.3 Líneas de trabajo futuro.
“No hay cosas sin interés, tan solo personas incapaces de interesarse. El que no posea el don de maravillarse, más le valdría estar muerto, porque sus ojos están cerrados”.
Albert Einstein
73
5.1 Contribuciones
Enumeraremos a continuación las contribuciones de este trabajo de investigación:
☞ Una metodología para estudiar la predictibilidad de Series de Tiempo de forma
rápida en comparación a al metodología propuesta por [1].
☞ Demostración de dos procedimientos diferentes que permiten extraer la
complejidad de una Serie de Tiempo basado en Análisis Gramatical.
☞ Se demuestra que estos dos procedimientos tienen correlación muy alta entre sí.
☞ Demostración experimental de que otras técnicas de medición de las
características de las Series de Tiempo, no son buenos indicadores de
predictibilidad.
☞ Se demuestra la relación que existe entre la complejidad de una técnica gramatical
con dos diferentes métodos de predictibilidad.
5.2 Conclusiones
En la actualidad existe un gran esfuerzo en tratar de analizar las series de tiempo por
métodos no convencionales, ya que para muchos sistemas no se han encontrado los modelos
matemáticos que garanticen una predicción suficientemente confiable, siendo la serie de
tiempo la única información con que se cuenta para tratar de comprender el comportamiento de
tales sistemas
En el presente trabajo de tesis, se desarrolló un estudio experimental sobre la
predictibilidad de series de tiempo utilizando algoritmos que extraen reglas de producción
gramatical a partir de una secuencia de símbolos que representa la dinámica de un sistema.
Para llevarlo a cabo, fue necesario el estudio de dos algoritmos que fueron diseñados para
comprimir información, detectar patrones significativos en cadenas de DNA, RNA y clasificación
de proteínas.
74
Las conclusiones que se derivan de este trabajo son:
☞ Se confirma estadísticamente la hipótesis de que el análisis con el algoritmo
Sequitur nos da un indicador de predictibilidad.
☞ Se demostró que las técnicas de análisis gramatical son ortogonales a algunas
técnicas que existen ara caracterizar las Series de Tiempo.
☞ Se demostró que las dos técnicas de análisis gramatical son diferentes pero miden
la mismo.
☞ Se demuestra como los resultados, derivados por las dos técnicas, pueden ser
usados como indicadores de predictibilidad en el sentido de cantidad de reglas de
producción que presenta una serie.
☞ Se demuestra que la técnica NvoGramm, cuando se compara con medidas
específicas de técnicas de predicción, puede proporcionar reglas en cuanto al uso
de alguna técnica de predicción en particular. 5.3 Líneas de trabajo futuro
A continuación, se enlistan algunas líneas futuras para trabajos relacionados con el
presente.
☞ Elaboración de una herramienta que permita obtener distintos parámetros para
evaluar la predictibilidad de Series de Tiempo.
☞ Emplear los índices de predictibilidad descritos como criterio de selección del
predictor a emplear.
☞ Evaluar si estos índices de predictibilidad pueden ser también empleados como
entradas de un predictor.
☞ Verificar si el uso de estos índices de predictibilidad mejoran las métricas de
predictibilidad CDP1 y CDP2 que propone [1].
75
Apéndice A Teoría de Correlación
En este apéndice se mostrará en qué consiste la correlación. Se considerará el
problema de medir la relación entre las dos variables y . Por ejemplo, si y
representan la longitud y la circunferencia de una clase particular de hueso en el cuerpo de un
adulto, se podría llevar a cabo un estudio antropológico para determinar si valores grandes de
se asocian con valores grandes de y viceversa. Por otro lado, si X representa la
antigüedad de un automóvil usado y Y su valor en libros, se esperaría que valores grandes de
X correspondieran a valores pequeños de Y y que pequeños valores de X correspondieran
a valores grandes de Y . El análisis de correlación intenta medir la fuerza de tales relaciones
entre dos variables por medio de un simple número que recibe el nombre de coeficiente de correlación.
En teoría se supone con frecuencia que distribución condicional ( | )f x y de Y , para
valores fijos de X , es normal con la media Yμ y la varianza 2Yσ y que, de la misma manera,
X tiene distribución normal con media Xμ y con variancia 2Xσ . La densidad conjunta de X
y Y es entonces:
221 1 ( )( | ) exp
2 2X
X X
xy xf x y μα βπσ σ σ σ
⎧ ⎫⎡ ⎤⎛ ⎞−− +⎪ ⎪⎛ ⎞ ⎛ ⎞⎢ ⎥= − +⎨ ⎬⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎢ ⎥⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭
para x−∞ < < ∞ y y−∞ < < ∞ .
Escribimos la variable aleatoria Y en la forma:
Y X Eα β= + +
donde X es ahora una variable aleatoria independiente del error aleatorio E . Dado que la
media del error aleatorio E es 0, se sigue,
Y Xμ α βμ= +
y
2 2 2 2Y Xσ σ β σ= + .
76
Al sustituir α y 2σ en la expresión anterior para ( | )f x y , se obtiene la distribución normal
bivariada,
2 2
22
1 1( , ) exp 22(1 )2 1
X X Y Y
X X Y YX Y
x x y yf x y μ μ μ μρρ σ σ σ σπσ σ ρ
⎧ ⎫⎡ ⎤⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞− − − −⎪ ⎪⎢ ⎥= − − +⎨ ⎬⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟− ⎢ ⎥− ⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭ para x−∞ < < ∞ y y−∞ < < ∞ , donde
222 2
2 21 X
Y Y
σσρ βσ σ
= − =
La constante σ (rho) recibe el nombre de coeficiente de correlación y juega un
papel muy importante en muchos problemas de análisis de datos de dos a más variables. Es
importante entender la interpretación física de este coeficiente de correlación. Un valor de σ
igual a 1+ implica una relación lineal perfecta con una pendiente positiva, mientras que un
valor de σ igual que 1− resulta de una relación lineal perfecta con una pendiente negativa. Se
podría decir que estimaciones muestrales de σ cercanas a la unidad en magnitud implican
buena correlación o asociación lineal entre X y Y , mientras que valores cercanos a cero
indican poca o ninguna correlación.
77
Apéndice B Cálculo del Índice de Predictibilidad Gramatical (IPG).
Como se menciona en el capítulo 3, el algoritmo Sequitur genera reglas gramaticales
que extraen la dinámica de la serie de tiempo y proporciona el número de ellas que va
formando conforme va leyendo la cadena de símbolos. Si graficamos estas dos variables
(número de reglas encontradas contra la cantidad de símbolos), obtendremos una curva que
indica si la búsqueda del número de reglas de producción se estabiliza después de cierto
número de símbolos o no, en este último caso, significa que el algoritmo seguirá encontrando
nuevas reglas. A continuación mostraremos las curvas correspondientes a cada serie de
tiempo que fueron estudiadas.
0 100 200 300 400 500 600 700 800 900 10000
5
10
15
20
25
30
Cantiadad de Símbolos
Núm
ero
de re
glas
Figura B.1. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Seno.
78
0 100 200 300 400 500 600 700 800 900 1000
0
5
10
15
20
25
30
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 10000
10
20
30
40
50
60
70
Cantiadad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 10000
10
20
30
40
50
60
70
80
Cantidad de Símbolos
Npu
mer
o de
Reg
las
Figura B.2. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Vanderpol.
Figura B.3. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Qperiodic2.
Figura B.4. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Mackey-Glass.
79
0 100 200 300 400 500 600 700 800 900 10000
10
20
30
40
50
60
70
Cantiadad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
2
4
6
8
10
12
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
Cantidad de Símbolos
Núm
ero
de R
egla
s
Figura B.6. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Lorenz.
Figura B.5. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Logistic.
Figura B.7. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Rossler.
80
0 100 200 300 400 500 600 700 800 900 1000
0
1
2
3
4
5
6
7
8
9
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
2
4
6
8
10
12
Cantidad de Símbolos
Núm
ero
de R
egla
s
Figura B.8. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Ikeda.
Figura B.9. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Henon.
Figura B.10. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Cantor.
81
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
90
100
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
Cantidad de Símbolos
Núm
ero
de R
egla
s
Figura B.11. Número de reglas de producción encontradas contra la cantidad de muestras de la serie D1.
Figura B.12. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Laser.
Figura B.13. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Dow Jones.
82
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
90
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
Cantidad de Símbolos
Núm
ero
de R
egla
s
Figura B.14. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Kobe.
Figura B.15. Número de reglas de producción encontradas contra la cantidad de muestras de la serie El Niño.
Figura B.16. Número de reglas de producción encontradas contra la cantidad de muestras de la serie HIVDNA.
83
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
Cantidad de Símbolos
Núm
eros
de
Reg
las
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
90
Cantidad de Símbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
90
100
Cantidad de Símbolos
Núm
ero
de R
egla
s
Figura B.17. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Human DNA.
Figura B.18. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Lovaina.
Figura B.19. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Plasma.
84
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
Cantidad de Símbolos N
úmer
o de
Reg
las
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
90
Cantidad de Símbolos
Num
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
90
Cantidad de Símbolos
Núm
ero
de R
egla
s
Figura B.20. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Primos.
Figura B.21. Número de reglas de producción encontradas contra la cantidad de muestras de la serie S&P500.
Figura B.22. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Star.
85
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
90
Cantidad de Simbolos
Núm
ero
de R
egla
s
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
Cantidad de Símbolos
Núm
ero
de R
egla
s
Ahora, mostraremos la forma en que hemos calculado el Índice de Complejidad de
Predicción (ICP). En esta ocasión, tomaremos como ejemplo la gráfica de la figura B.13 que
corresponde a la serie Dow Jones. Como se mencionó en la sección 3.3.1 del capítulo 3, si
trazamos una línea recta que se ajuste a la dinámica de la curva como se muestra en la
siguiente en la figura B.25 y tomamos una pareja de puntos (Cantidad de Símbolos, Número de
reglas encontradas), podemos calcular la pendiente de esta recta con la siguiente expresión:
2 1
2 1
y ymx x−
=−
(B1)
Figura B.23. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Browian Motion.
Figura B.24. Número de reglas de producción encontradas contra la cantidad de muestras de la serie White Noise.
86
En este caso en particular, es necesario el trazo de varias rectas, dado que el
comportamiento de la curva así lo requiere para, posteriormente, promediar las pendientes
obtenidas y, de esta forma, tener un indicador más confiable.
Las parejas de puntos que fueron tomadas para este caso, se ilustran en la siguiente
tabla.
Cantidad de Símbolos leídos
x1
Número de Reglas formadas
y1
Cantidad de Símbolos leídos
x2
Número de Reglas formadas
y2
l1 900 61 989 65
l2 480 40 900 61
l3 231 25 435 35
l1
l2
l3
Figura B.25. Trazo de rectas para la obtención del IPG de la serie Dow Jones
Tabla B.1. Parejas de puntos para el cálculo de la pendiente del indicador ICP
87
Aplicando la expresión B1a cada pareja de puntos, se tiene:
1
65 61 4 0.0449989 900 89lm −
= = =−
2
61 40 21 0.05900 480 420lm −
= = =−
3
35 25 10 0.0490435 231 204lm −
= = =−
Haciendo un promedio de las tres pendientes y multiplicando por cien, obtenemos lo
que se define como Índice de Complejidad de Predicción (ICP) para la serie de tiempo Dow
Jones.
50.4DowJonesICP =
88
REFERENCIAS [1] E.Bautista. “Medición de la predictibilidad de series de tiempo: un estudio
experimental”, Tesis de Doctorado, Instituto Politécnico Nacional.
Centro de Investigación en Computación, 2004.
[2] Edward Ott, Chaos in Dynamical Systems. Cambridge University Press, 2000.
[3] S. Palacios.”Modelado de Series de Tiempo Hidrológicas”.Tesis de Maestría, Facultad
de ciencias Físicas y Matemáticas, Universidad de Chile, 2004.
[4] Brookshear, Teoría de la computación. Editorial Mc Graw Hill.
[5] Craig G. Nevill-Manning. Inferring Sequential Structure. Tesis de Doctorado, University
of Waikato, New Zeland.
[6] Bonifacio Martín del Brío. Redes Neuronales y Sistemas Difusos, Alfaomega. Zaragoza,
España. 2002.
[7] Murria R. Spiegel. Estadística, Mc Graw Hill, 2001.
[8] Pedro Isasi Viñuela. Redes de Neuronas Artificiales, Pearson-Prentice Hall, 2004.
[9] O.Herrera Alcántara. Análisis de la Predictibilidad de Series de Tiempo usando la
matriz de recurrencia y el espacio de fase. Congreso.
[10] John Martin. Lenguajes Formales y Teoría de la Computación, Mc Graw Hill, 2004.
[11] Miguel A. Jiménez Montaño. Information Hidden in Signals and Macromolecules I.
Symbolic Time-Series Analysis. Nonlinear Dinamics, and Life Sciences, Vol.8, No.4,
204.