Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización,...
Transcript of Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización,...
Dra. Ma. de Guadalupe García Hernández
Seminario “Pensamiento Sistémico y Análisis de Sistemas”
29 de Septiembre de 2014.1
1. Introducción
2. Objetivo
3. IPVI: nuevo algoritmo de iteración de valor priorizado
4. Evaluación
5. Conclusiones
6. Trabajo futuro
Contenido
2
1. Introducción
Los procesos de decisión de Markov (MDP) pertenecen a planificación
basada en decisiones que restringen a la planificación clásica al utilizar
[Puterman, 1994] :
Acciones probables (no deterministas).
Observabilidad parcial o total del entorno.
Metas con utilidad/costo (no restringidas a éxito/fracaso).
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3
1. Descripción, objetivo y aplicaciones de los MDP
dominio: modelo estocástico.
metas: función de utilidad/costo.
planes: políticas de acción.
problema de planificación: problema de optimización.
observabilidad: distribución de probabilidad en espacio de estados.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
Objetivo: obtener la política óptima para alcanzar la meta con mayor
recompensa y menor costo.
4
simulación de procesos industriales.
planificación de operaciones de alto nivel en centros de control de energía.
planificación de emergencias en zonas de alto riesgo.
simulación de una planta de vapor de ciclo combinado.
asistentes inteligentes (sector Productivo, gestión administrativa).
tutores inteligentes (sector Educativo).
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
1. Descripción, objetivo y aplicaciones de los MDP
5
1. Solución de los MDP
Richard Bellman en 1954 calculó la utilidad de un estado mediante :
su recompensa inmediata,
la máxima utilidad futura al aplicar la acción óptima en ese
estado con su probabilidad de cambio y factor de descuento por
cada paso dado:
'
( ) ( , ) max ( , , ') ( ')a
s
U s R s a T s a s U s
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
6
1. Solución de los MDP
Ejemplo [Russell,2004]: Entorno de 4 X 3 casillas con recompensa -0.04 (para que el agente
desee abandonarlo inmediatamente) con un estado de inicio, una meta, un obstáculo y un
estado indeseable, con 0.9 de factor de descuento. El agente puede aplicar cuatro acciones:
arriba, abajo, izquierda, derecha.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
7
3 0,812 0,868 0,918 + 1
2 0,762 0,660 -1
1 0,705 0,655 0,611 0,388
1 2 3 4
1. Solución de los MDP
Técnicas informadas:
programación lineal
programación dinámica (iteración de valor o de política)
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
Iteración de valor [Puterman,1994]: enfoque recursivo sobre la ecuación de
Bellman, menos costosa.
La programación lineal e iteración de política deben resolver un sistema de
ecuaciones lineales del tamaño del espacio de estados en cada nodo o
actualización, respectivamente, considerablemente más costosas.
8
1. Problemática del algoritmo de iteración de valor
Es la intratabilidad frente a grandes problemas debida a:
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
9
Complejidad cuadrática con el número de
estados.
Convergencia lenta por enumeración
entera del espacio de estados-acciones
[Puterman,1994].
Alta dependencia del orden de las
actualizaciones [Littman,1995].
1. Investigación actual
La investigación actual se centra en mejorar técnicas de aceleración
considerando que:
La convergencia depende fuertemente del orden de las actualizaciones.
Los métodos de ruta más corta (Dijkstra) se han aplicado exitosamente a
MDP deterministas.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
10
1. Investigación actual
Métodos clásicos que han abordado las limitaciones de iteración de valor con
mayor éxito:
búsqueda heurística con programación dinámica, que busca estados relevantes
minimizando expansiones [Hansen,2001] [Bhuma,2003] [Bonet,2006].
priorización, que busca estados con cambio en función de valor entre dos
actualizaciones sucesivas [Moore,1993] [Wingate,2005] [McMahan,2005]
[Dai,2007] [Dibangoye,2008].
Objetivo común: reducción del espacio de búsqueda
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
11
1. Investigación actual
El algoritmo de priorización de McMahan et al. (barrido priorizado, IPS):
extiende a Dijkstra para resolver MDP deterministas.
obtiene planes subóptimos en MDP no deterministas [Li,2009].
Error del barrido priorizado
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
*U U
12
1. Aplicación de una técnica de minería de datos
Aplicación del algoritmo Apriori [Agrawal,1994] :
en Mercadotecnia, calcula el porcentaje de ocurrencia de las relaciones
de artículos habidas en una base de datos.
en los MDP,
- devuelve acciones en función de estado (por ejemplo, las
acciones en aula son diferentes a las de un laboratorio).
- calcula sobre un subconjunto del dominio.
- reduce la matriz tridimensional de probabilidad de
transición de estados a una lista de adyacencia.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
13
1. Aplicación de una técnica de minería de datos
Para las reglas si < estado (X) > entonces < acción (Y) > obtiene:
la de mayor soporte (combinación bien predicha):
la de mayor confianza (acierto o probabilidad):
( ) ( )X Y
sop X Y sop X YD
( ) ( )sop X Y
conf X Y P Y Xsop X
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
14
2. Objetivo
Dada la intratabilidad o inexactitud del algoritmo de iteración de
valor ante problemas complejos de ruta estocástica más corta, se
propone reducir el espacio de búsqueda mediante:
acciones en función de estado.
nuevo método de priorización de estados.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
15
2. Objetivos alcanzados
Representación y aprendizaje de acciones en función de estado
mediante Apriori modificado.
Nuevo algoritmo de iteración de valor basado en reglamentación de
acciones [Garcia-Hernandez,2009].
Nuevo algoritmo de iteración de valor priorizado con reglamentación de
acciones, basado en Dijkstra, para problemas de ruta estocástica más
corta con múltiples estados meta y de inicio [Garcia-Hernandez,2012].
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
16
Improved Prioritized Value Iteration (IPVI) se basa en el algoritmo de
Dijkstra que reduce el espacio de:
Acciones, usando Apriori modificado.
Estados, usando un nuevo método de priorización.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. IPVI: nuevo algoritmo de iteración de valor priorizado
Dinámica: Inserta en cola las metas, extrae el estado con mayor prioridad y
actualiza la máxima utilidad de sus estados predecesores. Cuando el error de
Bellman es mayor que el umbral de paro, entonces lo regresa a cola. En caso
contrario, devuelve la política óptima para ese estado.
17
La nueva métrica de prioridad es la utilidad máxima del estado evaluado
dado que:
devuelve el orden de actualización más adecuado en MDP.
selecciona el estado con la función de valor máxima.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. Nueva métrica de prioridad
18
El nuevo algoritmo devuelve la función de valor óptima dado que:
iteración de valor y sus variantes aplican sucesivamente la
ecuación de Bellman.
en MDP aditivos (γ =1) la presencia de estados absorbentes
garantiza la convergencia [Hinderer, 2003].
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. Garantía de convergencia
19
I. Construye el conjunto de reglas de asociación de la base de datos del entorno
con Apriori modificado:
Con esto el algoritmo de iteración de valor:
calcula sobre acciones ejecutables en el estado en evaluación
durante su proceso de inferencia.
obtiene un ahorro considerable en recurso computacional.
{ | ( , , , ), ( , , ) 0}k k k k k k k k k kL s s a p p T s a s
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. Metodología de IPVI
20
II. Inserta en cola los estados meta.
Inicia en el estado meta con mayor prioridad y se orienta al estado
con mayor recompensa y menor costo.
Puede tratar con múltiples estados de inicio y de meta.
En cambio, otros enfoques tratan con un sólo estado meta y uno de
inicio.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. Metodología de IPVI
21
IV. Actualiza la política de los predecesores del estado prometedor:
1
( , , , )
( ) argmax ( , ) ( )k k k k
t t
k ka s y s a a p L
y R y a p U s
Devuelve el predecesor con la máxima utilidad, garantizando la convergencia.
Se adelanta a otros enfoques al calcular sobre los predecesores del estado
prometedor, no sobre este último.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. Metodología de IPVI
22
III. Extrae de cola el estado con mayor prioridad.
1
( , , , )
( ) max ( , ) ( )k k k k
t t
k ka
s y s a a p L
U y R y a p U s
V. Si el error de Bellman es mayor que el umbral de paro:
entonces regresa el estado a cola y repite desde III. En caso
contrario, devuelve la política óptima para ese estado.
1( ( ) ( ) )t tU y U y
Con esto el nuevo algoritmo reutiliza los datos del estado evaluado:
ahorrando una considerable cantidad de tiempo.
el conjunto de estados relevantes es mucho menor que el conjunto de
estados del problema.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. Metodología de IPVI
23
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
24
3. Comparación de algoritmos
VI IPS IPVI
Actualiza estados
indiscriminadamente.
Toma el valor del
estado prometedor y
calcula el estado
predecesor con mayor
cota.
Actualiza los estados
predecesores del
estado más
prometedor y toma al
de máxima utilidad.
No prioriza estados. Su prioridad es el
criterio de cota superior:
Su prioridad es la
función de valor
completa:1
1
( , ) ( )
( , )
t t
t
Q s b U s
Q s b
1( )tU s
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. Comparación de algoritmos
25
VI IPS IPVI
No distingue estados.
Solamente trata con un
estado de inicio y un
estado meta.
Trata con múltiples
estados de inicio y de
meta.
Lenta convergencia.
Devuelve la política
óptima.
Procesa rápido pero
devuelve política
subóptima (inexacta).
Rápida convergencia.
Devuelve la política
óptima.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
3. Comparación de algoritmos
26
VI IPS IPVI
Procesa incluso las
transiciones de estado
con probabilidad cero.
Solamente procesa las
transiciones con
probabilidad diferente
de cero con una lista de
adyacencia calculada
para cada problema.
Solamente procesa las
transiciones con
probabilidad diferente
de cero mediante la
Apriori modificado.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
27
3. Comparación de algoritmos
4. Dominio utilizado
• el bote de vela debe alcanzar rápidamente
un punto del lago (ej. una competencia)
• existe viento con dirección variable.
• el bote de vela puede tener tres
movimientos para aprovechar el viento.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
28
Se probó en el dominio Sailing [Vanderbei,2008],
4. Dominio utilizado
• la velocidad del bote de vela depende del ángulo relativo entre la
dirección de proa y la dirección del viento (este cambia en cada nodo).
• de acuerdo al ángulo relativo será la maniobra a ejecutar.
• cada maniobra tiene su propia duración.
• cuando la maniobra es opuesta (giro de babor a estribor) tendrá un
retardo.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
29
Sailing crea estrategias de navegación en un ambiente cambiante,
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
30
4. Interfaz del dominio utilizado
4. Problemática del dominio
Si n es el número de nodos laterales del lago, entonces los estados por
visitar serán:
(3 acciones del bote)(8 direcciones del viento)(n)2 = 24 n2
Si n es considerablemente grande, entonces habrá una explosión
combinatoria del espacio de estados.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
31
4. Implementación
El MDP se modeló:
Estacionario (no varía con el tiempo).
Finito (número definido de etapas).
No determinista (estocástico)
Plano (no factorizado).
Totalmente observable (estados conocidos).
La función de valor es el tiempo (a minimizar).
Aditivo (costos positivos, factor de descuento la unidad).
Con estados absorbentes (playas del lago y estados meta).
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
32
4. Implementación
Se codificó en Lenguaje Java por su
gran portabilidad.
Se implementó en un simulador de
planificación de movimientos robóticos
[Reyes, 2006].
Valores usados: = 1 y = 10-7.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
33
4. Otros algoritmos probados
iteración de valor asíncrona con reglamentación de acciones (ARVI2) [Puterman,2005].
iteración de valor asíncrona de estados con cambio en función de valor (ARVI5)
[Wingate,2005].
program.dinámica asíncrona del dominio (VDP) [Vanderbei,2008].
iteración de valor topológico mejorado (iTVI) [Dibangoye,2008]**
Iteración de valor topológico modificado (ARVI6) [Wingate,2005].
iteración de valor asíncrona de estados con cambio y ordenamiento topológico
modificado con barrido priorizado (SIPS+ARVI5) [McMahan,2005] [Wingate,2005] .
** reporta mejores resultados que LAO* [Hansen,2001], LRTDP [ Bonet,2003] y TVI [Dai,2007]
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
34
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
35
4. Desempeño de algoritmos
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
36
4. Desempeño de algoritmos
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
37
4. Ajuste de curvas
4. Reducción de complejidad temporal
Con ordenamiento topológico mejorado (Dibangoye et al.): T(ns) = ns^2
Con ordenamiento topológico modificado (Wingate et al.): T(ns) = ns^2
Con actualización asíncrona y reglamentación de acciones [Garcia-
Hernandez,2009]: T(ns) = ns^1.48
Con actualización asíncrona de estados priorizados y ordenamiento
topológico de Wingate et al.: T(ns) = ns^1.45
Con la combinación de los dos anteriores: T(ns) = ns^1.32
Con el nuevo algoritmo priorizado [Garcia-Hernandez,2012]: T(ns) = ns^1.07
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
38
4. Resultados experimentales
Todos los algoritmos entregaron la política óptima (mismo tiempo
necesario para alcanzar el estado de inicio), excepto barrido priorizado de
McMahan et al.., por lo que se le agregó reglamentación de acciones para
hacerlo convergente.
Iteración de valor con ordenamiento topológico modificado de Wingate et
al. resultó ser el más lento de todos, por su alto coste de inicio.
Iteración de valor con ordenamiento topológico mejorado de Dibangoye et
al. agotó la memoria asignada en 400 000 estados, por su alto coste de
inicio.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
39
4. Resultados experimentales
Iteración de valor con actualización asíncrona de estados que
tuvieron cambio en función de valor de Wingate et al. tuvo un
desempeño medio
El anterior pero con barrido priorizado de McMahan et al. resultó un
poco mejor.
Se observa que el enfoque propuesto fue el más rápido en resolver
debido a que presenta complejidad temporal (en función del número
de estados) cercana a la linealidad y con pendiente cercana a cero.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
40
5. Objetivo cumplido
El nuevo algoritmo de iteración de valor basado en priorización con
reglamentación de acciones redujo significativamente el espacio
de búsqueda en los procesos de decisión de Markov de ruta
estocástica más corta.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
41
5. Ventajas del nuevo algoritmo
I. El criterio de prioridad es la utilidad máxima disponible.
II. Es capaz de calcular el estado predecesor con la máxima utilidad de un estado
prometedor.
III. Es capaz de reutilizar los datos del estado evaluado.
IV. Es capaz de calcular las acciones ejecutables en el estado en evaluación.
V. Es capaz de resolver problemas no deterministas y con múltiples estados de
inicio y meta.
VI. Es capaz de reducir considerablemente la complejidad temporal del algoritmo
de iteración de valor.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
42
5. Principales publicaciones
Garcia-Hernandez M. G., Ruiz-Pinales J., Onaindia E., Reyes-Ballesteros A., Solving the Sailing
Problem with a new Prioritized Value Iteration, Applied Artificial Intelligence, DOI:
10.1080/08839514.2012.687662, ISSN 0883-9514, Taylor & Francis, Vol. 26, Issue 6, pp 571-587, 2012.
Garcia-Hernandez M. G., Ruiz-Pinales J., Onaindia E., Reyes-Ballesteros A., Aviña Cervantes J.
G., Ledesma-Orozco S., Alvarado Mendez E., New Prioritized Value Iteration for Markov Decision
Processes, Artificial Intelligence Review, An International Science and Engineering Journal, DOI:
10.1007/s10462-011-9224-z, Springer Editors, ISSN 0269-2821, Vol. 37, No.2, pp 157-167, 2012.
García-Hernández M. G., Ruiz-Pinales J., Onaindía E., Reyes-Ballesteros A., Ledesma S., Aviña J.
G., Alvarado E., Mixed Acceleration Techniques for solving quickly Stochastic Shortest-Path Markov
Decision Processes, Journal of Applied Research and Technology, ISSN 1665-6423, Vol. 9 No.
2, pp 129-144, 2011.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
43
Garcia-Hernandez M. G., Ruiz-Pinales J., Reyes-Ballesteros A., Onaindía E., Ledesma S., Aviña J.
G., Combination of acceleration procedures for solving stochastic shortest-path Markov decision
processes, 2010 IEEE International Conference on Intelligent Systems and Knowledge
Engineering (ISKE), ISBN 978-1-4244-6790-7, pp 89-94, Hangzhou, China, November 15, 2010.
Garcia-Hernandez M.G., Ruiz-Pinales J., Reyes A., Onaindia E., Acceleration of Association Rule-
Based Markov Decision Processes, Journal of Applied Research and Technology, ISSN 1665-
6423, Vol. 7, No.3, pp 354-375, 2009.
5. Principales publicaciones derivadas
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
44
6. Trabajo futuro
Generalizar el algoritmo propuesto.
Resolver procesos de decisión de Markov
parcialmente observables.
Resolver en tiempo real problemas de ruta
estocástica más corta.
1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro
45