Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización,...

Dra. Ma. de Guadalupe García Hernández

Seminario “Pensamiento Sistémico y Análisis de Sistemas”

29 de Septiembre de 2014.1

1. Introducción

2. Objetivo

3. IPVI: nuevo algoritmo de iteración de valor priorizado

4. Evaluación

5. Conclusiones

6. Trabajo futuro

Contenido

2

1. Introducción

Los procesos de decisión de Markov (MDP) pertenecen a planificación

basada en decisiones que restringen a la planificación clásica al utilizar

[Puterman, 1994] :

Acciones probables (no deterministas).

Observabilidad parcial o total del entorno.

Metas con utilidad/costo (no restringidas a éxito/fracaso).

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3

1. Descripción, objetivo y aplicaciones de los MDP

dominio: modelo estocástico.

metas: función de utilidad/costo.

planes: políticas de acción.

problema de planificación: problema de optimización.

observabilidad: distribución de probabilidad en espacio de estados.


Objetivo: obtener la política óptima para alcanzar la meta con mayor

recompensa y menor costo.

4

simulación de procesos industriales.

planificación de operaciones de alto nivel en centros de control de energía.

planificación de emergencias en zonas de alto riesgo.

simulación de una planta de vapor de ciclo combinado.

asistentes inteligentes (sector Productivo, gestión administrativa).

tutores inteligentes (sector Educativo).


1. Descripción, objetivo y aplicaciones de los MDP

5

1. Solución de los MDP

Richard Bellman en 1954 calculó la utilidad de un estado mediante :

su recompensa inmediata,

la máxima utilidad futura al aplicar la acción óptima en ese

estado con su probabilidad de cambio y factor de descuento por

cada paso dado:

'

( ) ( , ) max ( , , ') ( ')a

s

U s R s a T s a s U s


6


Ejemplo [Russell,2004]: Entorno de 4 X 3 casillas con recompensa -0.04 (para que el agente

desee abandonarlo inmediatamente) con un estado de inicio, una meta, un obstáculo y un

estado indeseable, con 0.9 de factor de descuento. El agente puede aplicar cuatro acciones:

arriba, abajo, izquierda, derecha.


7

3 0,812 0,868 0,918 + 1

2 0,762 0,660 -1

1 0,705 0,655 0,611 0,388

1 2 3 4


Técnicas informadas:

programación lineal

programación dinámica (iteración de valor o de política)


Iteración de valor [Puterman,1994]: enfoque recursivo sobre la ecuación de

Bellman, menos costosa.

La programación lineal e iteración de política deben resolver un sistema de

ecuaciones lineales del tamaño del espacio de estados en cada nodo o

actualización, respectivamente, considerablemente más costosas.

8

1. Problemática del algoritmo de iteración de valor

Es la intratabilidad frente a grandes problemas debida a:


9

Complejidad cuadrática con el número de

estados.

Convergencia lenta por enumeración

entera del espacio de estados-acciones

[Puterman,1994].

Alta dependencia del orden de las

actualizaciones [Littman,1995].

1. Investigación actual

La investigación actual se centra en mejorar técnicas de aceleración

considerando que:

La convergencia depende fuertemente del orden de las actualizaciones.

Los métodos de ruta más corta (Dijkstra) se han aplicado exitosamente a

MDP deterministas.


10


Métodos clásicos que han abordado las limitaciones de iteración de valor con

mayor éxito:

búsqueda heurística con programación dinámica, que busca estados relevantes

minimizando expansiones [Hansen,2001] [Bhuma,2003] [Bonet,2006].

priorización, que busca estados con cambio en función de valor entre dos

actualizaciones sucesivas [Moore,1993] [Wingate,2005] [McMahan,2005]

[Dai,2007] [Dibangoye,2008].

Objetivo común: reducción del espacio de búsqueda


11


El algoritmo de priorización de McMahan et al. (barrido priorizado, IPS):

extiende a Dijkstra para resolver MDP deterministas.

obtiene planes subóptimos en MDP no deterministas [Li,2009].

Error del barrido priorizado


*U U

12

1. Aplicación de una técnica de minería de datos

Aplicación del algoritmo Apriori [Agrawal,1994] :

en Mercadotecnia, calcula el porcentaje de ocurrencia de las relaciones

de artículos habidas en una base de datos.

en los MDP,

- devuelve acciones en función de estado (por ejemplo, las

acciones en aula son diferentes a las de un laboratorio).

- calcula sobre un subconjunto del dominio.

- reduce la matriz tridimensional de probabilidad de

transición de estados a una lista de adyacencia.


13

1. Aplicación de una técnica de minería de datos

Para las reglas si < estado (X) > entonces < acción (Y) > obtiene:

la de mayor soporte (combinación bien predicha):

la de mayor confianza (acierto o probabilidad):

( ) ( )X Y

sop X Y sop X YD

( ) ( )sop X Y

conf X Y P Y Xsop X


14

2. Objetivo

Dada la intratabilidad o inexactitud del algoritmo de iteración de

valor ante problemas complejos de ruta estocástica más corta, se

propone reducir el espacio de búsqueda mediante:

acciones en función de estado.

nuevo método de priorización de estados.


15

2. Objetivos alcanzados

Representación y aprendizaje de acciones en función de estado

mediante Apriori modificado.

Nuevo algoritmo de iteración de valor basado en reglamentación de

acciones [Garcia-Hernandez,2009].

Nuevo algoritmo de iteración de valor priorizado con reglamentación de

acciones, basado en Dijkstra, para problemas de ruta estocástica más

corta con múltiples estados meta y de inicio [Garcia-Hernandez,2012].


16

Improved Prioritized Value Iteration (IPVI) se basa en el algoritmo de

Dijkstra que reduce el espacio de:

Acciones, usando Apriori modificado.

Estados, usando un nuevo método de priorización.


3. IPVI: nuevo algoritmo de iteración de valor priorizado

Dinámica: Inserta en cola las metas, extrae el estado con mayor prioridad y

actualiza la máxima utilidad de sus estados predecesores. Cuando el error de

Bellman es mayor que el umbral de paro, entonces lo regresa a cola. En caso

contrario, devuelve la política óptima para ese estado.

17

La nueva métrica de prioridad es la utilidad máxima del estado evaluado

dado que:

devuelve el orden de actualización más adecuado en MDP.

selecciona el estado con la función de valor máxima.


3. Nueva métrica de prioridad

18

El nuevo algoritmo devuelve la función de valor óptima dado que:

iteración de valor y sus variantes aplican sucesivamente la

ecuación de Bellman.

en MDP aditivos (γ =1) la presencia de estados absorbentes

garantiza la convergencia [Hinderer, 2003].


3. Garantía de convergencia

19

I. Construye el conjunto de reglas de asociación de la base de datos del entorno

con Apriori modificado:

Con esto el algoritmo de iteración de valor:

calcula sobre acciones ejecutables en el estado en evaluación

durante su proceso de inferencia.

obtiene un ahorro considerable en recurso computacional.

{ | ( , , , ), ( , , ) 0}k k k k k k k k k kL s s a p p T s a s


3. Metodología de IPVI

20

II. Inserta en cola los estados meta.

Inicia en el estado meta con mayor prioridad y se orienta al estado

con mayor recompensa y menor costo.

Puede tratar con múltiples estados de inicio y de meta.

En cambio, otros enfoques tratan con un sólo estado meta y uno de

inicio.



21

IV. Actualiza la política de los predecesores del estado prometedor:

1

( , , , )

( ) argmax ( , ) ( )k k k k

t t

k ka s y s a a p L

y R y a p U s

Devuelve el predecesor con la máxima utilidad, garantizando la convergencia.

Se adelanta a otros enfoques al calcular sobre los predecesores del estado

prometedor, no sobre este último.



22

III. Extrae de cola el estado con mayor prioridad.

1

( , , , )

( ) max ( , ) ( )k k k k

t t

k ka

s y s a a p L

U y R y a p U s

V. Si el error de Bellman es mayor que el umbral de paro:

entonces regresa el estado a cola y repite desde III. En caso

contrario, devuelve la política óptima para ese estado.

1( ( ) ( ) )t tU y U y

Con esto el nuevo algoritmo reutiliza los datos del estado evaluado:

ahorrando una considerable cantidad de tiempo.

el conjunto de estados relevantes es mucho menor que el conjunto de

estados del problema.



23


24

3. Comparación de algoritmos

VI IPS IPVI

Actualiza estados

indiscriminadamente.

Toma el valor del

estado prometedor y

calcula el estado

predecesor con mayor

cota.

Actualiza los estados

predecesores del

estado más

prometedor y toma al

de máxima utilidad.

No prioriza estados. Su prioridad es el

criterio de cota superior:

Su prioridad es la

función de valor

completa:1

1

( , ) ( )

( , )

t t

t

Q s b U s

Q s b

1( )tU s



25

VI IPS IPVI

No distingue estados.

Solamente trata con un

estado de inicio y un

estado meta.

Trata con múltiples

estados de inicio y de

meta.

Lenta convergencia.

Devuelve la política

óptima.

Procesa rápido pero

devuelve política

subóptima (inexacta).

Rápida convergencia.

Devuelve la política

óptima.



26

VI IPS IPVI

Procesa incluso las

transiciones de estado

con probabilidad cero.

Solamente procesa las

transiciones con

probabilidad diferente

de cero con una lista de

adyacencia calculada

para cada problema.

Solamente procesa las

transiciones con

probabilidad diferente

de cero mediante la

Apriori modificado.


27


4. Dominio utilizado

• el bote de vela debe alcanzar rápidamente

un punto del lago (ej. una competencia)

• existe viento con dirección variable.

• el bote de vela puede tener tres

movimientos para aprovechar el viento.


28

Se probó en el dominio Sailing [Vanderbei,2008],

4. Dominio utilizado

• la velocidad del bote de vela depende del ángulo relativo entre la

dirección de proa y la dirección del viento (este cambia en cada nodo).

• de acuerdo al ángulo relativo será la maniobra a ejecutar.

• cada maniobra tiene su propia duración.

• cuando la maniobra es opuesta (giro de babor a estribor) tendrá un

retardo.


29

Sailing crea estrategias de navegación en un ambiente cambiante,


30

4. Interfaz del dominio utilizado

4. Problemática del dominio

Si n es el número de nodos laterales del lago, entonces los estados por

visitar serán:

(3 acciones del bote)(8 direcciones del viento)(n)2 = 24 n2

Si n es considerablemente grande, entonces habrá una explosión

combinatoria del espacio de estados.


31

4. Implementación

El MDP se modeló:

Estacionario (no varía con el tiempo).

Finito (número definido de etapas).

No determinista (estocástico)

Plano (no factorizado).

Totalmente observable (estados conocidos).

La función de valor es el tiempo (a minimizar).

Aditivo (costos positivos, factor de descuento la unidad).

Con estados absorbentes (playas del lago y estados meta).


32

4. Implementación

Se codificó en Lenguaje Java por su

gran portabilidad.

Se implementó en un simulador de

planificación de movimientos robóticos

[Reyes, 2006].

Valores usados: = 1 y = 10-7.


33

4. Otros algoritmos probados

iteración de valor asíncrona con reglamentación de acciones (ARVI2) [Puterman,2005].

iteración de valor asíncrona de estados con cambio en función de valor (ARVI5)

[Wingate,2005].

program.dinámica asíncrona del dominio (VDP) [Vanderbei,2008].

iteración de valor topológico mejorado (iTVI) [Dibangoye,2008]**

Iteración de valor topológico modificado (ARVI6) [Wingate,2005].

iteración de valor asíncrona de estados con cambio y ordenamiento topológico

modificado con barrido priorizado (SIPS+ARVI5) [McMahan,2005] [Wingate,2005] .

** reporta mejores resultados que LAO* [Hansen,2001], LRTDP [ Bonet,2003] y TVI [Dai,2007]


34


35

4. Desempeño de algoritmos


36

4. Desempeño de algoritmos


37

4. Ajuste de curvas

4. Reducción de complejidad temporal

Con ordenamiento topológico mejorado (Dibangoye et al.): T(ns) = ns^2

Con ordenamiento topológico modificado (Wingate et al.): T(ns) = ns^2

Con actualización asíncrona y reglamentación de acciones [Garcia-

Hernandez,2009]: T(ns) = ns^1.48

Con actualización asíncrona de estados priorizados y ordenamiento

topológico de Wingate et al.: T(ns) = ns^1.45

Con la combinación de los dos anteriores: T(ns) = ns^1.32

Con el nuevo algoritmo priorizado [Garcia-Hernandez,2012]: T(ns) = ns^1.07


38

4. Resultados experimentales

Todos los algoritmos entregaron la política óptima (mismo tiempo

necesario para alcanzar el estado de inicio), excepto barrido priorizado de

McMahan et al.., por lo que se le agregó reglamentación de acciones para

hacerlo convergente.

Iteración de valor con ordenamiento topológico modificado de Wingate et

al. resultó ser el más lento de todos, por su alto coste de inicio.

Iteración de valor con ordenamiento topológico mejorado de Dibangoye et

al. agotó la memoria asignada en 400 000 estados, por su alto coste de

inicio.


39

4. Resultados experimentales

Iteración de valor con actualización asíncrona de estados que

tuvieron cambio en función de valor de Wingate et al. tuvo un

desempeño medio

El anterior pero con barrido priorizado de McMahan et al. resultó un

poco mejor.

Se observa que el enfoque propuesto fue el más rápido en resolver

debido a que presenta complejidad temporal (en función del número

de estados) cercana a la linealidad y con pendiente cercana a cero.


40

5. Objetivo cumplido

El nuevo algoritmo de iteración de valor basado en priorización con

reglamentación de acciones redujo significativamente el espacio

de búsqueda en los procesos de decisión de Markov de ruta

estocástica más corta.


41

5. Ventajas del nuevo algoritmo

I. El criterio de prioridad es la utilidad máxima disponible.

II. Es capaz de calcular el estado predecesor con la máxima utilidad de un estado

prometedor.

III. Es capaz de reutilizar los datos del estado evaluado.

IV. Es capaz de calcular las acciones ejecutables en el estado en evaluación.

V. Es capaz de resolver problemas no deterministas y con múltiples estados de

inicio y meta.

VI. Es capaz de reducir considerablemente la complejidad temporal del algoritmo

de iteración de valor.


42

5. Principales publicaciones

Garcia-Hernandez M. G., Ruiz-Pinales J., Onaindia E., Reyes-Ballesteros A., Solving the Sailing

Problem with a new Prioritized Value Iteration, Applied Artificial Intelligence, DOI:

10.1080/08839514.2012.687662, ISSN 0883-9514, Taylor & Francis, Vol. 26, Issue 6, pp 571-587, 2012.

Garcia-Hernandez M. G., Ruiz-Pinales J., Onaindia E., Reyes-Ballesteros A., Aviña Cervantes J.

G., Ledesma-Orozco S., Alvarado Mendez E., New Prioritized Value Iteration for Markov Decision

Processes, Artificial Intelligence Review, An International Science and Engineering Journal, DOI:

10.1007/s10462-011-9224-z, Springer Editors, ISSN 0269-2821, Vol. 37, No.2, pp 157-167, 2012.

García-Hernández M. G., Ruiz-Pinales J., Onaindía E., Reyes-Ballesteros A., Ledesma S., Aviña J.

G., Alvarado E., Mixed Acceleration Techniques for solving quickly Stochastic Shortest-Path Markov

Decision Processes, Journal of Applied Research and Technology, ISSN 1665-6423, Vol. 9 No.

2, pp 129-144, 2011.


43

Garcia-Hernandez M. G., Ruiz-Pinales J., Reyes-Ballesteros A., Onaindía E., Ledesma S., Aviña J.

G., Combination of acceleration procedures for solving stochastic shortest-path Markov decision

processes, 2010 IEEE International Conference on Intelligent Systems and Knowledge

Engineering (ISKE), ISBN 978-1-4244-6790-7, pp 89-94, Hangzhou, China, November 15, 2010.

Garcia-Hernandez M.G., Ruiz-Pinales J., Reyes A., Onaindia E., Acceleration of Association Rule-

Based Markov Decision Processes, Journal of Applied Research and Technology, ISSN 1665-

6423, Vol. 7, No.3, pp 354-375, 2009.

5. Principales publicaciones derivadas


44

6. Trabajo futuro

Generalizar el algoritmo propuesto.

Resolver procesos de decisión de Markov

parcialmente observables.

Resolver en tiempo real problemas de ruta

estocástica más corta.


45

Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización,...

Documents

Transcript of Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización,...