REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012.

Post on 06-Feb-2015

6 views 2 download

Transcript of REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012.

REINFORCEMENT LEARNING

Jesús Fernández Bes

Noviembre 2012

REINFORCEMENT LEARNING 2

ÍNDICE

1. ¿Qué es, qué no es y para qué sirve el RL?

2. Formulación: Markov Decision Processes 1. Dynamic Programming2. Algoritmos clásicos de RL

3. Líneas de Investigación y otros aspectos de interés en RL.1. Aproximación funcional2. RL con GP3. POMDP4. Otros aspectos

REINFORCEMENT LEARNING 3

DEFINICIÓN

Reinforcement Learning is the problem faced by an autonomous agent that learns behavior through trial-and-error interactions with a

dynamic environment.Kaelbling et al. 1996

Interacción

Recompensa

REINFORCEMENT LEARNING 4

EL PROBLEMA DE REINFORCEMENT LEARNING

1. El agente interactua con el entorno.

2. Acciones modifican el entorno y proporcionan una recompensa.

3. No se conoce la dinámica de estados.

4. Agente trata de aprender comportamiento óptimo.

¿Qué acción tomar en cada estado para maximizar una recompensa a largo plazo?

Environment

a

r

s’

s s’

REINFORCEMENT LEARNING 5

¿A QUÉ SE PARECE PERO NO ES RL?

• Supervised Learning. Hay par entrada/salida. No una recompensa inmediata. En RL no se sabe que acción es mejor a largo plazo.

• Active Learning. Elegir muestras de las que aprender. Siguen siendo pares entrada/salida.

• Multi – Armed Bandits. En MAB no existe concepto estado.

• Dynamic Programming.Se conoce toda la dinámica de estados.

REINFORCEMENT LEARNING 6

APLICACIONES

Rick Sutton. Deconstructing Reinforcement Learning. ICML 09

REINFORCEMENT LEARNING 7

MARKOV DECISION PROCESSES

Un Markov Decision Process (MDP) es un tupla <S,A,T,R> donde: • S es un conjunto finito de estados, • A es un conjunto finito de acciones,• T es una función de transición definida como

• R es una función de recompensa definida como

Dado un MDP definimos una política como una función:• Determinista

• Estocástica

REINFORCEMENT LEARNING 8

OBJETIVOS. CRITERIOS A OPTIMIZAR

• ¿ Cual es el objetivo del agente?• ¿ Cómo tener en cuenta la recompensa a largo plazo?

Principalmente hay tres modelos:

Horizonte Finito Horizonte Infinito Recompensa Promedio

REINFORCEMENT LEARNING 9

FUNCIONES DE VALOR

Discounted returns. Valor esperado de las recompensas futuras (con descuento).

– State Value function:

– State-Action Value function:

Value Function Assumption:“All efficient methods for solving

sequential decision problems estimate value functions as an

intermidiate step.”

REINFORCEMENT LEARNING 10

ECUACIONES DE BELLMANRichard Bellman 1957.

• Ambas funciones se pueden escribir de forma recursiva.

• La solución óptima satisface:

REINFORCEMENT LEARNING 11

ECUACIONES DE BELLMAN (2)

• Desarrollo equivalente para Q

• Existe una relación directa entre V* y Q*:

REINFORCEMENT LEARNING 12

DYNAMIC PROGRAMMING

• Model-Based. – Entorno Determinista o estadística conocida.– Modelo perfecto de MDP.

• Útil desde el punto de vista teórico y algorítmico.

• Relativamente eficientes pero poco útiles en RL o cuando el espacio de estados es muy grande.

REINFORCEMENT LEARNING 13

ALGORITMOS BÁSICOS DE DP (1): POLICY ITERATION

REINFORCEMENT LEARNING 14

ALGORITMOS BÁSICOS DE DP (2): VALUE ITERATION

REINFORCEMENT LEARNING 15

DE DYNAMIC PROGRAMMING A REINFORCEMENT LEARNING

• Model - Free– Estadística desconocida y parcialmente desconocida.

• Necesidad de muestreo y exploración.

Compromiso Exploration vs. Exploitation

• Necesario explorar el espacio de políticas para encontrar buenas políticas.

• Necesario usar las políticas buenas el mayor tiempo posible para obtener mucha recompensa.

REINFORCEMENT LEARNING 16

POLÍTICAS DE EXPLORACIÓN• Hay políticas sencillas de exploración. Se basan en

las utilizadas en problemas de bandits:– ε – greedy strategy

• Elegir acción a según π (mejor acción posible) con probabilidad 1-ε.

• Elegir acción a aleatoria con probabilidad ε.

– Boltzmann (softmax) strategy

– Optimistic Q initialization

REINFORCEMENT LEARNING 17

MÉTODOS BÁSICOS DE RL

• Métodos de Monte Carlo– Se estiman las funciones de valor como promedios

observados durante la iteración.– Sobretodo útiles en horizonte finito. Juegos.

• Temporal - Difference Learning– Se aprenden las estimaciones de los valores a

partir de otras estimaciones.– Online. No necesitan barrer todo el espacio de

estado.

REINFORCEMENT LEARNING 18

TD (0)

• Sólo modifica la policy evaluation.

REINFORCEMENT LEARNING 19

SARSA

• On-policy.• Útil en entornos no estacionarios.

REINFORCEMENT LEARNING 20

Q - LEARNING

• Algoritmo más popular con diferencia.• Off-Policy.

REINFORCEMENT LEARNING 21

ACTOR-CRITIC LEARNING

• El agente se compone de dos partes.– Actor: selecciona la política de acuerdo a las

preferencias p(st,at).– Critic: Evalúa las acciones. Mediante el TD-error:

– Se actualizan las Preferencias:

REINFORCEMENT LEARNING 22

APROXIMACIÓN FUNCIONAL

• Si el número de estados es GRANDE o INFINITO.– No se puede representar V o Q como una tabla.

• Aproximación Least Squares– Se representa la Value function ( V o Q ) como

una combinación lineal de funciones.– Se aproxima minimizando una norma LS

REINFORCEMENT LEARNING 23

Reinforcement Learning con GP

Bayesiano:– Se mantiene una distribución de probabilidad sobre distintos valores.– Permiten incluir conocimiento a priori, exploración, … – Existen otras aproximaciones bayesianas además de los GP: BQL,…

• Rassmussen C.E., Kuss M.– Distribución sobre discounted returns, no sólo Esperanza (V = E{D})

mediante un GP.– Aprende también las transiciones como GP.– Solución cerrada para algunas distribuciones de recompensas.

• Engel Y., Mannor S., Mier R.– TD + Aproximación de V con GP.– Implementación online. Kernel Sparsification.

REINFORCEMENT LEARNING 24

PARTIALLY OBSERVABLE MDP

• Relajar asunción de los MDP: Parte del estado puede ser oculta. – Estado S ya no es Markoviano.

• En POMDP además de <S,A,T,R> se define el conjunto de observaciones Ω y la función O.

• R y T siguen dependiendo de s, no de o, decidir acción en base a 1 observación ya no es óptimo. Necesita memoria.– Belief vector b(s).

REINFORCEMENT LEARNING 25

POMDP

• En general se necesita modelo de T y R. – DP o Model-based RL.

• Diferentes heurísticos para obtener las políticas a partir de los b(s)

• Métodos de búsqueda de política basados en simulaciones.– PEGASUS: Andrew Ng. & Michael Jordan.

REINFORCEMENT LEARNING 26

OTROS ASPECTOS IMPORTANTES

• Conexiones con la Psicología Cognitiva y la Neurociencia.– Los inicios de RL se basan en investigaciones en comportamiento

animal. TD basado en “condicionamiento clásico”.– Algunos mecanismos del cerebro son muy similares a los algoritmos

RL. “Actividad neuronal dopaminérgica”.

• Resultados Teóricos.– Resultados de convergencia asintóticos. Algoritmos básicos.– Cotas de complejidad (muestras finitas): PAC-MDP.

• RL Multiagente.• Batch Reinforcement Learning.

REINFORCEMENT LEARNING 27

ALGUNAS REFERENCIAS

• LIBROS– Reinforcement Learning: An Introduction. Sutton R. S. & Barto A. G.

(1998).– Reinforcement Learning: State-of-the-art. Wiering M. & van Otterlo

M. (2012). { Capítulo 1 }

• TUTORIALES– Reinforcement Learning: A Survey. Leslie Pack Kaelbling, Michael L.

Littman, Andrew W. Moore. Journal of Artificial Intelligence Research , 1996

– A tutorial on reinforcement learning techniques. C. H. C. Ribeiro. Proceedings of International Conference on Neural Networks, INNS Press, Washington, DC, USA, July 1999.

REINFORCEMENT LEARNING 28

BIBLIOGRAFÍA EXTRA• Engel, Y., Mannor, S., Meir, R. Reinforcement Learning with Gaussian

Processes. In: Proceedings of the 22nd International Conference on Machine Learning. Vol. 22. Bonn, Germany, pp. 201–208, August 2005.

• C.E. Rasmussen and M. Kuss. Gaussian Processes in Reinforcement Learning. Advances in Neural Information Processing Systems 16—Proc. Ann. Conf. Neural Information Processing Systems, pp. 751-759, 2004.

• Andrew Y. Ng , Michael I. Jordan. PEGASUS: A policy search method for large MDPs and POMDPs. Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence, p.406-415, June 30-July 03, 2000

• VIDEOLECTURES.NET TALK.Rick Sutton. Deconstructing Reinforcement Learning. ICML 2009http://videolectures.net/icml09_sutton_itdrl/