Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on...

8
Resoluci´ on del problema de B´ usqueda en Tiempo M´ ınimo mediante Colonias de Hormigas Sara P´ erez Carabaza, Eva Besada Portas, Jos´ e Antonio L´ opez Orozco, Jes´ us Manuel de la Cruz Departamento de Arquitectura de Computadores y Autom´ atica. Universidad Complutense de Madrid [email protected], [email protected], [email protected], jmcruz@fis.ucm.es Resumen En este art´ ıculo se propone un nuevo algoritmo para resolver el problema de b´ usqueda en tiempo ınimo basado en la optimizaci´on de colonias de hormigas, un tipo de optimizaci´on especialmente adecuada para el problema ya que combina una heur´ ıstica en la que incluir informaci´on sobre las zonas m´as prometedoras del espacio de soluciones con un aprendizaje autom´atico de las zonas del espacio de soluciones que muestran mejores re- sultados durante la optimizaci´on. Se propone una heur´ ıstica que tiene en cuenta la probabilidad de encontrar el objetivo sobre diferentes regiones del mapa y su evoluci´on temporal debido a las medi- das realizadas y al movimiento de los agentes. La comparaci´on de los resultados de la nueva t´ ecni- ca con el algoritmo de optimizaci´on de entrop´ ıa cruzada y el algoritmo de optimizaci´on bayesiana, muestran que el nuevo algoritmo obtiene solucio- nes mejores o similares en un tiempo significativa- mente inferior, ya que la heur´ ıstica consigue me- jorar notablemente la calidad de las soluciones en las primeras iteraciones del algoritmo. Palabras clave: usqueda en Tiempo M´ ınimo, UAVs, Optimizaci´ on con Colonia de Hormigas, Sistemas Multi-agente 1. INTRODUCCI ´ ON Las primeras investigaciones sobre el problema de usqueda en tiempo m´ ınimo, derivado de los pro- blemas de b´ usqueda de objetivos, comenzaron du- rante la Segunda Guerra Mundial. La b´ usqueda en tiempo m´ ınimo (MTS, Minimum Time Search) consiste en localizar en el menor tiempo posible a un objetivo situado en una zona determinada sobre la que se tiene cierto conocimiento de las zonas de localizaci´ on m´ as probables. Por tanto, el resultado ser´ a la trayectoria que se deber´ ıa se- guir para que, probabil´ ısticamente, se encuentre el objetivo en el menor tiempo posible. Este tipo de problemas se encuentra en numerosas aplica- ciones militares y civiles, tales como b´ usqueda de supervivientes tras desastres naturales, b´ usqueda mar´ ıtima de barcos o aviones accidentados, etc. Figura 1: Representaci´ on esquem´ atica del proble- ma de b´ usqueda. En nuestro caso, la b´ usqueda ser´ a realizada por uno o varios veh´ ıculos a´ ereos no tripulados (UAVs, Unmanned Aerial Vehicles), que portan sensores capaces de detectar el objetivo. A modo de ejem- plo, en la figura 1 se muestran dos UAVs buscando un objetivo con posici´ on y din´ amica desconocida sobre una zona marcada con un enrejado virtual. En estos problemas, antes de comenzar una mi- si´ on de b´ usqueda con UAVs, es necesario obtener en la estaci´ on de tierra la planificaci´ on de la mi- si´ on y verificarla antes de que ´ esta comience. En este caso una herramienta como la que se propone en este art´ ıculo es de enorme utilidad. La complejidad computacional de este tipo pro- blemas (NP-completos o NP-duros dependiendo de su formulaci´ on [10]) hace que la comunidad cient´ ıfica se centre en mejorar la eficacia de los etodos de resoluci´ on y que ´ estos se aborden uti- lizando algoritmos de optimimazi´ on aproximados o heur´ ısticas como algoritmos voraces [1], m´ etodo de optimizaci´ on de entrop´ ıa cruzada [6], algorit- mos gen´ eticos [8] o el m´ etodo del gradiente [5]. En este art´ ıculo proponemos un nuevo enfoque, aplicando los m´ etodos de optimizaci´ on de colonia de hormigas (ACO, Ant Colony Optimization). Estos tipo de t´ ecnicas de optimizaci´ on han sido aplicado satisfactoriamente a problemas de obten- ci´ on de trayectorias de UAVs, aunque con otro objetivo distinto, el de minimizar el riesgo de las trayectorias entre un nodo inicial y un nodo final, evitando en la medida de lo posible la exposici´ on a zonas de amenazas [12, 13]. Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 575

Transcript of Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on...

Page 1: Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on bayesiana, muestran que el nuevo algoritmo obtiene solucio- ... UAVs, Optimizaci on

Resolucion del problema de Busqueda en Tiempo Mınimomediante Colonias de Hormigas

Sara Perez Carabaza, Eva Besada Portas, Jose Antonio Lopez Orozco, Jesus Manuel de la CruzDepartamento de Arquitectura de Computadores y Automatica. Universidad Complutense de Madrid

[email protected], [email protected], [email protected], [email protected]

Resumen

En este artıculo se propone un nuevo algoritmopara resolver el problema de busqueda en tiempomınimo basado en la optimizacion de colonias dehormigas, un tipo de optimizacion especialmenteadecuada para el problema ya que combina unaheurıstica en la que incluir informacion sobre laszonas mas prometedoras del espacio de solucionescon un aprendizaje automatico de las zonas delespacio de soluciones que muestran mejores re-sultados durante la optimizacion. Se propone unaheurıstica que tiene en cuenta la probabilidad deencontrar el objetivo sobre diferentes regiones delmapa y su evolucion temporal debido a las medi-das realizadas y al movimiento de los agentes. Lacomparacion de los resultados de la nueva tecni-ca con el algoritmo de optimizacion de entropıacruzada y el algoritmo de optimizacion bayesiana,muestran que el nuevo algoritmo obtiene solucio-nes mejores o similares en un tiempo significativa-mente inferior, ya que la heurıstica consigue me-jorar notablemente la calidad de las soluciones enlas primeras iteraciones del algoritmo.

Palabras clave: Busqueda en Tiempo Mınimo,UAVs, Optimizacion con Colonia de Hormigas,Sistemas Multi-agente

1. INTRODUCCION

Las primeras investigaciones sobre el problema debusqueda en tiempo mınimo, derivado de los pro-blemas de busqueda de objetivos, comenzaron du-rante la Segunda Guerra Mundial. La busquedaen tiempo mınimo (MTS, Minimum Time Search)consiste en localizar en el menor tiempo posiblea un objetivo situado en una zona determinadasobre la que se tiene cierto conocimiento de laszonas de localizacion mas probables. Por tanto,el resultado sera la trayectoria que se deberıa se-guir para que, probabilısticamente, se encuentreel objetivo en el menor tiempo posible. Este tipode problemas se encuentra en numerosas aplica-ciones militares y civiles, tales como busqueda desupervivientes tras desastres naturales, busquedamarıtima de barcos o aviones accidentados, etc.

Figura 1: Representacion esquematica del proble-ma de busqueda.

En nuestro caso, la busqueda sera realizada poruno o varios vehıculos aereos no tripulados (UAVs,Unmanned Aerial Vehicles), que portan sensorescapaces de detectar el objetivo. A modo de ejem-plo, en la figura 1 se muestran dos UAVs buscandoun objetivo con posicion y dinamica desconocidasobre una zona marcada con un enrejado virtual.En estos problemas, antes de comenzar una mi-sion de busqueda con UAVs, es necesario obteneren la estacion de tierra la planificacion de la mi-sion y verificarla antes de que esta comience. Eneste caso una herramienta como la que se proponeen este artıculo es de enorme utilidad.

La complejidad computacional de este tipo pro-blemas (NP-completos o NP-duros dependiendode su formulacion [10]) hace que la comunidadcientıfica se centre en mejorar la eficacia de losmetodos de resolucion y que estos se aborden uti-lizando algoritmos de optimimazion aproximadoso heurısticas como algoritmos voraces [1], metodode optimizacion de entropıa cruzada [6], algorit-mos geneticos [8] o el metodo del gradiente [5].

En este artıculo proponemos un nuevo enfoque,aplicando los metodos de optimizacion de coloniade hormigas (ACO, Ant Colony Optimization).Estos tipo de tecnicas de optimizacion han sidoaplicado satisfactoriamente a problemas de obten-cion de trayectorias de UAVs, aunque con otroobjetivo distinto, el de minimizar el riesgo de lastrayectorias entre un nodo inicial y un nodo final,evitando en la medida de lo posible la exposiciona zonas de amenazas [12, 13].

Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 575

Page 2: Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on bayesiana, muestran que el nuevo algoritmo obtiene solucio- ... UAVs, Optimizaci on

Para validar el uso de ACO en el problema MTS,los resultados obtenidos con esta tecnica se compa-ran con los obtenidos con otros algoritmos utiliza-dos para la resolucion del problema de busqueda:el Algoritmo de Optimizacion Bayesiana (BOA)y la Optimizacion de Entropıa Cruzada (CEO).Tanto el metodo propuesto como los metodos conlos que se ha comparado son tecnicas que a lo largode sus iteraciones van aprendiendo la distribucionprobabilista de las mejores soluciones pasadas yacercandose cada vez mas a soluciones optimas. Adiferencia de BOA y CEO, que comienzan la ge-neracion de soluciones de manera aleatoria, ACOcombina el uso de una heurıstica propia del pro-blema que se desea optimizar con la informacionprobabilista aprendida a traves de un mecanismode deposicion de feromonas. Esto nos ha permi-tido obtener soluciones de mayor calidad en lasprimeras iteraciones del algoritmo, punto clave enun problema complejo en el cual se debe encontrarun equilibrio entre la calidad de las soluciones ytiempo de computacion.

La organizacion del artıculo es la siguiente. En laseccion 2 se formula el problema de busqueda, yen la seccion 3 se introduce tanto el algoritmo debusquda propuesto mediante ACO, como el algo-ritmo de busqueda basado en CEO. En la seccion4 se muestran y comparan los resultados de losdistintos algoritmos en distintos ejemplos de esce-narios de busqueda y en la seccion 5 se recogen lasprincipales conclusiones del trabajo.

2. FORMULACION DELPROBLEMA

Si consideramos los algoritmos de busqueda co-mo una caja negra, estos reciben como entradalas posiciones iniciales de los agentes (UAVs), y lainformacion relativa a la localizacion del objetivoy su dinamica; y devuelven como salida las me-jores trayectorias de los agentes que se obtienende acuerdo a la funcion de optimizacion escogida.Para resolver el problema de busqueda medianteun algoritmo, ademas de decidir la codificacion dela solucion, es necesario formular los modelos ma-tematicos que engloben la informacion relativa alobjetivo y a los sensores.

Al abordar el problema desde un enfoque discre-to, la zona de busqueda Ω se discretiza, en unamalla de wx ∗ wy celdas. La informacion sobre lalocalizacion del objetivo se recoge a traves de unmodelo probabilıstico inicial b(τ0) = P (τ0), quesera explotado por el algoritmo de optimizacionpara determinar las trayectorias de los agentes. Elmodelo del objetivo b(τ t) = P (τ t|z1:t

1:A, s1:t1:A) queda

representado por un mapa o matriz de probabili-dades de dimensiones (wx, wy) donde a cada celda

del mapa se le asigna la probabilidad de que el ob-jetivo se encuentre en ella en el instante t dadastodas las medidas z1:t

1:A obtenidas por un total de Aagentes a lo largo de sus trayectorias s1:t

1:A. Puestoque se supone que el objetivo se encuentra en algu-na posicion del area de busqueda, para cualquierinstante temporal t se verifica

∑τ∈Ω b(τ

t) = 1 .

La informacion relativa a la dinamica del ob-jetivo queda recogida en el modelo probabilistaP (τ t|τ t−1). Este modelo representa la probabi-lidad de que el objetivo se mueva de la celdaτ t−1 a la τ t, de manera que ∀τ t−1 se cumpla que∑τt∈Ω P (τ t|τ t−1) = 1.

Los sensores que hay en los agentes son capa-ces de realizar medidas de deteccion del objeti-vo. Asumiendo que la posicion del sensor y delos agentes coinciden, el modelo probabilista delos sensores P (zta|τ t, sta) representa la probabili-dad de la medida zta condicionada a la posiciondel objetivo τ t y del agente sta. En este trabajose consideran dos unicas medidas zta posibles; de-teccion D o no deteccion D del objetivo, por loque P (zta = D|τ t, sta) = 1 − P (zta = D|τ t, sta). Aligual que en [6], [7] y [8], se ha utilizado un mode-lo de sensor ideal, cuya probabilidad de deteccionP (zta = D|τ t, sta) = 1 si la posicion del objetivo τ t

y el agente sta coinciden, y nula en caso contrario:

P (zta = D|τ t, sta) =

1 τ t = sta0 τ t 6= sta

(1)

Desde un enfoque discreto el problema de busque-da puede representarse con un grafo G = (V,E),donde los vertices V representan las celdas delmapa y las aristas E las acciones que unen unosvertices con otros, coincidentes con las direccionescardinales. A modo de ejemplo, en la figura 2 seha representado un escenario de un problema debusqueda, la zona de busqueda se ha discretizadoen 9 celdas (wx = wy = 3). Los numeros que apa-recen sobre cada vertice indican la probabilidadb(τ0) de que el objetivo se encuentre en la celdacorrespondiente. El ındice asociado a cada celda seencuentra situado en su parte inferior izquierda.

Aunque el espacio de estados de los agentes y delobjetivo son los vertices del grafo, las trayectoriasde los agentes pueden ser codificadas a traves deun conjunto de acciones, que aplicadas desde elnodo inicial s0

a definen la trayectoria correspon-diente. Por ejemplo, la trayectoria del agente a(s1:4a ) representada mediante flechas rojas en la

figura 2 queda determinada por la siguiente se-cuencia de acciones de control c1:4

a = 3, 5, 3, 5 =E,S,E, S. La codificacion de las trayectorias apartir de la secuencia de acciones es ventajosa yaque reduce el espacio de busqueda del algoritmode optimizacion.

Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 576

Page 3: Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on bayesiana, muestran que el nuevo algoritmo obtiene solucio- ... UAVs, Optimizaci on

Figura 2: Grafo correspondiente a un problemade busqueda, wx = 3, wy = 3, s0

a = 1. En rojola trayectoria correspondiente a la secuencia deacciones de control c1:N

a = 3, 5, 3, 5.

Ademas, calcular la trayectorias que recorran todoel grafo habitualmente tiene un coste computacio-nal excesivo, por lo que se suele optimizar trayec-torias de una horizonte de decision N limitado.

Como conclusion, el objetivo del problema debusqueda en tiempo mınimo es encontrar las me-jores rutas s1:N

1:A o secuencias de acciones de con-trol c1:N

1:A de longitud N , que partiendo de las po-siciones iniciales de los agentes s0

1:A, minimicen eltiempo de busqueda del objetivo.

2.1. ESTIMADOR BAYESIANORECURSIVO

El estimador recursivo bayesiano [1] es un algorit-mo que permite actualizar el modelo de posiciondel objetivo b(τ t) con la informacion de las medi-das de los sensores y la informacion del movimien-to del objetivo. El metodo itera en dos pasos: b(τ t)se actualiza incluyendo la informacion probabilis-ta del movimiento del objetivo (prediccion) y delas medidas (actualizacion) mediante la aplicaciondel teorema de Bayes.

Prediccion:

b(τ t)=∑

τt−1∈Ω

P (τ t|τ t−1)b(τ t−1) (2)

Actualizacion:

b(τ t) =

∏a=1:A

P (zta|τ t, sta)b(τ t)∑τt∈Ω

∏a=1:A

P (zta|τ t, sta)b(τ t)(3)

2.2. FUNCION OBJETIVO

Los algoritmos de busqueda propuestos evaluanlas soluciones o trayectorias de acuerdo a una fun-cion de optimizacion, en nuestro caso relacionadacon el tiempo de busqueda de los agentes. Ademas,al ser un problema modelado probabilısticamen-te (a traves del mapa de probabilidad inicial y laincertidumbre en la medida y en el movimiento

del objetivo), minimizaremos el Tiempo Esperado(ET) de busqueda.

Es importante destacar que, a pesar de la impor-tancia de encontrar al objetivo lo antes posible enmuchos problemas de busqueda, solo unos pocostrabajos ([9, 7, 6]) optimizan realmente ET. Lohabitual ([1, 11, 8]) es maximizar la probabilidadconjunta de deteccion, es decir, buscar las trayec-torias que maximizan la probabilidad de encontraral objetivo, sin tener en cuenta como se distribu-yen las probabilidades de deteccion a lo largo delas trayectorias. Sin embargo, tal y como se remar-ca en [9], esto no asegura que se minimice ET.

El tiempo esperado de busqueda (ET) puede cal-cularse a traves de la suma de las probabilidadesde no deteccion desde la posicion inicial hasta elinfinito, o lo que es lo mismo hasta que se reco-ge toda la probabilidad de deteccion. Puesto quegeneralmente las trayectorias evaluadas son fini-tas (se encuentran limitas a una longitud N), lafuncion de optimizacion que se utiliza es el tiempoesperado truncado hasta el instante N :

ET (s1:t1:A) =

∑t=1:N

P (D1:t

1:A|s1:t1:A) (4)

La evaluacion del ET truncado en funcion deb(τ0), P (τ t|τ t−1) y P (zta|τ t, sta) es un proceso ite-rativo computacionalmente costoso, en el que seimplementa un estimador bayesiano recursivo conuna actualizacion no normalizada, tal y como sedetalla en [7].

3. ALGORITMOS DEBUSQUEDA

En esta seccion se presentan los dos algoritmos debusqueda implementados en este trabajo. Primerose detalla el nuevo algoritmo de optimizacion me-diante colonias de hormigas que proponemos eneste trabajo. Despues se resumen las caracterısti-cas mas relevantes del algoritmo de optimizacionde entropıa cruzada (CEO) utilizado en la compa-rativa recogida en la seccion 5.

3.1. COLONIAS DE HORMIGAS(ACO)

Los algoritmos de colonias de hormigas son me-taheurısticas basadas en el comportamiento colec-tivo de las hormigas en su busqueda de alimentos[3]. ACO fue inicialmente utilizado para resolver elproblema del viajante, en el que dado un conjuntode ciudades hay que encontrar la ruta mas cortaque visita todas las ciudades unicamente una vez.Para resolver este problema tradicional, ACO 1)utiliza un grafo en el que cada nodo esta asocia-do a una ciudad y todas los nodos/ciudades estan

Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 577

Page 4: Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on bayesiana, muestran que el nuevo algoritmo obtiene solucio- ... UAVs, Optimizaci on

conectados, y 2) utiliza una heurıstica y aprendeuna tabla de feromonas de las que se obtiene laprobabilidad de que desde un nodo i se vaya a unnodo j.

Como se ha visto anteriormente, nuestro problemaconsiste en encontrar el mejor camino de longitudN , que empezando en una celda del mapa, reco-rra los vertices (celdas) del grafo correspondientea la zona de busqueda discretizada. Como en es-te caso, desde cada celda unicamente se puedenalcanzar sus 8 celdas adyacentes, para el caso enel que la busqueda se realice con un unico agente,es suficiente con que ACO utilice una heurıstica yaprenda una tabla de feronomas de wx ∗wy filas y8 columnas, con la que determinar la probabilidadde que desde cada celda i se utilice la accion c.

Para la busqueda con un unico agente, las hormi-gas artificiales de nuestro problema construyen lasecuencia de acciones de control guiadas por unatabla de informacion heurıstica ηi,c y una tabla deferomonas artificiales ζi,c. La probabilidad de queuna hormiga aplique en el nodo i la accion c vienedeterminada por la ecuacion:

ACOpi,c =(ζi,c)

α(ηi,c)β∑

c=1:8(ζi,c)α(ηi,c)β(5)

donde α y β son parametros que controlan la in-fluencia de las feromonas y la heurıstica.

En cada iteraccion, ACO genera M hormigas (se-cuencias de acciones), evalua su bondad utilizan-do la funcion objetivo y actualiza la tabla de fe-romonas siguiendo alguna estrategia propia de lavariante de ACO utilizada. En nuestro caso, la ac-tualizacion de feromonas se realiza con la siguientevariante de la estrategia propuesta en Ant System(AS, [2]) :

ζi,c ←− (1− ρ) · ζi,c +∑

k∈better(µ)

4ζki,c (6)

donde ρ es la tasa de evaporacion de feromonas y4ζki,c la cantidad de feromonas depositada por lahormiga k al salir de la celda i mediante la accionc. Al igual que en [4], la deposicion de feromo-nas la realizan todas las hormigas que han obte-nido una evaluacion de la funcion objetivo mejoral valor medio µ de las evaluaciones de las fun-ciones objetivo obtenidas por todas las hormigasde la correspondiente iteracion (i.e, las hormigask ∈ better(µ)).

La cantidad de feromona depositada correspon-diente a una determinada hormiga 4ζki,c es ma-yor cuanto mejor sea la evaluacion, mediante lafuncion objetivo, de la trayectoria de la hormiga.De esta manera las acciones de las hormigas queen una celda han obtenido mejores soluciones au-mentaran su probabilidad de ser escogidas por lashormigas de la siguiente iteracion.

La ecuacion 7 determina la cantidad de feromonasdepositadas en cada pareja nodo-accion. ETmax esla cota superior de la funcion objetivo (ecuacion4), es decir el tiempo esperado que se obtendrıa enel peor de los casos, que se da cuando la hormigarecorre unicamente vertices con probabilidad nu-la. Como cabe esperar, cuanto mejor sea la calidadde una solucion (menor ET k), mayor sera la can-tidad de feromonas depositadas 4ζki,c. El parame-tro γ nos permite controlar la diferencia entre lacantidad de feromonas correspondiente a solucio-nes de distinta calidad. Finalmente, es importantedestacar que 4ζki,c 6= 0 solo para los pares nodo i-accion c seguidos por la hormigas k ∈ better(µ).

4ζki,c =

(ETmax − ET k

ETmax

)γi, c ∈ tourk

0 otro caso

(7)

La ecuacion 8 determina la informacion heurısticaescogida para resolver el problema MTS, en la quepara cada par nodo i-accion c se suma, para todoslos vertices en un triangulo centrado en la direc-cion correspondiente a c (j ∈ triangle(i, c,N−t)),el producto de dos funciones. La primera, es unafuncion f(·) decreciente con la distancia entre elnodo i y el nodo j. La segunda es la probabilidadb(τ t = j), actualizada tras los t−1 pasos anterioresde la hormiga, sobre las posiciones del vertice j.Los vertices j ∈ triangle(i, c,N−t), representadosen la figura 3 para un caso ejemplo, se determinanen funcion de la celda i, la direccion asociada a laaccion c y el numero de vertices que esten dentrodel alcance de la hormiga (i.e.N pasos en el primerinstante temporal t=1 y N − t+ 1 para cualquierinstante posterior t). De esta manera, la heurısticahace que sea mas probable el movimiento de lashormigas hacia las regiones mas prometedoras delmapa.

ηi,c =∑

j∈triangle(i,c,t)

f(distance(i, j))b(τ t = j)

(8)El algoritmo termina una vez que se ha superado

una determinada cota de tiempo maximo, devol-viendo como solucion la trayectoria de la hormigaque ha conseguido una mejor evaluacion de la fun-cion objetivo.

Para ilustrar el funcionamiento del algoritmo conun unico agente vamos a suponer que tenemos queresolver el problema de busqueda de la figura 2, yaque es un problema muy sencillo del cual sabemossu solucion optima (la representada mediante lasflechas rojas). Las hormigas comenzarıan su tra-yectoria en la posicion inicial del agente s0

1 = 1 yen cada paso temporal t irıan construyendo su tra-yectoria de acuerdo a la ecuacion 5. La tabla de fe-romonas es una matriz de dimensiones (wx∗wy, 8),

Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 578

Page 5: Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on bayesiana, muestran que el nuevo algoritmo obtiene solucio- ... UAVs, Optimizaci on

Figura 3: Representacion de las distintos nodosconsiderados para calcular la heurıstica para cadauna de las 8 acciones posibles de una hormiga en laposicion central de las flechas, wx = wy = 10, t =1, N = 4.

donde cada fila corresponde a una celda del mapay cada columna a una de las 8 acciones posibles.En la primera iteracion de ACO, todas las fero-monas ζi,c con parejas celda-acciones admisiblesse inicializan a un mismo valor (0.07) y las noadmisibles a 0. Por lo tanto, las hormigas constru-yen sus trayectorias influenciadas unicamente porla informacion heurıstica ηi,c. A continuacion semuestra la tabla con todos los valores de ζi,c trascuatro iteraciones de ACO. Podemos ver como enlas filas correspondientes a los vertices que com-ponen el camino optimo s1:4

1 = 1, 4, 5, 8, 9, se hadepositado una mayor cantidad de feromonas enlas acciones optimas correspondientes 3, 5, 3, 5.

ζ =

tras 4 iteraciones

0 0 1.26 0.27 0.02 0 0 00.01 0.01 0.02 0.01 0.01 0 0 00.01 0.01 0.02 0 0 0 0 00 0 0.03 0.57 0.88 0.04 0.02 0

0.24 0.09 0.61 0.32 0.05 0.03 0.01 0.040.02 0.02 0.01 0 0 0 0.01 0.010 0 0 0 0.07 0.01 0.01 0

0.17 0 0 0 0.72 0.10 0.19 0.040.16 0 0 0 0 0 0.05 0.17

Para el problema de busqueda multi-agente se

consideran grupos de A hormigas cuyas trayecto-rias se evaluan de manera conjunta con la ecuacion4 y se consideran tantas matrices de feromonas co-mo agentes. De esta manera la matriz de feromo-nas correspondiente a cada agente va recogiendoiterativamente el mejor camino del agente.

3.2. OPTIMIZACION DE ENTROPIACRUZADA (CEO)

El algoritmo de CEO que resuelve el problemaMTS mono-agente aprende la distribucion de pro-babilidad CEOpc,t que permita muestrear para ca-da instante de tiempo t de la secuencia de accionesla accion optima [6]. La distribucion de probabi-lidades CEOpc,t se representa en una matriz dedimensiones (8, N), donde cada fila corresponde a

una accion y cada columna a un instante temporalt, de manera que CEOpc,t indica la probabilidad deque en el instante t se realice la accion c, y ∀t setiene que

∑c(CEOpc,t) = 1 .

CEO puede ser dividido en tres pasos: en el prime-ro las soluciones son muestreadas de la distribu-cion de probabilidad CEOpc,t que se tiene hasta elmomento, en el segundo estas son evaluadas y enel tercero se actualiza la distribucion de probabi-lidad CEOpc,t a partir del recuento de las accionesutilizadas en cada instante en un subconjunto for-mado por las mejores soluciones obtenidas.

Inicialmente todas las acciones son consideradasequiprobables, por lo que todos los elementos deCEOpc,t son inicializados a 1/8.

Para ilustrar el funcionamiento del algoritmo so-bre el problema de MTS de la figura 2 se mues-tra la matriz de distribucion de probabilidadesCEOpc,t obtenida tras cuatro iteraciones de CEO.Se puede observar como las acciones correspon-dientes al camino optimo 3, 5, 3, 5 presentan al-tas probabilidades.

CEOp =

tras 4 iteraciones

0.0032 0.0118 0.0115 0.23800.0032 0.0032 0.0038 0.0392

0.9637 0.0132 0.6229 0.01290.0171 0.1238 0.1600 0.02910.0032 0.8366 0.0432 0.23260.0032 0.0032 0.0233 0.16070.0032 0.0038 0.1205 0.18470.0032 0.0044 0.0147 0.1027

Para el caso multi-agente, basta con evaluar deforma conjunta con la ecuacion 4 las solucionesgeneradas por CEO y aprender un total de A ma-trices CEOpc,t.

4. Resultados

Para poder comprobar el poder resolutivo delACO propuesto se resuelven distintos escenariosde busqueda y se comparan los resultados conlos obtenidos con CEO. Los 5 escenarios escogi-dos para testear el algoritmo son los mismos quese utilizaron en [7] para comparar la eficacia deBOA y CEO. Los escenarios de busqueda difierenen el numero de agentes A, el horizonte de deci-sion (numero de pasos de la trayectoria) N , laslocalizaciones iniciales de los agentes s0

a, el ma-pa de probabilidades b(τ0) correspondiente a lainformacion inicial sobre la localizacion del ob-jetivo y el modelo probabilista P (τk|τk−1) de ladinamica del objetivo. En todos los escenarios debusqueda se ha realizado la misma discretizacion:wx = 20, wy = 20.

Debido a la naturaleza probabilısta de CEO y

Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 579

Page 6: Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on bayesiana, muestran que el nuevo algoritmo obtiene solucio- ... UAVs, Optimizaci on

ACO para poder comparar sus soluciones es nece-sario realizar varias ejecuciones de cada algoritmosobre cada escenario. En concreto, para este tra-bajo se han realizado un total de 50 optimizacio-nes por cada algoritmo y escenario de busqueda.Ademas, es importante destacar que los parame-tros utilizados para ACO son los que se recogenen la tabla 1 y los de CEO los que se recogen en[6]. A este respecto, es importante destacar queel numero de hormigas en cada iteracion de ACOes el 30 % del numero de soluciones generadas porCEO. Finalmente, los algoritmos han sido imple-mentados en Matlab, utilizando su toolbox de pa-ralelizacion en la generacion y evaluacion de lassoluciones (ya que son los procesos computacio-nalmente mas costoso del algoritmo), y que hansido ejecutados sobre un PC Intel Core 2 Duo a2.93 GHz con 4GB de RAM y Windows 7.

Cuadro 1: Parametros de ACOα β ρ γ M1 1 0.5 10 3 ·N ·A · 8

En cada fila de la figura 4 se muestran los resul-tados asociados a un escenario diferente, mientrasque en la primera columna se esquematizan lascaracterısticas mas relevantes de cada escenario,en la segunda columna la evolucion de los mejoresvalores de la funcion objetivo obtenidos por los al-goritmos a lo largo del tiempo de computo, y en latercera y cuarta columna una instantanea del ma-pa de probabilidad y las trayectoria de los agentesdevueltos por una optimizacion de ACO. En losesquemas de cada escenario se delimitan con li-neas negras las zonas del mapa de probabilidadinicial con b(τ0) 6= 0 y se representan con estre-llas rojas las posiciones iniciales de los agentes ycon flechas negras las tendencias principales delmodelo de movimiento del agente. En las graficascomparativas de la segunda columna se representala evolucion del valor medio y la varianza, obte-nidos sobre las 50 optimizaciones realizadas concada algoritmo, de los mejores valores de la fun-ciones objetivo (tiempo esperado) obtenidos porcada algoritmo en diferentes instantes de tiempode computo real. Es decir, en el eje de abscisas seobserva el tiempo de computo del algoritmo y enel eje de ordenadas la media y la varianza de ET.

A continuacion se explican las caracterısticas decada uno de los cinco escenarios y se analiza eldesempeno de cada algoritmo.

Escenario A) Se trata de un escenario estatico enel que se diferencian dos zonas de probabilidad yuna de ellas contiene una pequena region de ma-yor probabilidad que la otra. La posicion inicial delagente es central y equidistante de las dos zonas

de probabilidad. En la segunda columna podemosver un mejor rendimiento de ACO frente a CEOdurante todo el tiempo de computo de ambos al-goritmos. Esto se debe a que ACO habitualmentepropone desde el inicio una trayectoria que va ha-cia la zona de mayor probabilidad, mientras queCEO genera soluciones que van a ambas regionesde probabilidad.

Escenario B) Este es un escenario dinamico en elque la probabilidad se encuentra inicialmente con-centrada en el centro del mapa y a medida quepasa el tiempo se desplaza hacia el noroeste. Eneste escenario las varianzas obtenidas por ambosalgoritmos se solapan, obteniendo CEO solucionesligeramente mejores despues de los 60 segundos.Sin embargo, es importante destacar que ACO yaobtiene soluciones relativamente buenas a los 5 se-gundos.

Escenario C) Es un escenario complejo debido aque la probabilidad se encuentra repartida en doszonas que se mueven simetricamente de forma cir-cular. En este caso, los resultados de ACO sonsignificativamente mejores que los de CEO. Estose debe a que CEO propone muchas soluciones enlas que cada agente no se dirige a una zona deprobabilidad diferente, mientras que la heurısticade ACO manda a cada agente a una zona de pro-babilidad diferente y hace que las hormigas siganel desplazamiento de las probabilidades a lo largodel tiempo.

Escenario D) Este escenario es mas complejo quelos anteriores ya que tiene mas agentes y un mode-lo de movimiento del objetivo mas complejo. Aun-que en este escenario los dos algoritmos consiguensoluciones de calidad parecida, es importante des-tacar que ACO obtiene resultados proximos a lamejor solucion encontrada en poco tiempo (3 se-gundos), mientras que CEO necesita 100 segundospara llegar a soluciones similares.

Escenario E) Se trata de un escenario con dosagentes y un modelo de movimiento del objetivosimilar al del escenario B. Aunque en este escena-rio CEO vuelve a obtener resultados ligeramentemejores a los de ACO, CEO no es capaz de mejo-rar a ACO hasta que ha pasado 5 veces el tiempoutilizado por ACO para obtener su mejor solucion.

La comparativa de CEO y ACO muestra que ACOobtiene, sobre los diversos escenarios, resultadosbastantes satisfactorios, ya que a pesar de obte-ner soluciones ligeramente peores que CEO en By D, obtiene soluciones claramente mejores en A yC, donde CEO no consigue obtener soluciones enlas que ambos agentes colaboren en la busquedadel objetivo. Un aspecto especialmente relevante,es que ACO obtiene sus soluciones en las prime-

Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 580

Page 7: Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on bayesiana, muestran que el nuevo algoritmo obtiene solucio- ... UAVs, Optimizaci on

1) Escenarios 2) ET/Tiempo computo 3) Solucion t intermedio 4) Solucion t = N

A)

A=

1,

N=

10

B)

A=

1,

N=

20

C)

A=

2,

N=

10

D)

A=

3,

N=

10

E)

A=

2,

N=

10

Figura 4: Escenarios y resultados de las optimizaciones.

ras iteraciones, reduciendo de forma significativael tiempo de computo frente a CEO.

Para terminar vamos a comparar los resultadosobtenidos con ACO con los de BOA, utilizandopara este fin los resultados de BOA recogidos yresumidos en [7], ya que 1) no nos es posible rea-lizar una comparacion similar a la realizada conCEO por no tener una version de BOA en la quese haya optimizado la evaluacion de las solucionesy 2) [7] muestra que BOA es capaz de mejorar lassoluciones de CEO a costa de superar significati-vamente su tiempo de calculo. Este aumento detiempo de computo se debe a que BOA obtienela funcion de probabilidad BOApa,t que liga accio-nes a instantes de tiempo utilizando un algoritmo

voraz de aprendizaje de redes bayesianas compu-tacionalmente costoso. Este algoritmo de aprendi-zaje permite que BOA consiga mejores solucionesque CEO en cuatro de los cinco escenarios perocon velocidades de convergencia mucho menores.Si comparamos los mejores resultados obtenidoscon ACO (recogidos en la segunda columna de lafigura 4) y BOA (recogidos en la segunda fila de lafigura 2 en [7]), se puede observar que BOA obtie-ne, despues de un tiempo significativamente ma-yor que ACO, resultados ligeramente mejores queACO en los escenarios B, D y E. Sin embargo, enaquellos escenarios en los que BOA claramente ob-tenıa mejores soluciones que CEO, los escenariosA y C, ACO consigue mejorar los resultados de

Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 581

Page 8: Resoluci on del problema de Busqueda en Tiempo M … · cruzada y el algoritmo de optimizaci on bayesiana, muestran que el nuevo algoritmo obtiene solucio- ... UAVs, Optimizaci on

BOA (escenario A) u obtener resultados similares(escenario C).

5. CONCLUSIONES

En este trabajo se presenta un nuevo algoritmobasado en colonias de hormigas para la resoluciondel problema de busqueda en tiempo mınimo y secomprueba su eficacia frente a varios escenarios,con objetivos fijos y moviles y distintos numerode agentes.

Se realiza una comparativa de los resultados ob-tenidos por ACO con los obtenidos mediante otroalgoritmo de busqueda basado en CEO y se ob-serva que se obtienen resultados similares o me-jores. Ademas la posibilidad que ofrece ACO deincluir una informacion heurıstica para construirlas soluciones hace que el algoritmo obtenga, ensus primeras iteraciones, soluciones mucho mejo-res que CEO y BOA, ya que estos dos algoritmoscomienzan la busqueda de manera aleatoria sin te-ner en cuenta ninguna informacion del escenario.En un problema de alta complejidad, donde es ne-cesario encontrar un equilibrio entre la calidad dela solucion y el coste computacional, la rapidez deconvergencia de ACO supone una gran ventaja.

En el futuro deseamos estudiar, de forma estadısti-ca, la influencia que tienen los parametros de ACOen los resultados del algoritmo, realizar una com-parativa de ACO con una version de BOA en laque no se aprenda la estructura de la red Bayesia-na, e hibridar estos algoritmos para aprovechar lomejor de todos ellos.

Agradecimientos

Este trabajo ha sido financiado por Airbus Defen-ce and Space con el proyecto SAVIER AER-30459.

Referencias

[1] Bourgault, F., Furukawa, T., & Durrant-Whyte, H. F. (2006, January). Optimalsearch for a lost target in a bayesian world.In Field and service robotics (pp. 209-222).

[2] Dorigo, M., Maniezzo, V., & Colorni, A.(1996). Ant system: optimization by a colonyof cooperating agents. Systems, Man, and Cy-bernetics, Part B: Cybernetics, IEEE Tran-sactions on, 26(1), 29-41.

[3] Dorigo, M., & Birattari, M. (2010). Ant co-lony optimization. In Encyclopedia of machi-ne learning (pp. 36-39). Springer US.

[4] Escario, J. B., Jimenez, J. F., & Giron-Sierra,J. M. (2012). Optimisation of autonomous

ship manoeuvres applying Ant Colony Opti-misation metaheuristic. Expert Systems withApplications, 39(11), 10120-10139.

[5] Gan, S. K., & Sukkarieh, S. (2011, May).Multi-UAV target search using explicit de-centralized gradient-based negotiation. In2011 IEEE International Conference on Ro-botics and Automation, (pp. 751-756).

[6] Lanillos, P., Besada-Portas, E., Pajares, G.,& Ruz, J. J. (2012, October). Minimum ti-me search for lost targets using cross entropyoptimization. In 2012 IEEE/RSJ Internatio-nal Conference on Intelligent Robots and Sys-tems, (pp. 602-609).

[7] Lanillos, P., Yanez-Zuluaga, J., Ruz, J. J., &Besada-Portas, E. (2013, July). A bayesianapproach for constrained multi-agent mini-mum time search in uncertain dynamic do-mains. In Proceedings of the 15th annual con-ference on Genetic and evolutionary compu-tation (pp. 391-398).

[8] Lin, L., & Goodrich, M. (2009, October).UAV intelligent path planning for wildernesssearch and rescue. In IEEE/RSJ Internatio-nal Conference on Intelligent Robots and Sys-tems, (pp. 709-714).

[9] Sarmiento, A., Murrieta-Cid, R., & Hutchin-son, S. (2009). An efficient motion strategy tocompute expected-time locally optimal con-tinuous search paths in known environments.Advanced Robotics, 23(12-13), 1533-1560.

[10] Trummel, K. E., & Weisinger, J. R. (1986).Technical Note—The Complexity of the Op-timal Searcher Path Problem. Operations Re-search, 34(2), 324-327.

[11] Wong, E. M., Bourgault, F., & Furukawa, T.(2005, April). Multi-vehicle Bayesian searchfor multiple lost targets. In Proceedings ofthe 2005 IEEE International Conference onRobotics and Automation (pp. 3169-3174) .

[12] Zhang, C., Zhen, Z., Wang, D., & Li, M.(2010, May). UAV path planning method ba-sed on ant colony optimization. In Controland Decision Conference (CCDC), 2010 Chi-nese (pp. 3790-3792). IEEE.

[13] Zhou, S., Wang, J., & Jin, Y. (2012, January).Route planning for unmanned aircraft ba-sed on ant colony optimization and voronoidiagram. In Second International Conferenceon Intelligent System Design and EngineeringApplication (pp. 732-735).

Actas de las XXXVI Jornadas de Automática, 2 - 4 de septiembre de 2015. Bilbao ISBN 978-84-15914-12-9 © 2015 Comité Español de Automática de la IFAC (CEA-IFAC) 582