Una Revisión de Modelos de Atención Visual Bottom-up Neurobiológicamente Inspirados
-
Upload
fernanda-chua -
Category
Documents
-
view
216 -
download
0
Transcript of Una Revisión de Modelos de Atención Visual Bottom-up Neurobiológicamente Inspirados
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
1/11
El Hombre y la Mquina
ISSN: 0121-0777
Universidad Autnoma de Occidente
Colombia
Ramrez-Villegas, Juan F.; Ramrez-Moreno, David F.
Una revisin de modelos de atencin visual Bottom-up neurobiolgicamente inspirados
El Hombre y la Mquina, nm. 35, julio-diciembre, 2010, pp. 143-152
Universidad Autnoma de Occidente
Cali, Colombia
Disponible en: http://www.redalyc.org/articulo.oa?id=47817140014
Cmo citar el artculo
Nmero completo
Ms informacin del artculo
Pgina de la revista en redalyc.org
Sistema de Informacin Cientfica
Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/comocitar.oa?id=47817140014http://www.redalyc.org/fasciculo.oa?id=478&numero=17140http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/revista.oa?id=478http://www.redalyc.org/http://www.redalyc.org/revista.oa?id=478http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/fasciculo.oa?id=478&numero=17140http://www.redalyc.org/comocitar.oa?id=47817140014http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/revista.oa?id=478 -
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
2/11
Resumen
La atencin visual es un proceso desarrollado
sobre gran parte del rea de procesamiento visual
primario. El procesamiento cerebral provoca la fo-
calizacin selectiva de los objetos del campo visual
que compiten por procesamiento, esta competenciase encuentra mediada por caractersticas primarias de
los objetos como el contraste de color, el contraste
de intensidad y el contraste de orientacin. En esta
revisin se procura establecer la conexin de los
modelos de atencin visual bottom-up disponibles en
la literatura, sus arquitecturas y bases matemticas,
con la evidencia neurobiolgica sobre el fenmeno
de atencin visual establecida hasta la actualidad.
Una revisin de modelosde atencin visual Bottom-upneurobiolgicamenteinspirados
* Ing. Biomdico. Joven investigador del Grupo de Investigacin en Neurocomputacin. [email protected]
** Ph.D. en Ciencias Biomdicas. Docente del Departamento de Fsica y Director del Grupo de Investigacin en Neurocomputacin de la UniversidadOccidente. [email protected]
Fecha de Recepcin: mayo 20 de 2010 Fecha de aceptacin: septiembre 14 de 2010
JUANF. RAMREZ-VILLEGAS*
DAVIDF. RAMREZ-MORENO**
Adicionalmente, se ilustra
plementacin propia de un
de atencin visual bottom
discuten algunos pormenor
el proceso de atencin o metop-down cuya dinmica
menta la funcin del pro
pre-atencin o bottom-up.
Palabras clave:Atenci
bottom-up, prominencia visu
po visual, focalizacin selectiva, mecanismo to
Abstract
Visual attention is related with most of
visual processing areas. Objects in the visu
compete for processing; competence is often m
by primary visual features such as intensity color contrast and orientation contrast. This
attempts illustrating the connection between
of bottom-up visual processing available in li
their architectures and well-established neuro
cal evidence. Additionally, an implementat
bottom-up visual attention model is shown,
eral principles of the attention process or to
mechanism are discussed.
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
3/11
procesamiento visual bottom-up que ms ha inui
en la literatura y nalmente considera otros modelexistentes.
2. Mecanismos neuronales de visin
La bsqueda visual es la bsqueda de un elemen
nico entre una coleccin de elementos de distracci
En experimentos psicofsicos de bsqueda visual
mide el tiempo de reaccin como funcin del nme
de elementos de distraccin. Cuando los elementos q
generan la distraccin son sustancialmente diferent
al objetivo, la identicacin de este ltimo toma po
tiempo y es casi independiente del nmero de objet
de distraccin. No obstante, cuando existe un parecisustancial entre el objetivo y los elementos de distra
cin, la reaccin es mucho ms lenta y aumenta dram
ticamente con el nmero de distractores.6Esto provo
la entrada en funcin del esquema top-down,asumi
como un mecanismo con procesamiento en parale
que examina serialmente los rasgos compartidos ent
el objetivo y los distractores, hasta sealar la asimet
que hace identicable al objetivo.8-12
Los objetos deben competir por el procesamien
y el sistema visual debe usar la informacin disponib
para parcializar la competencia a favor de ciertos objet
del espacio. A este fenmeno se le conoce como seletividad.10,13-15 De acuerdo con el modelo de competenc
parcial, los objetivos distractores compiten por espaci
de procesamiento en la bsqueda visual. Un fact
que inuencia la selectividad es el umbral bottom-u
entendido como el grado de correlacin o similarid
entre el objetivo y los distractores, muy bajo en un ni
objetivo con todos sus rasgos distintivos nicos, en
arreglo de distractores homogneos, donde es fcilmen
detectable.16No obstante, un sistema de atencin ser
de uso limitado si fuera enteramente dominado por um
brales bottom-up. Lo que se necesita es una manera
disparar el mecanismo top-downuna vez sobrepasa
cierto umbral bottom-up.10, 17
Desde 1985 se han establecido diferentes model
de procesamiento bottom-up,13,18-28 que reproducen
comportamiento del mecanismo neurobiolgico dad
las hiptesis establecidas por Treisman et al.,4 seg
las cuales las diversas propiedades del espacio so
codicadas en mapas de caractersticas en diferent
regiones del cerebro. De acuerdo con este modelo, pa
resolver el problema de las vinculaciones (asociacion
hay un mapa de prominencia (saliency map) que cod
ca conjunciones de caractersticas en la imagen. Es
mapa maestro recibe entradas desde todos los mapas
caractersticas, pero retiene solamente las que distingu
el objeto de lo que lo rodea, de modo tal que las cara
Key words:Visual attention, saliency, visual eld,
selective focalization, bottom-up visual attention, top-down mechanism.
1. Introduccin
La mayora de aproximaciones computacionales
para la deteccin de objetos son implementaciones de
procesamientos en serie que nacen de esquemas con-
vencionales de visin articial.1 Evidencia biolgica
establece que el cerebro de los primates emplea algn
procesamiento visual en serie, de la mano con el pro-
cesamiento masivo en paralelo.2El cerebro no puede
procesar todo lo presente a su alrededor y al parecer la
estrategia que la naturaleza ha tomado para lidiar coneste problema se basa en la seleccin de las entradas para
ser procesadas preferencialmente, cambiando el foco de
procesamiento de una locacin a otra de modo serial.
Existe mucha evidencia experimental acumulada a
favor de la existencia de dos mecanismos de control so-
bre los que la atencin visual se desarrolla.3-6El primero
de ellos es conocido como procesamiento bottom-upo
proceso de pre-atencin dependiente de la prominencia
de los objetos e independiente de la tarea; el segundo es
conocido como procesamiento top-downo proceso de
atencin, mucho ms lento que el anterior, controlado
por la voluntad y por tanto, dependiente de la tareaespecca en ejecucin.
Cinco rasgos importantes han emergido de los mo-
delos computacionales de atencin visual que enfatizan
el procesamiento bottom-up. Primero, la prominencia
perceptual del estmulo depende crticamente del con-
texto que le rodea. Segundo, un mapa de prominencia
nico que topogrcamente codica la llamatividad o
prominencia del estmulo sobre la escena visual ha pro-
bado ser una estrategia de control bottom-upplausible y
eciente. Tercero, el retorno de inhibicin, un proceso
por el que se impide atender en instantes posteriores
una locacin atendida actualmente. Cuarto, la atencin
y los movimientos del ojo interactan estrechamente,
suponiendo retos computacionales con respecto al
sistema coordenado usado para el control de atencin.
Finalmente, el entendimiento de escenas y el reconoci-
miento intencionado de rasgos condicionan fuertemente
la seleccin de locaciones atendidas,7como un proceso
top-downque emerge sobre el procesamiento bottom-up.
En este trabajo se delinean las implementaciones
computacionales de mayor impacto en la literatura frente
al procesamiento bottom-up, asumiendo la arquitectura
del sistema visual de los primates. Esta revisin empie-
za con una corta explicacin de los modelos clsicos
de procesamiento visual, contina con el modelo de
Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
4/11
tersticas especcas y detalladas se
quedan en los mapas de caractersticasiniciales (las que sirven para reconocer
el objeto); de igual manera, la escena
es susceptible de un proceso de aten-
cin o bsqueda na, slo despus
de que las caractersticas hayan sido
asociadas en una porcin del mapa
maestro. La representacin primaria
incluye una variedad de mapas dife-
rentes para diversas caractersticas
elementales, e.g., orientacin, color,
intensidad y direccin de movimiento.
Para cada locacin en estos mapashay un nmero de dimensiones, as
como diferentes colores u orientacio-
nes. El estado de cada mapa mostrar
qu tan llamativa es una determinada
locacin en la escena visual. Todas
las aproximaciones matemticas y
computacionales citadas se limitan
al procesamiento bottom-up, en au-
sencia de supervisin top-down, sin
establecer consideraciones respecto
al fenmeno de selectividad, ni pro-
cesos que involucren la bsqueda a
voluntad o conjuntiva, por tanto estos
comportamientos son emulados, en su
mayora, por redes tipo winner-take-all(WTA) simples,
que incluyen realimentaciones negativas para que otras
locaciones sobresalientes en una escena natural sean
atendidas por el modelo una a una.14,15
3. Modelos computacionales
Todos los modelos de atencin bottom-upcomienzan
con el clculo de las caractersticas visuales primarias.
Gran parte de estas aproximaciones se distinguen por
la implementacin de diferentes mapas topogrcos de
caractersticas, i.e., intensidad, color y orientacin,7que
son codicados en paralelo por las estructuras neurales
para el proceso de pre-atencin.
Los modelos actuales replican las propiedades -
siolgicas fundamentales del proceso de pre-atencin
visual, incluyendo que el estmulo sobresalga en el
campo visual. En estos modelos convergen mecanismos
descritos por la neurobiologa: (1) El uso de pirmides
Laplacianas (center-surround differences), i.e., ltros
sucesivos de diferencia de Gaussianas (DoG) en mlti-
ples resoluciones, (2) implementacin de un sistema de
color doble-oponente: En el centro del campo receptivo
de las neuronas de la corteza visual, estas son excita-
das por un solo color e inhibidas por otro, en tanto lo
contrario se cumple en los alrededores y (3)
mentacin de pirmides de Gabor para la e
de orientaciones, en tanto los ltros de Gabo
impares) aproximan el perl de sensitividad d
receptivo de las neuronas sensibles a la orien
la corteza visual primaria.
3.1. Primeros modelos
El primer modelo de atencin visual impl
computacionalmente fue el de Koch y UllmaEn este modelo se asumen varios hechos: Pr
atencin visual selectiva opera en la repre
primaria, i.e., un conjunto de mapas topo
corticales que codican el espacio visual. Se
representacin primaria incluye una variedad
que codican diferentes caractersticas como l
el color, la distancia, la disparidad y la dire
movimiento. Tercero, para cada locacin en
pas hay un nmero de dimensiones correspon
diferentes colores y orientaciones. Cuarto, las r
de vecindad son preservadas en estos mapas
parte, hay conexiones inhibitorias locales e
primarios o dentro de los mapas de carac
por lo que locaciones que dieren signicat
Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
5/11
de sus locaciones vecinas tienden a sobresalir en un
nivel de procesamiento dado. Por ltimo, estos mapasprobablemente existen en diversas resoluciones.13,21Un
esquema simplicado de esta aproximacin se encuentra
detallado en la Figura 1.
componentes; segundo, la banda que ms coincida
escala con una caracterstica de inters es seleccionapara el procesamiento subsiguiente; tercero, se reali
una convolucin con un ltro selectivo para la caract
rstica dada; cuarto, las muestras que resultan deben s
elevadas al cuadrado y sumadas dentro de vecindad
locales para formar medidas localmente integrada
quinto, la integracin se da con la construccin de u
segunda pirmide gaussiana con la imagen ltrada
la imagen elevada al cuadrado en su nivel base; n
mente para el anlisis de movimiento de los objetos
implementa un modelo de tracking, que en trmin
neurobiolgicos es el mecanismo para estabilizar l
imgenes de objetos en movimiento dentro del ojo. Eadicin a lo anterior el modelo es complementado c
un mecanismo relacionado con procesamiento top-dow
o dependiente de la tarea en curso.
3.2. Modelo de atencin visual Bottom-up de Itti-
Koch-Niebur
El modelo de Itti-Koch-Niebur2,21es una modic
cin del modelo basado en mapas de prominencia
Koch-Ullman.13Este modelo se encuentra limitado
control de la atencin selectiva dado por las propied
des del estmulo visual, por lo que no involucra ning
proceso voluntario (top-down). Las caracterstic
visuales de bajo nivel son extradas directamente de
imagen en color original sobre distintas escalas esp
ciales utilizando ltros lineales en forma de pirmid
i.e., pirmides Gaussianas,29que consisten en ltrad
sucesivos y compresiones de la imagen de entrada. E
proceso es ilustrado en (1) a (3).
(1
donde e Nl
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
6/11
Una vez que se han calculado las pirmides Gaus-
sianas, cada caracterstica es calculada en una estruc-tura centro-alrededores (center-surround) relacionada
estrechamente con los campos receptivos visuales.
Las diferencias centro-alrededores son realizadas entre
escalas amplias y nas para cada caracterstica espec-
ca: El centro receptivo corresponde a un pxel al nivel
{ }4,3,2c en la pirmide y los alrededores al pxelcorrespondiente en el nivel += cs , con
. Realizadas todas las combinaciones entre el centro
receptivo y los alrededores, resultan un total de seis
mapas de caractersticas. De esta forma son calculados
siete tipos de caractersticas, esbozadas previamente en
este documento: (1) La primera codica la intensidad
de contraste;30 (2) las dos siguientes codican para
el sistema color doble-oponente (rojo/verde y azul/
amarillo);31y (3) las cuatro siguientes codican para la
orientacin local.32
El primer grupo de mapas de caractersticas est
relacionado con la intensidad de contraste, que en ma-
mferos es detectado por neuronas sensibles a centros
oscuros sobre fondos luminosos o viceversa. Estos dos
tipos de sensibilidad son calculados utilizando (4).
(4)
donde I (c) es la seal de intensidad de centro, I(s) es la seal de intensidad de alrededores y el smbolo
corresponde a la operacin de resta entre diferentes
escalas, llevando la imagen al nivel ms no.
El segundo grupo de mapas es construido apartir de los canales de color (sistema RGB), quecomo antes se hizo alusin dan origen al sistemade color doble-oponente. Como este antagonismose da entre los colores rojo/verde y azul/amarillo,se crean los canales de color correspondientes y se
construyen los mapasRG(c,s) yBY(c,s), respec-tivamente, segn (5) a (10).
(5)
(6)
(7)
(8)
(9)
(10)
En estas ecuaciones, las variablesR, G,By
ponden a los canales de color rojo, verde, azul y
respectivamente, para el clculo de estos cana
los valores resultantes por debajo de cero son
automticamente a cero. R(c), G(c), B(c) y
las seales de centro correspondientes a los c
color rojo, verde, azul y amarillo, respectivam
forma anloga, R(s), G(s), B(s)y Y(s)son la
de alrededores correspondientes a los canales
rojo, verde, azul y amarillo, respectivamente.
Finalmente los mapas de orientacin sodos utilizando pirmides de Gabor O(q,s
q{0, 45,90,135}.32-33
Finalmente se eel contraste de orientacin entre las escalatro y alrededores segn (11).
donde O(c,q) y O(s,q) son las seales tacin de centro y alrededores, respectiva
Una vez obtenidos los cuarenta y dode caractersticas resultantes, se procede acombinaciones lineales entre mapas detipo, de esta forma se obtienen tres mapas
tersticas llamativas (conspicuity maps), ycombinacin lineal de estos, se obtiene elprominencia nal. Este procedimiento es men (12) a (15)
donde I, C y O on los mapas de carcas llamativas de intensidad, color y orierespectivamente y S es el mapa de promnal. El papel de la funcin N() dentrecuaciones es normalizar cada uno de lode prominencia, el procedimiento ms senchacerlo es un ajuste de rango dinmico, nosu realizacin es factible mediante pronormalizacin iterativos o entrenados.2,21,
Finalmente, los focos de atencin de mayor prominencia) son obtenidosmodelo neurobiolgicamente plausib
Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
7/11
zando una capa de neuronas de dimensin 2 tipo
integracin y disparo (LIF, leaky integrate-and-fire), de tal forma que el mapa de prominenciaes la entrada a una red WTA (winner-take-all).Adicionalmente, se establece una conexininhibitoria hacia atrs2, 21, 34, 36-37para que las lo-calizaciones menos prominentes sean atendidastambin por el modelo.
3.3. Modelos siguientes al modelo de atencin visual
de Itti-Koch-Niebur
El modelo de Itti-Koch-Niebur ha sido el centro de
importantes comparaciones y discusiones sobre la base
del comportamiento neurobiolgico de las estructurasvisuales. Peterset al., 2005,38realizan complementos al
modelo de Itti-Koch-Niebur, incluyendo interacciones
entre las unidades relacionadas con la orientacin, i.e.,
0, 45, 90 y 135 y un modelo detallado de los cambios
que dependen de la excentricidad en el procesamiento
visual.39Con el modelo delineado por Koch y Ullman13
y detallado por Itti, Koch y Niebur,21se procesa la ima-
gen de entrada en paralelo utilizando tres canales de
caractersticas, de tal forma que el mapa de prominencia
resultante adscribe un valor escalar a cada punto de la
imagen de entrada, indicando qu tan saliente es.
En 2002, Li,40
modela las respuestas convencio-nales de las clulas en V1 a caractersticas de entrada
como la orientacin o el color. El modelo se enfoca en
la parte de V1 responsable de las inuencias contextua-
les: Clulas piramidales, interneuronas y conexiones
horizontales intracorticales.41Los centros de los cam-
pos receptivos clsicos son distribuidos uniformemente
en el espacio. Las clulas sensibles a orientacin barren
los 180. Los resultados de este procesamiento van
directamente a las clulas piramidales del modelo,
cuyos promedios de respuesta temporal conforman la
salida del mismo.
De Bretch y Saiki, 2006,25
desarrollan un modelode mapa de prominencia implementado con una red
neuronal, basado en las reproducciones funcionales
tenidas en cuenta en el modelo de Ittiet al., 199821. La
dinmica de esta red describe las interacciones entre
estructuras siolgicas en consonancia con resultados
experimentales. En la red neuronal se incorpora la
depresin sinptica en la dinmica de las conexiones
laterales intracapa. La sobre competencia dentro de los
mapas de prominencia es evitada merced a la depresin
sinptica y a una funcin de ganancia lineal con umbral
cero, pues utilizando esquemas convencionales WTA
para establecer la competencia se establecen diferencias
exageradas al interior del mapa de prominencia, incluso
para escenas homogneas. Este modelo se estableci
como til para la modelacin de prominencia en ento
nos visuales dinmicos y en la seleccin de objetivos pmovimientos sacdicos durante tareas de libre visi
en tanto el modelo puede manejar el cambio de entra
dado el movimiento del ojo.
Gao, 2007,26proponen un detector de prominenc
siguiendo una formulacin de decisin terica de
prominencia. La prominencia bottom-upes calcula
haciendo acopio de la teora de las diferencias ent
centro y alrededores, implementadas en el pasado
el modelo de Itti, Koch y Niebur 21, utilizando u
solucin discriminante. Esta es formulada bajo l
siguientes premisas: 1) Denir el estmulo de inter
sobre cada locacin y la apariencia visual dentro de uvecindad de esta; 2) la hiptesis nula como la aparie
cia visual dentro de una ventana sobre los alrededor
y 3) La bsqueda de la locacin donde las respuest
de las caractersticas establecidas previamente s
ms discriminantes para la decisin entre centro
alrededores.
Reynolds y Heeger, 2009,28 proponen un mode
de atencin de normalizacin. Este modelo tiene tr
componentes bsicos: El campo de estimulacin, q
corresponde al campo de una neurona que caracteri
su selectividad en trminos de posicin espacial
orientacin; el campo de supresin, que caracteriza lposiciones espaciales y las caractersticas que contrib
yen a la supresin dado el hecho de que la respuesta
una neurona visual a un estmulo preferencial puede s
suprimida por la presentacin simultnea de estmul
no preferidos; y el campo de atencin, que es espec
cado en trminos de su ganancia para cada neuro
en la poblacin, este es multiplicado por la unidad
estmulo, de tal modo que afecta la unidad de estmu
y la unidad de supresin, el campo de atencin estable
una forma de sesgar la competencia entre los estmul
del espacio inicial.42
3.4. Otros modelos neurobiolgicamente inspirado
en la literatura
Otros modelos neurobiolgicamente inspirados,
menor impacto en la literatura22-23,27han sido creados c
el nimo de complementar los modelos de visin que h
sido objeto de extensiva investigacin hasta el momen
Estos modelos atraviesan por procesos similares en
extraccin de caractersticas visuales, i.e., la creaci
de mapas topogrcos que ilustran en una prime
aproximacin la prominencia de ciertas caracterstic
asociadas a las locaciones de la imagen de entrad
algunas de estas aproximaciones integran el anlisis
objetos en movimiento y mecanismos top-down.27Otr
modelos emplean criterios y modelos estadsticos pa
Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
8/11
complementar y re-robustecer la ecacia del mapa de
prominencia al nal del procesamiento visual, como eluso de anlisis de componentes independientes como
aproximacin funcional del proceso de reduccin de
informacin redundante o informacin mutua por parte
del cerebro.22
4. Discusiones, consideraciones prcticas y
biolgicas
4.1. Evidencia neurobiolgica sobre fltros de
orientacin
La mxima actividad neuronal se genera frente a
un contraste marcado del estmulo entre el centro y el
entorno del campo receptivo. Dado que las clulas son
sensibles a frecuencias espaciales especcas, desde
la base de un posible clculo de la transformada de
Fourier en dos dimensiones, los campos receptivos
seran muy localizados como para realizar un anlisis
de frecuencias apropiado. En vez de esto, la represen-
tacin de una imagen en la corteza visual debe invo-
lucrar la variable espacial y de frecuencia espacial en
su descripcin, i.e., una representacin simultnea del
muestreo espacial y la transformada de Fourier.43En
un sentido especco, las seales de Gabor ponen en
evidencia una caracterstica de las representaciones en
la corteza visual: la mxima localizacin en el espacioy en la frecuencia espacial de forma simultnea. Una
ilustracin de los perles citados anteriormente se
encuentra en la Figura 2.
Con frecuencia los modelos neurobiolg
inspirados hacen acopio de las dos realidadbiolgicas citadas anteriormente. En trmi
equivalencia de Euler, un ltro sinusoidal p
escrito como ilustra (16).
donde0
U y0
V son las frecuencias e
en las direcciones x e y para un origen
A partir de la representacin anterior,
presentacin de Gabor, una funcin arbiexpandida en trminos de seales elemen
mtricas y antisimtricas, este proceso es
en (17) y (18).
donde
mx y
my pueden ser escogidos para dar u
zamiento desde el centro de la Gaussiana elptic
forma el parmetro ( )mm yVxU 00 +
es el nguespacial del trmino de modulacin (funcin si
Esta representacin coincide exactamente co
se establecen en la literatura.32, 43-47
Por otra parte, (21) ilustra la diferencia
niveles sucesivos de una pirmide Gaussiana
(21)
Utilizando ambas representaciones, la e
nal para un nivel dado dentro de la pirmide
viene en (22) y (23).
(22)
(23)Figura 2. Filtros de Gabor (vista superior): (a) en el dominio espacial; (b)
en el dominio de la frecuencia
Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
9/11
4.2. Sistema color doble-oponente
La actividad cortical y las vas de percepcin de
color, as como la sintonizacin de color en las reas
V1 y V2 se han medido en estudios experimentales.31
El mosaico retinal de mayor resolucin, i.e., las clulas
ganglionares miniatura, reciben entradas opuestas de los
conos sensitivos a longitudes de onda grande (conos L)
y de los conos sensitivos a longitudes de onda media
(conos M), para este caso, en el plano rojo-verde la
sensitividad es la ms alta para estmulos que causen
las seales opuestas de los conos L y M.
Los puntos de luz que modulan selectivamente cada
clase de cono (L, M S, o de forma imprecisa rojo, verde
o azul) son destellados alrededor de los campos recepti-vos de las clulas de color V1 para mapear la estructura
espacial de las entradas. Evidencia experimental,48-51
sugiere que el procesamiento del color es mediado por
un mecanismo antagnico. Dado que la mayora de las
clulas de la corteza del macaco son doble-oponentes
segn mediciones descritas por Conway48y por Engel et
al.,31cuando una clula de centro rojo-ones excitada por
un estmulo de centro verde, dicho centro se inhibe, de
tal manera que las frecuencias de disparo se encuentran
en los alrededores (no en el centro) y viceversa, para un
estmulo de centro rojo. Esto seala que hay una relacin
entre centro y alrededores que codica la constancia
del color, i.e., la habilidad de hacer que el color de unobjeto no est basado nicamente en la luz que reeja,
sino tambin en la luz que reejan los objetos que lerodean, un corolario de esto es el fenmeno conocido
como contraste de color, teora de la que hacen acopio
la mayora de los modelos de atencin visual descritos
en este trabajo.
4.3. Implementaciones
Los resultados de las Figuras 3 y 4 fueron obtenidos
en este trabajo de revisin de acuerdo con el modelo
establecido por Itti et al.,2,21Nuestro modelo incorpora
la modalidad de normalizacin iterativa descrita en laliteratura,2sujeta a un nmero de iteraciones y a un factor
de inhibicin pequeos para evitar la sobrecompetencia,
fenmeno inconveniente en muchos casos y que rie
con ciertos principios de neurobiologa.52Adems de
esto, el modelo incorpora todos los mecanismos neuro-
biolgicamente plausibles explicados a lo largo de esta
revisin y presenta resultados ptimos en la mayora de
los casos. Las imgenes utilizadas fueron tomadas de la
MSRA Salient Object Database.2
4.4. Componentes Bottom-upy teora de
procesamiento Top-down
En tanto esta revisin de literatura se enfoca en
modelos de procesamiento bottom-up, sobre la base de
representaciones escalares topogrcas, sesgar la ate
cin hacia el enfoque de las locaciones ms salientes
reduce a esbozar la atencin sobre la locacin del pi
en actividad ms alto en el mapa de prominencia. Au
que originalmente fue un principio terico construi
y soportado por diferentes hallazgos experimentales,
idea de un mapa de prominencia nico y centraliza
parece ser refutada por la existencia de mltiples re
que codican la prominencia del estmulo en el sistem
visual de los monos.7
Diferentes caractersticas contribuyen con fuerz
distintas a la prominencia perceptual y esta ponder
cin puede estar inuenciada de acuerdo con ciert
demandas a travs de la modulacin top-down.53-60P
Figura 4.Resultados de la implementacin de un modelo de atencvisual bottom-up (caso de atencin complejo): (a) Imagen original;
Mapa de prominen
Figura 3.Resultados de una implementacin de un modelo de atencvisual bottom-up (caso de atencin simple): (a) Imagen original; (b) M
de prominen
Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
10/11
otra parte, lo que parece importar en el procesamiento
bottom-upes el contraste de caractersticas en vez de laintensidad absoluta de cada caracterstica.
Es posible que el peso relativo de las propiedades
que contribuyen a la representacin ms general se halle
modulado por la actividad de los centros corticales ms
altos. En este sentido, el proceso de atencin selecciona
la informacin necesaria para ayudar a discriminar entre
los elementos de distraccin y el objetivo tanto en un
proceso bottom-upcomo en un proceso top-down.
Agradecimientos
La Universidad Autnoma de Occidente brind todo
el apoyo y soporte en la realizacin de este trabajo.
Bibliografa
T. Liu, J. Sun, N. N. Zheng, X. Tang, H. Y. Shum. Learning to
detect a salient object. In: Proceedings of IEEE Computer
Society Conference on Computer and Vision Pattern Re-
cognition, 2007.
L. Itti, C. Koch. A saliency-based search mechanism for overt
and covert shifts of visual attention. Vision ResearchVol.
40. 2000. pp. 14891506
J. E. Hoffman. Search through a sequentially presented visual
display. Perception & PsychophysicsVol. 23. 1978. pp.
1-11.
A. Treisman, M. Sykes, G. Gelade. Selective attention stimulus
integration. In: S. Dornie, Attention and performance VI.
Eds. N. J. Hilldale: Lawrence Erlbaum. 1977. pp. 333-361
P. Verghese, K. Nakayama. Stimulus discriminability in visual
search. Vision ResearchVol. 34. 1994. pp. 2453-2467
H. R. Wilson. Spikes, Decisions and Actions: The dynamical
foundations of neuroscience, Oxford University Press. 2004.
L. Itti, C. Koch. Computational modeling of visual attention,
Nature Reviews NeuroscienceVol. 2. 2001. pp. 194-203
P. Verghese. Visual Search and Attention: A Signal Detection
Theory Approach.NeuronVol. 31. 2001. pp. 523-535
H. Pashler. Target-distractor discriminability in visual search,
Perception & PsychophysicsVol. 41. 1987. pp. 285-292
R. Desimone, J. Duncan. Neural mechanisms of selective visual
attention.Annu. Rev. Neurosci. Vol. 18. 1995. pp. 193-222
A. Estvez-Gonzlez, C. Garca-Snchez, C. Junqu. La aten-
cin: una compleja funcin cerebral.Rev NeurolVol. 25.
1997. pp. 1989-1997
L. G. Ungedeider, J. Haxby. What and where in the human
brain. Current Opinion in NeurobiologyVol. 4. 1994. pp.
157-165
C. Koch, S. Ullman. Shifts in selective visual attention: towards
the underlying neural circuitry.Human Neurobiol. Vol. 4.
1985. pp. 219-227
J. M. Colmenero, A. Catena, L. J. Fuentes. Atencin visual: Unarevisin sobre las redes atencionales del cerebro. Anales
de PsicologaVol. 17. 2001. pp. 45-67
J. Rossell-Mir, E. Munar-Roca. Resolviendo el p
atencin visual: Hacia la desintegracin del >?. Psicothema. Vol. 16. 2004. pp. 64-69
D. Sagi, B. Julesz. Detection versus discriminatio
orientation. PerceptionVol. 13. 1984. pp. 619-
E. K. Miller, L. Li, R. Desimone. A neural mechanis
king and recognition memory in inferior tempo
Science254. 1991. pp. 1377-1379
J. K. Tsotsos, M. Culhane, W. Y. Kei Wai, Y. Lai, N
Nuo. Modeling visual attention via selective
Articial IntelligenceVol. 78. 1995. pp. 507-54
P. J. Burt. Attention Mechanisms for vision in a dynam
Proceedings of 9th International Conference
Recognition. 1988. pp. 977-987
R. Milanese, S. Gil, T. Pun. Attentive mechanisms f
and static scene analysis. Optical Engineerin
1995. pp. 2428-2434
L. Itti, C. Koch, E. Niebur. A Model of Saliency-Ba
Attention for Rapid Scene Analysis.IEEE Trans
Mach. Intel.Vol. 20. 1998. pp. 1254-1259
L. Itti. Automatic foveation for video compressi
neurobiological model of visual attentoin.IEEE
Image ProcessingVol. 13. 2004. pp. 1304-1318
S. J. Park, K. H. An, M. Lee. Saliency map model
tive masking based on independent componen
NeurocomputingVol. 49. 2002. pp. 417-422
T. N. Mundhenk, L. Itti. CINNIC, a new comalgorithm for the modeling of early visual co
gration in humans. NeurocomputingVol. 52
pp. 599-604
M. DeBrecht, J. Saiki. A neural network implemen
saliency map model.Neural NetworksVol. 19
14671474
D. Gao, V. Mahadevan, N. Vasconcelos. The di
center-surround hypothesis for bottom-up sa
Proc. Neural Information Processing Systems,
Canada, 2007.
K. Rapantzikos, N. Tsapatsoulis, Y. Avrithis, S. Kollia
up spatiotemporal visual attention model for vide
Image processing IETVol. 1. 2007. pp. 237-248
J. H. Reynolds, D. J. Heeger. The normalization m
tention.Neuron61. 2009. pp. 168-185
P. J. Burt, E. H. Adelson. The Laplacian pyramid as
image code.IEEE Trans. Com.Vol. 31. 1983. p
A. G. Leventhal. The Neural Basis of Visual Funct
and Visual Dysfunction. Vol. 4. Boca Raton, Fla
CRC Press, 1991.
S. Engel, X. Zhang, B. Wandell. Colour Tuning in
sual Cortex Measured With Functional Magnetic
Imaging.NatureVol. 388. 1997. pp. 6871.
H. Greenspan, S. Belongie, R. Goodman, P. Perona,
C. H. Anderson. Overcomplete Steerable Pyraand Rotation Invariance. Proc. IEEE Computer
Pattern Recognition. 1994. pp. 222-228.
Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno
-
7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados
11/11
D. Gabor. Theory of communication.J. IEE LondonVol. 93.
1946. pp. 429-457L. Itti. Models of bottom-up and top-down visual attention.
California Institute of Technology. PhD thesis. Pasadena,
California. 2000.
L. Itti, C. Koch. A comparison of feature combination strategies
for saliency-based visual attention systems. J. Electron.
Imaging.Vol. 161. 2000.
R. M. Klein. Inhibition of return. Trends Cogn. Sci.Vol. 4.
2000. pp. 138147
S. L. Macknik, S. Martinez-Conde. The role of feedback invisual attention and awareness. Cognitive Neurosciences.
Ed. Gazzinga, MIT Press. 2009.
R. J. Peters, A. Iyer, L. Itti, C. Koch. Components of bottom-up
gaze allocation in natural images. Vision Research.Vol. 45.2005. pp. 2397-2416
T. N. Mundhenk, L. Itti. A model of contour integration in early
visual cortex. Biologically Motivated Computer Vision,
Proceedings. 2002. pp. 8089.
Z. Li. A saliency map in primary visual cortex. Trends in
Cognitive Science.Vol. 6. 2002. pp. 9-16
K. S. Rockland, J. S. Lund. Intrinsic lamitar lattice connectionsin primate visual cortex.J. Comp. Neurol.Vol. 216. 1983.
pp. 303-318
S. Treue, J. C. Martinez-Trujillo. Feature-based attention in-
uences motion processing gain in macaque visual cortex.
Nature.Vol. 399. 1999. pp. 575579.
S. Marcelja. Mathematical description of the responses of simple
cortical cells.J. Opt. Soc. Am.Vol. 70. 1980. pp.1297-1300
J. G. Daugman. Complete discrete 2D Gabor transforms by
neural networks for image analysis and compression.IEEE
Transactions on Acoustics, Speech and Signal Processing
Vol. 36. 1988. pp. 1169-1179
J. G. Daugman. Uncertainty relation for resolution in space,
spatial frequency and orientation optimized by two-dimen-
sional visual cortical lters. J. Opt. Soc. Am. Vol. 2. 1985.
pp. 1160-1169
D. J. Field. Relations between the statistics of natural images
and the response properties of cortical cells. J. Opt. Soc.
Am. A.Vol.12. 1987. pp. 2379-1394
J. P. Jones, L. A. Palmer. An evaluation of the two-dimensionalGabor lter model of simple receptive elds in cat striate
cortex. Journal of Neurophysiology.Vol. 58. 1987. pp.
1233-1258
B. R. Conway. Spatial structure of cone inputs to color cells
alert macaque primary visual cortex (V-1). The JournaNeuroscience.Vol. 21. 2004. pp. 2768-2783
T. N. Wiesel, D. H. Hubel. Spatial and chromatic interactio
in the lateral geniculate body of the rhesus monkey
Neurophysiol.29. 1966. pp. 11151156.
G. F. Poggio, F. H. Baker, R. J. Manseld, A. Sillito, P. Gri
Spatial and chromatic properties of neurons subservi
foveal and parafoveal vision in rhesus monkey.Brain R
Vol. 100. 1975. pp. 25-59.
D. Y. Tso, C. D. Gilbert. The organization of chromatic aspatial interactions in the primate striate cortex.J Neuro
Vol. 8. 1988. pp. 1712-1727
L. F. Abbot, J. A. Varela, K. Sen, S. B. Nelson. Synaptic d
pression and cortical gain control. Science.Vol. 275. 199pp. 220-224
L. Cauller. Layer I of primary sensory neocortex: where to
down converges upon bottom-up. Behavioural Bra
Research.Vol. 71. 1995. pp. 163-170
A. Oliva, A. Torralba, M. S. Castelhano, J. M. Henderson. To
down control of visual attention in object detection. P
ceedings of International Conference on Image Processi
2003. pp. 253-256
G. Deco, E. T. Rolls. A neurodyamical cortical model of vis
attention and invariant object recognition. Vision Resear
Vol. 44. 2004. pp. 621-642
T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber, T. Poggio. Rob
Object recognition with cortex-like mechanisms. IETransactions on Pattern Analysis and Machine Intelligen
2006. pp. 1-17
F. Moosman, D. Larlus, F. Jurie. Learning saliency maps object categorization. In:ECCV Workshop on the Rep
sentation and Use of Prior Knowledge in Vision. 2006.
J. Mira, A. E. Delgado, M. T. Lopez, A. Fernandez-Caballe
M. A. Fernandez. A conceptual frame with two neu
mechanisms to model selective visual attention processeNeurocomputing.Vol. 71. 2008. pp. 704-720
K. V. Sobel, M. D. Pickard, W. T. Acklin WT. Using featu
preview to investigate the roles of top-down and bottom-
processing in conjunction search.Acta Psychologica.V132. 2009. pp. 22-30
H. Nothdurft. Salience from feature contrast: additivity acro
dimensions. Vision Res.Vol. 40. 2000. pp. 11831201.
Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno