Una Revisión de Modelos de Atención Visual Bottom-up Neurobiológicamente Inspirados

7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

1/11

El Hombre y la Mquina

ISSN: 0121-0777

[email protected]

Universidad Autnoma de Occidente

Colombia

Ramrez-Villegas, Juan F.; Ramrez-Moreno, David F.

Una revisin de modelos de atencin visual Bottom-up neurobiolgicamente inspirados

El Hombre y la Mquina, nm. 35, julio-diciembre, 2010, pp. 143-152

Universidad Autnoma de Occidente

Cali, Colombia

Disponible en: http://www.redalyc.org/articulo.oa?id=47817140014

Cmo citar el artculo

Nmero completo

Ms informacin del artculo

Pgina de la revista en redalyc.org

Sistema de Informacin Cientfica

Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal

Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/comocitar.oa?id=47817140014http://www.redalyc.org/fasciculo.oa?id=478&numero=17140http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/revista.oa?id=478http://www.redalyc.org/http://www.redalyc.org/revista.oa?id=478http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/fasciculo.oa?id=478&numero=17140http://www.redalyc.org/comocitar.oa?id=47817140014http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/revista.oa?id=478


2/11

Resumen

La atencin visual es un proceso desarrollado

sobre gran parte del rea de procesamiento visual

primario. El procesamiento cerebral provoca la fo-

calizacin selectiva de los objetos del campo visual

que compiten por procesamiento, esta competenciase encuentra mediada por caractersticas primarias de

los objetos como el contraste de color, el contraste

de intensidad y el contraste de orientacin. En esta

revisin se procura establecer la conexin de los

modelos de atencin visual bottom-up disponibles en

la literatura, sus arquitecturas y bases matemticas,

con la evidencia neurobiolgica sobre el fenmeno

de atencin visual establecida hasta la actualidad.

Una revisin de modelosde atencin visual Bottom-upneurobiolgicamenteinspirados

* Ing. Biomdico. Joven investigador del Grupo de Investigacin en Neurocomputacin. [email protected]

** Ph.D. en Ciencias Biomdicas. Docente del Departamento de Fsica y Director del Grupo de Investigacin en Neurocomputacin de la UniversidadOccidente. [email protected]

Fecha de Recepcin: mayo 20 de 2010 Fecha de aceptacin: septiembre 14 de 2010

JUANF. RAMREZ-VILLEGAS*

DAVIDF. RAMREZ-MORENO**

Adicionalmente, se ilustra

plementacin propia de un

de atencin visual bottom

discuten algunos pormenor

el proceso de atencin o metop-down cuya dinmica

menta la funcin del pro

pre-atencin o bottom-up.

Palabras clave:Atenci

bottom-up, prominencia visu

po visual, focalizacin selectiva, mecanismo to

Abstract

Visual attention is related with most of

visual processing areas. Objects in the visu

compete for processing; competence is often m

by primary visual features such as intensity color contrast and orientation contrast. This

attempts illustrating the connection between

of bottom-up visual processing available in li

their architectures and well-established neuro

cal evidence. Additionally, an implementat

bottom-up visual attention model is shown,

eral principles of the attention process or to

mechanism are discussed.


3/11

procesamiento visual bottom-up que ms ha inui

en la literatura y nalmente considera otros modelexistentes.

2. Mecanismos neuronales de visin

La bsqueda visual es la bsqueda de un elemen

nico entre una coleccin de elementos de distracci

En experimentos psicofsicos de bsqueda visual

mide el tiempo de reaccin como funcin del nme

de elementos de distraccin. Cuando los elementos q

generan la distraccin son sustancialmente diferent

al objetivo, la identicacin de este ltimo toma po

tiempo y es casi independiente del nmero de objet

de distraccin. No obstante, cuando existe un parecisustancial entre el objetivo y los elementos de distra

cin, la reaccin es mucho ms lenta y aumenta dram

ticamente con el nmero de distractores.6Esto provo

la entrada en funcin del esquema top-down,asumi

como un mecanismo con procesamiento en parale

que examina serialmente los rasgos compartidos ent

el objetivo y los distractores, hasta sealar la asimet

que hace identicable al objetivo.8-12

Los objetos deben competir por el procesamien

y el sistema visual debe usar la informacin disponib

para parcializar la competencia a favor de ciertos objet

del espacio. A este fenmeno se le conoce como seletividad.10,13-15 De acuerdo con el modelo de competenc

parcial, los objetivos distractores compiten por espaci

de procesamiento en la bsqueda visual. Un fact

que inuencia la selectividad es el umbral bottom-u

entendido como el grado de correlacin o similarid

entre el objetivo y los distractores, muy bajo en un ni

objetivo con todos sus rasgos distintivos nicos, en

arreglo de distractores homogneos, donde es fcilmen

detectable.16No obstante, un sistema de atencin ser

de uso limitado si fuera enteramente dominado por um

brales bottom-up. Lo que se necesita es una manera

disparar el mecanismo top-downuna vez sobrepasa

cierto umbral bottom-up.10, 17

Desde 1985 se han establecido diferentes model

de procesamiento bottom-up,13,18-28 que reproducen

comportamiento del mecanismo neurobiolgico dad

las hiptesis establecidas por Treisman et al.,4 seg

las cuales las diversas propiedades del espacio so

codicadas en mapas de caractersticas en diferent

regiones del cerebro. De acuerdo con este modelo, pa

resolver el problema de las vinculaciones (asociacion

hay un mapa de prominencia (saliency map) que cod

ca conjunciones de caractersticas en la imagen. Es

mapa maestro recibe entradas desde todos los mapas

caractersticas, pero retiene solamente las que distingu

el objeto de lo que lo rodea, de modo tal que las cara

Key words:Visual attention, saliency, visual eld,

selective focalization, bottom-up visual attention, top-down mechanism.

1. Introduccin

La mayora de aproximaciones computacionales

para la deteccin de objetos son implementaciones de

procesamientos en serie que nacen de esquemas con-

vencionales de visin articial.1 Evidencia biolgica

establece que el cerebro de los primates emplea algn

procesamiento visual en serie, de la mano con el pro-

cesamiento masivo en paralelo.2El cerebro no puede

procesar todo lo presente a su alrededor y al parecer la

estrategia que la naturaleza ha tomado para lidiar coneste problema se basa en la seleccin de las entradas para

ser procesadas preferencialmente, cambiando el foco de

procesamiento de una locacin a otra de modo serial.

Existe mucha evidencia experimental acumulada a

favor de la existencia de dos mecanismos de control so-

bre los que la atencin visual se desarrolla.3-6El primero

de ellos es conocido como procesamiento bottom-upo

proceso de pre-atencin dependiente de la prominencia

de los objetos e independiente de la tarea; el segundo es

conocido como procesamiento top-downo proceso de

atencin, mucho ms lento que el anterior, controlado

por la voluntad y por tanto, dependiente de la tareaespecca en ejecucin.

Cinco rasgos importantes han emergido de los mo-

delos computacionales de atencin visual que enfatizan

el procesamiento bottom-up. Primero, la prominencia

perceptual del estmulo depende crticamente del con-

texto que le rodea. Segundo, un mapa de prominencia

nico que topogrcamente codica la llamatividad o

prominencia del estmulo sobre la escena visual ha pro-

bado ser una estrategia de control bottom-upplausible y

eciente. Tercero, el retorno de inhibicin, un proceso

por el que se impide atender en instantes posteriores

una locacin atendida actualmente. Cuarto, la atencin

y los movimientos del ojo interactan estrechamente,

suponiendo retos computacionales con respecto al

sistema coordenado usado para el control de atencin.

Finalmente, el entendimiento de escenas y el reconoci-

miento intencionado de rasgos condicionan fuertemente

la seleccin de locaciones atendidas,7como un proceso

top-downque emerge sobre el procesamiento bottom-up.

En este trabajo se delinean las implementaciones

computacionales de mayor impacto en la literatura frente

al procesamiento bottom-up, asumiendo la arquitectura

del sistema visual de los primates. Esta revisin empie-

za con una corta explicacin de los modelos clsicos

de procesamiento visual, contina con el modelo de

Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno


4/11

tersticas especcas y detalladas se

quedan en los mapas de caractersticasiniciales (las que sirven para reconocer

el objeto); de igual manera, la escena

es susceptible de un proceso de aten-

cin o bsqueda na, slo despus

de que las caractersticas hayan sido

asociadas en una porcin del mapa

maestro. La representacin primaria

incluye una variedad de mapas dife-

rentes para diversas caractersticas

elementales, e.g., orientacin, color,

intensidad y direccin de movimiento.

Para cada locacin en estos mapashay un nmero de dimensiones, as

como diferentes colores u orientacio-

nes. El estado de cada mapa mostrar

qu tan llamativa es una determinada

locacin en la escena visual. Todas

las aproximaciones matemticas y

computacionales citadas se limitan

al procesamiento bottom-up, en au-

sencia de supervisin top-down, sin

establecer consideraciones respecto

al fenmeno de selectividad, ni pro-

cesos que involucren la bsqueda a

voluntad o conjuntiva, por tanto estos

comportamientos son emulados, en su

mayora, por redes tipo winner-take-all(WTA) simples,

que incluyen realimentaciones negativas para que otras

locaciones sobresalientes en una escena natural sean

atendidas por el modelo una a una.14,15

3. Modelos computacionales

Todos los modelos de atencin bottom-upcomienzan

con el clculo de las caractersticas visuales primarias.

Gran parte de estas aproximaciones se distinguen por

la implementacin de diferentes mapas topogrcos de

caractersticas, i.e., intensidad, color y orientacin,7que

son codicados en paralelo por las estructuras neurales

para el proceso de pre-atencin.

Los modelos actuales replican las propiedades -

siolgicas fundamentales del proceso de pre-atencin

visual, incluyendo que el estmulo sobresalga en el

campo visual. En estos modelos convergen mecanismos

descritos por la neurobiologa: (1) El uso de pirmides

Laplacianas (center-surround differences), i.e., ltros

sucesivos de diferencia de Gaussianas (DoG) en mlti-

ples resoluciones, (2) implementacin de un sistema de

color doble-oponente: En el centro del campo receptivo

de las neuronas de la corteza visual, estas son excita-

das por un solo color e inhibidas por otro, en tanto lo

contrario se cumple en los alrededores y (3)

mentacin de pirmides de Gabor para la e

de orientaciones, en tanto los ltros de Gabo

impares) aproximan el perl de sensitividad d

receptivo de las neuronas sensibles a la orien

la corteza visual primaria.

3.1. Primeros modelos

El primer modelo de atencin visual impl

computacionalmente fue el de Koch y UllmaEn este modelo se asumen varios hechos: Pr

atencin visual selectiva opera en la repre

primaria, i.e., un conjunto de mapas topo

corticales que codican el espacio visual. Se

representacin primaria incluye una variedad

que codican diferentes caractersticas como l

el color, la distancia, la disparidad y la dire

movimiento. Tercero, para cada locacin en

pas hay un nmero de dimensiones correspon

diferentes colores y orientaciones. Cuarto, las r

de vecindad son preservadas en estos mapas

parte, hay conexiones inhibitorias locales e

primarios o dentro de los mapas de carac

por lo que locaciones que dieren signicat

Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno


5/11

de sus locaciones vecinas tienden a sobresalir en un

nivel de procesamiento dado. Por ltimo, estos mapasprobablemente existen en diversas resoluciones.13,21Un

esquema simplicado de esta aproximacin se encuentra

detallado en la Figura 1.

componentes; segundo, la banda que ms coincida

escala con una caracterstica de inters es seleccionapara el procesamiento subsiguiente; tercero, se reali

una convolucin con un ltro selectivo para la caract

rstica dada; cuarto, las muestras que resultan deben s

elevadas al cuadrado y sumadas dentro de vecindad

locales para formar medidas localmente integrada

quinto, la integracin se da con la construccin de u

segunda pirmide gaussiana con la imagen ltrada

la imagen elevada al cuadrado en su nivel base; n

mente para el anlisis de movimiento de los objetos

implementa un modelo de tracking, que en trmin

neurobiolgicos es el mecanismo para estabilizar l

imgenes de objetos en movimiento dentro del ojo. Eadicin a lo anterior el modelo es complementado c

un mecanismo relacionado con procesamiento top-dow

o dependiente de la tarea en curso.

3.2. Modelo de atencin visual Bottom-up de Itti-

Koch-Niebur

El modelo de Itti-Koch-Niebur2,21es una modic

cin del modelo basado en mapas de prominencia

Koch-Ullman.13Este modelo se encuentra limitado

control de la atencin selectiva dado por las propied

des del estmulo visual, por lo que no involucra ning

proceso voluntario (top-down). Las caracterstic

visuales de bajo nivel son extradas directamente de

imagen en color original sobre distintas escalas esp

ciales utilizando ltros lineales en forma de pirmid

i.e., pirmides Gaussianas,29que consisten en ltrad

sucesivos y compresiones de la imagen de entrada. E

proceso es ilustrado en (1) a (3).

(1

donde e Nl


6/11

Una vez que se han calculado las pirmides Gaus-

sianas, cada caracterstica es calculada en una estruc-tura centro-alrededores (center-surround) relacionada

estrechamente con los campos receptivos visuales.

Las diferencias centro-alrededores son realizadas entre

escalas amplias y nas para cada caracterstica espec-

ca: El centro receptivo corresponde a un pxel al nivel

{ }4,3,2c en la pirmide y los alrededores al pxelcorrespondiente en el nivel += cs , con

. Realizadas todas las combinaciones entre el centro

receptivo y los alrededores, resultan un total de seis

mapas de caractersticas. De esta forma son calculados

siete tipos de caractersticas, esbozadas previamente en

este documento: (1) La primera codica la intensidad

de contraste;30 (2) las dos siguientes codican para

el sistema color doble-oponente (rojo/verde y azul/

amarillo);31y (3) las cuatro siguientes codican para la

orientacin local.32

El primer grupo de mapas de caractersticas est

relacionado con la intensidad de contraste, que en ma-

mferos es detectado por neuronas sensibles a centros

oscuros sobre fondos luminosos o viceversa. Estos dos

tipos de sensibilidad son calculados utilizando (4).

(4)

donde I (c) es la seal de intensidad de centro, I(s) es la seal de intensidad de alrededores y el smbolo

corresponde a la operacin de resta entre diferentes

escalas, llevando la imagen al nivel ms no.

El segundo grupo de mapas es construido apartir de los canales de color (sistema RGB), quecomo antes se hizo alusin dan origen al sistemade color doble-oponente. Como este antagonismose da entre los colores rojo/verde y azul/amarillo,se crean los canales de color correspondientes y se

construyen los mapasRG(c,s) yBY(c,s), respec-tivamente, segn (5) a (10).

(5)

(6)

(7)

(8)

(9)

(10)

En estas ecuaciones, las variablesR, G,By

ponden a los canales de color rojo, verde, azul y

respectivamente, para el clculo de estos cana

los valores resultantes por debajo de cero son

automticamente a cero. R(c), G(c), B(c) y

las seales de centro correspondientes a los c

color rojo, verde, azul y amarillo, respectivam

forma anloga, R(s), G(s), B(s)y Y(s)son la

de alrededores correspondientes a los canales

rojo, verde, azul y amarillo, respectivamente.

Finalmente los mapas de orientacin sodos utilizando pirmides de Gabor O(q,s

q{0, 45,90,135}.32-33

Finalmente se eel contraste de orientacin entre las escalatro y alrededores segn (11).

donde O(c,q) y O(s,q) son las seales tacin de centro y alrededores, respectiva

Una vez obtenidos los cuarenta y dode caractersticas resultantes, se procede acombinaciones lineales entre mapas detipo, de esta forma se obtienen tres mapas

tersticas llamativas (conspicuity maps), ycombinacin lineal de estos, se obtiene elprominencia nal. Este procedimiento es men (12) a (15)

donde I, C y O on los mapas de carcas llamativas de intensidad, color y orierespectivamente y S es el mapa de promnal. El papel de la funcin N() dentrecuaciones es normalizar cada uno de lode prominencia, el procedimiento ms senchacerlo es un ajuste de rango dinmico, nosu realizacin es factible mediante pronormalizacin iterativos o entrenados.2,21,

Finalmente, los focos de atencin de mayor prominencia) son obtenidosmodelo neurobiolgicamente plausib



7/11

zando una capa de neuronas de dimensin 2 tipo

integracin y disparo (LIF, leaky integrate-and-fire), de tal forma que el mapa de prominenciaes la entrada a una red WTA (winner-take-all).Adicionalmente, se establece una conexininhibitoria hacia atrs2, 21, 34, 36-37para que las lo-calizaciones menos prominentes sean atendidastambin por el modelo.

3.3. Modelos siguientes al modelo de atencin visual

de Itti-Koch-Niebur

El modelo de Itti-Koch-Niebur ha sido el centro de

importantes comparaciones y discusiones sobre la base

del comportamiento neurobiolgico de las estructurasvisuales. Peterset al., 2005,38realizan complementos al

modelo de Itti-Koch-Niebur, incluyendo interacciones

entre las unidades relacionadas con la orientacin, i.e.,

0, 45, 90 y 135 y un modelo detallado de los cambios

que dependen de la excentricidad en el procesamiento

visual.39Con el modelo delineado por Koch y Ullman13

y detallado por Itti, Koch y Niebur,21se procesa la ima-

gen de entrada en paralelo utilizando tres canales de

caractersticas, de tal forma que el mapa de prominencia

resultante adscribe un valor escalar a cada punto de la

imagen de entrada, indicando qu tan saliente es.

En 2002, Li,40

modela las respuestas convencio-nales de las clulas en V1 a caractersticas de entrada

como la orientacin o el color. El modelo se enfoca en

la parte de V1 responsable de las inuencias contextua-

les: Clulas piramidales, interneuronas y conexiones

horizontales intracorticales.41Los centros de los cam-

pos receptivos clsicos son distribuidos uniformemente

en el espacio. Las clulas sensibles a orientacin barren

los 180. Los resultados de este procesamiento van

directamente a las clulas piramidales del modelo,

cuyos promedios de respuesta temporal conforman la

salida del mismo.

De Bretch y Saiki, 2006,25

desarrollan un modelode mapa de prominencia implementado con una red

neuronal, basado en las reproducciones funcionales

tenidas en cuenta en el modelo de Ittiet al., 199821. La

dinmica de esta red describe las interacciones entre

estructuras siolgicas en consonancia con resultados

experimentales. En la red neuronal se incorpora la

depresin sinptica en la dinmica de las conexiones

laterales intracapa. La sobre competencia dentro de los

mapas de prominencia es evitada merced a la depresin

sinptica y a una funcin de ganancia lineal con umbral

cero, pues utilizando esquemas convencionales WTA

para establecer la competencia se establecen diferencias

exageradas al interior del mapa de prominencia, incluso

para escenas homogneas. Este modelo se estableci

como til para la modelacin de prominencia en ento

nos visuales dinmicos y en la seleccin de objetivos pmovimientos sacdicos durante tareas de libre visi

en tanto el modelo puede manejar el cambio de entra

dado el movimiento del ojo.

Gao, 2007,26proponen un detector de prominenc

siguiendo una formulacin de decisin terica de

prominencia. La prominencia bottom-upes calcula

haciendo acopio de la teora de las diferencias ent

centro y alrededores, implementadas en el pasado

el modelo de Itti, Koch y Niebur 21, utilizando u

solucin discriminante. Esta es formulada bajo l

siguientes premisas: 1) Denir el estmulo de inter

sobre cada locacin y la apariencia visual dentro de uvecindad de esta; 2) la hiptesis nula como la aparie

cia visual dentro de una ventana sobre los alrededor

y 3) La bsqueda de la locacin donde las respuest

de las caractersticas establecidas previamente s

ms discriminantes para la decisin entre centro

alrededores.

Reynolds y Heeger, 2009,28 proponen un mode

de atencin de normalizacin. Este modelo tiene tr

componentes bsicos: El campo de estimulacin, q

corresponde al campo de una neurona que caracteri

su selectividad en trminos de posicin espacial

orientacin; el campo de supresin, que caracteriza lposiciones espaciales y las caractersticas que contrib

yen a la supresin dado el hecho de que la respuesta

una neurona visual a un estmulo preferencial puede s

suprimida por la presentacin simultnea de estmul

no preferidos; y el campo de atencin, que es espec

cado en trminos de su ganancia para cada neuro

en la poblacin, este es multiplicado por la unidad

estmulo, de tal modo que afecta la unidad de estmu

y la unidad de supresin, el campo de atencin estable

una forma de sesgar la competencia entre los estmul

del espacio inicial.42

3.4. Otros modelos neurobiolgicamente inspirado

en la literatura

Otros modelos neurobiolgicamente inspirados,

menor impacto en la literatura22-23,27han sido creados c

el nimo de complementar los modelos de visin que h

sido objeto de extensiva investigacin hasta el momen

Estos modelos atraviesan por procesos similares en

extraccin de caractersticas visuales, i.e., la creaci

de mapas topogrcos que ilustran en una prime

aproximacin la prominencia de ciertas caracterstic

asociadas a las locaciones de la imagen de entrad

algunas de estas aproximaciones integran el anlisis

objetos en movimiento y mecanismos top-down.27Otr

modelos emplean criterios y modelos estadsticos pa



8/11

complementar y re-robustecer la ecacia del mapa de

prominencia al nal del procesamiento visual, como eluso de anlisis de componentes independientes como

aproximacin funcional del proceso de reduccin de

informacin redundante o informacin mutua por parte

del cerebro.22

4. Discusiones, consideraciones prcticas y

biolgicas

4.1. Evidencia neurobiolgica sobre fltros de

orientacin

La mxima actividad neuronal se genera frente a

un contraste marcado del estmulo entre el centro y el

entorno del campo receptivo. Dado que las clulas son

sensibles a frecuencias espaciales especcas, desde

la base de un posible clculo de la transformada de

Fourier en dos dimensiones, los campos receptivos

seran muy localizados como para realizar un anlisis

de frecuencias apropiado. En vez de esto, la represen-

tacin de una imagen en la corteza visual debe invo-

lucrar la variable espacial y de frecuencia espacial en

su descripcin, i.e., una representacin simultnea del

muestreo espacial y la transformada de Fourier.43En

un sentido especco, las seales de Gabor ponen en

evidencia una caracterstica de las representaciones en

la corteza visual: la mxima localizacin en el espacioy en la frecuencia espacial de forma simultnea. Una

ilustracin de los perles citados anteriormente se

encuentra en la Figura 2.

Con frecuencia los modelos neurobiolg

inspirados hacen acopio de las dos realidadbiolgicas citadas anteriormente. En trmi

equivalencia de Euler, un ltro sinusoidal p

escrito como ilustra (16).

donde0

U y0

V son las frecuencias e

en las direcciones x e y para un origen

A partir de la representacin anterior,

presentacin de Gabor, una funcin arbiexpandida en trminos de seales elemen

mtricas y antisimtricas, este proceso es

en (17) y (18).

donde

mx y

my pueden ser escogidos para dar u

zamiento desde el centro de la Gaussiana elptic

forma el parmetro ( )mm yVxU 00 +

es el nguespacial del trmino de modulacin (funcin si

Esta representacin coincide exactamente co

se establecen en la literatura.32, 43-47

Por otra parte, (21) ilustra la diferencia

niveles sucesivos de una pirmide Gaussiana

(21)

Utilizando ambas representaciones, la e

nal para un nivel dado dentro de la pirmide

viene en (22) y (23).

(22)

(23)Figura 2. Filtros de Gabor (vista superior): (a) en el dominio espacial; (b)

en el dominio de la frecuencia



9/11

4.2. Sistema color doble-oponente

La actividad cortical y las vas de percepcin de

color, as como la sintonizacin de color en las reas

V1 y V2 se han medido en estudios experimentales.31

El mosaico retinal de mayor resolucin, i.e., las clulas

ganglionares miniatura, reciben entradas opuestas de los

conos sensitivos a longitudes de onda grande (conos L)

y de los conos sensitivos a longitudes de onda media

(conos M), para este caso, en el plano rojo-verde la

sensitividad es la ms alta para estmulos que causen

las seales opuestas de los conos L y M.

Los puntos de luz que modulan selectivamente cada

clase de cono (L, M S, o de forma imprecisa rojo, verde

o azul) son destellados alrededor de los campos recepti-vos de las clulas de color V1 para mapear la estructura

espacial de las entradas. Evidencia experimental,48-51

sugiere que el procesamiento del color es mediado por

un mecanismo antagnico. Dado que la mayora de las

clulas de la corteza del macaco son doble-oponentes

segn mediciones descritas por Conway48y por Engel et

al.,31cuando una clula de centro rojo-ones excitada por

un estmulo de centro verde, dicho centro se inhibe, de

tal manera que las frecuencias de disparo se encuentran

en los alrededores (no en el centro) y viceversa, para un

estmulo de centro rojo. Esto seala que hay una relacin

entre centro y alrededores que codica la constancia

del color, i.e., la habilidad de hacer que el color de unobjeto no est basado nicamente en la luz que reeja,

sino tambin en la luz que reejan los objetos que lerodean, un corolario de esto es el fenmeno conocido

como contraste de color, teora de la que hacen acopio

la mayora de los modelos de atencin visual descritos

en este trabajo.

4.3. Implementaciones

Los resultados de las Figuras 3 y 4 fueron obtenidos

en este trabajo de revisin de acuerdo con el modelo

establecido por Itti et al.,2,21Nuestro modelo incorpora

la modalidad de normalizacin iterativa descrita en laliteratura,2sujeta a un nmero de iteraciones y a un factor

de inhibicin pequeos para evitar la sobrecompetencia,

fenmeno inconveniente en muchos casos y que rie

con ciertos principios de neurobiologa.52Adems de

esto, el modelo incorpora todos los mecanismos neuro-

biolgicamente plausibles explicados a lo largo de esta

revisin y presenta resultados ptimos en la mayora de

los casos. Las imgenes utilizadas fueron tomadas de la

MSRA Salient Object Database.2

4.4. Componentes Bottom-upy teora de

procesamiento Top-down

En tanto esta revisin de literatura se enfoca en

modelos de procesamiento bottom-up, sobre la base de

representaciones escalares topogrcas, sesgar la ate

cin hacia el enfoque de las locaciones ms salientes

reduce a esbozar la atencin sobre la locacin del pi

en actividad ms alto en el mapa de prominencia. Au

que originalmente fue un principio terico construi

y soportado por diferentes hallazgos experimentales,

idea de un mapa de prominencia nico y centraliza

parece ser refutada por la existencia de mltiples re

que codican la prominencia del estmulo en el sistem

visual de los monos.7

Diferentes caractersticas contribuyen con fuerz

distintas a la prominencia perceptual y esta ponder

cin puede estar inuenciada de acuerdo con ciert

demandas a travs de la modulacin top-down.53-60P

Figura 4.Resultados de la implementacin de un modelo de atencvisual bottom-up (caso de atencin complejo): (a) Imagen original;

Mapa de prominen

Figura 3.Resultados de una implementacin de un modelo de atencvisual bottom-up (caso de atencin simple): (a) Imagen original; (b) M

de prominen



10/11

otra parte, lo que parece importar en el procesamiento

bottom-upes el contraste de caractersticas en vez de laintensidad absoluta de cada caracterstica.

Es posible que el peso relativo de las propiedades

que contribuyen a la representacin ms general se halle

modulado por la actividad de los centros corticales ms

altos. En este sentido, el proceso de atencin selecciona

la informacin necesaria para ayudar a discriminar entre

los elementos de distraccin y el objetivo tanto en un

proceso bottom-upcomo en un proceso top-down.

Agradecimientos

La Universidad Autnoma de Occidente brind todo

el apoyo y soporte en la realizacin de este trabajo.

Bibliografa

T. Liu, J. Sun, N. N. Zheng, X. Tang, H. Y. Shum. Learning to

detect a salient object. In: Proceedings of IEEE Computer

Society Conference on Computer and Vision Pattern Re-

cognition, 2007.

L. Itti, C. Koch. A saliency-based search mechanism for overt

and covert shifts of visual attention. Vision ResearchVol.

40. 2000. pp. 14891506

J. E. Hoffman. Search through a sequentially presented visual

display. Perception & PsychophysicsVol. 23. 1978. pp.

1-11.

A. Treisman, M. Sykes, G. Gelade. Selective attention stimulus

integration. In: S. Dornie, Attention and performance VI.

Eds. N. J. Hilldale: Lawrence Erlbaum. 1977. pp. 333-361

P. Verghese, K. Nakayama. Stimulus discriminability in visual

search. Vision ResearchVol. 34. 1994. pp. 2453-2467

H. R. Wilson. Spikes, Decisions and Actions: The dynamical

foundations of neuroscience, Oxford University Press. 2004.

L. Itti, C. Koch. Computational modeling of visual attention,

Nature Reviews NeuroscienceVol. 2. 2001. pp. 194-203

P. Verghese. Visual Search and Attention: A Signal Detection

Theory Approach.NeuronVol. 31. 2001. pp. 523-535

H. Pashler. Target-distractor discriminability in visual search,

Perception & PsychophysicsVol. 41. 1987. pp. 285-292

R. Desimone, J. Duncan. Neural mechanisms of selective visual

attention.Annu. Rev. Neurosci. Vol. 18. 1995. pp. 193-222

A. Estvez-Gonzlez, C. Garca-Snchez, C. Junqu. La aten-

cin: una compleja funcin cerebral.Rev NeurolVol. 25.

1997. pp. 1989-1997

L. G. Ungedeider, J. Haxby. What and where in the human

brain. Current Opinion in NeurobiologyVol. 4. 1994. pp.

157-165

C. Koch, S. Ullman. Shifts in selective visual attention: towards

the underlying neural circuitry.Human Neurobiol. Vol. 4.

1985. pp. 219-227

J. M. Colmenero, A. Catena, L. J. Fuentes. Atencin visual: Unarevisin sobre las redes atencionales del cerebro. Anales

de PsicologaVol. 17. 2001. pp. 45-67

J. Rossell-Mir, E. Munar-Roca. Resolviendo el p

atencin visual: Hacia la desintegracin del >?. Psicothema. Vol. 16. 2004. pp. 64-69

D. Sagi, B. Julesz. Detection versus discriminatio

orientation. PerceptionVol. 13. 1984. pp. 619-

E. K. Miller, L. Li, R. Desimone. A neural mechanis

king and recognition memory in inferior tempo

Science254. 1991. pp. 1377-1379

J. K. Tsotsos, M. Culhane, W. Y. Kei Wai, Y. Lai, N

Nuo. Modeling visual attention via selective

Articial IntelligenceVol. 78. 1995. pp. 507-54

P. J. Burt. Attention Mechanisms for vision in a dynam

Proceedings of 9th International Conference

Recognition. 1988. pp. 977-987

R. Milanese, S. Gil, T. Pun. Attentive mechanisms f

and static scene analysis. Optical Engineerin

1995. pp. 2428-2434

L. Itti, C. Koch, E. Niebur. A Model of Saliency-Ba

Attention for Rapid Scene Analysis.IEEE Trans

Mach. Intel.Vol. 20. 1998. pp. 1254-1259

L. Itti. Automatic foveation for video compressi

neurobiological model of visual attentoin.IEEE

Image ProcessingVol. 13. 2004. pp. 1304-1318

S. J. Park, K. H. An, M. Lee. Saliency map model

tive masking based on independent componen

NeurocomputingVol. 49. 2002. pp. 417-422

T. N. Mundhenk, L. Itti. CINNIC, a new comalgorithm for the modeling of early visual co

gration in humans. NeurocomputingVol. 52

pp. 599-604

M. DeBrecht, J. Saiki. A neural network implemen

saliency map model.Neural NetworksVol. 19

14671474

D. Gao, V. Mahadevan, N. Vasconcelos. The di

center-surround hypothesis for bottom-up sa

Proc. Neural Information Processing Systems,

Canada, 2007.

K. Rapantzikos, N. Tsapatsoulis, Y. Avrithis, S. Kollia

up spatiotemporal visual attention model for vide

Image processing IETVol. 1. 2007. pp. 237-248

J. H. Reynolds, D. J. Heeger. The normalization m

tention.Neuron61. 2009. pp. 168-185

P. J. Burt, E. H. Adelson. The Laplacian pyramid as

image code.IEEE Trans. Com.Vol. 31. 1983. p

A. G. Leventhal. The Neural Basis of Visual Funct

and Visual Dysfunction. Vol. 4. Boca Raton, Fla

CRC Press, 1991.

S. Engel, X. Zhang, B. Wandell. Colour Tuning in

sual Cortex Measured With Functional Magnetic

Imaging.NatureVol. 388. 1997. pp. 6871.

H. Greenspan, S. Belongie, R. Goodman, P. Perona,

C. H. Anderson. Overcomplete Steerable Pyraand Rotation Invariance. Proc. IEEE Computer

Pattern Recognition. 1994. pp. 222-228.



11/11

D. Gabor. Theory of communication.J. IEE LondonVol. 93.

1946. pp. 429-457L. Itti. Models of bottom-up and top-down visual attention.

California Institute of Technology. PhD thesis. Pasadena,

California. 2000.

L. Itti, C. Koch. A comparison of feature combination strategies

for saliency-based visual attention systems. J. Electron.

Imaging.Vol. 161. 2000.

R. M. Klein. Inhibition of return. Trends Cogn. Sci.Vol. 4.

2000. pp. 138147

S. L. Macknik, S. Martinez-Conde. The role of feedback invisual attention and awareness. Cognitive Neurosciences.

Ed. Gazzinga, MIT Press. 2009.

R. J. Peters, A. Iyer, L. Itti, C. Koch. Components of bottom-up

gaze allocation in natural images. Vision Research.Vol. 45.2005. pp. 2397-2416

T. N. Mundhenk, L. Itti. A model of contour integration in early

visual cortex. Biologically Motivated Computer Vision,

Proceedings. 2002. pp. 8089.

Z. Li. A saliency map in primary visual cortex. Trends in

Cognitive Science.Vol. 6. 2002. pp. 9-16

K. S. Rockland, J. S. Lund. Intrinsic lamitar lattice connectionsin primate visual cortex.J. Comp. Neurol.Vol. 216. 1983.

pp. 303-318

S. Treue, J. C. Martinez-Trujillo. Feature-based attention in-

uences motion processing gain in macaque visual cortex.

Nature.Vol. 399. 1999. pp. 575579.

S. Marcelja. Mathematical description of the responses of simple

cortical cells.J. Opt. Soc. Am.Vol. 70. 1980. pp.1297-1300

J. G. Daugman. Complete discrete 2D Gabor transforms by

neural networks for image analysis and compression.IEEE

Transactions on Acoustics, Speech and Signal Processing

Vol. 36. 1988. pp. 1169-1179

J. G. Daugman. Uncertainty relation for resolution in space,

spatial frequency and orientation optimized by two-dimen-

sional visual cortical lters. J. Opt. Soc. Am. Vol. 2. 1985.

pp. 1160-1169

D. J. Field. Relations between the statistics of natural images

and the response properties of cortical cells. J. Opt. Soc.

Am. A.Vol.12. 1987. pp. 2379-1394

J. P. Jones, L. A. Palmer. An evaluation of the two-dimensionalGabor lter model of simple receptive elds in cat striate

cortex. Journal of Neurophysiology.Vol. 58. 1987. pp.

1233-1258

B. R. Conway. Spatial structure of cone inputs to color cells

alert macaque primary visual cortex (V-1). The JournaNeuroscience.Vol. 21. 2004. pp. 2768-2783

T. N. Wiesel, D. H. Hubel. Spatial and chromatic interactio

in the lateral geniculate body of the rhesus monkey

Neurophysiol.29. 1966. pp. 11151156.

G. F. Poggio, F. H. Baker, R. J. Manseld, A. Sillito, P. Gri

Spatial and chromatic properties of neurons subservi

foveal and parafoveal vision in rhesus monkey.Brain R

Vol. 100. 1975. pp. 25-59.

D. Y. Tso, C. D. Gilbert. The organization of chromatic aspatial interactions in the primate striate cortex.J Neuro

Vol. 8. 1988. pp. 1712-1727

L. F. Abbot, J. A. Varela, K. Sen, S. B. Nelson. Synaptic d

pression and cortical gain control. Science.Vol. 275. 199pp. 220-224

L. Cauller. Layer I of primary sensory neocortex: where to

down converges upon bottom-up. Behavioural Bra

Research.Vol. 71. 1995. pp. 163-170

A. Oliva, A. Torralba, M. S. Castelhano, J. M. Henderson. To

down control of visual attention in object detection. P

ceedings of International Conference on Image Processi

2003. pp. 253-256

G. Deco, E. T. Rolls. A neurodyamical cortical model of vis

attention and invariant object recognition. Vision Resear

Vol. 44. 2004. pp. 621-642

T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber, T. Poggio. Rob

Object recognition with cortex-like mechanisms. IETransactions on Pattern Analysis and Machine Intelligen

2006. pp. 1-17

F. Moosman, D. Larlus, F. Jurie. Learning saliency maps object categorization. In:ECCV Workshop on the Rep

sentation and Use of Prior Knowledge in Vision. 2006.

J. Mira, A. E. Delgado, M. T. Lopez, A. Fernandez-Caballe

M. A. Fernandez. A conceptual frame with two neu

mechanisms to model selective visual attention processeNeurocomputing.Vol. 71. 2008. pp. 704-720

K. V. Sobel, M. D. Pickard, W. T. Acklin WT. Using featu

preview to investigate the roles of top-down and bottom-

processing in conjunction search.Acta Psychologica.V132. 2009. pp. 22-30

H. Nothdurft. Salience from feature contrast: additivity acro

dimensions. Vision Res.Vol. 40. 2000. pp. 11831201.


Una Revisión de Modelos de Atención Visual Bottom-up Neurobiológicamente Inspirados

Documents

Transcript of Una Revisión de Modelos de Atención Visual Bottom-up Neurobiológicamente Inspirados