Una Revisión de Modelos de Atención Visual Bottom-up Neurobiológicamente Inspirados

download Una Revisión de Modelos de Atención Visual Bottom-up Neurobiológicamente Inspirados

of 11

Transcript of Una Revisión de Modelos de Atención Visual Bottom-up Neurobiológicamente Inspirados

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    1/11

    El Hombre y la Mquina

    ISSN: 0121-0777

    [email protected]

    Universidad Autnoma de Occidente

    Colombia

    Ramrez-Villegas, Juan F.; Ramrez-Moreno, David F.

    Una revisin de modelos de atencin visual Bottom-up neurobiolgicamente inspirados

    El Hombre y la Mquina, nm. 35, julio-diciembre, 2010, pp. 143-152

    Universidad Autnoma de Occidente

    Cali, Colombia

    Disponible en: http://www.redalyc.org/articulo.oa?id=47817140014

    Cmo citar el artculo

    Nmero completo

    Ms informacin del artculo

    Pgina de la revista en redalyc.org

    Sistema de Informacin Cientfica

    Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal

    Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

    http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/comocitar.oa?id=47817140014http://www.redalyc.org/fasciculo.oa?id=478&numero=17140http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/revista.oa?id=478http://www.redalyc.org/http://www.redalyc.org/revista.oa?id=478http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/fasciculo.oa?id=478&numero=17140http://www.redalyc.org/comocitar.oa?id=47817140014http://www.redalyc.org/articulo.oa?id=47817140014http://www.redalyc.org/revista.oa?id=478
  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    2/11

    Resumen

    La atencin visual es un proceso desarrollado

    sobre gran parte del rea de procesamiento visual

    primario. El procesamiento cerebral provoca la fo-

    calizacin selectiva de los objetos del campo visual

    que compiten por procesamiento, esta competenciase encuentra mediada por caractersticas primarias de

    los objetos como el contraste de color, el contraste

    de intensidad y el contraste de orientacin. En esta

    revisin se procura establecer la conexin de los

    modelos de atencin visual bottom-up disponibles en

    la literatura, sus arquitecturas y bases matemticas,

    con la evidencia neurobiolgica sobre el fenmeno

    de atencin visual establecida hasta la actualidad.

    Una revisin de modelosde atencin visual Bottom-upneurobiolgicamenteinspirados

    * Ing. Biomdico. Joven investigador del Grupo de Investigacin en Neurocomputacin. [email protected]

    ** Ph.D. en Ciencias Biomdicas. Docente del Departamento de Fsica y Director del Grupo de Investigacin en Neurocomputacin de la UniversidadOccidente. [email protected]

    Fecha de Recepcin: mayo 20 de 2010 Fecha de aceptacin: septiembre 14 de 2010

    JUANF. RAMREZ-VILLEGAS*

    DAVIDF. RAMREZ-MORENO**

    Adicionalmente, se ilustra

    plementacin propia de un

    de atencin visual bottom

    discuten algunos pormenor

    el proceso de atencin o metop-down cuya dinmica

    menta la funcin del pro

    pre-atencin o bottom-up.

    Palabras clave:Atenci

    bottom-up, prominencia visu

    po visual, focalizacin selectiva, mecanismo to

    Abstract

    Visual attention is related with most of

    visual processing areas. Objects in the visu

    compete for processing; competence is often m

    by primary visual features such as intensity color contrast and orientation contrast. This

    attempts illustrating the connection between

    of bottom-up visual processing available in li

    their architectures and well-established neuro

    cal evidence. Additionally, an implementat

    bottom-up visual attention model is shown,

    eral principles of the attention process or to

    mechanism are discussed.

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    3/11

    procesamiento visual bottom-up que ms ha inui

    en la literatura y nalmente considera otros modelexistentes.

    2. Mecanismos neuronales de visin

    La bsqueda visual es la bsqueda de un elemen

    nico entre una coleccin de elementos de distracci

    En experimentos psicofsicos de bsqueda visual

    mide el tiempo de reaccin como funcin del nme

    de elementos de distraccin. Cuando los elementos q

    generan la distraccin son sustancialmente diferent

    al objetivo, la identicacin de este ltimo toma po

    tiempo y es casi independiente del nmero de objet

    de distraccin. No obstante, cuando existe un parecisustancial entre el objetivo y los elementos de distra

    cin, la reaccin es mucho ms lenta y aumenta dram

    ticamente con el nmero de distractores.6Esto provo

    la entrada en funcin del esquema top-down,asumi

    como un mecanismo con procesamiento en parale

    que examina serialmente los rasgos compartidos ent

    el objetivo y los distractores, hasta sealar la asimet

    que hace identicable al objetivo.8-12

    Los objetos deben competir por el procesamien

    y el sistema visual debe usar la informacin disponib

    para parcializar la competencia a favor de ciertos objet

    del espacio. A este fenmeno se le conoce como seletividad.10,13-15 De acuerdo con el modelo de competenc

    parcial, los objetivos distractores compiten por espaci

    de procesamiento en la bsqueda visual. Un fact

    que inuencia la selectividad es el umbral bottom-u

    entendido como el grado de correlacin o similarid

    entre el objetivo y los distractores, muy bajo en un ni

    objetivo con todos sus rasgos distintivos nicos, en

    arreglo de distractores homogneos, donde es fcilmen

    detectable.16No obstante, un sistema de atencin ser

    de uso limitado si fuera enteramente dominado por um

    brales bottom-up. Lo que se necesita es una manera

    disparar el mecanismo top-downuna vez sobrepasa

    cierto umbral bottom-up.10, 17

    Desde 1985 se han establecido diferentes model

    de procesamiento bottom-up,13,18-28 que reproducen

    comportamiento del mecanismo neurobiolgico dad

    las hiptesis establecidas por Treisman et al.,4 seg

    las cuales las diversas propiedades del espacio so

    codicadas en mapas de caractersticas en diferent

    regiones del cerebro. De acuerdo con este modelo, pa

    resolver el problema de las vinculaciones (asociacion

    hay un mapa de prominencia (saliency map) que cod

    ca conjunciones de caractersticas en la imagen. Es

    mapa maestro recibe entradas desde todos los mapas

    caractersticas, pero retiene solamente las que distingu

    el objeto de lo que lo rodea, de modo tal que las cara

    Key words:Visual attention, saliency, visual eld,

    selective focalization, bottom-up visual attention, top-down mechanism.

    1. Introduccin

    La mayora de aproximaciones computacionales

    para la deteccin de objetos son implementaciones de

    procesamientos en serie que nacen de esquemas con-

    vencionales de visin articial.1 Evidencia biolgica

    establece que el cerebro de los primates emplea algn

    procesamiento visual en serie, de la mano con el pro-

    cesamiento masivo en paralelo.2El cerebro no puede

    procesar todo lo presente a su alrededor y al parecer la

    estrategia que la naturaleza ha tomado para lidiar coneste problema se basa en la seleccin de las entradas para

    ser procesadas preferencialmente, cambiando el foco de

    procesamiento de una locacin a otra de modo serial.

    Existe mucha evidencia experimental acumulada a

    favor de la existencia de dos mecanismos de control so-

    bre los que la atencin visual se desarrolla.3-6El primero

    de ellos es conocido como procesamiento bottom-upo

    proceso de pre-atencin dependiente de la prominencia

    de los objetos e independiente de la tarea; el segundo es

    conocido como procesamiento top-downo proceso de

    atencin, mucho ms lento que el anterior, controlado

    por la voluntad y por tanto, dependiente de la tareaespecca en ejecucin.

    Cinco rasgos importantes han emergido de los mo-

    delos computacionales de atencin visual que enfatizan

    el procesamiento bottom-up. Primero, la prominencia

    perceptual del estmulo depende crticamente del con-

    texto que le rodea. Segundo, un mapa de prominencia

    nico que topogrcamente codica la llamatividad o

    prominencia del estmulo sobre la escena visual ha pro-

    bado ser una estrategia de control bottom-upplausible y

    eciente. Tercero, el retorno de inhibicin, un proceso

    por el que se impide atender en instantes posteriores

    una locacin atendida actualmente. Cuarto, la atencin

    y los movimientos del ojo interactan estrechamente,

    suponiendo retos computacionales con respecto al

    sistema coordenado usado para el control de atencin.

    Finalmente, el entendimiento de escenas y el reconoci-

    miento intencionado de rasgos condicionan fuertemente

    la seleccin de locaciones atendidas,7como un proceso

    top-downque emerge sobre el procesamiento bottom-up.

    En este trabajo se delinean las implementaciones

    computacionales de mayor impacto en la literatura frente

    al procesamiento bottom-up, asumiendo la arquitectura

    del sistema visual de los primates. Esta revisin empie-

    za con una corta explicacin de los modelos clsicos

    de procesamiento visual, contina con el modelo de

    Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    4/11

    tersticas especcas y detalladas se

    quedan en los mapas de caractersticasiniciales (las que sirven para reconocer

    el objeto); de igual manera, la escena

    es susceptible de un proceso de aten-

    cin o bsqueda na, slo despus

    de que las caractersticas hayan sido

    asociadas en una porcin del mapa

    maestro. La representacin primaria

    incluye una variedad de mapas dife-

    rentes para diversas caractersticas

    elementales, e.g., orientacin, color,

    intensidad y direccin de movimiento.

    Para cada locacin en estos mapashay un nmero de dimensiones, as

    como diferentes colores u orientacio-

    nes. El estado de cada mapa mostrar

    qu tan llamativa es una determinada

    locacin en la escena visual. Todas

    las aproximaciones matemticas y

    computacionales citadas se limitan

    al procesamiento bottom-up, en au-

    sencia de supervisin top-down, sin

    establecer consideraciones respecto

    al fenmeno de selectividad, ni pro-

    cesos que involucren la bsqueda a

    voluntad o conjuntiva, por tanto estos

    comportamientos son emulados, en su

    mayora, por redes tipo winner-take-all(WTA) simples,

    que incluyen realimentaciones negativas para que otras

    locaciones sobresalientes en una escena natural sean

    atendidas por el modelo una a una.14,15

    3. Modelos computacionales

    Todos los modelos de atencin bottom-upcomienzan

    con el clculo de las caractersticas visuales primarias.

    Gran parte de estas aproximaciones se distinguen por

    la implementacin de diferentes mapas topogrcos de

    caractersticas, i.e., intensidad, color y orientacin,7que

    son codicados en paralelo por las estructuras neurales

    para el proceso de pre-atencin.

    Los modelos actuales replican las propiedades -

    siolgicas fundamentales del proceso de pre-atencin

    visual, incluyendo que el estmulo sobresalga en el

    campo visual. En estos modelos convergen mecanismos

    descritos por la neurobiologa: (1) El uso de pirmides

    Laplacianas (center-surround differences), i.e., ltros

    sucesivos de diferencia de Gaussianas (DoG) en mlti-

    ples resoluciones, (2) implementacin de un sistema de

    color doble-oponente: En el centro del campo receptivo

    de las neuronas de la corteza visual, estas son excita-

    das por un solo color e inhibidas por otro, en tanto lo

    contrario se cumple en los alrededores y (3)

    mentacin de pirmides de Gabor para la e

    de orientaciones, en tanto los ltros de Gabo

    impares) aproximan el perl de sensitividad d

    receptivo de las neuronas sensibles a la orien

    la corteza visual primaria.

    3.1. Primeros modelos

    El primer modelo de atencin visual impl

    computacionalmente fue el de Koch y UllmaEn este modelo se asumen varios hechos: Pr

    atencin visual selectiva opera en la repre

    primaria, i.e., un conjunto de mapas topo

    corticales que codican el espacio visual. Se

    representacin primaria incluye una variedad

    que codican diferentes caractersticas como l

    el color, la distancia, la disparidad y la dire

    movimiento. Tercero, para cada locacin en

    pas hay un nmero de dimensiones correspon

    diferentes colores y orientaciones. Cuarto, las r

    de vecindad son preservadas en estos mapas

    parte, hay conexiones inhibitorias locales e

    primarios o dentro de los mapas de carac

    por lo que locaciones que dieren signicat

    Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    5/11

    de sus locaciones vecinas tienden a sobresalir en un

    nivel de procesamiento dado. Por ltimo, estos mapasprobablemente existen en diversas resoluciones.13,21Un

    esquema simplicado de esta aproximacin se encuentra

    detallado en la Figura 1.

    componentes; segundo, la banda que ms coincida

    escala con una caracterstica de inters es seleccionapara el procesamiento subsiguiente; tercero, se reali

    una convolucin con un ltro selectivo para la caract

    rstica dada; cuarto, las muestras que resultan deben s

    elevadas al cuadrado y sumadas dentro de vecindad

    locales para formar medidas localmente integrada

    quinto, la integracin se da con la construccin de u

    segunda pirmide gaussiana con la imagen ltrada

    la imagen elevada al cuadrado en su nivel base; n

    mente para el anlisis de movimiento de los objetos

    implementa un modelo de tracking, que en trmin

    neurobiolgicos es el mecanismo para estabilizar l

    imgenes de objetos en movimiento dentro del ojo. Eadicin a lo anterior el modelo es complementado c

    un mecanismo relacionado con procesamiento top-dow

    o dependiente de la tarea en curso.

    3.2. Modelo de atencin visual Bottom-up de Itti-

    Koch-Niebur

    El modelo de Itti-Koch-Niebur2,21es una modic

    cin del modelo basado en mapas de prominencia

    Koch-Ullman.13Este modelo se encuentra limitado

    control de la atencin selectiva dado por las propied

    des del estmulo visual, por lo que no involucra ning

    proceso voluntario (top-down). Las caracterstic

    visuales de bajo nivel son extradas directamente de

    imagen en color original sobre distintas escalas esp

    ciales utilizando ltros lineales en forma de pirmid

    i.e., pirmides Gaussianas,29que consisten en ltrad

    sucesivos y compresiones de la imagen de entrada. E

    proceso es ilustrado en (1) a (3).

    (1

    donde e Nl

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    6/11

    Una vez que se han calculado las pirmides Gaus-

    sianas, cada caracterstica es calculada en una estruc-tura centro-alrededores (center-surround) relacionada

    estrechamente con los campos receptivos visuales.

    Las diferencias centro-alrededores son realizadas entre

    escalas amplias y nas para cada caracterstica espec-

    ca: El centro receptivo corresponde a un pxel al nivel

    { }4,3,2c en la pirmide y los alrededores al pxelcorrespondiente en el nivel += cs , con

    . Realizadas todas las combinaciones entre el centro

    receptivo y los alrededores, resultan un total de seis

    mapas de caractersticas. De esta forma son calculados

    siete tipos de caractersticas, esbozadas previamente en

    este documento: (1) La primera codica la intensidad

    de contraste;30 (2) las dos siguientes codican para

    el sistema color doble-oponente (rojo/verde y azul/

    amarillo);31y (3) las cuatro siguientes codican para la

    orientacin local.32

    El primer grupo de mapas de caractersticas est

    relacionado con la intensidad de contraste, que en ma-

    mferos es detectado por neuronas sensibles a centros

    oscuros sobre fondos luminosos o viceversa. Estos dos

    tipos de sensibilidad son calculados utilizando (4).

    (4)

    donde I (c) es la seal de intensidad de centro, I(s) es la seal de intensidad de alrededores y el smbolo

    corresponde a la operacin de resta entre diferentes

    escalas, llevando la imagen al nivel ms no.

    El segundo grupo de mapas es construido apartir de los canales de color (sistema RGB), quecomo antes se hizo alusin dan origen al sistemade color doble-oponente. Como este antagonismose da entre los colores rojo/verde y azul/amarillo,se crean los canales de color correspondientes y se

    construyen los mapasRG(c,s) yBY(c,s), respec-tivamente, segn (5) a (10).

    (5)

    (6)

    (7)

    (8)

    (9)

    (10)

    En estas ecuaciones, las variablesR, G,By

    ponden a los canales de color rojo, verde, azul y

    respectivamente, para el clculo de estos cana

    los valores resultantes por debajo de cero son

    automticamente a cero. R(c), G(c), B(c) y

    las seales de centro correspondientes a los c

    color rojo, verde, azul y amarillo, respectivam

    forma anloga, R(s), G(s), B(s)y Y(s)son la

    de alrededores correspondientes a los canales

    rojo, verde, azul y amarillo, respectivamente.

    Finalmente los mapas de orientacin sodos utilizando pirmides de Gabor O(q,s

    q{0, 45,90,135}.32-33

    Finalmente se eel contraste de orientacin entre las escalatro y alrededores segn (11).

    donde O(c,q) y O(s,q) son las seales tacin de centro y alrededores, respectiva

    Una vez obtenidos los cuarenta y dode caractersticas resultantes, se procede acombinaciones lineales entre mapas detipo, de esta forma se obtienen tres mapas

    tersticas llamativas (conspicuity maps), ycombinacin lineal de estos, se obtiene elprominencia nal. Este procedimiento es men (12) a (15)

    donde I, C y O on los mapas de carcas llamativas de intensidad, color y orierespectivamente y S es el mapa de promnal. El papel de la funcin N() dentrecuaciones es normalizar cada uno de lode prominencia, el procedimiento ms senchacerlo es un ajuste de rango dinmico, nosu realizacin es factible mediante pronormalizacin iterativos o entrenados.2,21,

    Finalmente, los focos de atencin de mayor prominencia) son obtenidosmodelo neurobiolgicamente plausib

    Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    7/11

    zando una capa de neuronas de dimensin 2 tipo

    integracin y disparo (LIF, leaky integrate-and-fire), de tal forma que el mapa de prominenciaes la entrada a una red WTA (winner-take-all).Adicionalmente, se establece una conexininhibitoria hacia atrs2, 21, 34, 36-37para que las lo-calizaciones menos prominentes sean atendidastambin por el modelo.

    3.3. Modelos siguientes al modelo de atencin visual

    de Itti-Koch-Niebur

    El modelo de Itti-Koch-Niebur ha sido el centro de

    importantes comparaciones y discusiones sobre la base

    del comportamiento neurobiolgico de las estructurasvisuales. Peterset al., 2005,38realizan complementos al

    modelo de Itti-Koch-Niebur, incluyendo interacciones

    entre las unidades relacionadas con la orientacin, i.e.,

    0, 45, 90 y 135 y un modelo detallado de los cambios

    que dependen de la excentricidad en el procesamiento

    visual.39Con el modelo delineado por Koch y Ullman13

    y detallado por Itti, Koch y Niebur,21se procesa la ima-

    gen de entrada en paralelo utilizando tres canales de

    caractersticas, de tal forma que el mapa de prominencia

    resultante adscribe un valor escalar a cada punto de la

    imagen de entrada, indicando qu tan saliente es.

    En 2002, Li,40

    modela las respuestas convencio-nales de las clulas en V1 a caractersticas de entrada

    como la orientacin o el color. El modelo se enfoca en

    la parte de V1 responsable de las inuencias contextua-

    les: Clulas piramidales, interneuronas y conexiones

    horizontales intracorticales.41Los centros de los cam-

    pos receptivos clsicos son distribuidos uniformemente

    en el espacio. Las clulas sensibles a orientacin barren

    los 180. Los resultados de este procesamiento van

    directamente a las clulas piramidales del modelo,

    cuyos promedios de respuesta temporal conforman la

    salida del mismo.

    De Bretch y Saiki, 2006,25

    desarrollan un modelode mapa de prominencia implementado con una red

    neuronal, basado en las reproducciones funcionales

    tenidas en cuenta en el modelo de Ittiet al., 199821. La

    dinmica de esta red describe las interacciones entre

    estructuras siolgicas en consonancia con resultados

    experimentales. En la red neuronal se incorpora la

    depresin sinptica en la dinmica de las conexiones

    laterales intracapa. La sobre competencia dentro de los

    mapas de prominencia es evitada merced a la depresin

    sinptica y a una funcin de ganancia lineal con umbral

    cero, pues utilizando esquemas convencionales WTA

    para establecer la competencia se establecen diferencias

    exageradas al interior del mapa de prominencia, incluso

    para escenas homogneas. Este modelo se estableci

    como til para la modelacin de prominencia en ento

    nos visuales dinmicos y en la seleccin de objetivos pmovimientos sacdicos durante tareas de libre visi

    en tanto el modelo puede manejar el cambio de entra

    dado el movimiento del ojo.

    Gao, 2007,26proponen un detector de prominenc

    siguiendo una formulacin de decisin terica de

    prominencia. La prominencia bottom-upes calcula

    haciendo acopio de la teora de las diferencias ent

    centro y alrededores, implementadas en el pasado

    el modelo de Itti, Koch y Niebur 21, utilizando u

    solucin discriminante. Esta es formulada bajo l

    siguientes premisas: 1) Denir el estmulo de inter

    sobre cada locacin y la apariencia visual dentro de uvecindad de esta; 2) la hiptesis nula como la aparie

    cia visual dentro de una ventana sobre los alrededor

    y 3) La bsqueda de la locacin donde las respuest

    de las caractersticas establecidas previamente s

    ms discriminantes para la decisin entre centro

    alrededores.

    Reynolds y Heeger, 2009,28 proponen un mode

    de atencin de normalizacin. Este modelo tiene tr

    componentes bsicos: El campo de estimulacin, q

    corresponde al campo de una neurona que caracteri

    su selectividad en trminos de posicin espacial

    orientacin; el campo de supresin, que caracteriza lposiciones espaciales y las caractersticas que contrib

    yen a la supresin dado el hecho de que la respuesta

    una neurona visual a un estmulo preferencial puede s

    suprimida por la presentacin simultnea de estmul

    no preferidos; y el campo de atencin, que es espec

    cado en trminos de su ganancia para cada neuro

    en la poblacin, este es multiplicado por la unidad

    estmulo, de tal modo que afecta la unidad de estmu

    y la unidad de supresin, el campo de atencin estable

    una forma de sesgar la competencia entre los estmul

    del espacio inicial.42

    3.4. Otros modelos neurobiolgicamente inspirado

    en la literatura

    Otros modelos neurobiolgicamente inspirados,

    menor impacto en la literatura22-23,27han sido creados c

    el nimo de complementar los modelos de visin que h

    sido objeto de extensiva investigacin hasta el momen

    Estos modelos atraviesan por procesos similares en

    extraccin de caractersticas visuales, i.e., la creaci

    de mapas topogrcos que ilustran en una prime

    aproximacin la prominencia de ciertas caracterstic

    asociadas a las locaciones de la imagen de entrad

    algunas de estas aproximaciones integran el anlisis

    objetos en movimiento y mecanismos top-down.27Otr

    modelos emplean criterios y modelos estadsticos pa

    Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    8/11

    complementar y re-robustecer la ecacia del mapa de

    prominencia al nal del procesamiento visual, como eluso de anlisis de componentes independientes como

    aproximacin funcional del proceso de reduccin de

    informacin redundante o informacin mutua por parte

    del cerebro.22

    4. Discusiones, consideraciones prcticas y

    biolgicas

    4.1. Evidencia neurobiolgica sobre fltros de

    orientacin

    La mxima actividad neuronal se genera frente a

    un contraste marcado del estmulo entre el centro y el

    entorno del campo receptivo. Dado que las clulas son

    sensibles a frecuencias espaciales especcas, desde

    la base de un posible clculo de la transformada de

    Fourier en dos dimensiones, los campos receptivos

    seran muy localizados como para realizar un anlisis

    de frecuencias apropiado. En vez de esto, la represen-

    tacin de una imagen en la corteza visual debe invo-

    lucrar la variable espacial y de frecuencia espacial en

    su descripcin, i.e., una representacin simultnea del

    muestreo espacial y la transformada de Fourier.43En

    un sentido especco, las seales de Gabor ponen en

    evidencia una caracterstica de las representaciones en

    la corteza visual: la mxima localizacin en el espacioy en la frecuencia espacial de forma simultnea. Una

    ilustracin de los perles citados anteriormente se

    encuentra en la Figura 2.

    Con frecuencia los modelos neurobiolg

    inspirados hacen acopio de las dos realidadbiolgicas citadas anteriormente. En trmi

    equivalencia de Euler, un ltro sinusoidal p

    escrito como ilustra (16).

    donde0

    U y0

    V son las frecuencias e

    en las direcciones x e y para un origen

    A partir de la representacin anterior,

    presentacin de Gabor, una funcin arbiexpandida en trminos de seales elemen

    mtricas y antisimtricas, este proceso es

    en (17) y (18).

    donde

    mx y

    my pueden ser escogidos para dar u

    zamiento desde el centro de la Gaussiana elptic

    forma el parmetro ( )mm yVxU 00 +

    es el nguespacial del trmino de modulacin (funcin si

    Esta representacin coincide exactamente co

    se establecen en la literatura.32, 43-47

    Por otra parte, (21) ilustra la diferencia

    niveles sucesivos de una pirmide Gaussiana

    (21)

    Utilizando ambas representaciones, la e

    nal para un nivel dado dentro de la pirmide

    viene en (22) y (23).

    (22)

    (23)Figura 2. Filtros de Gabor (vista superior): (a) en el dominio espacial; (b)

    en el dominio de la frecuencia

    Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    9/11

    4.2. Sistema color doble-oponente

    La actividad cortical y las vas de percepcin de

    color, as como la sintonizacin de color en las reas

    V1 y V2 se han medido en estudios experimentales.31

    El mosaico retinal de mayor resolucin, i.e., las clulas

    ganglionares miniatura, reciben entradas opuestas de los

    conos sensitivos a longitudes de onda grande (conos L)

    y de los conos sensitivos a longitudes de onda media

    (conos M), para este caso, en el plano rojo-verde la

    sensitividad es la ms alta para estmulos que causen

    las seales opuestas de los conos L y M.

    Los puntos de luz que modulan selectivamente cada

    clase de cono (L, M S, o de forma imprecisa rojo, verde

    o azul) son destellados alrededor de los campos recepti-vos de las clulas de color V1 para mapear la estructura

    espacial de las entradas. Evidencia experimental,48-51

    sugiere que el procesamiento del color es mediado por

    un mecanismo antagnico. Dado que la mayora de las

    clulas de la corteza del macaco son doble-oponentes

    segn mediciones descritas por Conway48y por Engel et

    al.,31cuando una clula de centro rojo-ones excitada por

    un estmulo de centro verde, dicho centro se inhibe, de

    tal manera que las frecuencias de disparo se encuentran

    en los alrededores (no en el centro) y viceversa, para un

    estmulo de centro rojo. Esto seala que hay una relacin

    entre centro y alrededores que codica la constancia

    del color, i.e., la habilidad de hacer que el color de unobjeto no est basado nicamente en la luz que reeja,

    sino tambin en la luz que reejan los objetos que lerodean, un corolario de esto es el fenmeno conocido

    como contraste de color, teora de la que hacen acopio

    la mayora de los modelos de atencin visual descritos

    en este trabajo.

    4.3. Implementaciones

    Los resultados de las Figuras 3 y 4 fueron obtenidos

    en este trabajo de revisin de acuerdo con el modelo

    establecido por Itti et al.,2,21Nuestro modelo incorpora

    la modalidad de normalizacin iterativa descrita en laliteratura,2sujeta a un nmero de iteraciones y a un factor

    de inhibicin pequeos para evitar la sobrecompetencia,

    fenmeno inconveniente en muchos casos y que rie

    con ciertos principios de neurobiologa.52Adems de

    esto, el modelo incorpora todos los mecanismos neuro-

    biolgicamente plausibles explicados a lo largo de esta

    revisin y presenta resultados ptimos en la mayora de

    los casos. Las imgenes utilizadas fueron tomadas de la

    MSRA Salient Object Database.2

    4.4. Componentes Bottom-upy teora de

    procesamiento Top-down

    En tanto esta revisin de literatura se enfoca en

    modelos de procesamiento bottom-up, sobre la base de

    representaciones escalares topogrcas, sesgar la ate

    cin hacia el enfoque de las locaciones ms salientes

    reduce a esbozar la atencin sobre la locacin del pi

    en actividad ms alto en el mapa de prominencia. Au

    que originalmente fue un principio terico construi

    y soportado por diferentes hallazgos experimentales,

    idea de un mapa de prominencia nico y centraliza

    parece ser refutada por la existencia de mltiples re

    que codican la prominencia del estmulo en el sistem

    visual de los monos.7

    Diferentes caractersticas contribuyen con fuerz

    distintas a la prominencia perceptual y esta ponder

    cin puede estar inuenciada de acuerdo con ciert

    demandas a travs de la modulacin top-down.53-60P

    Figura 4.Resultados de la implementacin de un modelo de atencvisual bottom-up (caso de atencin complejo): (a) Imagen original;

    Mapa de prominen

    Figura 3.Resultados de una implementacin de un modelo de atencvisual bottom-up (caso de atencin simple): (a) Imagen original; (b) M

    de prominen

    Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    10/11

    otra parte, lo que parece importar en el procesamiento

    bottom-upes el contraste de caractersticas en vez de laintensidad absoluta de cada caracterstica.

    Es posible que el peso relativo de las propiedades

    que contribuyen a la representacin ms general se halle

    modulado por la actividad de los centros corticales ms

    altos. En este sentido, el proceso de atencin selecciona

    la informacin necesaria para ayudar a discriminar entre

    los elementos de distraccin y el objetivo tanto en un

    proceso bottom-upcomo en un proceso top-down.

    Agradecimientos

    La Universidad Autnoma de Occidente brind todo

    el apoyo y soporte en la realizacin de este trabajo.

    Bibliografa

    T. Liu, J. Sun, N. N. Zheng, X. Tang, H. Y. Shum. Learning to

    detect a salient object. In: Proceedings of IEEE Computer

    Society Conference on Computer and Vision Pattern Re-

    cognition, 2007.

    L. Itti, C. Koch. A saliency-based search mechanism for overt

    and covert shifts of visual attention. Vision ResearchVol.

    40. 2000. pp. 14891506

    J. E. Hoffman. Search through a sequentially presented visual

    display. Perception & PsychophysicsVol. 23. 1978. pp.

    1-11.

    A. Treisman, M. Sykes, G. Gelade. Selective attention stimulus

    integration. In: S. Dornie, Attention and performance VI.

    Eds. N. J. Hilldale: Lawrence Erlbaum. 1977. pp. 333-361

    P. Verghese, K. Nakayama. Stimulus discriminability in visual

    search. Vision ResearchVol. 34. 1994. pp. 2453-2467

    H. R. Wilson. Spikes, Decisions and Actions: The dynamical

    foundations of neuroscience, Oxford University Press. 2004.

    L. Itti, C. Koch. Computational modeling of visual attention,

    Nature Reviews NeuroscienceVol. 2. 2001. pp. 194-203

    P. Verghese. Visual Search and Attention: A Signal Detection

    Theory Approach.NeuronVol. 31. 2001. pp. 523-535

    H. Pashler. Target-distractor discriminability in visual search,

    Perception & PsychophysicsVol. 41. 1987. pp. 285-292

    R. Desimone, J. Duncan. Neural mechanisms of selective visual

    attention.Annu. Rev. Neurosci. Vol. 18. 1995. pp. 193-222

    A. Estvez-Gonzlez, C. Garca-Snchez, C. Junqu. La aten-

    cin: una compleja funcin cerebral.Rev NeurolVol. 25.

    1997. pp. 1989-1997

    L. G. Ungedeider, J. Haxby. What and where in the human

    brain. Current Opinion in NeurobiologyVol. 4. 1994. pp.

    157-165

    C. Koch, S. Ullman. Shifts in selective visual attention: towards

    the underlying neural circuitry.Human Neurobiol. Vol. 4.

    1985. pp. 219-227

    J. M. Colmenero, A. Catena, L. J. Fuentes. Atencin visual: Unarevisin sobre las redes atencionales del cerebro. Anales

    de PsicologaVol. 17. 2001. pp. 45-67

    J. Rossell-Mir, E. Munar-Roca. Resolviendo el p

    atencin visual: Hacia la desintegracin del >?. Psicothema. Vol. 16. 2004. pp. 64-69

    D. Sagi, B. Julesz. Detection versus discriminatio

    orientation. PerceptionVol. 13. 1984. pp. 619-

    E. K. Miller, L. Li, R. Desimone. A neural mechanis

    king and recognition memory in inferior tempo

    Science254. 1991. pp. 1377-1379

    J. K. Tsotsos, M. Culhane, W. Y. Kei Wai, Y. Lai, N

    Nuo. Modeling visual attention via selective

    Articial IntelligenceVol. 78. 1995. pp. 507-54

    P. J. Burt. Attention Mechanisms for vision in a dynam

    Proceedings of 9th International Conference

    Recognition. 1988. pp. 977-987

    R. Milanese, S. Gil, T. Pun. Attentive mechanisms f

    and static scene analysis. Optical Engineerin

    1995. pp. 2428-2434

    L. Itti, C. Koch, E. Niebur. A Model of Saliency-Ba

    Attention for Rapid Scene Analysis.IEEE Trans

    Mach. Intel.Vol. 20. 1998. pp. 1254-1259

    L. Itti. Automatic foveation for video compressi

    neurobiological model of visual attentoin.IEEE

    Image ProcessingVol. 13. 2004. pp. 1304-1318

    S. J. Park, K. H. An, M. Lee. Saliency map model

    tive masking based on independent componen

    NeurocomputingVol. 49. 2002. pp. 417-422

    T. N. Mundhenk, L. Itti. CINNIC, a new comalgorithm for the modeling of early visual co

    gration in humans. NeurocomputingVol. 52

    pp. 599-604

    M. DeBrecht, J. Saiki. A neural network implemen

    saliency map model.Neural NetworksVol. 19

    14671474

    D. Gao, V. Mahadevan, N. Vasconcelos. The di

    center-surround hypothesis for bottom-up sa

    Proc. Neural Information Processing Systems,

    Canada, 2007.

    K. Rapantzikos, N. Tsapatsoulis, Y. Avrithis, S. Kollia

    up spatiotemporal visual attention model for vide

    Image processing IETVol. 1. 2007. pp. 237-248

    J. H. Reynolds, D. J. Heeger. The normalization m

    tention.Neuron61. 2009. pp. 168-185

    P. J. Burt, E. H. Adelson. The Laplacian pyramid as

    image code.IEEE Trans. Com.Vol. 31. 1983. p

    A. G. Leventhal. The Neural Basis of Visual Funct

    and Visual Dysfunction. Vol. 4. Boca Raton, Fla

    CRC Press, 1991.

    S. Engel, X. Zhang, B. Wandell. Colour Tuning in

    sual Cortex Measured With Functional Magnetic

    Imaging.NatureVol. 388. 1997. pp. 6871.

    H. Greenspan, S. Belongie, R. Goodman, P. Perona,

    C. H. Anderson. Overcomplete Steerable Pyraand Rotation Invariance. Proc. IEEE Computer

    Pattern Recognition. 1994. pp. 222-228.

    Una revisin de modelos de atencin visneurobiolgicameJuan F. Ramrez-Villegas David F. Ramrez-Moreno

  • 7/21/2019 Una Revisin de Modelos de Atencin Visual Bottom-up Neurobiolgicamente Inspirados

    11/11

    D. Gabor. Theory of communication.J. IEE LondonVol. 93.

    1946. pp. 429-457L. Itti. Models of bottom-up and top-down visual attention.

    California Institute of Technology. PhD thesis. Pasadena,

    California. 2000.

    L. Itti, C. Koch. A comparison of feature combination strategies

    for saliency-based visual attention systems. J. Electron.

    Imaging.Vol. 161. 2000.

    R. M. Klein. Inhibition of return. Trends Cogn. Sci.Vol. 4.

    2000. pp. 138147

    S. L. Macknik, S. Martinez-Conde. The role of feedback invisual attention and awareness. Cognitive Neurosciences.

    Ed. Gazzinga, MIT Press. 2009.

    R. J. Peters, A. Iyer, L. Itti, C. Koch. Components of bottom-up

    gaze allocation in natural images. Vision Research.Vol. 45.2005. pp. 2397-2416

    T. N. Mundhenk, L. Itti. A model of contour integration in early

    visual cortex. Biologically Motivated Computer Vision,

    Proceedings. 2002. pp. 8089.

    Z. Li. A saliency map in primary visual cortex. Trends in

    Cognitive Science.Vol. 6. 2002. pp. 9-16

    K. S. Rockland, J. S. Lund. Intrinsic lamitar lattice connectionsin primate visual cortex.J. Comp. Neurol.Vol. 216. 1983.

    pp. 303-318

    S. Treue, J. C. Martinez-Trujillo. Feature-based attention in-

    uences motion processing gain in macaque visual cortex.

    Nature.Vol. 399. 1999. pp. 575579.

    S. Marcelja. Mathematical description of the responses of simple

    cortical cells.J. Opt. Soc. Am.Vol. 70. 1980. pp.1297-1300

    J. G. Daugman. Complete discrete 2D Gabor transforms by

    neural networks for image analysis and compression.IEEE

    Transactions on Acoustics, Speech and Signal Processing

    Vol. 36. 1988. pp. 1169-1179

    J. G. Daugman. Uncertainty relation for resolution in space,

    spatial frequency and orientation optimized by two-dimen-

    sional visual cortical lters. J. Opt. Soc. Am. Vol. 2. 1985.

    pp. 1160-1169

    D. J. Field. Relations between the statistics of natural images

    and the response properties of cortical cells. J. Opt. Soc.

    Am. A.Vol.12. 1987. pp. 2379-1394

    J. P. Jones, L. A. Palmer. An evaluation of the two-dimensionalGabor lter model of simple receptive elds in cat striate

    cortex. Journal of Neurophysiology.Vol. 58. 1987. pp.

    1233-1258

    B. R. Conway. Spatial structure of cone inputs to color cells

    alert macaque primary visual cortex (V-1). The JournaNeuroscience.Vol. 21. 2004. pp. 2768-2783

    T. N. Wiesel, D. H. Hubel. Spatial and chromatic interactio

    in the lateral geniculate body of the rhesus monkey

    Neurophysiol.29. 1966. pp. 11151156.

    G. F. Poggio, F. H. Baker, R. J. Manseld, A. Sillito, P. Gri

    Spatial and chromatic properties of neurons subservi

    foveal and parafoveal vision in rhesus monkey.Brain R

    Vol. 100. 1975. pp. 25-59.

    D. Y. Tso, C. D. Gilbert. The organization of chromatic aspatial interactions in the primate striate cortex.J Neuro

    Vol. 8. 1988. pp. 1712-1727

    L. F. Abbot, J. A. Varela, K. Sen, S. B. Nelson. Synaptic d

    pression and cortical gain control. Science.Vol. 275. 199pp. 220-224

    L. Cauller. Layer I of primary sensory neocortex: where to

    down converges upon bottom-up. Behavioural Bra

    Research.Vol. 71. 1995. pp. 163-170

    A. Oliva, A. Torralba, M. S. Castelhano, J. M. Henderson. To

    down control of visual attention in object detection. P

    ceedings of International Conference on Image Processi

    2003. pp. 253-256

    G. Deco, E. T. Rolls. A neurodyamical cortical model of vis

    attention and invariant object recognition. Vision Resear

    Vol. 44. 2004. pp. 621-642

    T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber, T. Poggio. Rob

    Object recognition with cortex-like mechanisms. IETransactions on Pattern Analysis and Machine Intelligen

    2006. pp. 1-17

    F. Moosman, D. Larlus, F. Jurie. Learning saliency maps object categorization. In:ECCV Workshop on the Rep

    sentation and Use of Prior Knowledge in Vision. 2006.

    J. Mira, A. E. Delgado, M. T. Lopez, A. Fernandez-Caballe

    M. A. Fernandez. A conceptual frame with two neu

    mechanisms to model selective visual attention processeNeurocomputing.Vol. 71. 2008. pp. 704-720

    K. V. Sobel, M. D. Pickard, W. T. Acklin WT. Using featu

    preview to investigate the roles of top-down and bottom-

    processing in conjunction search.Acta Psychologica.V132. 2009. pp. 22-30

    H. Nothdurft. Salience from feature contrast: additivity acro

    dimensions. Vision Res.Vol. 40. 2000. pp. 11831201.

    Una revisin de modelos de atencin visualBottomneurobiolgicamente inspiraJuan F. Ramrez-Villegas David F. Ramrez-Moreno